Mit Text Mining wertvolle Geschäftsressourcen gewinnen

Kommentar von Alexander Isaenco, WaveAccess Mit Text Mining wertvolle Geschäftsressourcen gewinnen

09.09.2022 Von Alexander Isaenco

Ido Dagan und Ronen Feldman haben im Jahr 1995 Text Mining als „Knowledge Discovery in Texts“ in der wissenschaftlichen Gemeinschaft eingeführt. Unter Text Mining versteht man das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen unstrukturierten Textdokumenten. Jedoch sind die Methoden und deren Ergebnisse unterschiedlich – sie reichen von linguistischen Ansätzen über statistische Modelle und neuronale Netze bis zu bekannten Methoden des Machine Learning.

Der Autor: Alexander Isaenco ist Deputy CTO und Senior Architect bei WaveAccess(Bild: WaveAccess) — Der Autor: Alexander Isaenco ist Deputy CTO und Senior Architect bei WaveAccess
(Bild: WaveAccess)

Noch ist Text Mining ein junges Anwendungsgebiet, doch längst ist klar, welches Potenzial in der automatischen Bearbeitung einer Vielzahl textueller Dokumente liegt. Nur wer die aktuellen Möglichkeiten kennt, wird Text Mining im Unternehmen richtig einsetzen können.

Bewältigung der Papierflut

Die automatisierte Verarbeitung textueller Informationen ist im Zeitalter von Big Data geschäftskritisch für Unternehmen. Zum Beispiel sind europäische und US-Pharmaunternehmen gesetzlich dazu verpflichtet, beim Auftreten von Nebenwirkungen Produkte zurückzurufen oder die Patienteninformation anzupassen. Die Vielzahl neuer medizinischer Studien verbietet jedoch eine rein manuelle Kontrolle. Eine automatisierte Suche nach relevanten Ergebnissen spart zudem Kosten für den Erwerb von nicht relevanten Artikeln.

Ein weiteres klassisches Anwendungsfeld von Text Mining ist die Marktforschung. Welche Reputation hat mein Unternehmen? Wie kommen die Produkte bei der Zielgruppe an? Wo stehen wir gegenüber Konkurrenten? Zur Beantwortung dieser Fragen können zahlreiche Quellen herangezogen werden – von wissenschaftlichen Artikeln über Produktbewertungen in einschlägigen Magazinen bis zu Kommentaren in sozialen Medien. Text Mining hilft auch bei der Frage nach der Glaubwürdigkeit von Autor und Quelle oder dessen Einstellung zu Produkt und Unternehmen.

Informationen über Kunden verbessern das Customer Relationship Management (CRM), relevante Daten über Partner helfen bei der Bewertung von Geschäftsbeziehungen, und Informationen zu Konkurrenten verbessern die Wettbewerbsfähigkeit. Text Mining eignet sich zudem für die Analyse unternehmenseigener Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was wiederum die Cybersicherheit erhöht. Weitere Anwendungsfelder sind ein unternehmensinternes Wissensmanagement oder die Bearbeitung von Kundenreklamationen.

Ziel ist dabei immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.

Arbeitsweisen von Text-Mining-Systemen

Die Ergebnisse können höchst unterschiedlich ausfallen, da Textdaten nicht formalisiert sind. Zudem gibt es keinen einheitlichen Analyseansatz. Daher ist der effektive Einsatz von Text Mining schwierig, aber auch nützlich. Entscheidend ist hier vor allem die Wahl passender Methoden.

Daher hat man beim Text Mining für jedes Dokument verschiedene Phasen:

Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung.

Spezifikation sogenannter Entitäten – wie etwa Namen von Personen oder Produkten.

Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas.

Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie beispielsweise Namen.

Sammeln und Standardisieren als erster Schritt

Die zu untersuchenden Dokumente werden zunächst gesammelt und standardisiert. Die Ziele dabei sind

die permanente Dokumentenerfassung und Gewinnung von Strukturdaten,

das Sammeln von Metadaten (wie Titel, Autor, Quelle, Typ und Erstellungsdatum) und

die Standardisierung von Texten und Metadaten.

Nur selten werden alle Dokumente formatgleich aus einem einzigen Quellsystem herausgezogen. Falls sie gescannt werden müssen, liegen sie als PDF vor. Stammen sie aus Webquellen oder werden sie manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung notwendig, die jedoch für die spätere Bearbeitung und Qualität der Ergebnisse problematisch sein kann.

Optische Zeichenerkennungssysteme haben zum Beispiel Probleme mit komplexeren Formatierungen wie Tabellen. Zudem müssen Anfang und Ende einzelner Dokumente klar gekennzeichnet sein. In Formaten wie PDF oder DjVu (für Rastergrafiken) sind Satzgrenzen, komplexe Formatierungen und Bilder schwierig. Daten aus Webquellen müssen mit Web Scraping (Webseitenanalyse) verarbeitet werden, wenn kein API zum Zugriff auf den Inhalt vorliegt. Werden Dokumente von den Anwendern selbst hochgeladen, muss das System viele unterschiedliche Formate unterstützen.

Wenn nur ein Teil der Dokumente beziehungsweise Informationen relevant sind, sollte eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern getroffen werden. Werden Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.

Klassifikation, Analyse und Training

Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Die Texte werden dabei nach Sätzen und Wörtern unterteilt. Häufig vorkommende Stoppwörter wie beispielsweise Artikel oder Präpositionen müssen in vielen Sprachen herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt.

Das weitere Vorgehen kann unterschiedliche Methoden enthalten. Diese können jedoch auch kombiniert werden:

Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln

Statistische Methoden und Machine Learning

In analytischen Sprachen wie Englisch funktioniert das Arbeiten mit Regeln wie „Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden“ eher. Deutsch ist eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Die Erstellung eines exakten Regelwerks kann daher aufwendig sein und muss für jede Anwendung neu angepasst werden. Jedoch sind die Ergebnisse dann klar interpretierbar und es werden keine Trainingsdaten benötigt.

Vektorisierung: Umwandlung der Texte in numerische Form

Texte werden alternativ statistisch oder durch Künstliche Intelligenz (KI) analysiert. Damit das funktioniert, werden sie in Vektoren umgewandelt.

Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der nur an jener Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt zu einer extrem hohen Dimensionalität. Jedoch kann diese mit der word2vec-Methode reduziert werden. Bei dieser haben Wörter gleicher Bedeutung gleiche Vektoren. Bag of Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an. Der Wert drückt also aus, wie relevant ein Wort für ein bestimmtes Dokument in Relation zum Korpus ist.

Suche nach Entitäten und Beziehungen

Ein statistisches Modell wird bei dem Hidden-Markov-Modell (HMM) als gerichteter Graph erstellt. Alternativ bietet sich auch das Conditional Random Field (CRF) an. Bei neuronalen Netzen kann man auch die Long Short-Term Memory (LSTM) verwenden, bei dem der Kontext berücksichtigt wird. Die Datenextraktion kann auch auf der Basis von Mustern über Convolutional Neural Networks (CNN) erfolgen.

Die Sliding-Window-Technik ist bereits aus dem Machine Learning bekannt. Bei dieser werden bestimmte Bereiche des Textes in einem Fenster betrachtet, was außerhalb des Fensters liegt, wird ignoriert – der Kontext weiter entfernter Entitäten also nicht erfasst.

Klassifizierung und Themenmodellierung

Folgende Algorithmen bieten sich an, wenn Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern soll:

Latent Dirichlet Allocation (LDA): Diese behandelt den Text als Kombination von Themen.

Latent Semantic Analysis (LSA): Sie stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar.

Über eine additive Regularisierung von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, können die Ergebnisse statistischer Modelle weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag of Words und TF-IDF weiterverarbeiten.

Statistische Methoden und Machine Learning finden Zusammenhänge und komplexere Beziehungen automatisch ohne vorgegebene Regeln. Nach einmaligem Training agieren die Systeme universell, doch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein.

Fazit

Text Mining bietet viele Techniken, Algorithmen und eine Vielfalt an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Die Leistung der eingesetzten Methoden wird je nach Aufgabenstellung unterschiedlich ausfallen. Wenn jedoch die Vor- und Nachteile bekannt sind, kann schnell die passende Technik für ein Text-Mining-Pilotprojekt im eigenen Unternehmen gefunden, neue Erkenntnisse gewonnen und ab sofort aus den Vollen geschöpft werden.

(ID:48553109)