Kommentar von Alexander Isaenco, WaveAccess Mit Text Mining wertvolle Geschäftsressourcen gewinnen

Von Alexander Isaenco

Anbieter zum Thema

Ido Dagan und Ronen Feldman haben im Jahr 1995 Text Mining als „Knowledge Discovery in Texts“ in der wissenschaftlichen Gemeinschaft eingeführt. Unter Text Mining versteht man das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen unstrukturierten Textdokumenten. Jedoch sind die Methoden und deren Ergebnisse unterschiedlich – sie reichen von linguistischen Ansätzen über statistische Modelle und neuronale Netze bis zu bekannten Methoden des Machine Learning.

Der Autor: Alexander Isaenco ist Deputy CTO und Senior Architect bei WaveAccess
Der Autor: Alexander Isaenco ist Deputy CTO und Senior Architect bei WaveAccess
(Bild: WaveAccess)

Noch ist Text Mining ein junges Anwendungsgebiet, doch längst ist klar, welches Potenzial in der automatischen Bearbeitung einer Vielzahl textueller Dokumente liegt. Nur wer die aktuellen Möglichkeiten kennt, wird Text Mining im Unternehmen richtig einsetzen können.

Bewältigung der Papierflut

Die automatisierte Verarbeitung textueller Informationen ist im Zeitalter von Big Data geschäftskritisch für Unternehmen. Zum Beispiel sind europäische und US-Pharmaunternehmen gesetzlich dazu verpflichtet, beim Auftreten von Nebenwirkungen Produkte zurückzurufen oder die Patienteninformation anzupassen. Die Vielzahl neuer medizinischer Studien verbietet jedoch eine rein manuelle Kontrolle. Eine automatisierte Suche nach relevanten Ergebnissen spart zudem Kosten für den Erwerb von nicht relevanten Artikeln.

Ein weiteres klassisches Anwendungsfeld von Text Mining ist die Marktforschung. Welche Reputation hat mein Unternehmen? Wie kommen die Produkte bei der Zielgruppe an? Wo stehen wir gegenüber Konkurrenten? Zur Beantwortung dieser Fragen können zahlreiche Quellen herangezogen werden – von wissenschaftlichen Artikeln über Produktbewertungen in einschlägigen Magazinen bis zu Kommentaren in sozialen Medien. Text Mining hilft auch bei der Frage nach der Glaubwürdigkeit von Autor und Quelle oder dessen Einstellung zu Produkt und Unternehmen.

Informationen über Kunden verbessern das Customer Relationship Management (CRM), relevante Daten über Partner helfen bei der Bewertung von Geschäftsbeziehungen, und Informationen zu Konkurrenten verbessern die Wettbewerbsfähigkeit. Text Mining eignet sich zudem für die Analyse unternehmenseigener Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was wiederum die Cybersicherheit erhöht. Weitere Anwendungsfelder sind ein unternehmensinternes Wissensmanagement oder die Bearbeitung von Kundenreklamationen.

Ziel ist dabei immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.

Arbeitsweisen von Text-Mining-Systemen

Die Ergebnisse können höchst unterschiedlich ausfallen, da Textdaten nicht formalisiert sind. Zudem gibt es keinen einheitlichen Analyseansatz. Daher ist der effektive Einsatz von Text Mining schwierig, aber auch nützlich. Entscheidend ist hier vor allem die Wahl passender Methoden.

Daher hat man beim Text Mining für jedes Dokument verschiedene Phasen:

  • Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung.
  • Spezifikation sogenannter Entitäten – wie etwa Namen von Personen oder Produkten.
  • Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas.
  • Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie beispielsweise Namen.

Sammeln und Standardisieren als erster Schritt

Die zu untersuchenden Dokumente werden zunächst gesammelt und standardisiert. Die Ziele dabei sind

  • die permanente Dokumentenerfassung und Gewinnung von Strukturdaten,
  • das Sammeln von Metadaten (wie Titel, Autor, Quelle, Typ und Erstellungsdatum) und
  • die Standardisierung von Texten und Metadaten.

Nur selten werden alle Dokumente formatgleich aus einem einzigen Quellsystem herausgezogen. Falls sie gescannt werden müssen, liegen sie als PDF vor. Stammen sie aus Webquellen oder werden sie manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung notwendig, die jedoch für die spätere Bearbeitung und Qualität der Ergebnisse problematisch sein kann.

Optische Zeichenerkennungssysteme haben zum Beispiel Probleme mit komplexeren Formatierungen wie Tabellen. Zudem müssen Anfang und Ende einzelner Dokumente klar gekennzeichnet sein. In Formaten wie PDF oder DjVu (für Rastergrafiken) sind Satzgrenzen, komplexe Formatierungen und Bilder schwierig. Daten aus Webquellen müssen mit Web Scraping (Webseitenanalyse) verarbeitet werden, wenn kein API zum Zugriff auf den Inhalt vorliegt. Werden Dokumente von den Anwendern selbst hochgeladen, muss das System viele unterschiedliche Formate unterstützen.

Wenn nur ein Teil der Dokumente beziehungsweise Informationen relevant sind, sollte eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern getroffen werden. Werden Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.

Klassifikation, Analyse und Training

Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Die Texte werden dabei nach Sätzen und Wörtern unterteilt. Häufig vorkommende Stoppwörter wie beispielsweise Artikel oder Präpositionen müssen in vielen Sprachen herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt.

Das weitere Vorgehen kann unterschiedliche Methoden enthalten. Diese können jedoch auch kombiniert werden:

  • Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln
  • Statistische Methoden und Machine Learning

In analytischen Sprachen wie Englisch funktioniert das Arbeiten mit Regeln wie „Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden“ eher. Deutsch ist eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Erstellung eines exakten Regelwerks kann daher aufwendig sein und muss für jede Anwendung neu angepasst werden. Jedoch sind die Ergebnisse dann klar interpretierbar und es werden keine Trainingsdaten benötigt.

Vektorisierung: Umwandlung der Texte in numerische Form

Texte werden alternativ statistisch oder durch Künstliche Intelligenz (KI) analysiert. Damit das funktioniert, werden sie in Vektoren umgewandelt.

Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der nur an jener Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt zu einer extrem hohen Dimensionalität. Jedoch kann diese mit der word2vec-Methode reduziert werden. Bei dieser haben Wörter gleicher Bedeutung gleiche Vektoren. Bag of Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an. Der Wert drückt also aus, wie relevant ein Wort für ein bestimmtes Dokument in Relation zum Korpus ist.

Suche nach Entitäten und Beziehungen

Ein statistisches Modell wird bei dem Hidden-Markov-Modell (HMM) als gerichteter Graph erstellt. Alternativ bietet sich auch das Conditional Random Field (CRF) an. Bei neuronalen Netzen kann man auch die Long Short-Term Memory (LSTM) verwenden, bei dem der Kontext berücksichtigt wird. Die Datenextraktion kann auch auf der Basis von Mustern über Convolutional Neural Networks (CNN) erfolgen.

Die Sliding-Window-Technik ist bereits aus dem Machine Learning bekannt. Bei dieser werden bestimmte Bereiche des Textes in einem Fenster betrachtet, was außerhalb des Fensters liegt, wird ignoriert – der Kontext weiter entfernter Entitäten also nicht erfasst.

Klassifizierung und Themenmodellierung

Folgende Algorithmen bieten sich an, wenn Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern soll:

  • Latent Dirichlet Allocation (LDA): Diese behandelt den Text als Kombination von Themen.
  • Latent Semantic Analysis (LSA): Sie stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar.

Über eine additive Regularisierung von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, können die Ergebnisse statistischer Modelle weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag of Words und TF-IDF weiterverarbeiten.

Statistische Methoden und Machine Learning finden Zusammenhänge und komplexere Beziehungen automatisch ohne vorgegebene Regeln. Nach einmaligem Training agieren die Systeme universell, doch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein.

Fazit

Text Mining bietet viele Techniken, Algorithmen und eine Vielfalt an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Die Leistung der eingesetzten Methoden wird je nach Aufgabenstellung unterschiedlich ausfallen. Wenn jedoch die Vor- und Nachteile bekannt sind, kann schnell die passende Technik für ein Text-Mining-Pilotprojekt im eigenen Unternehmen gefunden, neue Erkenntnisse gewonnen und ab sofort aus den Vollen geschöpft werden.

(ID:48553109)