Kommentar von Jacek Burger, EDAG Group Modulare Pipeline extrahiert technische Kurztexte auf Basis von Ähnlichkeiten
Anbieter zum Thema
Die Datenmengen in Unternehmen steigen unaufhaltsam. Es wird immer schwieriger, der Informationsflut Herr zu werden. Mithilfe von NLP (Natural Language Processing) lassen sich Texte automatisiert auswerten und verarbeiten. Allerdings sind viele Dokumente – etwa Servicetickets – nicht einfach zu analysieren. Wo Natural-Language-Ansätze an ihre Grenzen stoßen, setzt das Forschungsprojekt „AIdentify“ an.

Als Datenbasis des Forschungsprojekts dienen Servicetickets von Vorserien- und Serienfahrzeugen eines großen Automobilherstellers. Diese Tickets wurden von tausenden unterschiedlichen Autoren verfasst – samt Rechtschreibfehlern, verschiedenen Codierungen und fehlerhafter Grammatik. Einige Tickets wurden bereits bearbeitet und zusammen mit den jeweiligen Lösungen in einer Datenbank gespeichert. Diese wird jedoch hauptsächlich als Ablage und nicht als Wissensquelle verwendet – und genau das soll sich nun ändern. Das erklärte Ziel ist die Ausgabe semantisch ähnlicher Texte auf Basis eines Eingangstextes. Durch die Evaluierung verschiedener Ansätze und der daraus abgeleiteten Empfehlungen für den Umgang mit technischen Kurztexten wissen die Mitarbeiter, wie ähnliche Probleme gelöst wurden – das hilft ihnen bei ihrer Arbeit mit den Dokumenten.
Modulare Pipeline
Da alle Datensätze unterschiedlich sind, entschieden sich die Verantwortlichen des Forschungsprojekts für eine modulare Implementierung. Jedes einzelne Modul lässt sich konfigurieren, ausführen und auf die entsprechenden Daten anwenden. Dadurch ist eine schnelle Domänenanpassung garantiert.
Die Textvorverarbeitung besteht aus „Normalizer“ und „Quality Assessor“. Der Normalizer verfügt über Funktionen für die Vorverarbeitung des Eingangstexts. Dabei geht es darum, Abkürzungen in ihre Langform zu überführen, Sonderzeichen zu verarbeiten oder auch Rechtschreibfehler zu korrigieren. Damit wird die Darstellung der Texte einer Datenbasis vereinheitlicht. Der Quality Assessor überprüft, ob ein Text verwertbare Informationen enthält und von der Pipeline verarbeitet werden kann, zum Beispiel, ob die unterstützte Sprache berücksichtigt wird.
Um ähnliche Tickets zu finden, müssen die Kurztexte zueinander in Relation gesetzt werden. Im Modul Datenrepräsentation werden sie auf Basis der extrahierten Informationen in einem Vektorraum dargestellt. Sobald das Eingabeticket darin integriert ist, lassen sich ähnliche Tickets über ihre Abstände zueinander ausfindig machen.
Evaluation
Allerdings ist es grundsätzlich schwierig, Tickets anhand ihrer Ähnlichkeit zu quantifizieren. Im konkreten Fall galt die Ähnlichkeitsbewertung der Tickets durch die Anwender als Maßstab: Drei Nutzer erhielten die Aufgabe, 100 Testtickets in ihrer Relation zu zehn weiteren zufälligen Tickets zu labeln. Insgesamt wurden auf diese Weise 1.000 gelabelte Ticketpaare generiert. Das Einbeziehen mehrerer Anwender reduzierte die Subjektivität. Zudem war der Prozess auf mehrere Tage verteilt, um die Tagesabhängigkeit zu verringern. Die Entwickler sahen sich im Anschluss die Bewertungen an und sprachen unklare Fälle mit den Nutzern durch. Auf diese Weise wurde ein realitätsnaher Datensatz erzeugt.
Allerdings war die Zahl der bewerteten Ticketpaare für eine belastende Evaluation noch sehr gering. Denn durch die Ausgabe der 100 dem Eingangsticket jeweils ähnlichsten Tickets aus einer vorhandenen Datenbank enthält der Testdatensatz nur einen kleinen Teil der gesamten Tickets. Das erschwert die Evaluation erheblich.
Um schneller zu einer Lösung zu gelangen, wurde die AIdentify Pipeline entwickelt, die alle ähnlichen Tickets anzeigt, die bereits gelöst wurden.
Auswirkung der Wissensextraktion
Auffällig sind die Auswirkungen der Wissensextraktion auf die Performance der Pipeline. Abbildung 2 zeigt die Performance von AIdentify mit verschiedenen Ticketdarstellungen. Die rote Linie steht für reinen Text, die Performance unter Verwendung der extrahierten Entitäten, und die Fehlerklasse wird in Rosa angezeigt. Es zeigt sich, dass die Konzentration auf die sinngebenden Einheiten des Tickets zu deutlich besseren Ergebnissen führt.
Vergleich AIdentify mit Baseline Lucene
Die neue Pipeline wurde gegen eine Baseline evaluiert – die Suchmaschine „Lucene“. In Abbildung 3 wird die Performance der beiden Ansätze dargestellt. Die Eingaben in Lucene- und die AIdentify-Pipeline sind identisch.
Die AIdentify Pipeline (rosa) wies nach zwei Jahren Entwicklungsarbeit bereits eine bessere Performance auf als die Suchmaschine Lucene (grün). Das zeigt, wie mächtig dieser Ansatz ist.
Evaluation zwischen dem Deep-Learning- und linguistischem Ansatz
Abbildung 4 zeigt drei unterschiedliche Konfigurationen der Pipeline. Die rote Linie steht für eine Pipeline auf Basis von Deep Learning, die grüne Linie für das linguistische Verfahren, und in Rosa wird eine Kombination beider Ansätze dargestellt. Aus der Auswertung ergibt sich, dass der Deep-Learning-Ansatz dem linguistischen Verfahren überlegen ist. Die zweithöchste Performance bietet die Kombination beider Ansätze.
Dieses Ergebnis überrascht. Es war erwartet worden, dass mehr Informationen auch zu einem besseren Ergebnis führen. Eine mögliche Erklärung liefert die Methode der Datenrepräsentation. Aktuell basiert die Erzeugung des Gesamtvektors für ein Ticket noch nicht auf der Domäne der angepassten, also feingetunten WordEmbeddings. Das bedeutet, dass die in der Wissensextraktion extrahierten Informationen nicht nach Worttyp oder Relevanz, sondern nur nach Häufigkeit im Dokumentenkorpus gewichtet werden.
Schlusswort
Mit der Pipeline AIdentify lassen sich ähnliche Texte aus einer Datenbank extrahieren. Da die Ergebnisse bereits nach zwei Jahren Forschungsarbeit valide und funktionsfähig waren, können viele weitere Anwendungsfälle mithilfe der Pipeline bearbeitet werden. Dazu zählen die Verbesserung der Textqualität, die Konsistenzprüfung von Tickets, die Wissensextraktion oder auch das Clustering. In naher Zukunft soll eine eingehende sechsmonatige Evaluation erfolgen, bei der die Nutzer die Pipeline in ihrem Arbeitsalltag einsetzen und die ausgegebenen Tickets laufend bewerten. Dadurch lässt sich ein besseres Bild der Qualität der aktuellen Pipeline darstellen sowie anschließend weiter ausbauen und optimieren. Ziel ist eine robuste und modulare Toolbox, die auch auf weitere Anwendungsfälle und Datensätze ohne häufige Anpassungen anwendbar ist.
Über AIdentify
Das Forschungsprojekt „Künstliche Intelligenz zur semantischen Analyse technischer Kurztexte“ (AIdentify) erfolgt in Zusammenarbeit der EDAG Engineering GmbH und der denkbares GmbH. Sie wird vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie im Rahmen des Bayerischen Verbundforschungsprogramms (BayVFP) gefördert.
Artikelfiles und Artikellinks
Link: Die EDAG Group im Web
(ID:48726222)