Kommentar von Jacek Burger, EDAG Group Modulare Pipeline extrahiert technische Kurztexte auf Basis von Ähnlichkeiten

Von Jacek Burger |

Anbieter zum Thema

Die Datenmengen in Unternehmen steigen unaufhaltsam. Es wird immer schwieriger, der Informationsflut Herr zu werden. Mithilfe von NLP (Natural Language Processing) lassen sich Texte automatisiert auswerten und verarbeiten. Allerdings sind viele Dokumente – etwa Servicetickets – nicht einfach zu analysieren. Wo Natural-Language-Ansätze an ihre Grenzen stoßen, setzt das Forschungsprojekt „AIdentify“ an.

Der Autor: Jacek Burger ist Head of Software & Digitalization, Lindau/München, bei der EDAG Group
Der Autor: Jacek Burger ist Head of Software & Digitalization, Lindau/München, bei der EDAG Group
(Bild: EDAG Group)

Als Datenbasis des Forschungsprojekts dienen Servicetickets von Vorserien- und Serienfahrzeugen eines großen Automobilherstellers. Diese Tickets wurden von tausenden unterschiedlichen Autoren verfasst – samt Rechtschreibfehlern, verschiedenen Codierungen und fehlerhafter Grammatik. Einige Tickets wurden bereits bearbeitet und zusammen mit den jeweiligen Lösungen in einer Datenbank gespeichert. Diese wird jedoch hauptsächlich als Ablage und nicht als Wissensquelle verwendet – und genau das soll sich nun ändern. Das erklärte Ziel ist die Ausgabe semantisch ähnlicher Texte auf Basis eines Eingangstextes. Durch die Evaluierung verschiedener Ansätze und der daraus abgeleiteten Empfehlungen für den Umgang mit technischen Kurztexten wissen die Mitarbeiter, wie ähnliche Probleme gelöst wurden – das hilft ihnen bei ihrer Arbeit mit den Dokumenten.

Modulare Pipeline

Abbildung 1: Schematische Darstellung der modularen Pipeline
Abbildung 1: Schematische Darstellung der modularen Pipeline
(Bild: EDAG Group)

Da alle Datensätze unterschiedlich sind, entschieden sich die Verantwortlichen des Forschungsprojekts für eine modulare Implementierung. Jedes einzelne Modul lässt sich konfigurieren, ausführen und auf die entsprechenden Daten anwenden. Dadurch ist eine schnelle Domänenanpassung garantiert.

Die Textvorverarbeitung besteht aus „Normalizer“ und „Quality Assessor“. Der Normalizer verfügt über Funktionen für die Vorverarbeitung des Eingangstexts. Dabei geht es darum, Abkürzungen in ihre Langform zu überführen, Sonderzeichen zu verarbeiten oder auch Rechtschreibfehler zu korrigieren. Damit wird die Darstellung der Texte einer Datenbasis vereinheitlicht. Der Quality Assessor überprüft, ob ein Text verwertbare Informationen enthält und von der Pipeline verarbeitet werden kann, zum Beispiel, ob die unterstützte Sprache berücksichtigt wird.

Um ähnliche Tickets zu finden, müssen die Kurztexte zueinander in Relation gesetzt werden. Im Modul Datenrepräsentation werden sie auf Basis der extrahierten Informationen in einem Vektorraum dargestellt. Sobald das Eingabeticket darin integriert ist, lassen sich ähnliche Tickets über ihre Abstände zueinander ausfindig machen.

Evaluation

Allerdings ist es grundsätzlich schwierig, Tickets anhand ihrer Ähnlichkeit zu quantifizieren. Im konkreten Fall galt die Ähnlichkeitsbewertung der Tickets durch die Anwender als Maßstab: Drei Nutzer erhielten die Aufgabe, 100 Testtickets in ihrer Relation zu zehn weiteren zufälligen Tickets zu labeln. Insgesamt wurden auf diese Weise 1.000 gelabelte Ticketpaare generiert. Das Einbeziehen mehrerer Anwender reduzierte die Subjektivität. Zudem war der Prozess auf mehrere Tage verteilt, um die Tagesabhängigkeit zu verringern. Die Entwickler sahen sich im Anschluss die Bewertungen an und sprachen unklare Fälle mit den Nutzern durch. Auf diese Weise wurde ein realitätsnaher Datensatz erzeugt.

Allerdings war die Zahl der bewerteten Ticketpaare für eine belastende Evaluation noch sehr gering. Denn durch die Ausgabe der 100 dem Eingangsticket jeweils ähnlichsten Tickets aus einer vorhandenen Datenbank enthält der Testdatensatz nur einen kleinen Teil der gesamten Tickets. Das erschwert die Evaluation erheblich.

Um schneller zu einer Lösung zu gelangen, wurde die AIdentify Pipeline entwickelt, die alle ähnlichen Tickets anzeigt, die bereits gelöst wurden.

Auswirkung der Wissensextraktion

Abbildung 2: Vergleich der Performance bei unterschiedlicher Ticketdarstellung
Abbildung 2: Vergleich der Performance bei unterschiedlicher Ticketdarstellung
(Bild: EDAG Group)

Auffällig sind die Auswirkungen der Wissensextraktion auf die Performance der Pipeline. Abbildung 2 zeigt die Performance von AIdentify mit verschiedenen Ticketdarstellungen. Die rote Linie steht für reinen Text, die Performance unter Verwendung der extrahierten Entitäten, und die Fehlerklasse wird in Rosa angezeigt. Es zeigt sich, dass die Konzentration auf die sinngebenden Einheiten des Tickets zu deutlich besseren Ergebnissen führt.

Vergleich AIdentify mit Baseline Lucene

Die neue Pipeline wurde gegen eine Baseline evaluiert – die Suchmaschine „Lucene“. In Abbildung 3 wird die Performance der beiden Ansätze dargestellt. Die Eingaben in Lucene- und die AIdentify-Pipeline sind identisch.

Die AIdentify Pipeline (rosa) wies nach zwei Jahren Entwicklungsarbeit bereits eine bessere Performance auf als die Suchmaschine Lucene (grün). Das zeigt, wie mächtig dieser Ansatz ist.

Abbildung 3: Vergleich der Performance von AIdentify mit Baseline Lucene
Abbildung 3: Vergleich der Performance von AIdentify mit Baseline Lucene
(Bild: EDAG Group)

Evaluation zwischen dem Deep-Learning- und linguistischem Ansatz

Abbildung 4: Vergleich der verschiedenen Ansätze
Abbildung 4: Vergleich der verschiedenen Ansätze
(Bild: EDAG Group)

Abbildung 4 zeigt drei unterschiedliche Konfigurationen der Pipeline. Die rote Linie steht für eine Pipeline auf Basis von Deep Learning, die grüne Linie für das linguistische Verfahren, und in Rosa wird eine Kombination beider Ansätze dargestellt. Aus der Auswertung ergibt sich, dass der Deep-Learning-Ansatz dem linguistischen Verfahren überlegen ist. Die zweithöchste Performance bietet die Kombination beider Ansätze.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Dieses Ergebnis überrascht. Es war erwartet worden, dass mehr Informationen auch zu einem besseren Ergebnis führen. Eine mögliche Erklärung liefert die Methode der Datenrepräsentation. Aktuell basiert die Erzeugung des Gesamtvektors für ein Ticket noch nicht auf der Domäne der angepassten, also feingetunten WordEmbeddings. Das bedeutet, dass die in der Wissensextraktion extrahierten Informationen nicht nach Worttyp oder Relevanz, sondern nur nach Häufigkeit im Dokumentenkorpus gewichtet werden.

Schlusswort

Mit der Pipeline AIdentify lassen sich ähnliche Texte aus einer Datenbank extrahieren. Da die Ergebnisse bereits nach zwei Jahren Forschungsarbeit valide und funktionsfähig waren, können viele weitere Anwendungsfälle mithilfe der Pipeline bearbeitet werden. Dazu zählen die Verbesserung der Textqualität, die Konsistenzprüfung von Tickets, die Wissensextraktion oder auch das Clustering. In naher Zukunft soll eine eingehende sechsmonatige Evaluation erfolgen, bei der die Nutzer die Pipeline in ihrem Arbeitsalltag einsetzen und die ausgegebenen Tickets laufend bewerten. Dadurch lässt sich ein besseres Bild der Qualität der aktuellen Pipeline darstellen sowie anschließend weiter ausbauen und optimieren. Ziel ist eine robuste und modulare Toolbox, die auch auf weitere Anwendungsfälle und Datensätze ohne häufige Anpassungen anwendbar ist.

Über AIdentify

Das Forschungsprojekt „Künstliche Intelligenz zur semantischen Analyse technischer Kurztexte“ (AIdentify) erfolgt in Zusammenarbeit der EDAG Engineering GmbH und der denkbares GmbH. Sie wird vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie im Rahmen des Bayerischen Verbundforschungsprogramms (BayVFP) gefördert.

Artikelfiles und Artikellinks

(ID:48726222)