Modulare Pipeline extrahiert technische Kurztexte auf Basis von Ähnlichkeiten

Kommentar von Jacek Burger, EDAG Group Modulare Pipeline extrahiert technische Kurztexte auf Basis von Ähnlichkeiten

16.12.2022 Von Jacek Burger

Anbieter zum Thema

Die Datenmengen in Unternehmen steigen unaufhaltsam. Es wird immer schwieriger, der Informationsflut Herr zu werden. Mithilfe von NLP (Natural Language Processing) lassen sich Texte automatisiert auswerten und verarbeiten. Allerdings sind viele Dokumente – etwa Servicetickets – nicht einfach zu analysieren. Wo Natural-Language-Ansätze an ihre Grenzen stoßen, setzt das Forschungsprojekt „AIdentify“ an.

Der Autor: Jacek Burger ist Head of Software & Digitalization, Lindau/München, bei der EDAG Group(Bild: EDAG Group) — Der Autor: Jacek Burger ist Head of Software & Digitalization, Lindau/München, bei der EDAG Group
(Bild: EDAG Group)

Als Datenbasis des Forschungsprojekts dienen Servicetickets von Vorserien- und Serienfahrzeugen eines großen Automobilherstellers. Diese Tickets wurden von tausenden unterschiedlichen Autoren verfasst – samt Rechtschreibfehlern, verschiedenen Codierungen und fehlerhafter Grammatik. Einige Tickets wurden bereits bearbeitet und zusammen mit den jeweiligen Lösungen in einer Datenbank gespeichert. Diese wird jedoch hauptsächlich als Ablage und nicht als Wissensquelle verwendet – und genau das soll sich nun ändern. Das erklärte Ziel ist die Ausgabe semantisch ähnlicher Texte auf Basis eines Eingangstextes. Durch die Evaluierung verschiedener Ansätze und der daraus abgeleiteten Empfehlungen für den Umgang mit technischen Kurztexten wissen die Mitarbeiter, wie ähnliche Probleme gelöst wurden – das hilft ihnen bei ihrer Arbeit mit den Dokumenten.

Modulare Pipeline

Abbildung 1: Schematische Darstellung der modularen Pipeline(Bild: EDAG Group) — Abbildung 1: Schematische Darstellung der modularen Pipeline
(Bild: EDAG Group)

Da alle Datensätze unterschiedlich sind, entschieden sich die Verantwortlichen des Forschungsprojekts für eine modulare Implementierung. Jedes einzelne Modul lässt sich konfigurieren, ausführen und auf die entsprechenden Daten anwenden. Dadurch ist eine schnelle Domänenanpassung garantiert.

Die Textvorverarbeitung besteht aus „Normalizer“ und „Quality Assessor“. Der Normalizer verfügt über Funktionen für die Vorverarbeitung des Eingangstexts. Dabei geht es darum, Abkürzungen in ihre Langform zu überführen, Sonderzeichen zu verarbeiten oder auch Rechtschreibfehler zu korrigieren. Damit wird die Darstellung der Texte einer Datenbasis vereinheitlicht. Der Quality Assessor überprüft, ob ein Text verwertbare Informationen enthält und von der Pipeline verarbeitet werden kann, zum Beispiel, ob die unterstützte Sprache berücksichtigt wird.

Um ähnliche Tickets zu finden, müssen die Kurztexte zueinander in Relation gesetzt werden. Im Modul Datenrepräsentation werden sie auf Basis der extrahierten Informationen in einem Vektorraum dargestellt. Sobald das Eingabeticket darin integriert ist, lassen sich ähnliche Tickets über ihre Abstände zueinander ausfindig machen.

Evaluation

Allerdings ist es grundsätzlich schwierig, Tickets anhand ihrer Ähnlichkeit zu quantifizieren. Im konkreten Fall galt die Ähnlichkeitsbewertung der Tickets durch die Anwender als Maßstab: Drei Nutzer erhielten die Aufgabe, 100 Testtickets in ihrer Relation zu zehn weiteren zufälligen Tickets zu labeln. Insgesamt wurden auf diese Weise 1.000 gelabelte Ticketpaare generiert. Das Einbeziehen mehrerer Anwender reduzierte die Subjektivität. Zudem war der Prozess auf mehrere Tage verteilt, um die Tagesabhängigkeit zu verringern. Die Entwickler sahen sich im Anschluss die Bewertungen an und sprachen unklare Fälle mit den Nutzern durch. Auf diese Weise wurde ein realitätsnaher Datensatz erzeugt.

Allerdings war die Zahl der bewerteten Ticketpaare für eine belastende Evaluation noch sehr gering. Denn durch die Ausgabe der 100 dem Eingangsticket jeweils ähnlichsten Tickets aus einer vorhandenen Datenbank enthält der Testdatensatz nur einen kleinen Teil der gesamten Tickets. Das erschwert die Evaluation erheblich.

Um schneller zu einer Lösung zu gelangen, wurde die AIdentify Pipeline entwickelt, die alle ähnlichen Tickets anzeigt, die bereits gelöst wurden.

Auswirkung der Wissensextraktion

Abbildung 2: Vergleich der Performance bei unterschiedlicher Ticketdarstellung(Bild: EDAG Group) — Abbildung 2: Vergleich der Performance bei unterschiedlicher Ticketdarstellung
(Bild: EDAG Group)

Auffällig sind die Auswirkungen der Wissensextraktion auf die Performance der Pipeline. Abbildung 2 zeigt die Performance von AIdentify mit verschiedenen Ticketdarstellungen. Die rote Linie steht für reinen Text, die Performance unter Verwendung der extrahierten Entitäten, und die Fehlerklasse wird in Rosa angezeigt. Es zeigt sich, dass die Konzentration auf die sinngebenden Einheiten des Tickets zu deutlich besseren Ergebnissen führt.

Vergleich AIdentify mit Baseline Lucene

Die neue Pipeline wurde gegen eine Baseline evaluiert – die Suchmaschine „Lucene“. In Abbildung 3 wird die Performance der beiden Ansätze dargestellt. Die Eingaben in Lucene- und die AIdentify-Pipeline sind identisch.

Die AIdentify Pipeline (rosa) wies nach zwei Jahren Entwicklungsarbeit bereits eine bessere Performance auf als die Suchmaschine Lucene (grün). Das zeigt, wie mächtig dieser Ansatz ist.

Abbildung 3: Vergleich der Performance von AIdentify mit Baseline Lucene(Bild: EDAG Group) — Abbildung 3: Vergleich der Performance von AIdentify mit Baseline Lucene
(Bild: EDAG Group)

Evaluation zwischen dem Deep-Learning- und linguistischem Ansatz

Abbildung 4: Vergleich der verschiedenen Ansätze(Bild: EDAG Group) — Abbildung 4: Vergleich der verschiedenen Ansätze
(Bild: EDAG Group)

Abbildung 4 zeigt drei unterschiedliche Konfigurationen der Pipeline. Die rote Linie steht für eine Pipeline auf Basis von Deep Learning, die grüne Linie für das linguistische Verfahren, und in Rosa wird eine Kombination beider Ansätze dargestellt. Aus der Auswertung ergibt sich, dass der Deep-Learning-Ansatz dem linguistischen Verfahren überlegen ist. Die zweithöchste Performance bietet die Kombination beider Ansätze.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Dieses Ergebnis überrascht. Es war erwartet worden, dass mehr Informationen auch zu einem besseren Ergebnis führen. Eine mögliche Erklärung liefert die Methode der Datenrepräsentation. Aktuell basiert die Erzeugung des Gesamtvektors für ein Ticket noch nicht auf der Domäne der angepassten, also feingetunten WordEmbeddings. Das bedeutet, dass die in der Wissensextraktion extrahierten Informationen nicht nach Worttyp oder Relevanz, sondern nur nach Häufigkeit im Dokumentenkorpus gewichtet werden.

Schlusswort

Mit der Pipeline AIdentify lassen sich ähnliche Texte aus einer Datenbank extrahieren. Da die Ergebnisse bereits nach zwei Jahren Forschungsarbeit valide und funktionsfähig waren, können viele weitere Anwendungsfälle mithilfe der Pipeline bearbeitet werden. Dazu zählen die Verbesserung der Textqualität, die Konsistenzprüfung von Tickets, die Wissensextraktion oder auch das Clustering. In naher Zukunft soll eine eingehende sechsmonatige Evaluation erfolgen, bei der die Nutzer die Pipeline in ihrem Arbeitsalltag einsetzen und die ausgegebenen Tickets laufend bewerten. Dadurch lässt sich ein besseres Bild der Qualität der aktuellen Pipeline darstellen sowie anschließend weiter ausbauen und optimieren. Ziel ist eine robuste und modulare Toolbox, die auch auf weitere Anwendungsfälle und Datensätze ohne häufige Anpassungen anwendbar ist.

Über AIdentify

Das Forschungsprojekt „Künstliche Intelligenz zur semantischen Analyse technischer Kurztexte“ (AIdentify) erfolgt in Zusammenarbeit der EDAG Engineering GmbH und der denkbares GmbH. Sie wird vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie im Rahmen des Bayerischen Verbundforschungsprogramms (BayVFP) gefördert.

Artikelfiles und Artikellinks

Link: Die EDAG Group im Web

(ID:48726222)