So meistert Machine Learning unstrukturierte Informationen

Kommentar von Dr. Marlene Wolfgruber, Abbyy So meistert Machine Learning unstrukturierte Informationen

25.04.2018Autor / Redakteur: Dr. Marlene Wolfgruber / Nico Litzel

Big-Data-Ansätze haben durch fast unbegrenztes Speichervolumen, die hohe Entstehungsgeschwindigkeit der Daten und große Vielfalt in der Datenbeschaffenheit einst handhabbare Datenbestände in Big Content verwandelt. Die große Mehrheit der Daten ist dabei unstrukturiert, das heißt, in natürlicher Sprache geschrieben. Automatische Textklassifizierung zur Ordnung und Priorisierung dieser Informationen ist dabei ein zentrales Werkzeug, um Unternehmen den verlässlichen Zugriff auf relevante Informationen zu gewähren.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

BigData-Insider

Dia Autorin: Dr. Marlene Wolfgruber ist Product Marketing Manager bei Abbyy
(Bild: Abbyy)

Sprachbasierte Ansätze nutzen hier linguistische und semantische Technologien sowie maschinelles Lernen, um die in Big Content verborgenen Informationen in die Reichweite von Entscheidungsträgern und Wissensspezialisten in Unternehmen zu bringen.

Erstellung und Tuning von Klassifizierungsmodellen

Bevor eine intelligente Klassifizierungslösung ihre Arbeit aufnehmen kann, muss zunächst das entsprechende Modell erstellt und implementiert werden:

1. Konfiguration und Training

Zunächst werden die Kategorien festgelegt, denen Dokumente zugeordnet werden sollen. Dann gilt es, repräsentative Dokumente, die prototypisch für die einzelnen Kategorien sind, aus dem Dokumentenbestand auszuwählen. Diese werden für die Erstellung des Klassifizierungsmodells und dessen Überprüfung benötigt. In jeder Organisation gibt es Experten, die die existierenden Dokumente und die neu eingehenden genau kennen. Diese Wissensarbeiter sind ideal geeignet, um das Training der Klassen durchzuführen. Fundierte wissenschaftliche Kenntnisse sind demnach nicht erforderlich, um eine hohe Qualität bei der Klassifizierung zu erreichen.

Ebenso wenig notwendig sind große Mengen an Trainingsdokumenten. Waren in traditionellen, regelbasierten Systemen bisher mehrere tausend Dokumente erforderlich, um eine Kategorie zu trainieren, reduziert sich die Zahl mit Einführung intelligenter Klassifizierungstechnologien um ein Vielfaches. Die technische Mindestanzahl ist zehn Dokumente für eine Klasse, wobei eine Menge von mindestens 100 Dokumenten für die Erzeugung zuverlässiger Statistiken empfohlen wird.

Die Erstellung und Verwaltung von Klassifizierungsprojekten und -modellen sowie das Hochladen der Trainings- und Kontrolldokumente erfolgt entweder über ein grafisches User Interface oder eine Programmier-Schnittstelle. Das User Interface bietet eine Statusübersicht für jedes Klassifizierungsprojekt und ermöglicht im Idealfall den direkten Zugriff auf die verschiedenen Komponenten des Workflows, wie Projekteinstellungen, Trainingssets, Dokumente für das Kontrollset und Qualitätsbewertung für jedes der klassifizierten Inhaltsobjekte. Auch Quelltext und Schlüsselwörter, die vom Algorithmus ausgewählt wurden, können analysiert und geprüft werden. Begriffe, die bei der Klassifizierung unberücksichtigt bleiben sollen, können in eine Stoppwortliste eingetragen werden.

In der Trainingsphase werden nun also die Dokumente analysiert, um festzustellen, was die Inhalte im Hinblick auf die jeweilige Kategorie gemeinsam haben. Hierbei machen sich intelligente Klassifizierungssysteme, neben der linguistischen und semantischen Analyse, auch Machine Learning zunutze. Das grundlegende Prinzip des maschinellen Lernens ist die automatische Identifizierung und Verwendung der relevantesten Merkmale aus einem Satz von Trainingsdokumenten. Das System erkennt selbstständig, was die gemeinsamen Merkmale sind, die die Dokumente in einer Kategorie ausmachen und erstellt anhand dessen das Klassifizierungsmodell. Dabei werden automatisch verschiedene Algorithmen getestet, bezüglich ihrer Leistung am Trainingsset bewertet und das beste Modell ausgewählt. Manuelle Einstellungen sind nur in sehr begrenztem Umfang notwendig.

2. Qualitätsbewertung

Ist die Trainingsphase abgeschlossen, muss geprüft und entschieden werden, ob der Trainingsprozess erfolgreich war. Dazu wird ein Kontrollset von Dokumenten in das Klassifizierungssystem geladen, mit dem im Training entwickelten Modell klassifiziert und hinsichtlich der Leistung analysiert. Zur Leistungsbeurteilung können Kennzahlen wie F-Maß und Rate der falsch-positiven/falsch-negativen Ergebnisse herangezogen werden.

Unbekannte oder falsch klassifizierte Dokumente werden neu zugeordnet, gegebenenfalls werden auch Kategorien neu definiert oder zusätzliche Dokumente in das Trainingsset aufgenommen, um die Ergebnisse zu verbessern. Tiefergreifende Analysen und Anpassungen sind nicht notwendig: mit dem Einsatz intelligenter Technologien ist eine Abstimmung des Klassifizierungsmodells auf Algorithmusebene nicht mehr erforderlich.

3. Implementierung

Erfüllen die Klassifizierungsergebnisse des Kontrollsets die Erwartungen und wird die geforderte Qualität erreicht, kann das Modell zur Produktion freigegeben werden. Nun können unbekannte Texte und Dokumente zur Klassifizierung übermittelt werden. Das Ergebnis der Klassifizierung sind Metadaten, die die Informationen wie Name des Klassifizierungsmodells, Kategorien mit den entsprechenden Wahrscheinlichkeiten, Vertraulichkeitskennzeichnungen, Merkmal-/Wortlisten, reinen Text oder Fehlermeldungen enthalten. Als Dateiformat sind JSON oder RDF/XML gebräuchlich. So entsteht aus normalem Text eine Metadatensammlung, die es erlaubt, sehr viel gezielter auf die im Text enthaltenen Fakten und Konzepte zuzugreifen. Je nach Konfiguration werden die Klassifizierungsergebnisse direkt im System weiterverarbeitet oder über eine Schnittstelle an andere Komponenten weitergeleitet und dort verarbeitet.

Integration von Klassifizierung im IT-Umfeld

Im Idealfall ist eine intelligente Klassifizierungstechnologie nicht domänenspezifisch und verlangt keinen hartkodierten Klassifizierungsworkflow, sondern funktioniert vielmehr als eigenständiger Service im IT-Umfeld eines Unternehmens. Smarte Klassifizierungsmodule lassen sich über einfache Schnittstellen, z. B. über eine REST API mühelos in bestehende IT-Systeme integrieren und werden so zu einem intelligenten Bestandteil von Archiven, Content-Management-Systemen, Enterprise-Search-Systemen, Workflows, Knowledge Bases, E-Mail-Verwaltungssystemen und anderer Software zur Verarbeitung von Geschäftsinformationen.

Anwendungsszenarien und Mehrwerte

Relevante Informationen den richtigen Empfängern zur rechten Zeit zur Verfügung stellen zu können, ist der Schlüssel zum Erfolg in einer sich rasch wandelnden Geschäftswelt. Intelligente Klassifizierung ermöglicht es Unternehmen zum einen, große Datenbestände präzise zu katalogisieren und so den Inhalt in bestehenden Systemen effizient zu nutzen. Zum anderen werden eingehende Dokumente schnell und zuverlässig klassifiziert, so für die weitere Verarbeitung besser nutzbar gemacht und Geschäftswerte aus dem konstant eintreffenden Datenstrom abgeleitet. Klassifiziert sind Informationen bereit für Suche und Zugriff, automatisches Routing innerhalb der Organisation und für die Datenextraktion.

Klassifizierung macht unstrukturierte Inhalte zugänglich, geschäftskritische Informationen lassen sich schnell und effizient lokalisieren. Die so geschaffene Transparenz hilft, Geschäftsrisiken zu minimieren, gesetzliche Vorgaben zur Datensicherung und Compliance zu erfüllen und Prozesse zu optimieren. Je transparenter und auffindbarer Informationen sind, umso rascher lassen sich Entscheidungen treffen, was zur allgemeinen Geschäftsagilität und Kundenzufriedenheit beiträgt.

Die Liste möglicher Anwendungen, wie Klassifizierung die Automatisierung von Informationsprozessen unterstützen kann, ist sehr umfangreich. Der linguistische Ansatz öffnet neue Möglichkeiten zur Optimierung von Prozessen wie Information Governance, Datenmigration, Content Management oder Kundensupport – Beispiele sind: das Einstufen von Informationen als „vertraulich“, das Einfügen automatisch generierter Tags zu archivierten Dokumenten, die Weiterleitung von Dokumenten zum entsprechenden nachgelagerten Geschäftsprozess oder -bereich oder die Optimierung der Suche durch Begrenzung auf eine bestimmte Datensatzklasse.

Neue, intelligente Klassifizierungstechnologien machen Dokumentenklassifizierung einfach. Dort wo regelbasierte Ansätze versagen, schafft der innovative, sprachbasierte Ansatz zur Analyse unstrukturierter Informationen neue, innovative Möglichkeiten, Informationen intelligent zu nutzen und wichtige Geschäftsprozesse zu optimieren. Gute Klassifizierung erlaubt es Unternehmen, Aufgaben zu lösen, die sie aktuell nicht bewältigen können.

(ID:45217122)