Definition Was ist BiLSTM-CRF?

BiLSTM-CRF ist ein Modell für neuronale Netzwerke, das beispielsweise für Aufgaben des Natural Language Processings wie Named Entity Recognition (NER) oder Part-of-Speech-Tagging (POS-Tagging) einsetzbar ist. Es kombiniert Bidirectional Long Short-term Memory mit einem CRF-Layer (Conditional Random Field Layer). Auf BiLSTM-CRF basierende Netzwerke erzielen gute NER- und POS-Tagging-Ergebnisse.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Das Akronym BiLSTM-CRF steht für Bidirectional Long Short-term Memory with Conditional Random Field. Es handelt sich um ein Modell für neuronale Netzwerke, das bidirektionales Long Short-term Memory (LSTM) mit einem CRF-Layer (Conditional Random Field Layer Layer) kombiniert. Solche Netzwerke lassen sich beispielsweise für Aufgaben im Natural Language Processing wie Named Entity Recognition (NER) oder Part-of-Speech-Tagging (POS-Tagging) einsetzen.

Durch die Kombination von BiLSTM und CRF ergeben sich einige Vorteile. Auf diese Kombination basierende neuronale Netzwerke zeigen sich robust und erzielen gute Ergebnisse bei Sequenz-Tagging-Aufgaben wie NER oder POS-Tagging. Es existieren zahlreiche Implementierungen des BiLSTM-CRF-Modells, zum Beispiel für die auf Maschinelles Lernen (ML) ausgerichtete Open-Source-Programmbibliothek PyTorch.

Herausforderungen bei NLP-Aufgaben

Das Sequenz-Tagging ist eine typische Aufgabe des Natural Language Processings. Zum Sequenz-Tagging werden Part-of-Speech-Tagging (POS-Tagging) und Named Entity Recognition (NER) gezählt. Gutes und genaues Sequenz-Tagging verbessert die Leistungsfähigkeit von NLP-Anwendungen wie maschinellen Übersetzungen, das Beantworten von Fragen oder das Extrahieren von Informationen.

Beim Part-of-Speech-Tagging werden Wörter und Satzzeichen unter Berücksichtigung der Definition eines Wortes und des Kontexts eines Textes den verschiedenen Wortarten zugeordnet. Named Entity Recognition identifiziert anhand von Namen Objekte eines Textes wie Personen, Organisationen, Ereignisse oder Orte, klassifiziert sie und ordnet sie vordefinierten Kategorien zu. NER kann auf vorgegebenen grammatikalischen Regeln basieren oder Maschinelles Lernen und statistische Modelle verwenden. Vorteil der auf statistischen Modellen und ML basierenden Methoden ist, dass sich die Modelle trainieren und sich NER-Aufgaben hochgradig automatisieren lassen. Voraussetzung ist, dass genügend qualifizierte und gelabelte Trainingsdaten zur Verfügung stehen.

Die Einzelkomponenten von BiLSTM-CRF

BiLSTM-CRF-Modelle setzen sich aus den beiden Komponenten Bidirectional Long Short-term Memory und Conditional Random Field zusammen. Zum besseren Verständnis zunächst kurze Beschreibungen der Einzelkomponenten.

BiLSTM ist ein bidirektionales Long Short-Term Memory (LSTM). Wörtlich übersetzt bedeutet LSTM „langes Kurzzeitgedächtnis“. Es handelt sich um ein Modell, mit dem sich die Leistungsfähigkeit rekurrenter neuronaler Netzwerke (RNN) für bestimmte Aufgaben verbessern lässt. Mithilfe von LSTM erhalten die rekurrenten neuronalen Netzwerke, in einfachen Worten beschrieben, die Fähigkeit, sich an frühere Erfahrungen und Langzeitabhängigkeiten zu erinnern und diese in den Entscheidungsprozessen zu berücksichtigen. Sie bekommen quasi ein lang anhaltendes Kurzzeitgedächtnis und müssen vergleichbar mit den Abläufen im menschlichen Gehirn nicht jede Aufgabe oder jedes Problem grundlegend von Anfang an versuchen zu lösen. Das neuronale Netzwerk kann auf bereits erworbenes Wissen und schon gemachte Erfahrungen zurückgreifen. Die in den tieferen Schichten der mehrschichtigen rekurrenten neuronalen Netze verborgenen Informationen werden leichter auffindbar und stehen dem neuronalen Netz zur Verfügung.

LSTM-Zellen „wissen“, wie lange Informationen gespeichert bleiben sollen, wann etwas vergessen werden darf und woran sich erinnert werden soll. Ein bidirektionales Long Short-Term Memory arbeitet, einfach ausgedrückt, in Vorwärts- und Rückwärtsrichtung und hat Zugriff auf vorangegangenen und nachfolgenden Input. Es besteht aus zwei LSTM-Netzwerken: eins für die Verarbeitung des Inputs in Vorwärts- und eins für die Verarbeitung des Inputs in Rückwärtsrichtung. Dadurch berücksichtigt es für jede Eingabesequenz sowohl vorwärts- als auch rückwärtsgerichtete Informationen. Durch die Berücksichtigung vorhergehender und nachfolgenden Informationen lässt sich der Kontext besser erfassen und verstehen.

Conditional Random Field

Conditional Random Field ist ein ungerichtetes statistisches Modell, das für das Tagging sequenzieller Daten einsetzbar ist. Es berücksichtigt den Kontext und bildet die Vorhersagen in einem grafischen Modell ab. Beispielsweise hängt bei einem linearen CRF der für ein Wort zu vergebende Tag von der vorhergehenden Wortsequenz ab. Ein grundsätzliches Problem solch linearer CRF-Graphen ist, dass sie nur begrenzten Kontext berücksichtigen.

Die Kombination von bidirektionalem Long Short-Term Memory und Conditional Random Field verbessert die Leistungsfähigkeit eines Modells beispielsweise für NER-Aufgaben. Indem zwischen der Eingabeebene (Texte) und dem CRF-Layer das bidirektionale LSTM-Netzwerk eingefügt wird, erhält der CRF-Layer den Output des bidirektionalen LSTM-Netzwerks als Input und damit erweiterte Informationen über den Kontext und das Umfeld der zu taggenden Sequenz. Der CRF-Layer trifft anschließend seine Vorhersagen und klassifiziert auf Basis des BiLSTM-Outputs und mithilfe seines linearen Logikmodells.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48106663)