Definition Was ist BERT?

Bidirectional Encoder Representations from Transformers (BERT) ist eine ursprünglich von Google entwickelte Technik für das Pretraining von Transformer-basierten NLP-Modellen. Die mit BERT bidirektional trainierten Sprachmodelle erfassen Beziehungen und kontextuelle Zusammenhänge der Wörter besser. BERT ist für verschiedene Anwendungen wie Frage-Antworten-Systeme einsetzbar. Google hat die BERT-Technik in die eigene Google-Suche implementiert.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Das Akronym BERT steht für Bidirectional Encoder Representations from Transformers. Es handelt sich um eine von Google entwickelte und im Jahr 2018 vorgestellte Technik des maschinellen Lernens und Pretrainings von Transformer-basierten Natural-Language-Processing-Modellen (NLP-Modelle). Der Algorithmus ist als Open Source verfügbar und für verschiedene Anwendungen wie Frage-Antworten-Systeme nutzbar.

Mit BERT trainierte Sprachmodelle erfassen die kontextuellen Zusammenhänge und Beziehungen der Wörter besser. Es entsteht ein tieferes Verständnis der Sprache. BERT arbeitet bidirektional und verwendet künstliche neuronale Netze. Durch die spezielle Art des Lernens von BERT hat das Natural Language Processing einen deutlichen Leistungsschub erfahren.

Rund um BERT ist inzwischen ein umfangreiches Ökosystem an NLP-Algorithmen und -Anwendungen entstanden. Google selbst stellt mehrere mit BERT vortrainierte Sprachmodelle zur Verfügung. Für das Training dieser Modelle kamen leistungsfähige Tensor Processing Units (TPUs) zum Einsatz. Als Trainingsdaten dienten unter anderem Wikipedia-Texte mit mehreren Milliarden Wörtern. 2019 implementierte Google Bidirectional Encoder Representations from Transformers im englischsprachigen Raum in die Google-Suche. Andere Sprachen folgten. Dank des BERT-Updates erfasst die Google-Suche den Kontext von Long-Tail-Suchanfragen deutlich besser. Weitere Beispiele für Anwendungen von BERT sind das Generieren oder das Zusammenfassen von Text.

Grundlagen

BERT ist ein Algorithmus für das Pretraining Transformer-basierter Sprachmodelle. Die Transformer-Technik hat sich in den letzten Jahren zu einer Art Standard für das Natural Language Processing entwickelt. NLP beschäftigt sich mit der Analyse und Verarbeitung von Text und natürlicher Sprache. Maschinen sollen mit NLP in die Lage versetzt werden, Text zu verstehen, mit Menschen zu kommunizieren und Fragen zu beantworten.

Transformer-basierte Modelle haben die weniger leistungsfähigen rekurrenten Sprachmodelle mit sequenzieller Bearbeitung der Eingangsdaten wie LSTM oder Seq2Seq abgelöst. Die Transformer-Technik nutzt sogenannte Selbstaufmerksamkeitsmechanismen und verzichtet auf rekurrente Strukturen. Sie ist in der Lage, nicht nur die Bedeutung einzelner Wörter in einem Satz zu erfassen, sondern „versteht“ auch kontextuelle Zusammenhänge und erkennt Füllwörter. Der Beziehung eines Worts mit jedem anderen Wort eines Satzes wird bestimmt. Technisch bestehen die Transformer aus in Reihe geschalteten Kodierern und Dekodierern sowie Self-Attention- und Feedforward-Modulen. Eingabesequenzen werden in eine Vektordarstellung überführt. Als Eingabesequenz können einzelne Sätze oder ganze Textabsätze verarbeitet werden.

Die Funktionsweise von BERT

Im Kern basiert BERT auf Transformer-Sprachmodellen mit einer bestimmten Anzahl an Encoder- und Decoder-Schichten und Selbstaufmerksamkeitsmechanismen. Wie für Transformer-Modelle üblich, verarbeitet BERT Texteingaben nicht sequenziell von links nach rechts, sondern bidirektional. Die Bidirektionalität ist abgebildet, indem BERT alle Wörter einer Eingabesequenz gleichzeitig verarbeitet.

Die Sequenzen werden sowohl vom Anfang als auch vom Ende her analysiert. Dadurch entsteht ein besseres Verständnis für die kontextuellen Beziehungen der analysierten Wörter. Das Training erfolgt mit einem möglichst großen Textkorpus. Es ist langwierig und rechenintensiv. Anschließend findet ein Finetuning der Modelle zur Optimierung für spezifische NLP-Aufgaben mit kleineren Datensätzen statt. Die für BERT-Modelle verwendeten tiefen neuronalen Netzwerke (Deep Neural Networks – DNNs) bestehen aus vielen Neuronen-Schichten und können komplexe Zusammenhänge abbilden.

Typische Anwendungen von BERT

Rund um BERT ist in den letzten Jahren ein eigenes Ökosystem an NLP-Algorithmen und -Anwendungen entstanden. Google selbst hat BERT in die Google-Suche implementiert. Seit 2019 wird Bidirectional Encoder Representations from Transformers für Suchanfragen im englischsprachigen Raum verwendet. Weitere Sprachen folgten. Dank dem tieferen Textverständnis von BERT versteht die Google-Suche sogenannte Long-Tail-Suchanfragen wesentlich besser und liefert Ergebnisse mit höherer Relevanz für diese Art von Suchanfragen. Fragen lassen sich auf natürliche Art stellen und werden passend beantwortet, ähnlich einem Frage-Antwort-Ablauf zwischen Menschen.

BERT hat seine Leistungsfähigkeit für zahlreiche weitere typische NLP-Aufgaben unter Beweis gestellt. In NLP-Benchmarks wie GLUE (General Language Understanding Evaluation), SQuAD (Stanford Question Answering Dataset) oder SWAG (Situations With Adversarial Generations) erzielten BERT-Sprachmodelle sehr gute Ergebnisse.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

BERT eignet sich prinzipiell für alle NLP-Anwendungen sehr gut, die die Semantik der Texte erfassen sollen. Typische Anwendungen der mit der BERT-Technik trainierten Sprachmodelle sind:

  • Fragen-Antworten-Systeme wie Chatbots
  • Stimmungsanalyse von Texten
  • Erkennen von Entitäten
  • Generieren von Texten
  • Zusammenfassen von Texten

(ID:48296599)