Definition Was ist GloVe?

GloVe ist ein unüberwachter Lernalgorithmus zur Repräsentation von Wörtern in einem multidimensionalen Vektorraum. Er wurde an der Stanford-Universität entwickelt und stellt Wörter in Form von multidimensionalen Vektoren dar. Die mit dem Algorithmus generierten Worteinbettungen lassen sich für Machine-Learning-Algorithmen und Aufgabenstellungen des Natural Language Processings wie Named Entity Recognition (NER) oder Part-of-Speech Tagging (POS-Tagging) verwenden.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Der Name GloVe steht für „Global Vectors for Word Representation“. GloVe wurde im Jahr 2014 an der Stanford-Universität als ein Open-Source-Projekt entwickelt. Es handelt sich um einen Algorithmus für unüberwachtes Lernen, mit dem sich Wörter in Form von multidimensionalen Vektoren repräsentieren lassen. Anhand der Vektordarstellungen und der Vektordistanz zwischen Wörtern werden Beziehungen und semantische Ähnlichkeiten von Wörtern sichtbar. Beispielsweise können Wörter mit gleichen Bedeutungen (Synonyme), ähnliche Wortbedeutungen für unterschiedliche Geschlechter (zum Beispiel Mann – Frau, König – Königin) oder gleichrangige Verwendungen von Wörtern wie Postleitzahlen und Ortsnamen gefunden werden.

Die mit GloVe generierten Worteinbettungen lassen sich für Aufgaben der Künstlichen Intelligenz (KI) und für Maschinelles Lernen (ML) verwenden. Dadurch werden Aufgaben aus dem Bereich des Natural Language Processings wie Named Entity Recognition (NER), Part-of-Speech Tagging (POS-Tagging) oder Information Retrieval lösbar. GloVe steht unter Apache-Lizenz Version 2.0. Es existieren verschiedene Implementierungen des GloVe-Algorithmus wie die Bibliothek glove-python für die Programmiersprache Python.

Funktionsweise von GloVe

Um Texte mit Computern und Machine-Learning-Algorithmen zu verarbeiten und Aufgaben des Natural Language Processings zu lösen, muss der betreffende Text in einem Format repräsentiert werden, das sich mathematisch verarbeiten lässt. Hierfür kommen beispielsweise Worteinbettungen zum Einsatz. Bei Worteinbettungen handelt sich um gelernte Textdarstellungen, bei denen Wörter in Form von mathematisch erfassbaren Repräsentationen dargestellt sind. Worteinbettungen lassen sich auf verschiedene Art, mit einfachen oder komplexen Algorithmen erzeugen.

GloVe erzeugt Worteinbettungen in Form von Vektoren, die die Wörter in einem definierten multidimensionalen Raum repräsentieren. Jedes Wort bekommt während des unüberwachten Lernvorgangs einen Vektor mit spezifischen Werten zugeordnet. Diese reellen Vektoren können viele Dimensionen haben. Die Vektoren repräsentieren verschiedene Aspekte eines Worts. Ähnliche Wortverwendungen oder semantische Verwandtschaften sind über die Wortrepräsentationen im Vektorraum abbildbar. Aus den Vektordifferenzen lässt sich die Beziehung und Bedeutung der Wörter näher bestimmen.

Grundsätzlich ist der Vorgang des Erstellens der Worteinbettung in zwei Schritte unterteilbar. Zunächst wird unter Verwendung von Statistiken aus dem Korpus eine Kookkurrenz-Matrix erzeugt. Aus dieser Matrix werden die Worteinbettungen generiert. Zur Berechnung der Wortvektoren sind große Textmengen ohne besondere Annotationen ausreichend.

Anwendungsgebiete

Die mit Global Vectors for Word Representation für Wörter erzeugten Vektoren lassen sich für zahlreiche Lösungen von Problemstellungen und Aufgaben im Umfeld des Natural Language Processings (NLP) einsetzen. Wörter werden in Form der von GloVe erstellten Einbettungen mit ihren reellen Vektorwerten dem NLP-Algorithmus übergeben. Anhand der Vektorwerte lassen sich Bedeutungen, Beziehungen und Abhängigkeiten zwischen Wörtern finden. Beispielsweise werden Synonyme, ähnliche Wortverwendungen unterschiedlicher Geschlechter (Mann – Frau, König – Königin) oder Beziehungen wie zwischen Produktnamen und Unternehmen oder Postleitzahlen und Orten gefunden. Die Worteinbettung in Form der Vektordarstellung dient den NLP-Algorithmen als Eingabeinformation und lässt sich für NLP-Aufgaben verwenden wie:

  • Named Entity Recognition (NER)
  • Part-of-Speech Tagging (POS-Tagging)
  • maschinelle Übersetzungen
  • Textzusammenfassungen
  • Textklassifizierung
  • Information Retrieval
  • Beantwortung von Fragen

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48123028)