Definition Was ist der Lesk-Algorithmus?

Anbieter zum Thema

Der Lesk-Algorithmus kommt in der Computerlinguistik und linguistischen Datenverarbeitung zum Einsatz. Mit dem Algorithmus lässt sich die in einem vorliegenden Text beabsichtigte Bedeutung von mehrdeutigen Wörtern bestimmen. Dieser Vorgang wird als Wortsinn-Disambiguierung (im Englischen: Word Sense Disambiguation – WSD) bezeichnet. Der Lesk-Algorithmus stützt sich auf maschinenlesbare Wörterbücher und sucht nach größtmöglichen Überlappungen im Kontext der mehrdeutigen Begriffe.

(Bild: © aga7ta - stock.adobe.com )

Der Lesk-Algorithmus wurde von Michael E. Lesk im Jahr 1986 entwickelt und beschrieben. Es handelt sich um einen in der Computerlinguistik und der linguistischen Datenverarbeitung verwendeten Algorithmus, mit dem sich die Bedeutung mehrdeutiger Wörter in einem vorliegenden Texte bestimmten lässt. Der Vorgang dieser Bedeutungsbestimmung wird als Wortsinn-Disambiguierung bezeichnet. Der englische Begriff lautet Word Sense Disambiguation, abgekürzt WSD.

Mehrdeutige Wörter stellen für die maschinelle Verarbeitung von Texten und Sprache wie das maschinenbasierte Übersetzen oder Beantworten von Fragestellungen ein Problem dar. Nur wenn die Bedeutung mehrdeutiger Begriffe von den Rechnern erfasst werden kann, erzielt die Computerlinguistik die gewünschten Ergebnisse. Die Grundidee des Lesk-Algorithmus besteht darin, Wörterbuchdefinitionen für die Wortsinn-Disambiguierung mehrdeutiger Begriffe heranzuziehen. Der Algorithmus vergleicht die weiteren im unmittelbaren Kontext der mehrdeutigen Begriffe verwendeten Wörter mit den maschinenlesbaren Definitionen der Wörterbücher und sucht nach größtmöglichen Übereinstimmungen. Je höher die Übereinstimmungen sind, desto wahrscheinlicher ist es, dass es sich tatsächlich um die Wortbedeutung einer bestimmten Definition handelt. Der Lesk-Algorithmus ist sehr bekannt und wird häufig in seiner ursprünglichen Form oder in weiterentwickelten Formen in der Computerlinguistik angewandt.

Grundlagen der Wortsinn-Disambiguierung

In allen Sprachen existieren Wörter und Ausdrücke, die verschiedene Bedeutungen haben können. Deutsche mehrdeutige Wörter sind zum Beispiel Bank (Sitzbank, Geldinstitut), Maus (Tier, Computermaus), Kiefer (Körperteil, Baum) oder Strauß (Vogel, Blumenstrauß). Bei diesen mehrdeutigen Wörtern und Ausdrücken kann es sich wie in den genannten Beispielen um Substantive, aber auch um weitere Wortarten wie Verben, Adjektive und andere handeln. Die tatsächliche Bedeutung der Wörter oder Ausdrücke ergibt sich durch den Kontext, in dem sie gebraucht werden.

Der Mensch erkennt die jeweilige Bedeutung mehr oder weniger unbewusst aufgrund seines erworbenen Wissens und seiner gemachten Erfahrungen. Computer benötigen für die Auflösung mehrdeutiger Begriffe entsprechende Regeln. Der Vorgang des Auflösens von Mehrdeutigkeiten wird in der Computerlinguistik und linguistischen Datenverarbeitung als Word Sense Disambiguation (WSD) bezeichnet. Der deutsche Begriff lautet Wortsinn-Disambiguierung.

WSD wird bei computerlinguistischen Aufgabenstellungen wie maschinelle Übersetzungen, maschinelles Beantworten von Fragen oder die automatisierte Gewinnung von Informationen eingesetzt. Ohne WSD sind Maschinen nicht in der Lage, natürliche Sprache korrekt zu verstehen. Für WSD werden häufig Algorithmen und Verfahren aus dem Umfeld der Künstlichen Intelligenz (KI), des maschinellen Lernens (ML) und künstlicher neuronaler Netzwerke verwendet (KNN). Die grundsätzliche Vorgehensweise der Bedeutungsklärung besteht im Wesentlichen aus drei Schritten. Zunächst müssen alle mehrdeutigen Ausdrücke und Wörter eines Textes identifiziert werden. Im nächsten Schritt werden mögliche Bedeutungen der mehrdeutigen Wörter und Ausdrücke gesucht. Im letzten Schritt findet die Ermittlung und Zuweisung der tatsächlich beabsichtigten Bedeutung statt.

Für die Wortsinn-Disambiguierung existieren verschiedene Methoden. Es kann zwischen einfachen (flachen) und fortgeschrittenen (tiefen) Ansätzen unterschieden werden. Flache Ansätze arbeiten mit einfachen Regeln. Tiefe Ansätze greifen auf Wissen, erweiterten Kontext und Textverständnis zurück. Sie lassen sich in die drei Kategorien überwachte Methoden, unüberwachte Methoden oder lexikalische und wissensbasierte Methoden einteilen und erfordern ein höheres Maß an Rechenleistung.

Überwachte Methoden

Überwachte Methoden arbeiten mit Machine-Learning-Modellen, die mit bereits vollständig disambiguierten Datensätzen trainiert wurden. Im Training lernen die Modelle mehrdeutige Wörter und Ausdrücke mit der richtigen Bedeutung zu klassifizieren. Dieses erworbene Wissen lässt sich anschließend auf beliebige Texte (Datensätze) anwenden. Unüberwachte Methoden sind in der Lage, den Wortsinn ohne speziell annotierte Trainingsdatensätze zu bestimmen. Sie entwickeln im Training aus Rohtexten und Informationen über mehrdeutige Wörter oder Ausdrücke Klassifizierungsregeln für beliebige Texte. Lexikalische und wissensbasierte Methoden nutzen maschinenlesbare Wörterbücher und Definitionen für die Wortsinn-Disambiguierung. Der Lesk-Algorithmus zählt zu dieser Kategorie von Methoden.

Grundsätzliche Funktionsweise des Lesk-Algorithmus

Um die tatsächlich beabsichtigte Bedeutung mehrdeutiger Wörter und Ausdrücke zu bestimmen, greift der Lesk-Algorithmus auf maschinenlesbare Wörterbücher zurück. Er betrachtet den mehrdeutigen Begriff samt dessen Kontext (die umgebenden Wörter im Satz oder Text) und sucht nach größtmöglichen Überlappungen (gleiche Wörter) in den jeweiligen Bedeutungsdefinitionen der Wörterbücher. Die größtmögliche Überlappung bestimmt letztendlich die tatsächliche Bedeutung des mehrdeutigen Begriffs.

Auf Basis des Lesk-Algorithmus existieren zahlreiche Erweiterungen und Optimierungen. Es gibt beispielsweise Algorithmen, die netzwerkbasierte Ressourcen wie das semantisch strukturierte, maschinenlesbare Wörterbuch WordNet nutzen oder mit co-occurrence Matrizen und Vektoren arbeiten.

(ID:48406835)