Was ist der Lesk-Algorithmus?

Definition Was ist der Lesk-Algorithmus?

09.06.2022 Von Dipl.-Ing. (FH) Stefan Luber

Der Lesk-Algorithmus kommt in der Computerlinguistik und linguistischen Datenverarbeitung zum Einsatz. Mit dem Algorithmus lässt sich die in einem vorliegenden Text beabsichtigte Bedeutung von mehrdeutigen Wörtern bestimmen. Dieser Vorgang wird als Wortsinn-Disambiguierung (im Englischen: Word Sense Disambiguation – WSD) bezeichnet. Der Lesk-Algorithmus stützt sich auf maschinenlesbare Wörterbücher und sucht nach größtmöglichen Überlappungen im Kontext der mehrdeutigen Begriffe.

Der Lesk-Algorithmus wurde von Michael E. Lesk im Jahr 1986 entwickelt und beschrieben. Es handelt sich um einen in der Computerlinguistik und der linguistischen Datenverarbeitung verwendeten Algorithmus, mit dem sich die Bedeutung mehrdeutiger Wörter in einem vorliegenden Texte bestimmten lässt. Der Vorgang dieser Bedeutungsbestimmung wird als Wortsinn-Disambiguierung bezeichnet. Der englische Begriff lautet Word Sense Disambiguation, abgekürzt WSD.

Mehrdeutige Wörter stellen für die maschinelle Verarbeitung von Texten und Sprache wie das maschinenbasierte Übersetzen oder Beantworten von Fragestellungen ein Problem dar. Nur wenn die Bedeutung mehrdeutiger Begriffe von den Rechnern erfasst werden kann, erzielt die Computerlinguistik die gewünschten Ergebnisse. Die Grundidee des Lesk-Algorithmus besteht darin, Wörterbuchdefinitionen für die Wortsinn-Disambiguierung mehrdeutiger Begriffe heranzuziehen. Der Algorithmus vergleicht die weiteren im unmittelbaren Kontext der mehrdeutigen Begriffe verwendeten Wörter mit den maschinenlesbaren Definitionen der Wörterbücher und sucht nach größtmöglichen Übereinstimmungen. Je höher die Übereinstimmungen sind, desto wahrscheinlicher ist es, dass es sich tatsächlich um die Wortbedeutung einer bestimmten Definition handelt. Der Lesk-Algorithmus ist sehr bekannt und wird häufig in seiner ursprünglichen Form oder in weiterentwickelten Formen in der Computerlinguistik angewandt.

Grundlagen der Wortsinn-Disambiguierung

In allen Sprachen existieren Wörter und Ausdrücke, die verschiedene Bedeutungen haben können. Deutsche mehrdeutige Wörter sind zum Beispiel Bank (Sitzbank, Geldinstitut), Maus (Tier, Computermaus), Kiefer (Körperteil, Baum) oder Strauß (Vogel, Blumenstrauß). Bei diesen mehrdeutigen Wörtern und Ausdrücken kann es sich wie in den genannten Beispielen um Substantive, aber auch um weitere Wortarten wie Verben, Adjektive und andere handeln. Die tatsächliche Bedeutung der Wörter oder Ausdrücke ergibt sich durch den Kontext, in dem sie gebraucht werden.

Der Mensch erkennt die jeweilige Bedeutung mehr oder weniger unbewusst aufgrund seines erworbenen Wissens und seiner gemachten Erfahrungen. Computer benötigen für die Auflösung mehrdeutiger Begriffe entsprechende Regeln. Der Vorgang des Auflösens von Mehrdeutigkeiten wird in der Computerlinguistik und linguistischen Datenverarbeitung als Word Sense Disambiguation (WSD) bezeichnet. Der deutsche Begriff lautet Wortsinn-Disambiguierung.

WSD wird bei computerlinguistischen Aufgabenstellungen wie maschinelle Übersetzungen, maschinelles Beantworten von Fragen oder die automatisierte Gewinnung von Informationen eingesetzt. Ohne WSD sind Maschinen nicht in der Lage, natürliche Sprache korrekt zu verstehen. Für WSD werden häufig Algorithmen und Verfahren aus dem Umfeld der Künstlichen Intelligenz (KI), des maschinellen Lernens (ML) und künstlicher neuronaler Netzwerke verwendet (KNN). Die grundsätzliche Vorgehensweise der Bedeutungsklärung besteht im Wesentlichen aus drei Schritten. Zunächst müssen alle mehrdeutigen Ausdrücke und Wörter eines Textes identifiziert werden. Im nächsten Schritt werden mögliche Bedeutungen der mehrdeutigen Wörter und Ausdrücke gesucht. Im letzten Schritt findet die Ermittlung und Zuweisung der tatsächlich beabsichtigten Bedeutung statt.

Für die Wortsinn-Disambiguierung existieren verschiedene Methoden. Es kann zwischen einfachen (flachen) und fortgeschrittenen (tiefen) Ansätzen unterschieden werden. Flache Ansätze arbeiten mit einfachen Regeln. Tiefe Ansätze greifen auf Wissen, erweiterten Kontext und Textverständnis zurück. Sie lassen sich in die drei Kategorien überwachte Methoden, unüberwachte Methoden oder lexikalische und wissensbasierte Methoden einteilen und erfordern ein höheres Maß an Rechenleistung.

Überwachte Methoden

Überwachte Methoden arbeiten mit Machine-Learning-Modellen, die mit bereits vollständig disambiguierten Datensätzen trainiert wurden. Im Training lernen die Modelle mehrdeutige Wörter und Ausdrücke mit der richtigen Bedeutung zu klassifizieren. Dieses erworbene Wissen lässt sich anschließend auf beliebige Texte (Datensätze) anwenden. Unüberwachte Methoden sind in der Lage, den Wortsinn ohne speziell annotierte Trainingsdatensätze zu bestimmen. Sie entwickeln im Training aus Rohtexten und Informationen über mehrdeutige Wörter oder Ausdrücke Klassifizierungsregeln für beliebige Texte. Lexikalische und wissensbasierte Methoden nutzen maschinenlesbare Wörterbücher und Definitionen für die Wortsinn-Disambiguierung. Der Lesk-Algorithmus zählt zu dieser Kategorie von Methoden.

Grundsätzliche Funktionsweise des Lesk-Algorithmus

Um die tatsächlich beabsichtigte Bedeutung mehrdeutiger Wörter und Ausdrücke zu bestimmen, greift der Lesk-Algorithmus auf maschinenlesbare Wörterbücher zurück. Er betrachtet den mehrdeutigen Begriff samt dessen Kontext (die umgebenden Wörter im Satz oder Text) und sucht nach größtmöglichen Überlappungen (gleiche Wörter) in den jeweiligen Bedeutungsdefinitionen der Wörterbücher. Die größtmögliche Überlappung bestimmt letztendlich die tatsächliche Bedeutung des mehrdeutigen Begriffs.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Auf Basis des Lesk-Algorithmus existieren zahlreiche Erweiterungen und Optimierungen. Es gibt beispielsweise Algorithmen, die netzwerkbasierte Ressourcen wie das semantisch strukturierte, maschinenlesbare Wörterbuch WordNet nutzen oder mit co-occurrence Matrizen und Vektoren arbeiten.

(ID:48406835)