Definition Was ist Stemming?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Stemming ist ein Verfahren, das verschiedene Varianten eines Worts auf seine Stammform zurückführt. Es kommt in der linguistischen Informatik zum Einsatz und wird beispielsweise von Suchmaschinen oder im Natural Language Processing verwendet. Es existieren verschiedene Verfahren und Algorithmen für das Stemming. Das lexikonbasierte Stemming wird auch als Lemmatisierung bezeichnet.

Firma zum Thema

(Bild: © aga7ta - stock.adobe.com)

Der deutsche Ausdruck für Stemming lautet Stammformreduktion. Der Begriff stammt aus der Sprachwissenschaft und der linguistischen Informatik. Stemming wird eingesetzt, um verschiedene Varianten eines Worts wie Wortdeklinationen oder Konjugationen von Verben auf eine gemeinsame Stammform zurückzuführen. Neben der Reduktion auf die Stammform werden auch Suffixe oder Präfixe entfernt oder gekürzt.

Stemming ist ein Arbeitsschritt im Natural Language Processing (NLP) und wird von Suchmaschinen für bessere und relevantere Suchergebnisse verwendet. Bereits seit den 1960er-Jahren existieren Algorithmen, mit denen sich das Stemming von Wörtern computerbasiert durchführen lässt. Als ein Quasi-Standard-Algorithmus für das Stemming englischer Texte hat sich der 1980 entwickelte Porter-Stemmer-Algorithmus etabliert. Für verschiedene Sprachen kommen abgewandelte Stemming-Algorithmen zum Einsatz. Sie sind für die jeweiligen Eigenheiten und grammatikalischen Besonderheiten der Sprachen optimiert.

Die verschiedenen Stemming-Algorithmen und -Verfahren

Für das Stemming von Wörtern verschiedener Sprachen existieren zahlreiche unterschiedliche Algorithmen. In der Regel werden die Algorithmen experimentell verifiziert, indem sie praktisch auf Texte angewandt und getestet werden. Der Porter-Stemmer-Algorithmus ist einer in der linguistischen Informatik verbreitetsten Algorithmen. Er beinhaltet zahlreiche Verkürzungsregeln, die ein morphologisch verändertes Wort unter anderem auf eine Minimalzahl an Silben reduziert.

Der Porter-Stemmer-Algorithmus wurde ursprünglich für englischsprachige Texte entwickelt, lässt sich mit einigen Anpassungen aber auch für andere Sprachen wie für Deutsch verwenden. Weitere Stemming-Verfahren und -Algorithmen sind der KSTEM-Algorithmus und verschiedene N-Gramm-Verfahren. Das sogenannte lexikonbasierte Stemming wird als Lemmatisierung bezeichnet. Es verwendet für die Stammformreduktion lexikalische Informationen.

Abgrenzung von Stemming und Lemmatisierung

Stemming und lexikalisches Stemming (Lemmatisierung) haben beide das Ziel, die Stammform morphologisch veränderte Wörter zu finden. Stemming und Lemmatisierung unterscheiden sich jedoch in ihrer grundsätzlichen Herangehensweise an diese Aufgabe. Stemming-Algorithmen arbeiten meist mit Verkürzungsregeln, die Suffixe oder Präfixe entfernen und die Silben der Wörter auf ihre Minimalzahl reduzieren. Die Lemmatisierung hingegen nutzt Wörterbücher (lexikalisches Wissen), um Stammformen zu finden. Mit der Lemmatisierung ist es möglich, beispielsweise die Stammformen unregelmäßiger Verben oder andere nicht auf den ersten Blick erkennbare Stammformabhängigkeiten zu identifizieren. Zur Verdeutlichung: Mit reinen Verkürzungsregeln lässt sich das Wort „besser“ nicht auf den Wortstamm „gut“ reduzieren. Die Lemmatisierung schafft dies aufgrund des lexikalischen Wissens problemlos.

Stemming und die Bedeutung für das Natural Language Processing

Ziel des Natural Language Processings, abgekürzt NLP, ist es, Sprache und Texte für Computer „verstehbar“ zu machen. Für dieses Ziel verwendet das NLP verschiedene Methoden, Techniken, Algorithmen und Wissen aus der Sprachwissenschaft, der Informatik, der Künstlichen Intelligenz, des Deep Learnings und des Machine Learnings. Um den Sinn eines Textes zu extrahieren, ist es notwendig, nicht nur die Bedeutung einzelner Wörter zu identifizieren, sondern komplette Sätze, Satzzusammenhänge und komplexe Sachverhalte zu verstehen. Die Mehrdeutigkeit der Sprache stellt für das Natural Language Processing eine Herausforderung dar.

Das Natural Language Processing läuft in der Regel in zahlreichen hintereinander stattfindenden Arbeitsschritten ab. Stemming oder Lemmatisierung sind einzelne Arbeitsschritte dieses Prozesses. Der erste Schritt des Natural Language Processings ist die Tokenisierung. Sie zerlegt den Text in Token wie Wörter, Satzzeichen, Leerzeichen oder andere Objekte. Anschließend werden Stammformen identifiziert, grammatikalische Grundformen gefunden, per Part-of-speech (POS) Tagging Wortarten zugeordnet, Wörtern Funktionen innerhalb des Satzes zugeteilt, Bedeutungen der einzelner Wörter oder ganzer Sätze extrahiert, Objekte, Personen oder Orte benannt, Ähnlichkeitsanalysen durchgeführt, Sätze miteinander in Beziehung gesetzt und Einiges mehr.

Stemming und die Bedeutung für Suchmaschinen

Für Suchmaschinen ist Stemming ebenfalls von Bedeutung. Um Suchanfragen zu verbessern und die Relevanz der Suchergebnisse zu optimieren, setzen Suchmaschinenbetreiber wie Google seit vielen Jahren das Stemming ein. Der Suchalgorithmus wird mit Stemming in die Lage versetzt, die Stammform eines eingegebenen Suchbegriffs bei der Suche zu berücksichtigen. Große Indexe werden leichter durchsuchbar und die Suche beschleunigt. Zudem werden ähnliche oder verwandte Begriffe gefunden.

Auch Duplicate Content lässt sich mithilfe des Stemmings leichter identifizieren. Die Suchmaschine ist durch die Stammformreduktion in der Lage, zu erkennen, dass es sich bei einem Text lediglich um eine umformulierte Variante eines Originals handelt. Das Stemming von Suchanfragen lässt sich umgehen, indem der Suchbegriff in Anführungszeichen gesetzt wird. Nur dann wird genau nach dieser Wortform oder Wortkombination gesucht.

(ID:47000357)

Über den Autor