Definition Was ist Part-of-Speech-Tagging (POS-Tagging)?

Anbieter zum Thema

Automatisiertes Part-of-Speech-Tagging, kurz: POS-Tagging, ist eine Teildisziplin der Computerlinguistik. Aufgabe des POS-Taggings ist es, den Wörtern eines Textes die jeweils passende Wortart zuzuordnen. Wortarten sind beispielsweise Nomen, Verb, Adverb, Pronomen, Konjunktion, Artikel und andere. Für verschiedene Sprachen existieren Standard-Tag-Sets, in denen die verfügbaren Wortart-Tags definiert sind. Zum Taggen kommen unterschiedliche Verfahren wie überwachtes oder unüberwachtes maschinelles Lernen zum Einsatz.

(Bild: © aga7ta - stock.adobe.com)

Part-of-Speech-Tagging (Kurzschreibweise POS-Tagging) bezeichnet den Vorgang, einzelnen Wörtern eines Textes jeweils die passende Wortart zuzuordnen. Diese Zuordnung kann manuell oder automatisiert erfolgen. Das automatisierte POS-Tagging ist eine Teildisziplin der Computerlinguistik (im Englischen als Natural Language Processing bezeichnet). Zusammen mit anderen Teildisziplinen wie Named Entity Recognition (NER) liefert POS-Tagging die Grundlage, natürlichsprachige Texte und ihre Bedeutung maschinell zu erfassen und zu verarbeiten.

Beim POS-Tagging zugeordnete Wortarten sind beispielsweise Nomen, Verb, Adverb, Pronomen, Konjunktion, Artikel und andere. Part-of-Speech-Tagging berücksichtigt neben der lexikalischen Definition eines Wortes mit den umgebenden Wörtern im Satz auch dessen Kontext. Für die Wortarten sind in den verschiedenen Sprachen sogenannte Tag-Sets definiert. Bekannte Standard-Tag-Sets sind das Stuttgart-Tübingen-Tag-Set (STTS) mit 54 verschiedenen Tags für die deutsche Sprache oder das Penn-Treebank-Tag-Set mit 36 POS-Tags für die englische Sprache. Die Tag-Sets enthalten die Hauptkategorien der Wortarten und unterteilen diese weiter, beispielsweise in Imperativ-, Infinitiv- oder Vergangenheitsformen von Verben.

Für das POS-Tagging kommen unterschiedliche Verfahren wie überwachtes oder unüberwachtes maschinelles Lernen zum Einsatz. Moderne POS-Tagger erzielen Erfolgsquoten im hohen 90-Prozentbereich. Ein bekanntes stochastische Modell, das für das POS-Tagging verwendet wird, ist zum Beispiel das Hidden-Markov-Modell.

Ablauf beim Part-of-Speech-Tagging

Unabhängig von den verschiedenen Verfahren des POS-Taggings lässt sich der prinzipielle Ablauf des Zuordnens der passenden Wortarten zu den einzelnen Wörtern eines Texts in die folgenden Arbeitsschritte aufteilen.

Zunächst wird der Text tokenisiert. Das Tokenisieren zerlegt den Text in Sätze und jeden Satz in Token. Anschließend bestimmt der Tagger alle möglichen Wortarten (Tags) für jeden Token. Bei den Tags bedient er sich den sogenannten Tag-Sets. Für die verschiedenen Sprachen existieren jeweils Standard-Tag-Sets, die sich von Sprache zu Sprache stark unterscheiden können und unterschiedlich detailliert sind. Häufig verwendete Standard-Tag-Sets sind das Stuttgart-Tübingen-Tag-Set (STTS) mit 54 verschiedenen Tags für die deutsche Sprache, das Penn-Treebank-Tag-Set mit 36 POS-Tags für die englische Sprache oder das PAROLE-Tag-Set für verschiedene europäische Sprachen.

In den Tag-Sets verwendete gebräuchliche Tags sind beispielsweise NN für Nomen, AT für Artikel, VB für Verb oder VBD für Verb Vergangenheit. Standard-Tag-Sets müssen nicht zwingend verwendet werden, da für das POS-Tagging auch individuelle Tag-Sets entwickelt werden können. Im letzten Schritt des POS-Taggings ermittelt der Tagger bei mehreren möglichen Tags für ein einzelnes Token den wahrscheinlich richtigen Tag, indem er den Kontext berücksichtigt und Mehrdeutigkeiten mithilfe definierter Regeln oder stochastischer Modelle auflöst.

POS-Tagging-Verfahren

Um Texte computerbasiert zu verarbeiten und das Part-of-Speech-Tagging nicht manuell vornehmen zu müssen, wurden im Laufe der Jahre zahlreiche Verfahren entwickelt. Sie automatisieren das Zuordnen der passenden Wortarten und werden auch als Tagger bezeichnet. Dank leistungsfähiger Tagger-Software lassen sich riesige Textmengen automatisiert mit hoher Geschwindigkeit taggen und weiteren NLP-Prozessen zuführen. Moderne POS-Tagger erzielen Erfolgsquoten im hohen 90-Prozentbereich.

Auf die vielen verschiedenen Verfahren und mathematischen beziehungsweise stochastischen Modelle des POS-Taggings einzugehen, würde den Rahmen dieser Definition sprengen. Häufig kommen Machine-Learning-Modelle zum Einsatz. Sie werden zunächst mithilfe von vorbereiteten Daten (annotierten Daten) trainiert und lernen während dieses Trainings den einzelnen Wörtern die richtigen Wortarten zuzuordnen. Für verschiedene Sprachen existieren zahlreiche bereits annotierte Datensätze, die sich für das Training der Modelle nutzen lassen wie der NEGRA Korpus oder TIGER Treebank für die deutsche Sprache.

Die Modelle berücksichtigen beim Taggen den semantischen und syntaktischen Kontext der Wörter und können bei Mehrdeutigkeiten den jeweils wahrscheinlichsten Tag ermitteln. Neben Verfahren mit überwachtem maschinellem Lernen, gibt es auch Verfahren mit unüberwachtem maschinellem Lernen, die in der Lage sind, eigene Tag-Sets zu entwickeln.

POS-Tagging mit BiLSTM-CRF-basierten Modellen

Sogenannte BiLSTM-CRF-basierte Modelle erzielen in NLP-Disziplinen wie POS-Tagging oder Named Entity Recognition (NER) hohe Erfolgsquoten. BiLSTM-CRF steht für Bidirectional Long Short-term Memory with Conditional Random Field. Bei diesen Modellen sind künstliche neuronale Netze mit bidirektionalem Long Short-term Memory (LSTM) und einem CRF-Layer (Conditional Random Field Layer) ausgestattet. Die Kombination von BiLSTM und CRF sorgt für gute Ergebnisse bei typischen Sequenz-Tagging-Aufgaben wie NER oder POS-Tagging. Es existieren verschiedene Implementierungen wie für die Machine-Learning-Open-Source-Programmbibliothek PyTorch.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Anwendungen und Einsatzmöglichkeiten des POS-Taggings

POS-Tagging bildet neben andern NLP-Teildisziplinen wie Named Entity Recognition die Grundlage zur maschinellen Erfassung der Bedeutung von natürlichsprachigen Texten und deren computerbasierten Verarbeitung. Das Part-of-Speech-Tagging kommt für automatisierte Analysen und die Extraktion von Informationen großer Textmengen zum Einsatz. Typische Einsatzmöglichkeiten von Natural Language Processing mit POS-Tagging sind:

  • das Verschlagworten von Texten
  • das Sortieren und Filtern von Kundenanfragen
  • das Beantworten von Online-Suchanfragen
  • das wissenschaftliche Arbeiten mit Texten
  • die Extraktion von Informationen aus klinischen Texten
  • automatisierte Empfehlungssysteme
  • das Erkennen von Trends in Texten

(ID:48462351)