Automatisiertes Part-of-Speech-Tagging, kurz: POS-Tagging, ist eine Teildisziplin der Computerlinguistik. Aufgabe des POS-Taggings ist es, den Wörtern eines Textes die jeweils passende Wortart zuzuordnen. Wortarten sind beispielsweise Nomen, Verb, Adverb, Pronomen, Konjunktion, Artikel und andere. Für verschiedene Sprachen existieren Standard-Tag-Sets, in denen die verfügbaren Wortart-Tags definiert sind. Zum Taggen kommen unterschiedliche Verfahren wie überwachtes oder unüberwachtes maschinelles Lernen zum Einsatz.
Part-of-Speech-Tagging (Kurzschreibweise POS-Tagging) bezeichnet den Vorgang, einzelnen Wörtern eines Textes jeweils die passende Wortart zuzuordnen. Diese Zuordnung kann manuell oder automatisiert erfolgen. Das automatisierte POS-Tagging ist eine Teildisziplin der Computerlinguistik (im Englischen als Natural Language Processing bezeichnet). Zusammen mit anderen Teildisziplinen wie Named Entity Recognition (NER) liefert POS-Tagging die Grundlage, natürlichsprachige Texte und ihre Bedeutung maschinell zu erfassen und zu verarbeiten.
Beim POS-Tagging zugeordnete Wortarten sind beispielsweise Nomen, Verb, Adverb, Pronomen, Konjunktion, Artikel und andere. Part-of-Speech-Tagging berücksichtigt neben der lexikalischen Definition eines Wortes mit den umgebenden Wörtern im Satz auch dessen Kontext. Für die Wortarten sind in den verschiedenen Sprachen sogenannte Tag-Sets definiert. Bekannte Standard-Tag-Sets sind das Stuttgart-Tübingen-Tag-Set (STTS) mit 54 verschiedenen Tags für die deutsche Sprache oder das Penn-Treebank-Tag-Set mit 36 POS-Tags für die englische Sprache. Die Tag-Sets enthalten die Hauptkategorien der Wortarten und unterteilen diese weiter, beispielsweise in Imperativ-, Infinitiv- oder Vergangenheitsformen von Verben.
Für das POS-Tagging kommen unterschiedliche Verfahren wie überwachtes oder unüberwachtes maschinelles Lernen zum Einsatz. Moderne POS-Tagger erzielen Erfolgsquoten im hohen 90-Prozentbereich. Ein bekanntes stochastische Modell, das für das POS-Tagging verwendet wird, ist zum Beispiel das Hidden-Markov-Modell.
Ablauf beim Part-of-Speech-Tagging
Unabhängig von den verschiedenen Verfahren des POS-Taggings lässt sich der prinzipielle Ablauf des Zuordnens der passenden Wortarten zu den einzelnen Wörtern eines Texts in die folgenden Arbeitsschritte aufteilen.
Zunächst wird der Text tokenisiert. Das Tokenisieren zerlegt den Text in Sätze und jeden Satz in Token. Anschließend bestimmt der Tagger alle möglichen Wortarten (Tags) für jeden Token. Bei den Tags bedient er sich den sogenannten Tag-Sets. Für die verschiedenen Sprachen existieren jeweils Standard-Tag-Sets, die sich von Sprache zu Sprache stark unterscheiden können und unterschiedlich detailliert sind. Häufig verwendete Standard-Tag-Sets sind das Stuttgart-Tübingen-Tag-Set (STTS) mit 54 verschiedenen Tags für die deutsche Sprache, das Penn-Treebank-Tag-Set mit 36 POS-Tags für die englische Sprache oder das PAROLE-Tag-Set für verschiedene europäische Sprachen.
In den Tag-Sets verwendete gebräuchliche Tags sind beispielsweise NN für Nomen, AT für Artikel, VB für Verb oder VBD für Verb Vergangenheit. Standard-Tag-Sets müssen nicht zwingend verwendet werden, da für das POS-Tagging auch individuelle Tag-Sets entwickelt werden können. Im letzten Schritt des POS-Taggings ermittelt der Tagger bei mehreren möglichen Tags für ein einzelnes Token den wahrscheinlich richtigen Tag, indem er den Kontext berücksichtigt und Mehrdeutigkeiten mithilfe definierter Regeln oder stochastischer Modelle auflöst.
POS-Tagging-Verfahren
Um Texte computerbasiert zu verarbeiten und das Part-of-Speech-Tagging nicht manuell vornehmen zu müssen, wurden im Laufe der Jahre zahlreiche Verfahren entwickelt. Sie automatisieren das Zuordnen der passenden Wortarten und werden auch als Tagger bezeichnet. Dank leistungsfähiger Tagger-Software lassen sich riesige Textmengen automatisiert mit hoher Geschwindigkeit taggen und weiteren NLP-Prozessen zuführen. Moderne POS-Tagger erzielen Erfolgsquoten im hohen 90-Prozentbereich.
Auf die vielen verschiedenen Verfahren und mathematischen beziehungsweise stochastischen Modelle des POS-Taggings einzugehen, würde den Rahmen dieser Definition sprengen. Häufig kommen Machine-Learning-Modelle zum Einsatz. Sie werden zunächst mithilfe von vorbereiteten Daten (annotierten Daten) trainiert und lernen während dieses Trainings den einzelnen Wörtern die richtigen Wortarten zuzuordnen. Für verschiedene Sprachen existieren zahlreiche bereits annotierte Datensätze, die sich für das Training der Modelle nutzen lassen wie der NEGRA Korpus oder TIGER Treebank für die deutsche Sprache.
Die Modelle berücksichtigen beim Taggen den semantischen und syntaktischen Kontext der Wörter und können bei Mehrdeutigkeiten den jeweils wahrscheinlichsten Tag ermitteln. Neben Verfahren mit überwachtem maschinellem Lernen, gibt es auch Verfahren mit unüberwachtem maschinellem Lernen, die in der Lage sind, eigene Tag-Sets zu entwickeln.
POS-Tagging mit BiLSTM-CRF-basierten Modellen
Sogenannte BiLSTM-CRF-basierte Modelle erzielen in NLP-Disziplinen wie POS-Tagging oder Named Entity Recognition (NER) hohe Erfolgsquoten. BiLSTM-CRF steht für Bidirectional Long Short-term Memory with Conditional Random Field. Bei diesen Modellen sind künstliche neuronale Netze mit bidirektionalem Long Short-term Memory (LSTM) und einem CRF-Layer (Conditional Random Field Layer) ausgestattet. Die Kombination von BiLSTM und CRF sorgt für gute Ergebnisse bei typischen Sequenz-Tagging-Aufgaben wie NER oder POS-Tagging. Es existieren verschiedene Implementierungen wie für die Machine-Learning-Open-Source-Programmbibliothek PyTorch.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Anwendungen und Einsatzmöglichkeiten des POS-Taggings
POS-Tagging bildet neben andern NLP-Teildisziplinen wie Named Entity Recognition die Grundlage zur maschinellen Erfassung der Bedeutung von natürlichsprachigen Texten und deren computerbasierten Verarbeitung. Das Part-of-Speech-Tagging kommt für automatisierte Analysen und die Extraktion von Informationen großer Textmengen zum Einsatz. Typische Einsatzmöglichkeiten von Natural Language Processing mit POS-Tagging sind:
das Verschlagworten von Texten
das Sortieren und Filtern von Kundenanfragen
das Beantworten von Online-Suchanfragen
das wissenschaftliche Arbeiten mit Texten
die Extraktion von Informationen aus klinischen Texten