Definition Was ist Named Entity Recognition (NER)?
Anbieter zum Thema
Named Entity Recognition (NER) ist eine Teildisziplin der Computerlinguistik. Ihre Aufgabe ist es, Eigennamen (benannte Entitäten) in natürlichsprachigen Texten automatisiert zu erkennen und diese vordefinierten Kategorien zuzuordnen. Eigennamen sind beispielsweise Namen von Personen, Firmennamen, Orte, Ereignisse oder Zeitangaben. NER lässt sich wörterbuchbasiert, regelbasiert oder mithilfe von überwachtem maschinellem Lernen durchführen.

Named Entity Recognition, abgekürzt NER, ist ein Begriff aus dem Umfeld des Natural Language Processing (NLP). NLP, im Deutschen als Computerlinguistik bezeichnet, versucht natürliche Sprache mithilfe von Computern, Regeln und Algorithmen zu erfassen und zu verarbeiten. Als Teildisziplin der Computerlinguistik hat Named Entity Recognition die Aufgabe, Eigennamen (benannte Entitäten) in natürlichsprachigen Texten automatisiert zu erkennen und in vordefinierte Kategorien einzuordnen. Ein deutscher Begriff für Named Entity Recognition ist Eigennamenerkennung. Bei einem Eigennamen handelt es sich um ein Wort oder eine Folge von Wörtern, die eine Entität wie eine Person, ein Unternehmen, einen Ort, ein Ereignis, ein Produkt oder eine Datumsangabe benennt.
Durch das Erkennen und Klassifizieren der Entitäten lassen sich wichtige Informationen extrahieren, die für das Gesamtverständnis der Bedeutung eines Texts unverzichtbar sind. Named Entity Recognition ist daher im semantischen Teil der Computerlinguistik angesiedelt. NER lässt sich wörterbuchbasiert, regelbasiert oder mithilfe von Künstlicher Intelligenz (KI) und maschinellem Lernen (ML) durchführen. Die Automatisierung von NER ermöglicht es, große Textmengen in kurzer Zeit zu verarbeiten und Informationen zu extrahieren.
Computerbasiertes NER erzielt mittlerweile hohe Erfolgsquoten, die sich kaum von der Leistung menschlich ausgeführter Eigennamenerkennung unterscheiden. NER kann daher als ein gelöstes Problem der Computerlinguistik betrachtet werden. Die Erfolgsquoten können sich allerdings von Sprache zu Sprache stark unterscheiden.
Ablauf von Named Entity Recognition und Herausforderungen
Der prinzipielle NER-Ablauf lässt sich in diese zwei Arbeitsschritte unterteilen:
- Identifikation der Eigennamen (benannten Entitäten)
- Einordnung der Eigennamen in vordefinierte Kategorien
Bei einem Eigennamen handelt es sich um ein Wort oder eine Wortfolge, die eine Entität benennt. Beispiele für Eigennamen sind Helmut Kohl, Zugspitze, Dreißigjähriger Krieg, Schwarzwald, Volkswagen, 1. April 2001, Der Schrei oder Ostermontag. Im ersten Schritte des Natural Language Processing werden diese Eigennamen in einem Text identifiziert und als solche mit Anfang und Ende markiert. Im zweiten Schritt erfolgt die Zuordnung der identifizierten und markierten Eigennamen zu den zuvor definierten Kategorien. Beispielkategorien sind Personen, Orte, historische Ereignisse, Firmen, Organisationen, Produkte, Kunstwerke oder Datumsangaben.
Beim Erkennen und Kategorisieren der Eigennamen hat NER zahlreiche Herausforderungen zu bewältigen. Beispielsweise müssen Varianten gleicher Eigennamen identifiziert, Formate normalisiert oder die Entitätsgrenzen eindeutig erkannt werden.
Die verschiedenen NER-Verfahren
Für Named Entity Recognition existieren verschiedene Ansätze und Verfahren. Grundsätzlich kann zwischen wörterbuchbasierten, regelbasierten und Machine-Learning-basierten Verfahren unterschieden werden. Einen recht einfachen Ansatz verfolgen die wörterbuchbasierten Verfahren. Die zu analysierenden Texte werden mit Wörterbüchern verglichen. Stimmen Wörter oder Wortfolgen des Textes mit Eigennamen aus den Wörterbüchern überein, werden sie als Eigennamen markiert und der jeweiligen Kategorie zugeordnet.
Regelbasierte Verfahren arbeiten mit muster- und kontextbasierten Regeln, mit denen sie die benannten Entitäten identifizieren und kategorisieren. Diese Verfahren sind meist auf spezifische Textarten und bestimmte Entitätstypen beschränkt.
Die höchsten NER-Erfolgsquoten erzielen Verfahren, die auf Künstlicher Intelligenz und maschinellem Lernen basieren. Machine-Learning-Modelle werden zunächst mithilfe vorbereiteter Datensätze (annotierter Texte) darauf trainiert, Entitäten anhand statistischer Zusammenhänge zu erkennen. Nach dem überwachten Lernvorgang sind die Modelle in der Lage, zuvor nicht gesehene Texte zu analysieren und die Entitäten zu erkennen und Kategorien zuzuordnen. Die Qualität der NER-Ergebnisse hängt von der Menge und Qualität der annotierten Trainingsdaten, der Länge der Lernphase und den verwendeten Algorithmen und ML-Modellen ab.
Named Entity Recognition mit BiLSTM-CRF-Modellen
Sehr hohe NER-Erfolgsquoten erzielen Machine-Learning-Modelle mit BiLSTM-CRF. BiLSTM-CRF ist die Kurzform von Bidirectional Long Short-term Memory with Conditional Random Field. Es handelt sich bei diesen Modellen um künstliche neuronale Netzwerke, die mit bidirektionalem Long Short-term Memory (LSTM) und einem CRF-Layer (Conditional Random Field Layer) ausgestattet sind. Solche Netzwerke werden neben Named Entity Recognition auch für das Part-of-Speech-Tagging (POS-Tagging) verwendet. Für BiLSTM-CRF-Modelle existieren verschiedene Implementierungen wie für die Open-Source-Programmbibliothek für maschinelles Lernen PyTorch.
Anwendungen und Einsatzmöglichkeiten von Named Entity Recognition
Named Entity Recognition kommt für die automatisierte Analyse und Informationsextraktion großer Textmengen zum Einsatz. Typische Anwendungsmöglichkeiten sind:
- die Verschlagwortung von Texten
- Sortierung und Filterung von Kundenanfragen
- Beantwortung von Online-Suchanfragen
- wissenschaftliche Arbeit mit historischen Texten
- automatisierte Empfehlungssysteme
- Informationsextraktion aus klinischen Texten
- Erkennen von Nachrichtentrends
(ID:48460027)