Linguistische und semantische Analysen

Enterprise Search und der Nutzen von NLP

| Autor / Redakteur: Frank Zscheile / Nico Litzel

NLP in der Praxis: Beim Pharmakonzern AstraZeneca haben Mitarbeiter in der Forschung und Entwicklung über die Sinequa-Plattform einen einheitlichen Informationszugang.
NLP in der Praxis: Beim Pharmakonzern AstraZeneca haben Mitarbeiter in der Forschung und Entwicklung über die Sinequa-Plattform einen einheitlichen Informationszugang. (Bild: Sinequa)

Die größte Herausforderung im Umfeld von Big Data ist zweifelsohne die Auswertung von Daten, die von Menschen generiert wurden, etwa Textdaten. Hierzu bedarf es einer tiefgehenden linguistischen und semantischen Analyse. Erst dadurch lässt sich eine Suchanfrage wirklich verstehen und die Bedeutung eines Textes erfassen.

So erhält der Suchende Ergebnisse, die über den Horizont seiner ursprünglichen Keyword-Abfrage inhaltlich weit hinausgehen. Gleichzeitig können Informationen über geschäftsrelevante Filter kategorisiert werden. Das hilft dem Anwender, unter allen von der Suchmaschine als relevant angezeigten Ergebnissen die für ihn entscheidenden sofort zu erfassen.

Ermöglicht wird das durch die Technik des „Natural Language Processing“ (NLP) oder auch Computerlinguistik. Such- und Analysewerkzeuge ohne NLP-Technologie werden den heutigen Anforderungen von Unternehmen an Enterprise Search und Big-Data-Analyse nicht mehr gerecht. Die Software von Sinequa („Leader“ im aktuellen Gartner Magic Quadrant for Enterprise Search 2015) beinhaltet etwa NLP-Technologie für 20 verschiedene Sprachen, darunter auch so „schwierige“ wie Chinesisch, Japanisch, Koreanisch oder Arabisch.

Unter NLP versteht man die Fähigkeit eines Computerprogramms, menschliche Sprache so zu verstehen, wie sie gesprochen bzw. geschrieben wurde. Traditionell versteht eine Software einen Menschen am besten, wenn dieser eine möglichst präzise, eindeutige und strukturierte Sprache verwendet. In der Realität aber ist die menschliche Sprache oft eben nicht eindeutig und genau, sondern hängt von komplexen Variablen ab (sozialer Kontext, regionale Spezifika …). Zum Einsatz kommen NLP-Technologien bevorzugt im Bereich Enterprise Search, also der organisierten Suche in strukturierten und unstrukturierten Daten innerhalb einer Organisation.

Aufgaben der NLP-Technik

NLP geht über bloße Sprachidentifikation, Worttrennung und Text-Extraktion, wie sie viele Suchmaschinen heute bieten, weit hinaus. Zu den NLP-Aufgaben innerhalb von Software-Programmen gehören zum einen Techniken wie Satzsegmentierung und -analyse (Parsing), also das Aufteilen von Phrasen in verschiedene Teile, um Beziehungen und Bedeutung zu verstehen. Weitere Aufgaben sind Deep Analytics, Named Entity-Extraktion und Co-Referenzauflösung.

Die Sinequa-Lösung etwa ermöglicht im Rahmen linguistischer Analysen

  • eine automatische Extraktion von Begriffen und Navigation in begrifflich geordneten und nach Relevanz sortierten Informationen,
  • Text-Mining mit Tagging einzelner Wörter,
  • die Erkennung semantischer Zusammenhänge (etwa bei gleichzeitigem Auftreten der Begriffe innerhalb eines Satzes) und
  • eine Integration von „Unternehmens-Wissen“ in Form von Wörterbüchern, Taxonomien, Ontologien etc.

Mit solchen Funktionen lassen sich Daten aus beliebigen Textdaten extrahieren, ob Projektberichte, klinische Studien, Veröffentlichungen, Patentanmeldungen oder E-Mails. Solche Daten enthalten üblicherweise eine Fülle von Informationen, die nicht „kodifiziert“ sind und sich nicht in bloßen Zahlen ausdrücken lassen. Die Suchresultate erhält der Anwender schnell und einfach innerhalb seiner täglichen Arbeitsumgebung – ohne wissen zu müssen, wo sie genau herkommen und welches Format sie haben.

Praxisbeispiel

Beim Pharmakonzern AstraZeneca haben Mitarbeiter in der Forschung und Entwicklung über die Sinequa-Plattform einen einheitlichen Informationszugang (Unified Information Access) auf das gesamte Unternehmenswissen, jeweils unter Beachtung der Zugriffsrechte. In einem initialen Prozess analysierte der Pharmakonzern mit der Software zunächst rund 200 Millionen interne und externe Dokumente aus dem Bereich Forschung und Entwicklung. Dabei wurden auch fachspezifische Relationen zwischen Begriffen (synonyme und semantisch verwandte Begriffe) ermittelt.

Der semantisch angereicherte Index ergab dann ein Datenreservoir, aus dem relevante Informationen in weniger als zwei Sekunden zusammengestellt werden können. Bei Eingabe eines Begriffes in die Suchmaske erstellt das System beispielsweise aus all dem, was zu diesem Thema geschrieben wurde, die besten Experten zusammen. Es ermittelt das Volumen aller Artikel zu einem Thema über einen längeren Zeitraum.

Aus den „Spitzen“ dieser Veröffentlichungskurve lassen sich Vermutungen ableiten über die Arbeit der Konkurrenz an Medikamenten, an denen das eigene Unternehmen arbeitet – eine existenzielle Einsicht in dieser Branche, in der „time to market“ über Gedeih und Verderb eines Unternehmens entscheiden kann.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43666652 / Analytics)