Kommentar von Dr. Paul Wälti, InfoCodex Semantic Technologies Analyse und Nutzung unstrukturierter Daten

Autor / Redakteur: Dr. Paul Wälti / Nico Litzel

Es wird heute weitgehend anerkannt, dass der größte Teil der geschäftsrelevanten Informationen in Form von unstrukturiertem Freitext vorliegt, der über das Internet, in Mailboxen und auf verschiedenen File-Servern und Archiven verstreut ist. Neueste Studien von Gartner und IBM besagen, dass sich der Anteil der unstrukturierten Informationen auf etwa 80 Prozent beläuft und dass sich die Auswertung von den herkömmlichen Bewertungsmethoden wesentlich unterscheidet.

Firmen zum Thema

Der Autor: Dr. Paul Wälti ist CEO bei InfoCodex Semantic Technologies
Der Autor: Dr. Paul Wälti ist CEO bei InfoCodex Semantic Technologies
(Bild: LOORBEER.ORG)

Eine Erhebung von MIT Technology Review (2020) hat gezeigt, dass die größten Herausforderungen der Künstlichen Intelligenz (KI) in der Integration und Nutzung von Freitexten bestehen. Besondere Schwierigkeiten bieten die Schnittstellen zu Freitextquellen und der Bias von KI-Methoden.

In Anbetracht der Auswertungsschwierigkeiten und der Ungewohnheit in der Nutzung von unstrukturierten Daten stellt sich auch die Frage: Werden die umfangreichen und wertvollen Freitextinformationen in der Praxis tatsächlich ausgeschöpft oder liegen diese weit gehend brach?

Hürden bei der Analyse von unstrukturierten Daten

Bei der Bearbeitung und Auswertung von unstrukturierten Daten denken viele zuerst an das KI-basierte Natural Language Processing (NLP), die bewährte Text-Mining- und Sprachanalyse-Technologie. Allerdings weist NLP einige wesentliche Schwachstellen auf:

  • Trainings-Aufwand: Vor einer effektiven Anwendung in einem speziellen Wissensgebiet muss NLP mit einer großen Muster-Kollektion von Dokumenten trainiert werden (Aufwand bis zu vier bis sechs Personenmonaten). „Die Kosten für das Training sind der eigentliche Engpass in der KI/NLP-Anwendung. Unternehmen geben Millionen von Dollar pro Woche aus, nur um ihre KI-Workloads zu trainieren und feinabzustimmen“, Prof. A. Shrivastava, Rice University, Houston (April 2021).
  • Versteckte Zusammenhänge bleiben verborgen: NLP-Methoden mit ihrer Satz-für-Satz-Analyse können nur bekannte Fakten erkennen und extrahieren (nur das, was ein Autor niedergeschrieben hat), nicht neue unbekannte. Siehe Hahn U, Cohen KB, Garten Y, Shah NH: „Mining the pharmacogenomics literature: A survey of the state of the art.“, Brief Bioinform 2012, 13(4):460-494.
  • NLP bezieht sich auf eine einzelne Sprache.

Überbrückung durch ein semantisches KI-Tool

Die drei ETH-Physiker Paul Wälti, Carlo Trugenberger und Christoph Wälti und der Linguist Robert Streatfeild haben das semantische KI-Tool InfoCodex entwickelt, um

  • a) der Flut von unstrukturierten Informationen Herr zu werden und daraus echte Werte zu generieren, und zwar auch in neuen und unbekannten Situationen, d. h., ohne Training der Wissensstruktur, und zudem über verschiedene Sprachen hinweg;
  • b) eine Entdeckung neuer Fakten und versteckter Beziehungen aus der Analyse von Dokumentensammlungen zu ermöglichen, im Gegensatz zu Natural Language Processing (NLP) mit seiner Satz-für-Satz-Analyse.

Das InfoCodex-Tool ist eine Kombination einer universellen, maschinenlesbaren linguistische Datenbank, die einzigartig mit einem selbst-organisierenden neuronalen Netz verknüpft ist, sowie von mathematisch-statistischen Tools. Die Technologie ist in der EU und den USA patentiert. Das Wordnet der Princeton University mit seinen fundierten Netzwerkstrukturen (Ontologien, Synonyme, Hypernyme, Hyponyme, Wortarten, Mehrdeutigkeiten) bildet das Gerippe der linguistischen Datenbank. Die Wissenssubstanz wird durch Wörter und Phrasen aus rund 100 renommierten Informationsquellen (z. B. EuroVoc, JuriVoc, AgroVoc, DIN, Finanztaxonomien etc.) vervollständigt und mit dem Wordnet harmonisiert.

Die breit abgestützte, universelle linguistische Datenbank deckt praktisch das gesamte Wissensspektrum ab und bietet Gewähr, dass das System nicht für jeden Einzelfall trainiert werden muss und auch in neuen, unbekannten Situationen sofort einsetzbar ist. Außerdem ist auch der Bias im Vergleich zu den fallweise mit Musterkollektionen trainierten Systemen relativ gering.

Das InfoCodex-System, das die Gesamtheit aller Dokumente einer Kollektion analysiert, schafft mit seinem selbst-organisierenden neuronalen Netz eine Ordnung nach thematischen Gesichtspunkten. Mithilfe leistungsfähiger statistischer Verfahren können auch isolierte, scheinbar unzusammenhängende Eigenschaften erkannt und korreliert werden. Dies führt dazu, dass auch neue, bisher unbekannte Beziehungen entdeckt werden können: „The Holy Grail of text mining.“

Beweis: Der Merck-Benchmark zur Entdeckung neuer Biomarker für Diabetes aus der biomedizinischen Literatur wurde erfolgreich mit InfoCodex durchgeführt und hat gezeigt, dass weder IBM Watson noch Linguamatics dies bieten können. Das Team von Prof. Udo Hahn von der Universität Jena hat nachgewiesen, dass NLP-Methoden mit ihrer Satz-für-Satz-Analyse nur bekannte Fakten extrahieren können.

Dies mag ein Grund sein für die Probleme des Marktführers IBM Watson (NLP-basiert):

  • „IBM gives up on finding new biomarkers with Watson“, Financial Times myFT (2019)
  • „How IBM Watson Overpromised and Underdelivered on AI Health Care“, IEEE Spectrum (2019).

Ausblick

Große Fortschritte mit KI wurden sowohl bei strukturierten, regelbasierten Problemen (z. B. in der Robotik) als auch im Deep Learning (z. B. GPT-3, Sprachübersetzung, Beantwortung von Fragen, Bilderkennung) erzielt. Geht es um Innovation, um Kreativität, um die Entwicklung noch nicht vorhandener Konzepte, dann wird es schwieriger (vgl. NZZ 19.08.2017, „Maschinelle Intelligenz wird massiv überschätzt“). So sagte Novartis-CEO Vas Narasimhan in einem Interview (2019): „The Holy Grail of having unstructured machine learning go into big clinical data lakes and then suddenly finding new insights – we've not been able to crack.“ Siehe https://www.forbes.com/sites/davidshaywitz/2019/01/16/novartis-ceo-who-wanted-to-bring-tech-into-pharma-now-explains-why-its-so-hard/.

Mit dem beschriebenen semantischen KI-Tool werden mindestens Teile der Schwierigkeiten überbrückt.

Artikelfiles und Artikellinks

(ID:47377775)