Kommentar von Matthias Biniok, IBM DACH KI entwickelt sich zur Schlüsseltechnologie

Autor / Redakteur: Matthias Biniok / Nico Litzel

Künstliche Intelligenz (KI) hat sich in den vergangenen Jahren rasant weiterentwickelt. Die Zeiten, in denen KI ausschließlich mit Chatbots in Callcentern oder Assistenzsystemen in Autos in Verbindung gebracht wurde, sind vorbei. Neue und verbesserte Einsatzmöglichkeiten erweitern in den kommenden Jahren den Einsatzrahmen und machen sie branchenübergreifend zur Schlüsseltechnologie.

Firmen zum Thema

Der Autor: Matthias Biniok ist Leiter Technology Garage, IBM DACH
Der Autor: Matthias Biniok ist Leiter Technology Garage, IBM DACH
(Bild: Ida van der Velte)

Dennoch sind deutsche Unternehmen der KI gegenüber noch immer zurückhaltend: Laut einer Untersuchung des Bundesministeriums für Wirtschaft und Energie, Stand März 2020, nutzen erst 5,8 Prozent der Unternehmen Künstliche Intelligenz. Die jüngsten KI-Entwicklungen versprechen nun einen breiteren Einsatz, inklusive mehr Transparenz und Vertrauen. Wir haben fünf Trends ausgemacht, die in den kommenden Jahren den Einsatz von KI nachhaltig beeinflussen werden.

Reading Comprehension in Zeiten von Big Data

Im Bereich Natural Language Processing (Spracherkennung, NLP) hat sich im vergangenen Jahr in der KI-Entwicklung enorm viel getan. So sorgte der Generative Pretrained Transformer 3 (GPT-3) im Sommer für einen Durchbruch, aber auch für viel Aufruhr in der Branche: Das bis dato größte Sprachmodell für die Textgenerierung GPT-3 erzeugte Texte, die nicht von Texten eines menschlichen Autors zu unterscheiden waren. Das teilweise zufällig miterlernte Wissen des GPT-3 zeigt gewisse Abstrahierungsfähigkeiten der Modelle, welche die Gedanken in Richtung generelle Künstliche Intelligenz wandern lassen.

Auch IBM entwickelte mit Project Debater ein mächtiges Sprachmodell, das zu komplexen Themen in Echtzeit debattieren kann. Dass der Algorithmus die Mitdebattierenden versteht, auf deren Argumente eingeht und komplexe Sachverhalte verargumentieren kann, zeigt, wie weit wir schon in diesem Bereich sind.

Die neue KI-Funktion der Reading Comprehension wird zukünftig dabei helfen, präzisere Antworten auf natürlich-sprachliche Anfragen aus riesigen Mengen komplexer Unternehmensdokumente zu finden, ohne dass das Modell speziell darauf trainiert werden muss. Somit sind im Bereich NLP noch große Sprünge zu erwarten, insbesondere, wenn man bedenkt, dass solch innovative Technologien wie Reading Comprehension in Produkten wie IBM Watson Discovery aufgenommen werden, und so vortrainierte und vor allem marktführende Sprach-KI mühelos zur Verfügung steht.

Gebäudeerkennung in Luftbildern und Abgleich mit Katasterdaten

Auch im Bereich der Computer Vision tut sich einiges. Anstatt zu klassifizieren, ob auf einem Bild ein Hund oder eine Katze zu sehen ist, entwickeln wir nun vortrainierte oder anpassbare Modelle zur Object Detection und Segmentation. Aktuell arbeiten IBM und das Landesamt für Geoinformation und Landesvermessung Niedersachsen gemeinsam an einem Projekt, um Gebäude in Luftbildern mit Computer Vision zu erkennen.

Die Teams von LGLN und IBM haben einen Workflow basierend auf Künstlicher Intelligenz entwickelt, um Millionen von Gebäuden im Bundesland Niedersachsen in Luftbildern zu erkennen. Ein menschlicher Katasteramts-Experte bräuchte im rund 47.000 Quadratkilometer großen Flächenstaat Niedersachsen dazu 30 Jahre, die KI schafft das dagegen in lediglich fünf Tagen. Eine besondere Herausforderung ist es, die Gebäudepositionen automatisch mit dem Amtlichen Liegenschaftskataster-Informationssystem (ALKIS) abzugleichen:

Es wurde eine maßgeschneiderte Lösung mit den derzeit leistungsfähigsten tiefen neuronalen Netzwerken in der IBM Cloud unter Verwendung von Watson Machine Learning aufgebaut. Ein besonderer Fokus lag auf der Skalierbarkeit und Performanz der KI-Lösung. Die Teams kreierten eine grafische Benutzeroberfläche (UI), die mit Feedback von Experten verschiedener Kataster-Regionaldirektionen in Niedersachsen iterativ verbessert wurde.

Neue Trainingsmethoden – Multimodale KI und Federated Learning

Ein weiterer bemerkenswerter Fortschritt in der KI-Entwicklung sind multimodale Modelle: Das sind neuronale Netzwerke die lernen, nicht nur einen einzelnen Input-Kanal, sondern mehrere zu verarbeiten. Im Bereich der Medizin können multimodale Modelle etwa bei der Auswertung von Röntgenbildern unterstützen. Die Herausforderung war bislang, dass eine enorme Menge an Trainingsmaterial eingespeist werden musste. Jetzt kann zu den Trainingsbildern parallel eine Einschätzung der Ärzte im Textformat (z. B.: „oben rechts, schwarzer Punkt auffällig“) eingepflegt werden. So kann ein neuronales Netzwerk auf Basis einer Bild-Text-Kombination multimodal – und das heißt vor allem effizienter – lernen.

Auch das Federated Learning, zu Deutsch Föderales Lernen, entwickelt sich weiter. Gerade für sehr regulierte oder kompetitive Branchen wie zum Beispiel die Finanzbranche oder das Gesundheitswesen kann dieser Trend zukünftig noch vieles vorantreiben. Bei sehr seltenen Krankheiten fehlt es den einzelnen Krankenhäusern an genügend Trainingsmaterial. Der neue föderale Ansatz bedeutet nun, dass Daten aus verschiedenen Quellen temporär über eine zentrale Plattform in ein Machine-Learning-Modell eingepflegt werden. Dieser „Privacy by Design“-Ansatz ermöglicht es, dass Daten nicht extra gespeichert werden müssen und datenschutzrechtliche Problematiken somit einfacher vermieden werden können.

Kontrafaktische Texte gegen Bias in der KI

Der Ansatz, Entscheidungen von KI-Modellen blind zu folgen, birgt Risiken im Bereich der Fairness, der Zuverlässigkeit und der Privatsphäre von KI. Daher ist es sehr wichtig, dass KI-Modelle erklärbar und fair sind. Unser Team von IBM Research hat eine KI entwickelt, die die „Fairness“ anderer NLP-Modelle verifiziert, indem sie eine Reihe kontrafaktischer Textproben erzeugt und damit die entsprechenden KI-Modelle testet. Die IBM-Software, genannt GYC (Generate Your Counterface), generiert Testfälle, um die Zuverlässigkeit von KI-Modellen zu überprüfen. Beispielsweise wird für den Satz „Mein Chef ist ein Mann“ der Testfall „Mein Chef ist eine Frau“ generiert. Nur wenn das KI-Modell in beiden Fällen zum gleichen Ergebnis kommt ist es tatsächlich geschlechtsneutral.

GYC ist in der Lage, andere KI-Modelle auf ihre Genauigkeit zu überprüfen und eine Sensitivitätsanalyse durchzuführen sowie die Widerstandsfähigkeit eines Modells und seine Fähigkeit, mit falschen Korrelationen umzugehen, zu überprüfen. Es verifiziert auch maschinelles Lernen und natürlich-sprachliche Systeme auf Vertrauenswürdigkeit. GYC ist die erste Methode, die Testfälle durch das Ändern mehrerer Elemente im Text ohne jegliche regelbasierte Hinweise erzeugt. Noch ist die Forschung nicht abgeschlossen. Aktuell arbeitet IBM daran, den Rekonstruktionsschritt zu verbessern – derzeit ist er bei Sätzen, die länger als etwa 15 Wörter sind, teuer.

KI verstehen – Ein Blick in die Blackbox

Tiefe neuronale Netze sind oft so etwas wie eine Blackbox, denn selbst die Menschen, die sie programmieren, haben oft wenig bis keine Ahnung, wie diese Netze Entscheidungen treffen. Die Frage nach der Entscheidungsfindung der KI wird allerdings wichtig, wenn eine KI z. B. versucht, eine Sequenz von Wetterbildern zu interpretieren, die die Entstehung eines Hurrikans und seine Ausbreitung über den Atlantik zeigen. In diesem Fall könnte die KI Wirbelstürme und Winde vorhersagen, die noch nie beobachtet oder gemessen wurden – oder die überhaupt keinen Sinn ergeben.

Das IBM Research Team hat Physics-Informed Neural Networks (PINN)-Modelle entwickelt, bei denen physikalische Modelle in den Lernprozess des neuronalen Netzwerks integriert werden. Anstatt sich auf Statistiken zu verlassen, wie es traditionelle neuronale Netze tun, integrieren unsere Modelle die physikalischen Zusammenhänge direkt. Wir versuchen nun, das neuronale Netz, welches sicherstellt, dass die physikalischen Gesetzmäßigkeiten berücksichtigt werden auf kompliziertere Daten wie die des sich ändernden Klimas anzuwenden. Wir erwarten, dass diese Netzmodelle in den nächsten Jahren funktionsfähig sein werden.

Die KI-Entwicklung wird noch einiges voranbringen

Die Anwendungsmöglichkeiten von KI sind bei weitem nicht ausgeschöpft und reichen von der Automatisierung wiederkehrender Prozesse bis hin zu neuen Geschäftsmodellen. Eine Herausforderung stellten bis dato die limitierten Trainingsdaten sowie Trainingsressourcen dar. Einen großen Sprung für den breiteren KI-Einsatz in naher Zukunft stellen Entwicklungen wie das multimodale oder föderale Lernen dar. Aber auch Fortschritte wie die Reading Comprehension offenbaren in einer Zeit der wachsenden Datenmengen viele neue Möglichkeiten.

IBM versteht sich als führender Partner für das Thema KI und gehört zu den Vorreitern bei der KI-Entwicklung. Was damals mit der Schach-KI DeepBlue als kaum greifbares, wissenschaftliches Thema begann, wird jetzt bereits als vortrainiertes Modell mit den aktuellsten Neuerungen Unternehmen zur Verfügung gestellt. Hierfür bietet IBM eine ganze Toolbox an Anwendungen an, die die neuen KI-Funktionen wie Reading Comprehension für IBM Watson Discovery oder die verbesserte Absichtsklassifizierung (Intent classification) für Watson Assistant umfassen.

(ID:47269431)