Künstliche Intelligenz (KI) hat sich in den vergangenen Jahren rasant weiterentwickelt. Die Zeiten, in denen KI ausschließlich mit Chatbots in Callcentern oder Assistenzsystemen in Autos in Verbindung gebracht wurde, sind vorbei. Neue und verbesserte Einsatzmöglichkeiten erweitern in den kommenden Jahren den Einsatzrahmen und machen sie branchenübergreifend zur Schlüsseltechnologie.
Der Autor: Matthias Biniok ist Leiter Technology Garage, IBM DACH
Im Bereich Natural Language Processing (Spracherkennung, NLP) hat sich im vergangenen Jahr in der KI-Entwicklung enorm viel getan. So sorgte der Generative Pretrained Transformer 3 (GPT-3) im Sommer für einen Durchbruch, aber auch für viel Aufruhr in der Branche: Das bis dato größte Sprachmodell für die Textgenerierung GPT-3 erzeugte Texte, die nicht von Texten eines menschlichen Autors zu unterscheiden waren. Das teilweise zufällig miterlernte Wissen des GPT-3 zeigt gewisse Abstrahierungsfähigkeiten der Modelle, welche die Gedanken in Richtung generelle Künstliche Intelligenz wandern lassen.
Auch IBM entwickelte mit Project Debater ein mächtiges Sprachmodell, das zu komplexen Themen in Echtzeit debattieren kann. Dass der Algorithmus die Mitdebattierenden versteht, auf deren Argumente eingeht und komplexe Sachverhalte verargumentieren kann, zeigt, wie weit wir schon in diesem Bereich sind.
Die neue KI-Funktion der Reading Comprehension wird zukünftig dabei helfen, präzisere Antworten auf natürlich-sprachliche Anfragen aus riesigen Mengen komplexer Unternehmensdokumente zu finden, ohne dass das Modell speziell darauf trainiert werden muss. Somit sind im Bereich NLP noch große Sprünge zu erwarten, insbesondere, wenn man bedenkt, dass solch innovative Technologien wie Reading Comprehension in Produkten wie IBM Watson Discovery aufgenommen werden, und so vortrainierte und vor allem marktführende Sprach-KI mühelos zur Verfügung steht.
Gebäudeerkennung in Luftbildern und Abgleich mit Katasterdaten
Auch im Bereich der Computer Vision tut sich einiges. Anstatt zu klassifizieren, ob auf einem Bild ein Hund oder eine Katze zu sehen ist, entwickeln wir nun vortrainierte oder anpassbare Modelle zur Object Detection und Segmentation. Aktuell arbeiten IBM und das Landesamt für Geoinformation und Landesvermessung Niedersachsen gemeinsam an einem Projekt, um Gebäude in Luftbildern mit Computer Vision zu erkennen.
Die Teams von LGLN und IBM haben einen Workflow basierend auf Künstlicher Intelligenz entwickelt, um Millionen von Gebäuden im Bundesland Niedersachsen in Luftbildern zu erkennen. Ein menschlicher Katasteramts-Experte bräuchte im rund 47.000 Quadratkilometer großen Flächenstaat Niedersachsen dazu 30 Jahre, die KI schafft das dagegen in lediglich fünf Tagen. Eine besondere Herausforderung ist es, die Gebäudepositionen automatisch mit dem Amtlichen Liegenschaftskataster-Informationssystem (ALKIS) abzugleichen:
Es wurde eine maßgeschneiderte Lösung mit den derzeit leistungsfähigsten tiefen neuronalen Netzwerken in der IBM Cloud unter Verwendung von WatsonMachine Learning aufgebaut. Ein besonderer Fokus lag auf der Skalierbarkeit und Performanz der KI-Lösung. Die Teams kreierten eine grafische Benutzeroberfläche (UI), die mit Feedback von Experten verschiedener Kataster-Regionaldirektionen in Niedersachsen iterativ verbessert wurde.
Neue Trainingsmethoden – Multimodale KI und Federated Learning
Ein weiterer bemerkenswerter Fortschritt in der KI-Entwicklung sind multimodale Modelle: Das sind neuronale Netzwerke die lernen, nicht nur einen einzelnen Input-Kanal, sondern mehrere zu verarbeiten. Im Bereich der Medizin können multimodale Modelle etwa bei der Auswertung von Röntgenbildern unterstützen. Die Herausforderung war bislang, dass eine enorme Menge an Trainingsmaterial eingespeist werden musste. Jetzt kann zu den Trainingsbildern parallel eine Einschätzung der Ärzte im Textformat (z. B.: „oben rechts, schwarzer Punkt auffällig“) eingepflegt werden. So kann ein neuronales Netzwerk auf Basis einer Bild-Text-Kombination multimodal – und das heißt vor allem effizienter – lernen.
Auch das Federated Learning, zu Deutsch Föderales Lernen, entwickelt sich weiter. Gerade für sehr regulierte oder kompetitive Branchen wie zum Beispiel die Finanzbranche oder das Gesundheitswesen kann dieser Trend zukünftig noch vieles vorantreiben. Bei sehr seltenen Krankheiten fehlt es den einzelnen Krankenhäusern an genügend Trainingsmaterial. Der neue föderale Ansatz bedeutet nun, dass Daten aus verschiedenen Quellen temporär über eine zentrale Plattform in ein Machine-Learning-Modell eingepflegt werden. Dieser „Privacy by Design“-Ansatz ermöglicht es, dass Daten nicht extra gespeichert werden müssen und datenschutzrechtliche Problematiken somit einfacher vermieden werden können.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Kontrafaktische Texte gegen Bias in der KI
Der Ansatz, Entscheidungen von KI-Modellen blind zu folgen, birgt Risiken im Bereich der Fairness, der Zuverlässigkeit und der Privatsphäre von KI. Daher ist es sehr wichtig, dass KI-Modelle erklärbar und fair sind. Unser Team von IBM Research hat eine KI entwickelt, die die „Fairness“ anderer NLP-Modelle verifiziert, indem sie eine Reihe kontrafaktischer Textproben erzeugt und damit die entsprechenden KI-Modelle testet. Die IBM-Software, genannt GYC (Generate Your Counterface), generiert Testfälle, um die Zuverlässigkeit von KI-Modellen zu überprüfen. Beispielsweise wird für den Satz „Mein Chef ist ein Mann“ der Testfall „Mein Chef ist eine Frau“ generiert. Nur wenn das KI-Modell in beiden Fällen zum gleichen Ergebnis kommt ist es tatsächlich geschlechtsneutral.
GYC ist in der Lage, andere KI-Modelle auf ihre Genauigkeit zu überprüfen und eine Sensitivitätsanalyse durchzuführen sowie die Widerstandsfähigkeit eines Modells und seine Fähigkeit, mit falschen Korrelationen umzugehen, zu überprüfen. Es verifiziert auch maschinelles Lernen und natürlich-sprachliche Systeme auf Vertrauenswürdigkeit. GYC ist die erste Methode, die Testfälle durch das Ändern mehrerer Elemente im Text ohne jegliche regelbasierte Hinweise erzeugt. Noch ist die Forschung nicht abgeschlossen. Aktuell arbeitet IBM daran, den Rekonstruktionsschritt zu verbessern – derzeit ist er bei Sätzen, die länger als etwa 15 Wörter sind, teuer.
KI verstehen – Ein Blick in die Blackbox
Tiefe neuronale Netze sind oft so etwas wie eine Blackbox, denn selbst die Menschen, die sie programmieren, haben oft wenig bis keine Ahnung, wie diese Netze Entscheidungen treffen. Die Frage nach der Entscheidungsfindung der KI wird allerdings wichtig, wenn eine KI z. B. versucht, eine Sequenz von Wetterbildern zu interpretieren, die die Entstehung eines Hurrikans und seine Ausbreitung über den Atlantik zeigen. In diesem Fall könnte die KI Wirbelstürme und Winde vorhersagen, die noch nie beobachtet oder gemessen wurden – oder die überhaupt keinen Sinn ergeben.
Das IBM Research Team hat Physics-Informed Neural Networks (PINN)-Modelle entwickelt, bei denen physikalische Modelle in den Lernprozess des neuronalen Netzwerks integriert werden. Anstatt sich auf Statistiken zu verlassen, wie es traditionelle neuronale Netze tun, integrieren unsere Modelle die physikalischen Zusammenhänge direkt. Wir versuchen nun, das neuronale Netz, welches sicherstellt, dass die physikalischen Gesetzmäßigkeiten berücksichtigt werden auf kompliziertere Daten wie die des sich ändernden Klimas anzuwenden. Wir erwarten, dass diese Netzmodelle in den nächsten Jahren funktionsfähig sein werden.
Die KI-Entwicklung wird noch einiges voranbringen
Die Anwendungsmöglichkeiten von KI sind bei weitem nicht ausgeschöpft und reichen von der Automatisierung wiederkehrender Prozesse bis hin zu neuen Geschäftsmodellen. Eine Herausforderung stellten bis dato die limitierten Trainingsdaten sowie Trainingsressourcen dar. Einen großen Sprung für den breiteren KI-Einsatz in naher Zukunft stellen Entwicklungen wie das multimodale oder föderale Lernen dar. Aber auch Fortschritte wie die Reading Comprehension offenbaren in einer Zeit der wachsenden Datenmengen viele neue Möglichkeiten.
IBM versteht sich als führender Partner für das Thema KI und gehört zu den Vorreitern bei der KI-Entwicklung. Was damals mit der Schach-KI DeepBlue als kaum greifbares, wissenschaftliches Thema begann, wird jetzt bereits als vortrainiertes Modell mit den aktuellsten Neuerungen Unternehmen zur Verfügung gestellt. Hierfür bietet IBM eine ganze Toolbox an Anwendungen an, die die neuen KI-Funktionen wie Reading Comprehension für IBM Watson Discovery oder die verbesserte Absichtsklassifizierung (Intent classification) für Watson Assistant umfassen.