Definition Was ist Multimodal Deep Learning?

Von Dipl.-Ing. (FH) Stefan Luber 5 min Lesedauer

Anbieter zum Thema

Multimodal Deep Learning ist eine Weiterentwicklung und ein Spezialgebiet des maschinellen Lernens. KI-Modelle mit ihren neuronalen Netzen werden mit verschiedenen Arten von Daten wie Texten, Bildern, Audioinhalten oder Videos trainiert und lernen diese zu verarbeiten und auszuwerten.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Die deutsche Übersetzung für Multimodal Deep Learning lautet „multimodales tiefes Lernen“. Es handelt sich um ein Lernverfahren aus dem Bereich der Künstlichen Intelligenz. Multimodal Deep Learning ist ein Teilgebiet und eine Weiterentwicklung des Machine Learning. Es trainiert KI-Modelle und ihre künstlichen neuronalen Netzwerke mit verschiedenen Datentypen wie Texten, Bildern, Videos oder Audioinhalten. Die KI-Modelle lernen diese multimodalen Daten zu verarbeiten, zu analysieren und Beziehungen zwischen ihnen oder Muster zu finden. Dadurch wird die Künstliche Intelligenz in die Lage versetzt, ein im Vergleich zu unimodalen Modellen umfassenderes und der menschlichen Wahrnehmung ähnlicheres Verständnis für die reale Welt zu entwickeln.

Die Fähigkeiten zu präzisen Vorhersagen oder exakten Entscheidungen der KI lassen sich mit multimodalem tiefen Lernen wesentlich verbessern. KI-Modelle lernen, komplexere Aufgabenstellungen zu lösen. Dadurch eröffnen sich für die Künstliche Intelligenz neue Einsatzmöglichkeiten und Anwendungsbereiche. Multimodal Deep Learning soll den Weg hin zur Entwicklung einer Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence – AGI) ebnen.

Motivation für die Entwicklung von Multimodal Deep Learning

Menschen erfassen ihre Umwelt mit ihren fünf Sinnen. Durch Sehen, Hören, Riechen, Tasten und Schmecken lernen sie, die reale Welt zu verstehen. Sie erweitern mit den aufgenommenen Informationen ihr Wissen und entwickeln intelligente Fähigkeiten. Hierfür werden verschiedene Informationstypen erfasst, kombiniert und verarbeitet. Im Bereich der Künstlichen Intelligenz verarbeiten KI-Modell oft nur Informationen einer einzelnen Modalität. Ein Beispiel hierfür sind große Sprachmodelle, die ausschließlich mit Texten trainiert werden und auch nur lernen, diese zu verarbeiten oder zu generieren.

Das Wissen und die Fähigkeiten solcher unimodalen Modell bleiben auf einzelne Gebiete begrenzt und sind in keiner Weise mit den umfassenden menschlichen Fähigkeiten vergleichbar. Auch wenn in den vergangenen Jahren enorme Fortschritte im Bereich der Künstlichen Intelligenz, des maschinellen Lernens und der tiefen neuronalen Netze erzielt wurden, bleibt ein nur zu unimodalem tiefen Lernen fähiges Modell auf die Erledigung unimodaler Aufgaben begrenzt. Um eine sogenannte Artificial General Intelligence (AGI) zu entwickeln, sind Modelle notwendig, die zu multimodalem tiefen Lernen fähig sind. Genau solche Modelle und Methoden versucht der Forschungsbereich des Multimodal Deep Learning zu entwickeln.

Mittlerweile gibt es zahlreiche KI-Modelle, die grundsätzliche Fähigkeiten zu multimodalem tiefen Lernen besitzen. Die Anzahl der einbeziehbaren Modalitäten ist oft aber sehr begrenzt. Häufig handelt es sich dabei um große Sprachmodelle, die für die Verarbeitung weiterer Datentypen wie Bilder oder Videos erweitert und angepasst werden. Beispiele für Modelle mit multimodalen Lernfähigkeiten sind GPT-4 von OpenAI oder Gemini von Google (Text, Sprache, Bilder). Auch Text-zu-Bild-Modelle wie DALL-E, Midjourney oder Stable Diffusion wurden mit Bild- und Textinformationen trainiert.

Anwendungsmöglichkeiten des Multimodal Deep Learning

Multimodal Deep Learning eröffnet der Künstlichen Intelligenz zahlreiche Anwendungs- und Einsatzmöglichkeiten. Zu diesen gehören:

  • in der Robotik für die Einbeziehung und Anwendung verschiedener sensorischer Fähigkeiten
  • für die Emotionserkennung oder Stimmungsanalysen und Anwendungen wie Affective Computing
  • im Gesundheitswesen für Diagnosesysteme basierend auf multimodalen Informationen (wie medizinische Texte, Daten aus bildgebenden Verfahren, Gespräche oder Datenreihen)
  • für multimodale Schulungen
  • zur Verarbeitung und Auswertung der Informationen multimodaler Dokumente
  • in der Meteorologie für Wettervorhersagen basierend auf multimodalen Informationen wie Satellitenbilder oder Wetterdaten
  • im Marketingbereich zum Beispiel für multimodale Social-Media-Analysen oder hochgradig mit multimodalen Kunden- und Konsumdaten personalisierbare Empfehlungssysteme
  • für Computerspiele mit immersiven Gaming-Erlebnissen
  • für die Geodäsie und die Verwendung beispielsweise von Satellitenbildern und Radardaten
  • für autonomes Fahren und die Verarbeitung multimodaler Bewegungs- und Verkehrsinformationen
  • für multimodale Überwachungs- und Sicherheitstechnik
  • für multimodale Konversationsschnittstellen und die Interaktion mit intelligenten, virtuellen Assistente

Funktionsweise und Herausforderungen

Um einem KI-Modell die Fähigkeit zu multimodalem tiefen Lernen zu vermitteln, sind zahlreiche Herausforderungen zu meistern. Die multimodalen Daten müssen so aufbereitet und synchronisiert werden, dass sie für die Modelle interpretierbar sind. Daten sind so darzustellen, dass die jeweils relevanten Informationen der einzelnen Modalitäten erfasst, bewertet und genutzt werden können. Signifikante Merkmale müssen extrahiert und später auch wieder stimmig zusammengeführt werden können. Schließlich muss auch eine sogenannte Erdung multimodaler Informationen erfolgen, bei der multimodale Informationen mit der realen Welt verknüpft werden. Erst dadurch wird der Kontext für ein Modell verständlich.

Schlüsseltechnologien für mulitmodales tiefes Lernen sind daher multimodale Merkmalsextraktionstechniken und multimodale Fusionstechniken. Die Merkmalsextraktion beschäftigt sich mit dem Erstellen aussagekräftiger, interpretierbarer Darstellungen multimodaler Daten. Ziel der Fusionstechniken ist es, die Informationen nach der Extraktion der Merkmale der einzelnen Modalitäten zu einer einzigen integrierten Darstellung zu kombinieren, die sich in ein Modell einspeisen lässt und aus der es lernen kann. Auch Techniken des sogenannten Transferlernens kommen zum Einsatz, mit denen sich erlerntes Wissen einer Modalität auf andere Modalitäten übertragen lässt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Als praktischer Ansatz für multimodales tiefes Lernen wird häufig die Grundarchitektur eines großen generativen Sprachmodells verwendet. Diese Modelle basieren auf künstlichen neuronalen Netzwerken und der sogenannten Transformer-Architektur. Für multimodales Lernen werden die Modelle entsprechend angepasst und erweitert. Beispielsweise können verschiedene Formen neuronaler Netze kombiniert und zusammen mit Verfahren und Konzepten wie CLIP (Contrastive Language-Image Pre-training) oder Flamingo angewandt werden. Vom Grundprinzip her bestehen die Modelle aus Encodern für die Dateneinbettung der verschiedenen Modalitäten, Mechanismen der Überführung in einen multimodalen Einbettungsraum und dem großen Sprachmodell, das mit Informationen der verschiedenen Modalitäten konditioniert werden kann.

Im Vergleich zum Training reiner Sprachmodelle benötigt Multimodal Deep Learning Trainingsmaterial bestehend aus Daten verschiedener Modalitäten wie Texte, Bilder, Videos und Audioinhalte. Mit diesem Material wird es zunächst vortrainiert. Anschließend erfolgt die Feinabstimmung für spezifische Aufgaben mit speziellen Datensätzen unterschiedlicher Modalitäten. Die Feinabstimmung ist wesentlich umfangreicher als die eines reinen Sprachmodells. Mit den Datensätzen muss eine modalitätenübergreifende Abstimmung der Beziehungen möglich sein.

Für verschiedenen Anwendungszwecke des Multimodal Deep Learning existieren mittlerweile zahlreiche multimodale Datensätze. Zu diesen gehören zum Beispiel das COCO-Captions Dataset (Bilder und Texte), VQA (Bilder und Texte), CMU-MOSEI (Video, Audio und Text), Social-IQ (Video, Audio und Text), IEMOCAP (Audio, Video und Text) und viele mehr.

(ID:50013337)