Multimodal Deep Learning ist eine Weiterentwicklung und ein Spezialgebiet des maschinellen Lernens. KI-Modelle mit ihren neuronalen Netzen werden mit verschiedenen Arten von Daten wie Texten, Bildern, Audioinhalten oder Videos trainiert und lernen diese zu verarbeiten und auszuwerten.
Die deutsche Übersetzung für Multimodal Deep Learning lautet „multimodales tiefes Lernen“. Es handelt sich um ein Lernverfahren aus dem Bereich der Künstlichen Intelligenz. Multimodal Deep Learning ist ein Teilgebiet und eine Weiterentwicklung des Machine Learning. Es trainiert KI-Modelle und ihre künstlichen neuronalen Netzwerke mit verschiedenen Datentypen wie Texten, Bildern, Videos oder Audioinhalten. Die KI-Modelle lernen diese multimodalen Daten zu verarbeiten, zu analysieren und Beziehungen zwischen ihnen oder Muster zu finden. Dadurch wird die Künstliche Intelligenz in die Lage versetzt, ein im Vergleich zu unimodalen Modellen umfassenderes und der menschlichen Wahrnehmung ähnlicheres Verständnis für die reale Welt zu entwickeln.
Die Fähigkeiten zu präzisen Vorhersagen oder exakten Entscheidungen der KI lassen sich mit multimodalem tiefen Lernen wesentlich verbessern. KI-Modelle lernen, komplexere Aufgabenstellungen zu lösen. Dadurch eröffnen sich für die Künstliche Intelligenz neue Einsatzmöglichkeiten und Anwendungsbereiche. Multimodal Deep Learning soll den Weg hin zur Entwicklung einer Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence – AGI) ebnen.
Motivation für die Entwicklung von Multimodal Deep Learning
Menschen erfassen ihre Umwelt mit ihren fünf Sinnen. Durch Sehen, Hören, Riechen, Tasten und Schmecken lernen sie, die reale Welt zu verstehen. Sie erweitern mit den aufgenommenen Informationen ihr Wissen und entwickeln intelligente Fähigkeiten. Hierfür werden verschiedene Informationstypen erfasst, kombiniert und verarbeitet. Im Bereich der Künstlichen Intelligenz verarbeiten KI-Modell oft nur Informationen einer einzelnen Modalität. Ein Beispiel hierfür sind große Sprachmodelle, die ausschließlich mit Texten trainiert werden und auch nur lernen, diese zu verarbeiten oder zu generieren.
Das Wissen und die Fähigkeiten solcher unimodalen Modell bleiben auf einzelne Gebiete begrenzt und sind in keiner Weise mit den umfassenden menschlichen Fähigkeiten vergleichbar. Auch wenn in den vergangenen Jahren enorme Fortschritte im Bereich der Künstlichen Intelligenz, des maschinellen Lernens und der tiefen neuronalen Netze erzielt wurden, bleibt ein nur zu unimodalem tiefen Lernen fähiges Modell auf die Erledigung unimodaler Aufgaben begrenzt. Um eine sogenannte Artificial General Intelligence (AGI) zu entwickeln, sind Modelle notwendig, die zu multimodalem tiefen Lernen fähig sind. Genau solche Modelle und Methoden versucht der Forschungsbereich des Multimodal Deep Learning zu entwickeln.
Mittlerweile gibt es zahlreiche KI-Modelle, die grundsätzliche Fähigkeiten zu multimodalem tiefen Lernen besitzen. Die Anzahl der einbeziehbaren Modalitäten ist oft aber sehr begrenzt. Häufig handelt es sich dabei um große Sprachmodelle, die für die Verarbeitung weiterer Datentypen wie Bilder oder Videos erweitert und angepasst werden. Beispiele für Modelle mit multimodalen Lernfähigkeiten sind GPT-4 von OpenAI oder Gemini von Google (Text, Sprache, Bilder). Auch Text-zu-Bild-Modelle wie DALL-E, Midjourney oder Stable Diffusion wurden mit Bild- und Textinformationen trainiert.
Anwendungsmöglichkeiten des Multimodal Deep Learning
Multimodal Deep Learning eröffnet der Künstlichen Intelligenz zahlreiche Anwendungs- und Einsatzmöglichkeiten. Zu diesen gehören:
in der Robotik für die Einbeziehung und Anwendung verschiedener sensorischer Fähigkeiten
für die Emotionserkennung oder Stimmungsanalysen und Anwendungen wie Affective Computing
im Gesundheitswesen für Diagnosesysteme basierend auf multimodalen Informationen (wie medizinische Texte, Daten aus bildgebenden Verfahren, Gespräche oder Datenreihen)
für multimodale Schulungen
zur Verarbeitung und Auswertung der Informationen multimodaler Dokumente
in der Meteorologie für Wettervorhersagen basierend auf multimodalen Informationen wie Satellitenbilder oder Wetterdaten
im Marketingbereich zum Beispiel für multimodale Social-Media-Analysen oder hochgradig mit multimodalen Kunden- und Konsumdaten personalisierbare Empfehlungssysteme
für Computerspiele mit immersiven Gaming-Erlebnissen
für die Geodäsie und die Verwendung beispielsweise von Satellitenbildern und Radardaten
für autonomes Fahren und die Verarbeitung multimodaler Bewegungs- und Verkehrsinformationen
für multimodale Überwachungs- und Sicherheitstechnik
für multimodale Konversationsschnittstellen und die Interaktion mit intelligenten, virtuellen Assistente
Funktionsweise und Herausforderungen
Um einem KI-Modell die Fähigkeit zu multimodalem tiefen Lernen zu vermitteln, sind zahlreiche Herausforderungen zu meistern. Die multimodalen Daten müssen so aufbereitet und synchronisiert werden, dass sie für die Modelle interpretierbar sind. Daten sind so darzustellen, dass die jeweils relevanten Informationen der einzelnen Modalitäten erfasst, bewertet und genutzt werden können. Signifikante Merkmale müssen extrahiert und später auch wieder stimmig zusammengeführt werden können. Schließlich muss auch eine sogenannte Erdung multimodaler Informationen erfolgen, bei der multimodale Informationen mit der realen Welt verknüpft werden. Erst dadurch wird der Kontext für ein Modell verständlich.
Schlüsseltechnologien für mulitmodales tiefes Lernen sind daher multimodale Merkmalsextraktionstechniken und multimodale Fusionstechniken. Die Merkmalsextraktion beschäftigt sich mit dem Erstellen aussagekräftiger, interpretierbarer Darstellungen multimodaler Daten. Ziel der Fusionstechniken ist es, die Informationen nach der Extraktion der Merkmale der einzelnen Modalitäten zu einer einzigen integrierten Darstellung zu kombinieren, die sich in ein Modell einspeisen lässt und aus der es lernen kann. Auch Techniken des sogenannten Transferlernens kommen zum Einsatz, mit denen sich erlerntes Wissen einer Modalität auf andere Modalitäten übertragen lässt.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Als praktischer Ansatz für multimodales tiefes Lernen wird häufig die Grundarchitektur eines großen generativen Sprachmodells verwendet. Diese Modelle basieren auf künstlichen neuronalen Netzwerken und der sogenannten Transformer-Architektur. Für multimodales Lernen werden die Modelle entsprechend angepasst und erweitert. Beispielsweise können verschiedene Formen neuronaler Netze kombiniert und zusammen mit Verfahren und Konzepten wie CLIP (Contrastive Language-Image Pre-training) oder Flamingo angewandt werden. Vom Grundprinzip her bestehen die Modelle aus Encodern für die Dateneinbettung der verschiedenen Modalitäten, Mechanismen der Überführung in einen multimodalen Einbettungsraum und dem großen Sprachmodell, das mit Informationen der verschiedenen Modalitäten konditioniert werden kann.
Im Vergleich zum Training reiner Sprachmodelle benötigt Multimodal Deep Learning Trainingsmaterial bestehend aus Daten verschiedener Modalitäten wie Texte, Bilder, Videos und Audioinhalte. Mit diesem Material wird es zunächst vortrainiert. Anschließend erfolgt die Feinabstimmung für spezifische Aufgaben mit speziellen Datensätzen unterschiedlicher Modalitäten. Die Feinabstimmung ist wesentlich umfangreicher als die eines reinen Sprachmodells. Mit den Datensätzen muss eine modalitätenübergreifende Abstimmung der Beziehungen möglich sein.
Für verschiedenen Anwendungszwecke des Multimodal Deep Learning existieren mittlerweile zahlreiche multimodale Datensätze. Zu diesen gehören zum Beispiel das COCO-Captions Dataset (Bilder und Texte), VQA (Bilder und Texte), CMU-MOSEI (Video, Audio und Text), Social-IQ (Video, Audio und Text), IEMOCAP (Audio, Video und Text) und viele mehr.