CLIP (Contrastive Language-Image Pre-training) ist ein von OpenAI entwickeltes KI-Verfahren. Es handelt sich um ein mit einer großen Menge Bild-Text-Paaren trainiertes neuronales Netzwerk, das die relevanteste Bildunterschrift zu einem gegebenen Bild vorhersagen kann. CLIP besitzt Zero-Shot-Fähigkeiten und lässt sich beispielsweise einsetzen, um mit Textbeschreibungen nach Bildern zu suchen oder Bilder automatisch zu beschriften. Der Text-zu-Bild-Generator DALL-E von OpenAI verwendet CLIP.
CLIP ist das Akronym für Contrastive Language-Image Pre-training. Es handelt sich um eine von OpenAI entwickelte und 2021 veröffentlichte Methode zum Erkennen und Klassifizieren von Bildern. Das neuronale Netzwerk von CLIP wurde mit einer enormen Menge an Bild-Text-Paaren aus dem Internet trainiert. Bei diesem Training hat das neuronale Netzwerk durch die Zusammenhänge zwischen Bild und Text gelernt, die jeweils relevanteste Bildunterschrift zu einem gegebenen Bild vorherzusagen.
CLIP besitzt Zero-Shot-Fähigkeiten, vergleichbar mit den Sprachmodellen der GPT-Familie. Es agiert, ohne direkt für eine bestimmte Klassifizierungsaufgabe optimiert worden zu sein. Contrastive Language-Image Pre-training lässt sich beispielsweise verwenden, um Bilder automatisch mit passendem Text zu beschriften oder um mit natürlichsprachigen Textbeschreibungen nach Bildern zu suchen. Zudem ermöglicht es, die nahezu unerschöpfliche Vielfalt an Bild-Text-Daten des Internets für das Training von Text-zu-Bild-Modellen zu nutzen. Das Pre-training erfordert keine aufwendig gelabelten Datensätze. DALL-E von OpenAI verwendet ebenfalls CLIP. Contrastive Language-Image Pre-training steht als Open Source Code auf GitHub zur Verfügung. Training und Nutzung von CLIP erfordert sowohl eine hohe Rechen- als auch eine hohe Speicherleistung.
Entwicklung von CLIP
Der Einsatz von Deep-Learning-Modellen hat für große Fortschritte beim maschinellen Sehen (Computer Vision) gesorgt. Allerdings benötigen die Modelle riesige Mengen an Trainingsdaten und ein langes, rechenintensives Training, um Aufgaben wie die Bilderkennung oder Bildklassifizierung mit der gewünschten Qualität zu erledigen. Hinzu kommt, dass die Modelle oft nur für eine bestimmte Aufgabe trainiert sind und bei davon abweichenden Aufgabenstellungen versagen. Die für das Training notwendigen Daten müssen aufwendig und kostspielig gelabelt werden. Doch selbst die größten manuell gelabelten Datensätze sind immer noch zu klein, um KI-Modelle zu trainieren, die in verschiedenen Bereichen überzeugen und bei unterschiedlichen Aufgaben die gewünschte Leistung bringen.
Im Bereich der natürlichsprachigen Textverarbeitung (NLP), wurde das Problem gelöst, indem man Verfahren entwickelt hat, mit denen sich die Modelle mit den riesigen Mengen ungelabelter Textdaten (beispielsweise Bücher oder Wikipedia-Texte) aus dem Internet trainieren lassen. Mithilfe dieser Verfahren und den Trainingsdaten aus dem Internet können Sprachmodelle für zahlreiche Lernaufgaben ohne manuelle Überwachung trainiert werden. Die Modelle entwickeln sogar Zero-Shot-Fähigkeiten und lösen Aufgaben, für die sie nicht explizit trainiert beziehungsweise optimiert wurden.
Contrastive Language-Image Pre-training ist ein Ansatz, der eine ähnliche Zielsetzung im Bereich des maschinellen Sehens verfolgt. CLIP macht die riesige Menge im Internet vorhandener Bilddaten und zugehöriger Textbeschreibungen für das Pre-training und Lernen von KI-Modellen verfügbar, ohne dass manuell gelabelte Datensätze erstellt werden müssen.
Funktionsweise von CLIP
Contrastive Language-Image Pre-training nutzt Daten, die aus Bildern und zugehörigen kurzen Texten bestehen, die die Bildinhalte beschreiben, wie Alt-Texte oder Titel. Mit diesen Daten trainiert CLIP einen Bild-Encoder und einen Text-Encoder, um zu einem gegebenen Bild, aus 32.768 zufällig ausgewählten Textausschnitten den zugehörigen zu finden. Dafür muss CLIP lernen, verschiedene visuelle Konzepte in den Bildern zu erkennen und sie mit Text in Verbindung zu bringen. CLIP kann semantische Beziehungen zwischen den Bildern und den Texten erfassen und verstehen. Nach dem Pre-training ist CLIP in der Lage, eine Vielzahl an Bildklassifizierungsaufgaben zu lösen und besitzt Fähigkeiten eines Zero-Shot-Klassfizierers.
Fähigkeiten und Anwendungen von CLIP
OpenAI trainierte CLIP mit einem Datensatz von rund 400 Millionen Text-Bild-Paaren. Die multimodale Architektur konnte anschließend unterschiedliche Aufgaben lösen und zeigte Zero-Shot-Fähigkeiten im Bereich des maschinellen Sehens, vergleichbar mit den Sprachmodellen der GPT-Familie im Bereich der Verarbeitung von natürlicher Sprache.
CLIP kann Bilder auf Basis natürlichsprachiger Anweisungen klassifizieren. Darüber hinaus lässt sich CLIP einsetzen, um mit natürlichsprachigen Texteingaben nach Bildern zu suchen. Ein weiteres Beispiel für die Fähigkeiten von CLIP ist das automatische Generieren von Bildbeschriftungen auf Grundlage der visuellen Bildmerkmale.
OpenAI setzt Contrastive Language-Image Pre-training auch in den verschiedenen Versionen des KI-Text-zu-Bild-Generators DALL-E ein. CLIP trägt wesentlich dazu bei, die passenden Verbindungen zwischen den textlichen und bildlichen Repräsentationen herzustellen, indem das Modell im Pre-training lernt, wie stark ein gegebener Textausschnitt mit einem Bild in Beziehung steht. Neben CLIP verwendet DALL-E 2 ein weiteres KI-Modell mit der Bezeichnung GLIDE (Guided Language to Image Diffusion for Generation and Editing). Es handelt sich dabei um ein ebenfalls von OpenAI entwickeltes textgeführtes Diffusionsmodell.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.