Definition Was ist CLIP?
Anbieter zum Thema
CLIP (Contrastive Language-Image Pre-training) ist ein von OpenAI entwickeltes KI-Verfahren. Es handelt sich um ein mit einer großen Menge Bild-Text-Paaren trainiertes neuronales Netzwerk, das die relevanteste Bildunterschrift zu einem gegebenen Bild vorhersagen kann. CLIP besitzt Zero-Shot-Fähigkeiten und lässt sich beispielsweise einsetzen, um mit Textbeschreibungen nach Bildern zu suchen oder Bilder automatisch zu beschriften. Der Text-zu-Bild-Generator DALL-E von OpenAI verwendet CLIP.

CLIP ist das Akronym für Contrastive Language-Image Pre-training. Es handelt sich um eine von OpenAI entwickelte und 2021 veröffentlichte Methode zum Erkennen und Klassifizieren von Bildern. Das neuronale Netzwerk von CLIP wurde mit einer enormen Menge an Bild-Text-Paaren aus dem Internet trainiert. Bei diesem Training hat das neuronale Netzwerk durch die Zusammenhänge zwischen Bild und Text gelernt, die jeweils relevanteste Bildunterschrift zu einem gegebenen Bild vorherzusagen.
CLIP besitzt Zero-Shot-Fähigkeiten, vergleichbar mit den Sprachmodellen der GPT-Familie. Es agiert, ohne direkt für eine bestimmte Klassifizierungsaufgabe optimiert worden zu sein. Contrastive Language-Image Pre-training lässt sich beispielsweise verwenden, um Bilder automatisch mit passendem Text zu beschriften oder um mit natürlichsprachigen Textbeschreibungen nach Bildern zu suchen. Zudem ermöglicht es, die nahezu unerschöpfliche Vielfalt an Bild-Text-Daten des Internets für das Training von Text-zu-Bild-Modellen zu nutzen. Das Pre-training erfordert keine aufwendig gelabelten Datensätze. DALL-E von OpenAI verwendet ebenfalls CLIP. Contrastive Language-Image Pre-training steht als Open Source Code auf GitHub zur Verfügung. Training und Nutzung von CLIP erfordert sowohl eine hohe Rechen- als auch eine hohe Speicherleistung.
Entwicklung von CLIP
Der Einsatz von Deep-Learning-Modellen hat für große Fortschritte beim maschinellen Sehen (Computer Vision) gesorgt. Allerdings benötigen die Modelle riesige Mengen an Trainingsdaten und ein langes, rechenintensives Training, um Aufgaben wie die Bilderkennung oder Bildklassifizierung mit der gewünschten Qualität zu erledigen. Hinzu kommt, dass die Modelle oft nur für eine bestimmte Aufgabe trainiert sind und bei davon abweichenden Aufgabenstellungen versagen. Die für das Training notwendigen Daten müssen aufwendig und kostspielig gelabelt werden. Doch selbst die größten manuell gelabelten Datensätze sind immer noch zu klein, um KI-Modelle zu trainieren, die in verschiedenen Bereichen überzeugen und bei unterschiedlichen Aufgaben die gewünschte Leistung bringen.
Im Bereich der natürlichsprachigen Textverarbeitung (NLP), wurde das Problem gelöst, indem man Verfahren entwickelt hat, mit denen sich die Modelle mit den riesigen Mengen ungelabelter Textdaten (beispielsweise Bücher oder Wikipedia-Texte) aus dem Internet trainieren lassen. Mithilfe dieser Verfahren und den Trainingsdaten aus dem Internet können Sprachmodelle für zahlreiche Lernaufgaben ohne manuelle Überwachung trainiert werden. Die Modelle entwickeln sogar Zero-Shot-Fähigkeiten und lösen Aufgaben, für die sie nicht explizit trainiert beziehungsweise optimiert wurden.
Contrastive Language-Image Pre-training ist ein Ansatz, der eine ähnliche Zielsetzung im Bereich des maschinellen Sehens verfolgt. CLIP macht die riesige Menge im Internet vorhandener Bilddaten und zugehöriger Textbeschreibungen für das Pre-training und Lernen von KI-Modellen verfügbar, ohne dass manuell gelabelte Datensätze erstellt werden müssen.
Funktionsweise von CLIP
Contrastive Language-Image Pre-training nutzt Daten, die aus Bildern und zugehörigen kurzen Texten bestehen, die die Bildinhalte beschreiben, wie Alt-Texte oder Titel. Mit diesen Daten trainiert CLIP einen Bild-Encoder und einen Text-Encoder, um zu einem gegebenen Bild, aus 32.768 zufällig ausgewählten Textausschnitten den zugehörigen zu finden. Dafür muss CLIP lernen, verschiedene visuelle Konzepte in den Bildern zu erkennen und sie mit Text in Verbindung zu bringen. CLIP kann semantische Beziehungen zwischen den Bildern und den Texten erfassen und verstehen. Nach dem Pre-training ist CLIP in der Lage, eine Vielzahl an Bildklassifizierungsaufgaben zu lösen und besitzt Fähigkeiten eines Zero-Shot-Klassfizierers.
Fähigkeiten und Anwendungen von CLIP
OpenAI trainierte CLIP mit einem Datensatz von rund 400 Millionen Text-Bild-Paaren. Die multimodale Architektur konnte anschließend unterschiedliche Aufgaben lösen und zeigte Zero-Shot-Fähigkeiten im Bereich des maschinellen Sehens, vergleichbar mit den Sprachmodellen der GPT-Familie im Bereich der Verarbeitung von natürlicher Sprache.
CLIP kann Bilder auf Basis natürlichsprachiger Anweisungen klassifizieren. Darüber hinaus lässt sich CLIP einsetzen, um mit natürlichsprachigen Texteingaben nach Bildern zu suchen. Ein weiteres Beispiel für die Fähigkeiten von CLIP ist das automatische Generieren von Bildbeschriftungen auf Grundlage der visuellen Bildmerkmale.
OpenAI setzt Contrastive Language-Image Pre-training auch in den verschiedenen Versionen des KI-Text-zu-Bild-Generators DALL-E ein. CLIP trägt wesentlich dazu bei, die passenden Verbindungen zwischen den textlichen und bildlichen Repräsentationen herzustellen, indem das Modell im Pre-training lernt, wie stark ein gegebener Textausschnitt mit einem Bild in Beziehung steht. Neben CLIP verwendet DALL-E 2 ein weiteres KI-Modell mit der Bezeichnung GLIDE (Guided Language to Image Diffusion for Generation and Editing). Es handelt sich dabei um ein ebenfalls von OpenAI entwickeltes textgeführtes Diffusionsmodell.
(ID:49741427)