Definition Was ist Zero-Shot-Lernen?

Zero-Shot-Lernen (ZSL) ist eine Methode, die für Maschinelles Lernen zum Einsatz kommt. ML-Modelle erhalten mit ZSL die Fähigkeit, Instanzen zu klassifizieren, für die sie während des Trainings keine Beispiele gesehen haben. Die Menge gelabelter Trainingsdaten lässt sich mit dem Zero-Shot-Lernen reduzieren. Neue Klassen werden ohne ein vorheriges Beispiel gelernt, indem Informationen bereits vorhandener Klassen kombiniert oder semantische Informationen ausgewertet werden.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Zero-Shot-Lernen ist ein Begriff aus dem Umfeld des Machine Learnings (ML). Mit dem Zero-Shot-Lernen erhalten Machine-Learning-Modelle die Fähigkeit, Instanzen Klassen zuzuordnen, für die sie währende der Trainingsphase keine Beispieldaten gesehen habe. Die Methode unterscheidet sich von herkömmlichen ML-Ansätzen, bei denen im Training für jede Klasse Beispieldaten vorhanden sein müssen. ZSL reduziert die Menge an gelabelten Trainingsdaten und lässt die Modelle Aufgaben ausführen, für die sie keine Beispiele gesehen haben. Neue Klassen werden durch die Kombination bereits erlernter Klassen oder das Heranziehen semantischer Informationen oder zusätzlichen Wissens abgeleitet.

Die Klassen der Trainingsinstanzen und die später in der Inferenz zugewiesenen Klassen müssen nicht übereinstimmen. Damit nähert sich Maschinelles Lernen den Fähigkeiten des menschlichen Lernens an und kann mit unerwarteten Daten angemessen umgehen. Der Mensch kann beispielsweise Objekte erkennen oder zuordnen, die er vorher noch nie gesehen hat. Neben dem Zero-Shot-Lernen gibt es noch das One-Shot- und das Low-Shot-Lernen. Beim One-Shot-Lernen benötigt das Training für eine neue Klasse genau ein Trainingsbeispiel. Das Low-Shot-Lernen versucht die verschiedenen Klassen mit möglichst wenig Beispieldaten zu trainieren. Zero-Shot-Lernen ist für zahlreiche Anwendungen wie für die Objekterkennung, das Natural Language Processing oder die Robotik einsetzbar.

Beschreibung der Problemstellung

Herkömmliche Machine-Learning-Methoden verfolgen den Ansatz, die Modelle und ihre Klassifizierungsfähigkeiten mit möglichst vielen gelabelten Daten zu trainieren. Für jede zu erlernende Klasse muss eine größere Anzahl an Trainingsbeispielen vorhanden sein. Je mehr Beispiele während der Trainingsphase prozessiert werden, desto genauer ist später die Klassifizierung in der Inferenzphase. Der MNIST-Datensatz enthält beispielsweise 60.000 Beispiele handgeschriebener Ziffern, mit denen ML-Modelle für das Erkennen von nur zehn unterschiedlichen Ziffern trainiert werden. Da komplexere Modelle nicht nur mit zehn, sondern mit tausenden verschiedenen Klassen arbeiten, ist der Aufwand für das Erstellen geeigneter gelabelter Trainingsdaten kaum noch zu leisten.

Methoden wie das Low-Shot-, One-Shot- oder Zero-Shot-Lernen bieten für diese Problemstellung eine Lösung, indem sie die Menge an notwendigen Trainingsdaten reduzieren. Zero-Shot-Lernen kann Instanzen Klassen zuordnen, für die es im Training keine Beispieldaten gesehen hat. Aus einer Gruppe bereits bekannter Klassen und weiteren Informationen werden bisher unsichtbare Klassen vorhergesagt.

Abgrenzung der Begriffe Zero-Shot-Lernen, One-Shot-Lernen und Low-Shot-Lernen

Zero-Shot-Lernen, One-Shot-Lernen und Low-Shot-Lernen sind Fähigkeiten von Machine-Learning-Modellen, die eine ähnliche Zielsetzung verfolgen. Sie reduzieren die Menge notwendiger gelabelter Trainingsdaten, indem sie die Modelle in die Lage versetzen, neue Klassen ohne oder mit nur sehr wenigen Beispielen zu erlernen und korrekte Klassifizierungen vorzunehmen. Die Modelle können mit unerwarteten Daten besser umgehen und Aufgaben ausführen, für die sie im Training keine oder nur wenige Beispiele gesehen haben. Beim One-Shot-Lernen wird das Modell mit nur einem Beispiel für eine Klasse trainiert. Das Low-Shot-Lernen ist darauf spezialisiert, die Menge an Trainingsbeispielen für einzelne Klassen auf wenige zu reduzieren.

Funktionsweise des Zero-Shot-Lernens

Für das Zero-Shot-Lernen existieren verschiedene praktische und theoretische Ansätze, auf die im Detail hier nicht eingegangen werden soll. Die grundsätzliche Problemstellung ist eine Problemstellung des Meta-Lernens. Das System lernt aus den Metadaten bereits gesehener Klassen, wie es neue, bisher unsichtbare Klassen vorhersagen kann. Es lernt quasi, wie es lernt, eine Aufgabenstellung zu lösen. Indem Informationen bereits gelernter Klassen übertragen, semantische Informationen ausgewertet oder zusätzliches Wissen herangezogen wird, lassen sich bisher unsichtbare Klassen ableiten. Das Modell geht davon aus, dass die gesehenen und die noch unsichtbaren Klassen in einem mehrdimensionalen Raum miteinander in Beziehung stehen. Informationen aus den bereits gelernten Klassen lassen sich auf die noch unsichtbaren Klassen übertragen. Semantische Zwischenschichten und Attribute werden ausgewertet, um neue Klassen vorherzusagen und während der Inferenz zuzuordnen. Es handelt sich also um einen zweistufigen Prozess. Während des Trainings werden Attribute erfasst. In der Inferenzphase wird das erworbene Wissen genutzt, um die Instanzen neuen, bisher nicht gesehenen Klassen zuzuordnen.

Ein stark vereinfachtes und oft verwendetes Beispiel zur Verdeutlichung des Zero-Shot-Lernens stammt aus dem Bereich der Bilderkennung. Es soll das Bild eines Zebras erkannt werden, ohne dass zuvor ein Beispielbild eines Zebras gesehen wurde. Bisher wurde das Modell nur mit Bildern von Pferden trainiert. Es kann nur Pferde sicher erkennen. Indem man die Zusatztextinformation liefert, dass ein Zebra wie ein Pferd aussieht und schwarz-weiße Streifen besitzt, wird das Modell in die Lage versetzt, auch Zebras sicher zu erkennen. Das Modell muss für das Erlernen der neuen Klasse „Zebra“ lediglich die Klasse „Pferd“ kennen und mit den Informationen umgehen können, was Streifen und was die Farben Schwarz und Weiß sind.

Für das Zero-Shot-Lernen gibt es zahlreiche Anwendungsbereiche. Zu diesen zählen:

  • Computerlinguistik (Natural Language Processing – NLP)
  • maschinelle Übersetzungen
  • Textvervollständigung
  • Text- und Sprachdialogsysteme
  • Textkategorisierung
  • Bild- und Objekterkennung
  • Bilderzeugung
  • Informationsextraktion
  • autonomes Fahren
  • Robotik
  • medizinische Bilddiagnostik

Bekannte NLP-Sprachmodelle wie das Megatron-Turing Natural Language Generation Model (MT-NLG) oder der Generative Pretrained Transformer 3 (GPT-3) besitzen Fähigkeiten des Low-Shot- und des Zero-Shot-Lernens. Ohne oder mit nur geringer vorheriger Abstimmung erledigen sie ähnliche NLP-Aufgaben.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48023233)