Liegt der Fehler bereits in der Datenkennzeichnung?

Maschinelles Lernen Liegt der Fehler bereits in der Datenkennzeichnung?

11.10.2021Autor / Redakteur: Dipl. Betriebswirt Otto Geißler / Nico Litzel

Das Sammeln großer Datenmengen gestaltet sich heute relativ einfach. Entscheidend für die Entwicklung eines zielführenden Machine-Learning-Modells ist jedoch eine smarte Vorgehensweise bei der Datenkennzeichnung. Da Fehler für den Anwender kostenintensiv werden können, stellt sich die Frage: Wie generiert man möglichst effektiv hochwertige Datensätze?

Anbieter zum Thema

QUNIS GmbH

Fivetran Germany GmbH

Amazon Web Services Germany GmbH

Die Kennzeichnung von Daten ist eine Möglichkeit, Informationen in Abhängigkeit von ihrem Inhalt zu beschreiben und für das Maschinelle Lernen zu organisieren.
(Bild: gemeinfrei / Pixabay )

Beim Maschinellen Lernen (ML) übernimmt die Datenkennzeichnung (Annotation) den Prozess, Rohdaten wie beispielsweise Bilder, Textdateien, Videos und Audiodateien zu identifizieren und informative Kennzeichnungen hinzuzufügen. Damit wird ein zwingend notwendiger Kontext bereitgestellt, damit ein ML-Modell daraus lernen kann. Etikettierungen dieser Art können beispielsweise angeben, ob ein Foto eine Katze oder ein Haus enthält, welche Wörter in einer Audioaufnahme gesprochen wurden oder ob eine Röntgenaufnahme einen Tumor anzeigt.

Datenkennzeichnung für Trainings

In der Praxis ist es üblich, ML-Modelle des sogenannten „überwachten Lernens“ zu verwenden, um eine Eingabe auf eine Ausgabe abzubilden. Damit „überwachtes Lernen“ funktioniert, wird ein beschrifteter Datensatz benötigt, aus dem das Modell lernen und richtige Entscheidungen treffen kann. Die Datenkennzeichnung beginnt in der Regel damit, dass Menschen nicht gekennzeichnete Daten nach bestimmten Kriterien beurteilen.

Diese können beispielsweise aufgefordert werden, alle Bilder in einem Datensatz händisch zu markieren, bei dem Fotos mit Katzen zu sehen sind. Die Kennzeichnung bzw. das Label kann dann ein einfaches Ja oder Nein sein. Das bedeutet, ein Modell für Maschinelles Lernen verwendet von Menschen bereitgestellte Labels, um die zugrunde liegenden Muster in einem Prozess namens „Modelltraining“ zu lernen. Das Ergebnis ist ein trainiertes Modell, mit dem Vorhersagen zu wiederum neuen Daten erfolgen können.

Beim Maschinellen Lernen wird ein gekennzeichneter Datensatz, der als objektiver Standard zum Trainieren und Bewerten eines bestimmten Modells verwendet wird, vielfach als sogenannter „Ground Truth“ benannt. Das bedeutet, dass die Präzision eines trainierten Modells immer von der Genauigkeit des „Ground Truth“ abhängt. Aus diesem Grunde ist es angezeigt, ausreichend Zeit und Ressourcen aufzuwenden, um eine hochpräzise Datenkennzeichnung zu gewährleisten.

Arten der Datenkennzeichnung

Zu den üblichen Arten der Datenkennzeichnung gehören Systeme der Computer Vision, Verarbeitung natürlicher Sprache bzw. Spracherkennung.

Computer Vision: Beim Erstellen eines Computer-Vision-Systems müssen zunächst Bilder, Pixel oder Schlüsselpunkte beschriftet oder ein Rahmen erstellt werden, der ein digitales Bild vollständig umfasst, um ein Trainings-Dataset zu generieren. Bilder können dabei nicht nur nach dem Inhalt wie beispielspeise Katzen, sondern auch nach Kriterien wie Produkte bzw. Lifestyle oder sogar auf Pixelebene klassifiziert werden. Auf Basis dieser Trainingsdaten lässt sich dann ein Computer-Vision-Modell erstellen, um Bilder automatisch zu kategorisieren, die Position von Objekten zu erkennen, Schlüsselpunkte in einem Bild zu identifizieren oder ein Bild zu segmentieren.

Sprachverarbeitung: Zur Erarbeitung eines Trainings-Dataset für natürliche Sprache müssen zunächst der gesamte Text mit bestimmten Bezeichnungen versehen bzw. wichtige Textabschnitte, Worte, die Stimmung oder Intention manuell identifiziert werden.

Audioverarbeitung: Herzu werden alle Arten von Geräuschen wie Sprache, Tiergeräusche bzw. Umweltgeräusche in ein strukturiertes Format umgewandelt, damit es beim Maschinellen Lernen verwendet werden kann.

Effiziente Datenkennzeichnung

Zielführende Modelle für Maschinelles Lernen basieren auf großen Mengen hochwertiger Trainingsdaten. Der Prozess zum Erstellen der Trainingsdaten, die für die Ausarbeitung dieser Modelle erforderlich sind, ist jedoch häufig teuer, kompliziert und zeitaufwendig.

Bei einigen erstellten Modellen muss ein Anwender seine Daten manuell so kennzeichnen, dass das Modell lernt, in der Folge richtige Entscheidungen zu treffen. Um diese Herausforderung zu meistern, kann die Etikettierung effizienter gestaltet werden, indem schon dazu ein Modell für Maschinelles Lernen verwendet wird, um Daten automatisiert zu kennzeichnen. Dazu wird zunächst ein ML-Modell zum Beschriften von Daten an einem Teil der Rohdaten trainiert, der von Menschen beschriftet wurde. Wenn das Beschriftungsmodell auf der Grundlage der bisherigen Erkenntnisse zuverlässige Ergebnisse liefert, können Verfahren der automatischen Beschriftung auf Rohdaten angewendet werden.

Im anderen Falle, wenn das Kennzeichnungsmodell leider weniger zuverlässige Ergebnisse ausweist, werden die Daten wieder an den Menschen weitergegeben, um die Kennzeichnung vorzunehmen. In einem nächsten Schritt erhält das ML-Modell wiederum die vom Menschen erzeugten Beschriftungen, damit es daraus erneut lernen und seine Fähigkeit verbessern und den nächsten Satz Rohdaten automatisch kennzeichnen kann. Auf diese Weise kann das Modell immer mehr Daten automatisiert kennzeichnen und die Erstellung von Trainingsdatensätze erheblich beschleunigen.

Organisation der Datenkennzeichnung

Zur Organisation einer Kennzeichnung von Daten des Maschinellen Lernens müssen die richtige Software, das richtige Personal und die richtigen Ansätze selektiert werden. Hierfür qualifizieren sich folgende Vorgehensweisen:

Firmeninterne Datenbeschriftung: Für eine manuelle Datenkennzeichnung eignen sich freie personelle Ressourcen im eigenen Hause. Dies ist eine gute Option, weil dafür kein ausgewiesenes Expertenwissen notwendig ist.

Freelancer: Dabei handelt es sich um Zeitarbeitskräfte, die in der Regel Erfahrungen hinsichtlich der Datenkennzeichnung aufweisen. Anstatt die eigenen Mitarbeiter einzubeziehen, können ebenfalls freiberufliche Data Labeler beauftragt werden, Datensätze zu analysieren und organisieren.

Crowdsourcing: Für komplexe Projekte mit großem Datenvolumen empfiehlt es sich die Dienste eines externen Anbieters für die Datenkennzeichnung zu nutzen. Eine dieser zahlreichen Crowdsourcing-Plattformen bietet beispielsweise der Anbieter Shaip mit seiner gleichnamigen ShaipCloud-Plattform zum Erstellen, Transformieren und Kommentieren von Daten für KI-Modelle an. Ein weiterer Dienstleister ist Amazon mit dem Service SageMaker Ground Truth, der ebenfalls das Labeling von Trainingsdaten für skalierbares Machine Learning übernimmt.

(ID:47710700)