Crowdsourcing für maschinelles Lernen Zugang zu hochwertigen und großen Datenmengen

Von Dipl. Betriebswirt Otto Geißler 4 min Lesedauer

Anbieter zum Thema

Mithilfe des Crowdsourcings ist es möglich, einige der häufigsten Probleme des Daten-Managements für maschinelles Lernen (ML) zu überwinden. Dazu gehören beispielsweise Knappheit, Verzerrung, Rauschen, Komplexität, aber auch Kosten und zeitnahe Verfügbarkeiten. Welche Herausforderungen sind mit Online-Crowdsourcing-Plattformen verbunden?

Daten-Crowdsourcing wird zur Verbesserung eines Produkts, einer Dienstleistung oder zu Forschungszwecken verwendet.(Bild:  frei lizenziert /  Pixabay)
Daten-Crowdsourcing wird zur Verbesserung eines Produkts, einer Dienstleistung oder zu Forschungszwecken verwendet.
(Bild: frei lizenziert / Pixabay)

Heutzutage sind Daten die Grundlage für alles, von Modellen für maschinelles Lernen (ML) bis hin zu Business Intelligence (BI). Eine starke KI-Strategie basiert auf Daten, die spezifisch für ein Geschäftsproblem sind, das ein Unternehmen zu lösen versucht. Wenn es um die Realisierung dieser Aktivitäten geht, muss eine Organisation oft sehr viele hochwertige Daten sammeln, um das richtige maschinelle Lernmodell für seinen Anwendungsfall zu erstellen. Doch die Erfassung dieser Daten ist häufig schwierig und nicht zuletzt kostspielig. Hier bietet Daten-Crowdsourcing einen enormen Mehrwert.

Vorzüge und Nachteile

Durch die Aufteilung von Datenaufgaben und deren Verteilung auf eine sehr große Anzahl von Personen können Organisationen vielfältige Datensätze sammeln sowie große Umfragen durchführen und vieles mehr. Mithilfe des Wissens und der Kreativität einer großen Crowd ist es möglich, nicht nur auf viel mehr Daten zuzugreifen, sondern sie auch mit menschlichen Erkenntnissen anzureichern, ihre Datenqualität zu validieren oder komplexe Aufgaben zu lösen, die sonst nur schwer zu automatisieren sind. Auf diese Weise sind Organisationen in der Lage, schnell und kostengünstig große Datenmengen zu sammeln.

Jedoch gibt es auch einige potenzielle Nachteile. Zum Beispiel kann die Qualität der Daten geringer sein, als wenn sie von professionellen Forschern erhoben würden. Darüber hinaus können die Daten verzerrt sein, wenn die Personen, die sich für die Teilnahme am Crowdsourcing-Projekt entscheiden, nicht repräsentativ für die Gesamtbevölkerung sind. Zudem ist bei der Auswahl einer Online-Crowdsourcing-Plattform eine Reihe von Faktoren zu berücksichtigen. Dazu gehören beispielsweise die Art der Daten, die Anzahl der Personen und das Budget, das zur Verfügung steht.

Funktionen der Verfahren

Das Crowdsourcing von Daten für maschinelles Lernen kann auf verschiedene Arten erfolgen, die jeweils von den Zielen und Ressourcen abhängen. Zu den beliebtesten Methoden gehören unter anderem das Labeling und die Generierung und Auswertung von Daten. Bei dem Labeling muss die Crowd Daten, die für eine Machine-Learning-Aufgabe relevant sind, mit Beschriftungen versehen oder klassifizieren.

Im Hinblick auf die Generierung von Daten muss die Crowd Daten erstellen oder erweitern, die das Trainieren oder Testen von ML-Modellen unterstützen. Bei der Evaluierung soll die Crowd die Genauigkeit, Relevanz oder Qualität von Daten bewerten oder vergleichen, um wiederum ML-Modelle zu bewerten oder zu verbessern.

Best Practices für Crowdsourcing-Daten

Um Crowdsourcing effektiv für maschinelles Lernen zu nutzen, sollte der Anwender seine Ziele und Anforderungen definieren, die beste Methode und Plattform auswählen, die jeweiligen Aufgaben und Anweisungen entwerfen sowie die Ergebnisse überwachen und auswerten. Qualifikationstests oder Screenings filtern hochwertige Mitwirkende heraus. Ferner sind laufende Qualitätssicherungsprozesse, Stichproben und Audits durchzuführen sowie Prozesse einzurichten, um minderwertige Arbeit schnell zu verbessern.

Auswahl der Crowdsourcing-Plattform

Eine geeignete Crowdsourcing-Methode und -Plattform wird unter Berücksichtigung von Funktionen, Kosten und Qualität ausgewählt. In der Folge werden mögliche Daten-Crowdsourcing-Plattformen kurz vorgestellt:

Twine AI

Die Plattform ist auf die Bereitstellung von Audio- und Videodatensätzen für Computer-Vision-Modelle über eine globale Gemeinschaft von Freiberuflern für maschinelles Lernen und KI-Forschungsprojekte spezialisiert. Twine AI bietet Zugang zu einer globalen Community von einer halben Million Experten aus über 190 Ländern. Die Plattform ist auf die Erstellung von Bild-, Text-, Audio-, Video- und sensorischen Datensätzen fokussiert, die Computer Vision, NLP, Spracherkennung und mehr umfassen.

Amazon Mechanical Turk

Die Plattform von Amazon Web Services (AWS) bietet Zugriff auf über 500.000 Mitarbeiter weltweit für Aufgaben wie Datenkennzeichnung, Umfragen, Transkription, Inhaltsmoderation und mehr. Sie verfügt über Workflows für allgemeine Aufgaben und lässt sich in andere AWS-Dienste integrieren. Amazon Mechanical Turk eignet sich für Anwendungsfälle wie beispielsweise Datenkennzeichnung, Klassifizierung, Umfragen und Inhaltsmoderation.

Surge-AI

Surge AI bietet Daten-Annotationsdienste an, die sich hauptsächlich auf Computer-Vision-Trainingsdatensätze für Anwendungen wie autonome Fahrzeuge, Robotik, AR/VR und mehr konzentrieren. Zu den Hauptmerkmalen zählen Bild- und Videoanmerkung, KI-Datenerfassung, Kennzeichnung von Sensordaten, Qualitätskontrolle etc.

Appen

Bei Appen handelt es sich um ein etabliertes Unternehmen für Daten-Annotation, das auf eine kuratierte Crowdsourcing-Workforce von über eine Million Auftragnehmern zurückgreift. Weitere Hauptmerkmale sind maßgeschneiderte Tests und Schulung von Annotatoren, mehrstufige Workflows der Qualitätssicherung, sicheres cloudbasiertes Datenhandling etc. Zu den Anwendungsfällen gehören Datenkennzeichnung und -anmerkung, Inhaltsmoderation etc.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Lionbridge-AI

Lionbridge-AI bietet Crowd-basierte Daten-Annotationen, die auf KI-Anwendungen zugeschnitten sind. Lionbridge-AI ist spezialisiert auf Text-, Bild-, Video- und Sprachdatensätze und bietet Übersetzungsunterstützung in über 300 Sprachen, Kollaborationstools für große Teams, maßgeschneiderte Arbeitsabläufe etc. Anwendungsfälle: Multimodale Datenkennzeichnung für ML-Training.

Fazit

Daten sind ein entscheidendes Asset. Daten-Crowdsourcing ermöglicht die Verteilung von Datenaufgaben an Tausende von Menschen und eröffnet dadurch enorme Geschwindigkeits-, Kosten- und Größenvorteile. Jedoch sind für die Beschaffung hochwertiger Daten mit größeren Volumina einige Herausforderungen zu meistern.

(ID:50105621)