Mithilfe des Crowdsourcings ist es möglich, einige der häufigsten Probleme des Daten-Managements für maschinelles Lernen (ML) zu überwinden. Dazu gehören beispielsweise Knappheit, Verzerrung, Rauschen, Komplexität, aber auch Kosten und zeitnahe Verfügbarkeiten. Welche Herausforderungen sind mit Online-Crowdsourcing-Plattformen verbunden?
Daten-Crowdsourcing wird zur Verbesserung eines Produkts, einer Dienstleistung oder zu Forschungszwecken verwendet.
Heutzutage sind Daten die Grundlage für alles, von Modellen für maschinelles Lernen (ML) bis hin zu Business Intelligence (BI). Eine starke KI-Strategie basiert auf Daten, die spezifisch für ein Geschäftsproblem sind, das ein Unternehmen zu lösen versucht. Wenn es um die Realisierung dieser Aktivitäten geht, muss eine Organisation oft sehr viele hochwertige Daten sammeln, um das richtige maschinelle Lernmodell für seinen Anwendungsfall zu erstellen. Doch die Erfassung dieser Daten ist häufig schwierig und nicht zuletzt kostspielig. Hier bietet Daten-Crowdsourcing einen enormen Mehrwert.
Vorzüge und Nachteile
Durch die Aufteilung von Datenaufgaben und deren Verteilung auf eine sehr große Anzahl von Personen können Organisationen vielfältige Datensätze sammeln sowie große Umfragen durchführen und vieles mehr. Mithilfe des Wissens und der Kreativität einer großen Crowd ist es möglich, nicht nur auf viel mehr Daten zuzugreifen, sondern sie auch mit menschlichen Erkenntnissen anzureichern, ihre Datenqualität zu validieren oder komplexe Aufgaben zu lösen, die sonst nur schwer zu automatisieren sind. Auf diese Weise sind Organisationen in der Lage, schnell und kostengünstig große Datenmengen zu sammeln.
Jedoch gibt es auch einige potenzielle Nachteile. Zum Beispiel kann die Qualität der Daten geringer sein, als wenn sie von professionellen Forschern erhoben würden. Darüber hinaus können die Daten verzerrt sein, wenn die Personen, die sich für die Teilnahme am Crowdsourcing-Projekt entscheiden, nicht repräsentativ für die Gesamtbevölkerung sind. Zudem ist bei der Auswahl einer Online-Crowdsourcing-Plattform eine Reihe von Faktoren zu berücksichtigen. Dazu gehören beispielsweise die Art der Daten, die Anzahl der Personen und das Budget, das zur Verfügung steht.
Funktionen der Verfahren
Das Crowdsourcing von Daten für maschinelles Lernen kann auf verschiedene Arten erfolgen, die jeweils von den Zielen und Ressourcen abhängen. Zu den beliebtesten Methoden gehören unter anderem das Labeling und die Generierung und Auswertung von Daten. Bei dem Labeling muss die Crowd Daten, die für eine Machine-Learning-Aufgabe relevant sind, mit Beschriftungen versehen oder klassifizieren.
Im Hinblick auf die Generierung von Daten muss die Crowd Daten erstellen oder erweitern, die das Trainieren oder Testen von ML-Modellen unterstützen. Bei der Evaluierung soll die Crowd die Genauigkeit, Relevanz oder Qualität von Daten bewerten oder vergleichen, um wiederum ML-Modelle zu bewerten oder zu verbessern.
Best Practices für Crowdsourcing-Daten
Um Crowdsourcing effektiv für maschinelles Lernen zu nutzen, sollte der Anwender seine Ziele und Anforderungen definieren, die beste Methode und Plattform auswählen, die jeweiligen Aufgaben und Anweisungen entwerfen sowie die Ergebnisse überwachen und auswerten. Qualifikationstests oder Screenings filtern hochwertige Mitwirkende heraus. Ferner sind laufende Qualitätssicherungsprozesse, Stichproben und Audits durchzuführen sowie Prozesse einzurichten, um minderwertige Arbeit schnell zu verbessern.
Auswahl der Crowdsourcing-Plattform
Eine geeignete Crowdsourcing-Methode und -Plattform wird unter Berücksichtigung von Funktionen, Kosten und Qualität ausgewählt. In der Folge werden mögliche Daten-Crowdsourcing-Plattformen kurz vorgestellt:
Twine AI
Die Plattform ist auf die Bereitstellung von Audio- und Videodatensätzen für Computer-Vision-Modelle über eine globale Gemeinschaft von Freiberuflern für maschinelles Lernen und KI-Forschungsprojekte spezialisiert. Twine AI bietet Zugang zu einer globalen Community von einer halben Million Experten aus über 190 Ländern. Die Plattform ist auf die Erstellung von Bild-, Text-, Audio-, Video- und sensorischen Datensätzen fokussiert, die Computer Vision, NLP, Spracherkennung und mehr umfassen.
Amazon Mechanical Turk
Die Plattform von Amazon Web Services (AWS) bietet Zugriff auf über 500.000 Mitarbeiter weltweit für Aufgaben wie Datenkennzeichnung, Umfragen, Transkription, Inhaltsmoderation und mehr. Sie verfügt über Workflows für allgemeine Aufgaben und lässt sich in andere AWS-Dienste integrieren. Amazon Mechanical Turk eignet sich für Anwendungsfälle wie beispielsweise Datenkennzeichnung, Klassifizierung, Umfragen und Inhaltsmoderation.
Surge-AI
Surge AI bietet Daten-Annotationsdienste an, die sich hauptsächlich auf Computer-Vision-Trainingsdatensätze für Anwendungen wie autonome Fahrzeuge, Robotik, AR/VR und mehr konzentrieren. Zu den Hauptmerkmalen zählen Bild- und Videoanmerkung, KI-Datenerfassung, Kennzeichnung von Sensordaten, Qualitätskontrolle etc.
Appen
Bei Appen handelt es sich um ein etabliertes Unternehmen für Daten-Annotation, das auf eine kuratierte Crowdsourcing-Workforce von über eine Million Auftragnehmern zurückgreift. Weitere Hauptmerkmale sind maßgeschneiderte Tests und Schulung von Annotatoren, mehrstufige Workflows der Qualitätssicherung, sicheres cloudbasiertes Datenhandling etc. Zu den Anwendungsfällen gehören Datenkennzeichnung und -anmerkung, Inhaltsmoderation etc.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Lionbridge-AI
Lionbridge-AI bietet Crowd-basierte Daten-Annotationen, die auf KI-Anwendungen zugeschnitten sind. Lionbridge-AI ist spezialisiert auf Text-, Bild-, Video- und Sprachdatensätze und bietet Übersetzungsunterstützung in über 300 Sprachen, Kollaborationstools für große Teams, maßgeschneiderte Arbeitsabläufe etc. Anwendungsfälle: Multimodale Datenkennzeichnung für ML-Training.
Fazit
Daten sind ein entscheidendes Asset. Daten-Crowdsourcing ermöglicht die Verteilung von Datenaufgaben an Tausende von Menschen und eröffnet dadurch enorme Geschwindigkeits-, Kosten- und Größenvorteile. Jedoch sind für die Beschaffung hochwertiger Daten mit größeren Volumina einige Herausforderungen zu meistern.