Kommentar von Alys Woodward, Gartner Synthetische Daten – wann lohnt sich der Einsatz?
Anbieter zum Thema
Synthetische Daten sind eine wichtige Ressource, um Machine-Learning-Modelle zu trainieren, Systeme zu testen und Prototypen zu erstellen. Im Trend liegen Plattformen für synthetische Daten für tabellarische Daten und Bilddaten. Gartner empfiehlt Anbietern, eine Differenzierung für bestimmte Datentypen und Anwendungsfälle zu treffen.

Synthetische Daten sind eine Klasse von Daten, die künstlich erzeugt werden. Sie stammen nicht aus direkten Beobachtungen aus der realen Welt. Daten können mit verschiedenen Methoden erzeugt werden, beispielsweise durch statistisch strenge Stichproben aus realen Daten, semantische Ansätze oder durch ein Generative Adversarial Network. Hinzu kommen Simulationsszenarien, in denen Modelle und Prozesse interagieren, um völlig neue Datensätze von Ereignissen zu erzeugen. Es gibt verschiedene Arten von synthetischen Daten. Darunter fallen tabellarische oder relationale Daten, textbasierte oder bild- sowie videobasierte Informationen. Letztere werden oft als Bilddaten bezeichnet, da es sich bei Videos um eine Reihe von Bildern handelt.
Schätzungen von Gartner zufolge werden sich bis 2030 synthetische Daten in Unternehmen durchsetzen. Sie werden mehr als 95 Prozent der für das Training von KI-Modellen (Künstliche Intelligenz) verwendeten Daten ausmachen. Synthetische strukturierte Daten, die zum Trainieren von KI-Modellen verwendet werden, wachsen mindestens dreimal so schnell wie echte strukturierte Daten. Synthetische Daten verbessern Ergebnisse, wenn echte Daten teuer, unausgewogen, nicht verfügbar oder aufgrund von Datenschutzbestimmungen nicht verwendbar sind.
Wo sie zum Einsatz kommen
Echte Daten sind fast immer die beste Quelle für Erkenntnisse. Diese sind jedoch oft teuer, unausgewogen, nicht verfügbar oder aufgrund von Datenschutzbestimmungen unbrauchbar. Um diese Probleme zu lösen, können synthetische Daten erstellt werden, die in der Regel auf den ursprünglichen realen Daten basieren, manchmal in Kombination mit anderen Techniken wie dem differentiellen Datenschutz. Werden synthetische Daten mit realen Daten kombiniert, entsteht ein verbesserter Datensatz, der die Schwächen der realen Daten ausgleicht.
Manchmal werden Daten als „erweitert“ (augmented) bezeichnet. Bei strukturierten Daten lassen sich die Daten auf Zeilenebene erweitern, indem fehlende Felder hinzugefügt werden, zum Beispiel um demografische Informationen aus der Wohnadresse und dem Bildungsgrad abzuleiten. Bei erweiterten Daten handelt es sich manchmal um einen erweiterten Bilddatensatz, dem zusätzliche Randfälle hinzugefügt wurden. Da reale Daten immer in Verbindung mit synthetischen Daten verwendet werden, gelten erweiterte Daten als eine besondere Art von synthetischen Daten, da sie nicht rein „real“ sind.
Wenn Synthetische Daten und Künstliche Intelligenz sich treffen
Synthetische Daten werden derzeit hauptsächlich zum Training von ML-Modellen (Machine Learning) für strukturierte und unstrukturierte Daten, zum Testen von Systemen und zum Erstellen von Produktdemos und Prototypen verwendet. Die Breite ihrer Anwendbarkeit macht sie zu einem entscheidenden Beschleuniger für Künstliche Intelligenz: Sie ermöglichen KI dort, wo Datenmangel KI unbrauchbar macht – etwa aufgrund von Verzerrungen oder der Unfähigkeit, seltene oder noch nie dagewesene Szenarien zu erkennen. Synthetische Daten werden die Einführung von KI und letztlich digitale Geschäftsmodelle beschleunigen.
Synthetische Daten für das Training von ML-Modellen stellen sicher, Modelle so zu trainieren, dass sie ein breites Spektrum an Situationen oder Grenzfällen erkennen. So kann das Modell besser an seinen spezifischen Zweck angepasst werden. Auch lassen sich ML-Lösungen realisieren, die nicht möglich wären, wenn sie nur auf realen Daten beruhen. Die Verringerung des Unterschieds zwischen den Daten, auf die das Modell trainiert wurde, und den Daten, auf die das Modell in der realen Welt stößt, verringert die „Domänenlücke“ in der ML-Terminologie.
Synthetische Daten für Testsysteme sind in einer Struktur erstellbar, die identisch mit den nicht erhältlichen Produktionsdaten ist. Sie können mit einer breiteren Palette möglicher Ereignisse oder Pfade durch das System angereichert werden und ihr Volumen ist für Volumentests erhöhbar.
Synthetische Daten sind für Hackathons, Produktdemonstrationen und internes Prototyping verwendbar, um einen Datensatz mit den richtigen statistischen Attributen zu replizieren. Beispiele sind hier ein synthetischer Datensatz für einen Hackathon, um Wege zur Bekämpfung von Finanzbetrug zu finden. Möglich ist auch ein Demonstrationssystem eines Technologieprodukts für ein Verkaufsgespräch mit einem Kunden, der die Bedarfsplanung im Einzelhandel verbessern will. Oder es entsteht ein internes Prototypsystem, um CFOs Kreditinformationen anzuzeigen, ohne Zeit für den Zugriff auf Produktionsdaten zu benötigen – bei gleichzeitiger Sicherstellung der Glaubwürdigkeit der Angaben.
Solche Daten müssen die richtigen statistischen Verteilungen aufweisen und auch für den Betrachter richtig aussehen. Zum Beispiel müssen die richtigen Postleitzahlen den Städten zugeordnet werden, anstatt sie zufällig zu erstellen. Weisen die Daten sichtbare Fehler auf, besteht die Gefahr, dass Geschäftsanwender und potenzielle Kunden ihnen nicht trauen. Allzweck-Datensätze von Anbietern sind in Verkaufsgesprächen weniger effektiv als Datensätze, die auf die Bedürfnisse des potenziellen Kunden zugeschnitten sind. Für Proofs of Concept können Anbieter eine simulierte Version des Datensatzes des Kunden erstellen.
Da es sich bei synthetischen Daten häufig um eine erweiterte oder abgeglichene Version eines realen Datensatzes handelt, werden synthetische Datensätze meist für einen ganz bestimmten Bedarf erstellt. So kann beispielsweise ein Datensatz, der nach demografischen Gesichtspunkten erstellt und abgeglichen wurde, um ein ML-Modell für die Personalbeschaffung zu trainieren, nicht für die Analyse des Profils dieser Bevölkerung verwendet werden, da die demografischen Merkmale der Bevölkerung für das Training des Modells optimiert wurden und nicht der Realität entsprechen.
Budgetplanungen und Anbieterprüfung
Es gibt viele reine Anbieter von Plattformen für synthetische Daten, die sich ausschließlich auf die Erzeugung synthetischer Daten konzentrieren. Hinzu kommen angrenzende Bereiche, in denen Anbieter breiter angelegter Plattformen signifikante Funktionen für synthetische Daten als Teil ihres Angebots umfassen. Zu diesen Segmenten gehören Softwaretestplattformen, 3D-Simulationsplattformen, Computer-Vision-Plattformen, DataOps-Plattformen, Data-Science- und ML-Systeme sowie datenschutzfreundliche Berechnungsplattformen. Da synthetische Daten nur die Wertschöpfung ermöglichen, anstatt selbst einen Wert zu schaffen, wird die Konkurrenz zu reinen Plattformen für synthetische Daten durch die synthetischen Datenfunktionen innerhalb breiterer Plattformen weiterhin ein Merkmal dieses Marktes sein.
Wo Unternehmen bereits Geld ausgeben, um echte Daten zu generieren und zu kommentieren, können synthetische Daten die Kosten deutlich senken und gleichzeitig die Qualität steigern. Die Bildseite synthetischer Daten ist derzeit weitaus lukrativer als die Tabellendatenseite, da der ROI klar und einfach zu bewerten ist. Unternehmen, die Bild- und Videodaten benötigen, um ML für autonome Fahrzeuge, intelligente Türklingeln und Drohnen zu trainieren, verfügen über beträchtliche Budgets und sind bereit, diese bei Bedarf manuell zu erstellen. Synthetische Daten bringen deutliche Verbesserungen bei den Kosten, der Zeit bis zur Wertschöpfung und der Qualität der Datenbeschriftung, und darin wie Anbieter das vorhandene Budget nutzen können.
ROI und geschäftliche Vorteile für tabellarische synthetische Daten sind weniger eindeutig an bestimmte Budget-Limits gebunden. Sie beziehen sich eher auf die Effizienz und darauf, dass Aktionen etwas schneller und besser erledigt werden als auf spezifische gemessene Verbesserungen. Diese Faktoren in Kombination mit dem mangelnden Verständnis für synthetische Daten machen sie weniger überzeugend. Auch wird es schwieriger, innerhalb des Unternehmens Projekte zu starten.
Fazit
Letztendlich werden synthetische Daten Teil des KI/ML-Toolkits werden und die Modellentwicklung, das Training und die Governance beschleunigen sowie verbessern. Dafür müssen Unternehmen die Verwendung synthetischer Daten in Bezug auf Anwendungen und Grenzen verstehen. Es ist wichtig Partnerschaften auszuweiten, damit synthetische Daten für mehr Unternehmen und mehr geschäftliche Anwendungsfälle verfügbar sind.
Artikelfiles und Artikellinks
(ID:48402416)