Synthetische Daten sind eine wichtige Ressource, um Machine-Learning-Modelle zu trainieren, Systeme zu testen und Prototypen zu erstellen. Im Trend liegen Plattformen für synthetische Daten für tabellarische Daten und Bilddaten. Gartner empfiehlt Anbietern, eine Differenzierung für bestimmte Datentypen und Anwendungsfälle zu treffen.
Die Autorin: Alys Woodward ist Senior Research Director bei Gartner
(Bild: Gartner)
Synthetische Daten sind eine Klasse von Daten, die künstlich erzeugt werden. Sie stammen nicht aus direkten Beobachtungen aus der realen Welt. Daten können mit verschiedenen Methoden erzeugt werden, beispielsweise durch statistisch strenge Stichproben aus realen Daten, semantische Ansätze oder durch ein Generative Adversarial Network. Hinzu kommen Simulationsszenarien, in denen Modelle und Prozesse interagieren, um völlig neue Datensätze von Ereignissen zu erzeugen. Es gibt verschiedene Arten von synthetischen Daten. Darunter fallen tabellarische oder relationale Daten, textbasierte oder bild- sowie videobasierte Informationen. Letztere werden oft als Bilddaten bezeichnet, da es sich bei Videos um eine Reihe von Bildern handelt.
Bis 2030 werden sich synthetische Daten in Unternehmen durchsetzen.
(Bild: Gartner)
Schätzungen von Gartner zufolge werden sich bis 2030 synthetische Daten in Unternehmen durchsetzen. Sie werden mehr als 95 Prozent der für das Training von KI-Modellen (Künstliche Intelligenz) verwendeten Daten ausmachen. Synthetische strukturierte Daten, die zum Trainieren von KI-Modellen verwendet werden, wachsen mindestens dreimal so schnell wie echte strukturierte Daten. Synthetische Daten verbessern Ergebnisse, wenn echte Daten teuer, unausgewogen, nicht verfügbar oder aufgrund von Datenschutzbestimmungen nicht verwendbar sind.
Wo sie zum Einsatz kommen
Echte Daten sind fast immer die beste Quelle für Erkenntnisse. Diese sind jedoch oft teuer, unausgewogen, nicht verfügbar oder aufgrund von Datenschutzbestimmungen unbrauchbar. Um diese Probleme zu lösen, können synthetische Daten erstellt werden, die in der Regel auf den ursprünglichen realen Daten basieren, manchmal in Kombination mit anderen Techniken wie dem differentiellen Datenschutz. Werden synthetische Daten mit realen Daten kombiniert, entsteht ein verbesserter Datensatz, der die Schwächen der realen Daten ausgleicht.
Manchmal werden Daten als „erweitert“ (augmented) bezeichnet. Bei strukturierten Daten lassen sich die Daten auf Zeilenebene erweitern, indem fehlende Felder hinzugefügt werden, zum Beispiel um demografische Informationen aus der Wohnadresse und dem Bildungsgrad abzuleiten. Bei erweiterten Daten handelt es sich manchmal um einen erweiterten Bilddatensatz, dem zusätzliche Randfälle hinzugefügt wurden. Da reale Daten immer in Verbindung mit synthetischen Daten verwendet werden, gelten erweiterte Daten als eine besondere Art von synthetischen Daten, da sie nicht rein „real“ sind.
Wenn Synthetische Daten und Künstliche Intelligenz sich treffen
Synthetische Daten werden derzeit hauptsächlich zum Training von ML-Modellen (Machine Learning) für strukturierte und unstrukturierte Daten, zum Testen von Systemen und zum Erstellen von Produktdemos und Prototypen verwendet. Die Breite ihrer Anwendbarkeit macht sie zu einem entscheidenden Beschleuniger für Künstliche Intelligenz: Sie ermöglichen KI dort, wo Datenmangel KI unbrauchbar macht – etwa aufgrund von Verzerrungen oder der Unfähigkeit, seltene oder noch nie dagewesene Szenarien zu erkennen. Synthetische Daten werden die Einführung von KI und letztlich digitale Geschäftsmodelle beschleunigen.
Synthetische Daten für das Training von ML-Modellen stellen sicher, Modelle so zu trainieren, dass sie ein breites Spektrum an Situationen oder Grenzfällen erkennen. So kann das Modell besser an seinen spezifischen Zweck angepasst werden. Auch lassen sich ML-Lösungen realisieren, die nicht möglich wären, wenn sie nur auf realen Daten beruhen. Die Verringerung des Unterschieds zwischen den Daten, auf die das Modell trainiert wurde, und den Daten, auf die das Modell in der realen Welt stößt, verringert die „Domänenlücke“ in der ML-Terminologie.
Synthetische Daten für Testsysteme sind in einer Struktur erstellbar, die identisch mit den nicht erhältlichen Produktionsdaten ist. Sie können mit einer breiteren Palette möglicher Ereignisse oder Pfade durch das System angereichert werden und ihr Volumen ist für Volumentests erhöhbar.
Synthetische Daten sind für Hackathons, Produktdemonstrationen und internes Prototyping verwendbar, um einen Datensatz mit den richtigen statistischen Attributen zu replizieren. Beispiele sind hier ein synthetischer Datensatz für einen Hackathon, um Wege zur Bekämpfung von Finanzbetrug zu finden. Möglich ist auch ein Demonstrationssystem eines Technologieprodukts für ein Verkaufsgespräch mit einem Kunden, der die Bedarfsplanung im Einzelhandel verbessern will. Oder es entsteht ein internes Prototypsystem, um CFOs Kreditinformationen anzuzeigen, ohne Zeit für den Zugriff auf Produktionsdaten zu benötigen – bei gleichzeitiger Sicherstellung der Glaubwürdigkeit der Angaben.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Solche Daten müssen die richtigen statistischen Verteilungen aufweisen und auch für den Betrachter richtig aussehen. Zum Beispiel müssen die richtigen Postleitzahlen den Städten zugeordnet werden, anstatt sie zufällig zu erstellen. Weisen die Daten sichtbare Fehler auf, besteht die Gefahr, dass Geschäftsanwender und potenzielle Kunden ihnen nicht trauen. Allzweck-Datensätze von Anbietern sind in Verkaufsgesprächen weniger effektiv als Datensätze, die auf die Bedürfnisse des potenziellen Kunden zugeschnitten sind. Für Proofs of Concept können Anbieter eine simulierte Version des Datensatzes des Kunden erstellen.
Da es sich bei synthetischen Daten häufig um eine erweiterte oder abgeglichene Version eines realen Datensatzes handelt, werden synthetische Datensätze meist für einen ganz bestimmten Bedarf erstellt. So kann beispielsweise ein Datensatz, der nach demografischen Gesichtspunkten erstellt und abgeglichen wurde, um ein ML-Modell für die Personalbeschaffung zu trainieren, nicht für die Analyse des Profils dieser Bevölkerung verwendet werden, da die demografischen Merkmale der Bevölkerung für das Training des Modells optimiert wurden und nicht der Realität entsprechen.
Budgetplanungen und Anbieterprüfung
Es gibt viele reine Anbieter von Plattformen für synthetische Daten, die sich ausschließlich auf die Erzeugung synthetischer Daten konzentrieren. Hinzu kommen angrenzende Bereiche, in denen Anbieter breiter angelegter Plattformen signifikante Funktionen für synthetische Daten als Teil ihres Angebots umfassen. Zu diesen Segmenten gehören Softwaretestplattformen, 3D-Simulationsplattformen, Computer-Vision-Plattformen, DataOps-Plattformen, Data-Science- und ML-Systeme sowie datenschutzfreundliche Berechnungsplattformen. Da synthetische Daten nur die Wertschöpfung ermöglichen, anstatt selbst einen Wert zu schaffen, wird die Konkurrenz zu reinen Plattformen für synthetische Daten durch die synthetischen Datenfunktionen innerhalb breiterer Plattformen weiterhin ein Merkmal dieses Marktes sein.
Wo Unternehmen bereits Geld ausgeben, um echte Daten zu generieren und zu kommentieren, können synthetische Daten die Kosten deutlich senken und gleichzeitig die Qualität steigern. Die Bildseite synthetischer Daten ist derzeit weitaus lukrativer als die Tabellendatenseite, da der ROI klar und einfach zu bewerten ist. Unternehmen, die Bild- und Videodaten benötigen, um ML für autonome Fahrzeuge, intelligente Türklingeln und Drohnen zu trainieren, verfügen über beträchtliche Budgets und sind bereit, diese bei Bedarf manuell zu erstellen. Synthetische Daten bringen deutliche Verbesserungen bei den Kosten, der Zeit bis zur Wertschöpfung und der Qualität der Datenbeschriftung, und darin wie Anbieter das vorhandene Budget nutzen können.
ROI und geschäftliche Vorteile für tabellarische synthetische Daten sind weniger eindeutig an bestimmte Budget-Limits gebunden. Sie beziehen sich eher auf die Effizienz und darauf, dass Aktionen etwas schneller und besser erledigt werden als auf spezifische gemessene Verbesserungen. Diese Faktoren in Kombination mit dem mangelnden Verständnis für synthetische Daten machen sie weniger überzeugend. Auch wird es schwieriger, innerhalb des Unternehmens Projekte zu starten.
Fazit
Letztendlich werden synthetische Daten Teil des KI/ML-Toolkits werden und die Modellentwicklung, das Training und die Governance beschleunigen sowie verbessern. Dafür müssen Unternehmen die Verwendung synthetischer Daten in Bezug auf Anwendungen und Grenzen verstehen. Es ist wichtig Partnerschaften auszuweiten, damit synthetische Daten für mehr Unternehmen und mehr geschäftliche Anwendungsfälle verfügbar sind.