KI-generierte, aber realitätsnahe synthetische Daten gelten als Patentlösung, wann immer der Zugriff auf Originaldaten erschwert ist – aufgrund von Datenschutz, Lücken in den Datensätzen oder unausgewogenen Gruppengrößen. Anwendungsszenarien gibt es für ziemlich alle Branchen. Jedoch sind im Vorfeld ein paar Fragen im Hinblick auf die Nutzbarkeit von synthetischen Daten zu klären.
Die Autorin: Tamara Fischer ist Principal Data Scientist bei SAS
(Bild: SAS)
Die Generierung von Daten, die die statistischen Eigenschaften der Originaldaten behalten, hilft insbesondere regulierten Branchen, die in ihrem Kerngeschäft mit hochsensiblen Daten agieren – also Banken, Versicherungen oder dem Gesundheitswesen, beispielsweise bei der Abbildung von Finanztransaktionen, in der Arzneimittelforschung oder bei der Analyse von Kundenverhalten.
Synthetische Daten können beim Trainieren und Testen analytischer Modelle einen wertvollen Beitrag leisten. Mit ihnen kann die Datenqualität erhöht, die Voreingenommenheit verringert und sogar die Modellgüte verbessert werden. Zudem reduzieren sich die Kosten für die Datenakquise – und das alles bei einem besseren Schutz der analysierten Daten. Doch um das Potenzial von synthetischen Daten voll auszuschöpfen und sie effektiv und zuverlässig einsetzen zu können, sollten sich Unternehmen vorab einige Fragen stellen.
Welchen Anwendungszweck sollen die generierten Daten erfüllen?
Das primäre Ziel im Vorfeld zu definieren, ist der erste Schritt, um die richtigen Methoden auszuwählen und richtigen Prozesse zu definieren. Soll ein vorhandener Datensatz angereichert werden, sind Daten für seltene Szenarien zu erstellen, oder ist die Wahrung des Datenschutzes oberstes Ziel? Mit synthetischen Daten lassen sich Machine-Learning-Modelle trainieren und validieren, wenn die realen Daten nicht ausreichen, oder seltene Ereignisse simulieren, die im Originaldatenbestand unterrepräsentiert sind. Eine klare Definition des Verwendungszwecks bietet Orientierung über den gesamten Datengenerierungsprozess.
Welche Methode ist am besten geeignet?
Es gibt eine Vielzahl von Methoden, um synthetische Daten zu erzeugen, die alle spezifische Vor- und Nachteile mit sich bringen. Der einfachste Ansatz ist die Anwendung von Regeln zur Generierung von Daten anhand von bekannten Mustern wie statistische Verteilungen oder die Wahl von Werten aus frei zugänglichen Listen und Katalogen. Zudem lassen sich Regeln zur Datengenerierung programmieren, die der Domain- oder Geschäftslogik entsprechen. Der Nachteil dieser regelbasierten Vorgehen ist, dass sie oftmals die Beziehung zwischen den Merkmalen nicht gut abbilden können.
Sind komplexe Zusammenhänge im Spiel, bieten sich daher Algorithmen oder KI-basierte Ansätze an. Zu den gängigen Techniken gehören Generative Adversarial Networks (GANs), Synthetic Minority Oversampling Technique (SMOTE) und Agent-based Modeling. GANs sind Deep-Learning-Modelle, die insofern besonders nützlich für die Generierung realistischer Daten sind, als zwei neuronale Netzwerke gegeneinander trainiert werden – so lange, bis die realen Daten nicht mehr von den synthetischen zu unterscheiden sind. SMOTE ist insbesondere effektiv für die Ausbalancierung von Klassenverteilungen in unausgewogenen Datensätzen, indem intelligent zwischen realen Datenpunkten künstlich generierte Zwischenwerte interpoliert werden.
Wie lassen sich Qualität und Validierung sicherstellen?
Synthetische Daten sollen die statistischen Eigenschaften der Originaldaten akkurat spiegeln, einschließlich der Korrelation zwischen den Merkmalen, ohne deren Integrität zu beeinträchtigen. Mit Metriken zur visuellen und statistischen Evaluation lässt sich die Qualität der synthetischen Daten bewerten. Zudem sind die generierten Daten mit den Real-World-Informationen abzugleichen (sowohl im Hinblick auf die Verteilungen als auch die Relationen), um sicherzustellen, dass sie den Kriterien entsprechen und für den definierten Anwendungszweck geeignet sind. Letztlich müssen die generierten Daten genauso aussehen wie echte Daten, um sie zuverlässig nutzen zu können. Lässt man diese Überprüfung weg, kann dies negative Auswirkungen haben.
Welche Vorkehrungen sind hinsichtlich Datenschutz und Sicherheit sinnvoll?
Damit synthetische Daten ihre Vorteile im Hinblick auf Datenschutz ausspielen, ist sicherzustellen, dass sie nicht unabsichtlich sensible Informationen preisgeben oder Rückschlüsse auf die reale Datenquelle zulassen. Techniken wie beispielsweise „Differential Privacy“, die den Daten während der Trainings- und Generierungsprozesse ein „Rauschen“ hinzufügen, erschweren die Identifizierung von Einzelpersonen. Zudem sollten zuverlässige Sicherheitsmaßnahmen unberechtigten Zugriff verhindern.
Wie lässt sich potenzieller Bias adressieren?
Voreingenommenheit in synthetischen Daten kann – ebenso wie in realen Daten – zu ungenauen und unfairen Ergebnissen führen. Das gilt insbesondere, wenn die Vorhersagen aus Machine-Learning-Modellen zu Entscheidungsfindungen herangezogen werden, die Menschen betreffen. Es ist wichtig, jede Art von Bias in den Originaldaten zu minimieren und sicherzustellen, dass er sich nicht noch in den synthetischen Daten multipliziert. Um das zu vermeiden, sollten Daten im Hinblick auf unterrepräsentierte Segmente oder Gruppen analysiert werden. Synthetische Daten können dann zielgerichtet dafür eingesetzt werden, eine ausgewogene Datenverteilung herzustellen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Wie sieht eine optimale Integration der unterschiedlichen Datenbestände aus?
Die Verknüpfung von synthetischen mit realen Daten kann den Datensatz insgesamt aufwerten oder dazu dienen, die Modellgüte zu verbessern. Das sieht beispielsweise so aus, dass synthetische mit Realdaten zusammengeführt werden, um einen besonders umfangreichen Datensatz für die Entwicklung und/oder das Testen zu erhalten. In anderen Fällen ist es effektiver, sich auf die Nutzung der synthetischen Daten für die Validierung zu fokussieren, um die eingesetzten Modelle auf ihre Robustheit für die Entscheidungsfindung zu testen. Voraussetzung ist in jedem Fall, dass durch die Verknüpfung keine Inkonsistenzen entstehen. Eine einwandfreie Integration sorgt dafür, dass Unternehmen das volle Potenzial aus ihren Daten erschließen – egal, ob künstlich erstellt oder real existierend –, was die Basis für zuverlässigere und präzise Modelle ist.
Fazit
Mit der gebotenen Professionalität bergen synthetische Daten großes Potenzial, die Umsetzung analytischer Anwendungsfälle an vielen Stellen zu verbessern. Ob Unternehmen dieses Potenzial ausschöpfen können, steht und fällt mit der Balance zwischen Nutzbarkeit und Sicherheit. Wenn diese gelingt, schaffen Unternehmen die Grundlage für qualitativ bessere und sichere datengetriebene Entscheidungen.