Kommentar von Tamara Fischer, SAS Darauf sollten Unternehmen beim Einsatz von synthetischen Daten achten

Von Tamara Fischer 4 min Lesedauer

Anbieter zum Thema

KI-generierte, aber realitätsnahe synthetische Daten gelten als Patentlösung, wann immer der Zugriff auf Originaldaten erschwert ist – aufgrund von Datenschutz, Lücken in den Datensätzen oder unausgewogenen Gruppengrößen. Anwendungsszenarien gibt es für ziemlich alle Branchen. Jedoch sind im Vorfeld ein paar Fragen im Hinblick auf die Nutzbarkeit von synthetischen Daten zu klären.

Die Autorin: Tamara Fischer ist Principal Data Scientist bei SAS(Bild:  SAS)
Die Autorin: Tamara Fischer ist Principal Data Scientist bei SAS
(Bild: SAS)

Die Generierung von Daten, die die statistischen Eigenschaften der Originaldaten behalten, hilft insbesondere regulierten Branchen, die in ihrem Kerngeschäft mit hochsensiblen Daten agieren – also Banken, Versicherungen oder dem Gesundheitswesen, beispielsweise bei der Abbildung von Finanztransaktionen, in der Arzneimittelforschung oder bei der Analyse von Kundenverhalten.

Synthetische Daten können beim Trainieren und Testen analytischer Modelle einen wertvollen Beitrag leisten. Mit ihnen kann die Datenqualität erhöht, die Voreingenommenheit verringert und sogar die Modellgüte verbessert werden. Zudem reduzieren sich die Kosten für die Datenakquise – und das alles bei einem besseren Schutz der analysierten Daten. Doch um das Potenzial von synthetischen Daten voll auszuschöpfen und sie effektiv und zuverlässig einsetzen zu können, sollten sich Unternehmen vorab einige Fragen stellen.

Welchen Anwendungszweck sollen die generierten Daten erfüllen?

Das primäre Ziel im Vorfeld zu definieren, ist der erste Schritt, um die richtigen Methoden auszuwählen und richtigen Prozesse zu definieren. Soll ein vorhandener Datensatz angereichert werden, sind Daten für seltene Szenarien zu erstellen, oder ist die Wahrung des Datenschutzes oberstes Ziel? Mit synthetischen Daten lassen sich Machine-Learning-Modelle trainieren und validieren, wenn die realen Daten nicht ausreichen, oder seltene Ereignisse simulieren, die im Originaldatenbestand unterrepräsentiert sind. Eine klare Definition des Verwendungszwecks bietet Orientierung über den gesamten Datengenerierungsprozess.

Welche Methode ist am besten geeignet?

Es gibt eine Vielzahl von Methoden, um synthetische Daten zu erzeugen, die alle spezifische Vor- und Nachteile mit sich bringen. Der einfachste Ansatz ist die Anwendung von Regeln zur Generierung von Daten anhand von bekannten Mustern wie statistische Verteilungen oder die Wahl von Werten aus frei zugänglichen Listen und Katalogen. Zudem lassen sich Regeln zur Datengenerierung programmieren, die der Domain- oder Geschäftslogik entsprechen. Der Nachteil dieser regelbasierten Vorgehen ist, dass sie oftmals die Beziehung zwischen den Merkmalen nicht gut abbilden können.

Sind komplexe Zusammenhänge im Spiel, bieten sich daher Algorithmen oder KI-basierte Ansätze an. Zu den gängigen Techniken gehören Generative Adversarial Networks (GANs), Synthetic Minority Oversampling Technique (SMOTE) und Agent-based Modeling. GANs sind Deep-Learning-Modelle, die insofern besonders nützlich für die Generierung realistischer Daten sind, als zwei neuronale Netzwerke gegeneinander trainiert werden – so lange, bis die realen Daten nicht mehr von den synthetischen zu unterscheiden sind. SMOTE ist insbesondere effektiv für die Ausbalancierung von Klassenverteilungen in unausgewogenen Datensätzen, indem intelligent zwischen realen Datenpunkten künstlich generierte Zwischenwerte interpoliert werden.

Wie lassen sich Qualität und Validierung sicherstellen?

Synthetische Daten sollen die statistischen Eigenschaften der Originaldaten akkurat spiegeln, einschließlich der Korrelation zwischen den Merkmalen, ohne deren Integrität zu beeinträchtigen. Mit Metriken zur visuellen und statistischen Evaluation lässt sich die Qualität der synthetischen Daten bewerten. Zudem sind die generierten Daten mit den Real-World-Informationen abzugleichen (sowohl im Hinblick auf die Verteilungen als auch die Relationen), um sicherzustellen, dass sie den Kriterien entsprechen und für den definierten Anwendungszweck geeignet sind. Letztlich müssen die generierten Daten genauso aussehen wie echte Daten, um sie zuverlässig nutzen zu können. Lässt man diese Überprüfung weg, kann dies negative Auswirkungen haben.

Welche Vorkehrungen sind hinsichtlich Datenschutz und Sicherheit sinnvoll?

Damit synthetische Daten ihre Vorteile im Hinblick auf Datenschutz ausspielen, ist sicherzustellen, dass sie nicht unabsichtlich sensible Informationen preisgeben oder Rückschlüsse auf die reale Datenquelle zulassen. Techniken wie beispielsweise „Differential Privacy“, die den Daten während der Trainings- und Generierungsprozesse ein „Rauschen“ hinzufügen, erschweren die Identifizierung von Einzelpersonen. Zudem sollten zuverlässige Sicherheitsmaßnahmen unberechtigten Zugriff verhindern.

Wie lässt sich potenzieller Bias adressieren?

Voreingenommenheit in synthetischen Daten kann – ebenso wie in realen Daten – zu ungenauen und unfairen Ergebnissen führen. Das gilt insbesondere, wenn die Vorhersagen aus Machine-Learning-Modellen zu Entscheidungsfindungen herangezogen werden, die Menschen betreffen. Es ist wichtig, jede Art von Bias in den Originaldaten zu minimieren und sicherzustellen, dass er sich nicht noch in den synthetischen Daten multipliziert. Um das zu vermeiden, sollten Daten im Hinblick auf unterrepräsentierte Segmente oder Gruppen analysiert werden. Synthetische Daten können dann zielgerichtet dafür eingesetzt werden, eine ausgewogene Datenverteilung herzustellen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Wie sieht eine optimale Integration der unterschiedlichen Datenbestände aus?

Die Verknüpfung von synthetischen mit realen Daten kann den Datensatz insgesamt aufwerten oder dazu dienen, die Modellgüte zu verbessern. Das sieht beispielsweise so aus, dass synthetische mit Realdaten zusammengeführt werden, um einen besonders umfangreichen Datensatz für die Entwicklung und/oder das Testen zu erhalten. In anderen Fällen ist es effektiver, sich auf die Nutzung der synthetischen Daten für die Validierung zu fokussieren, um die eingesetzten Modelle auf ihre Robustheit für die Entscheidungsfindung zu testen. Voraussetzung ist in jedem Fall, dass durch die Verknüpfung keine Inkonsistenzen entstehen. Eine einwandfreie Integration sorgt dafür, dass Unternehmen das volle Potenzial aus ihren Daten erschließen – egal, ob künstlich erstellt oder real existierend –, was die Basis für zuverlässigere und präzise Modelle ist.

Fazit

Mit der gebotenen Professionalität bergen synthetische Daten großes Potenzial, die Umsetzung analytischer Anwendungsfälle an vielen Stellen zu verbessern. Ob Unternehmen dieses Potenzial ausschöpfen können, steht und fällt mit der Balance zwischen Nutzbarkeit und Sicherheit. Wenn diese gelingt, schaffen Unternehmen die Grundlage für qualitativ bessere und sichere datengetriebene Entscheidungen.

Artikelfiles und Artikellinks

(ID:50372805)