Kommentar von Peter Erdelyi-Alarcon und Nurgazy Sulaimanov, SHS Viveon Synthetische Daten im Risikomanagement

Autor / Redakteur: Erdelyi-Alarcon und Nurgazy Sulaimanov / Nico Litzel

Quadratur des Kreises – ist mehr Datenschutz bei gleichzeitig schnelleren und besseren Risiko- und Compliance-Entscheidungen möglich?

Firmen zum Thema

Synthetische Daten, bei denen basierend auf realen Daten des Unternehmens eine Art „künstlicher Zwilling“ der Daten geschaffen wird, verbessern den Datenschutz. Sie haben dieselben Muster, Strukturen und vor allem dasselbe Verhalten in Prozessen, allerdings ohne jegliche sensiblen Informationen, die einen Rückschluss zu Beispiel auf persönliche Informationen im Original-Datensatz erlauben.
Synthetische Daten, bei denen basierend auf realen Daten des Unternehmens eine Art „künstlicher Zwilling“ der Daten geschaffen wird, verbessern den Datenschutz. Sie haben dieselben Muster, Strukturen und vor allem dasselbe Verhalten in Prozessen, allerdings ohne jegliche sensiblen Informationen, die einen Rückschluss zu Beispiel auf persönliche Informationen im Original-Datensatz erlauben.
(Bild: © Alex - stock.adobe.com)

Ein effektives Kredit- und Risikomanagement ist mehr denn je auf aussagefähige Daten angewiesen. Mit dem Aufkommen alternativer Informationsquellen in der Kreditbranche und Ansätzen wie der gemeinsamen Datennutzung zwischen Finanzinstituten zur Bekämpfung von Geldwäsche wird deutlich, dass Unternehmen sich in diesem Bereich eindeutig verbessern und insgesamt datengetriebener werden. Branchenexperten sind sich einig, dass umfassende, qualitativ hochwertige und zeitnahe Kredit- und Risikodaten ein Must-have sind, um ein ganzheitliches Verständnis der Risikoprozesse eines Unternehmens zu erhalten oder aufkommende Technologien wie Deep Learning zu nutzen.

Doch auch wenn es in der Theorie einfach klingt, stellt die Überbrückung der Lücke zwischen Datensammlung und -bereitstellung für Künstliche Intelligenz und Analytik eine große Hürde dar, mit der viele Unternehmen zu kämpfen haben. Ein Lösungsansatz sind synthetische Daten, bei denen basierend auf realen Daten des Unternehmens eine Art „künstlicher Zwilling“ der Daten geschaffen wird. Dieser hat dieselben Muster, Strukturen und vor allem dasselbe Verhalten in Prozessen, allerdings ohne jegliche sensiblen Informationen, die einen Rückschluss zu Beispiel auf persönliche Informationen im Original-Datensatz erlauben. Im Folgenden betrachten wir näher, ob und wie sie durch den Einsatz synthetischer Daten tatsächlich zu besseren und schnelleren Unternehmensentscheidungen und Risikoprozessen kommen.

Die Hürde: Datenschutzrichtlinien und die Angst vor Datenverletzungen

Datenschutzverletzungen und -verstöße sind fast wöchentlich in den Zeitungen zu finden. Betrachtet man beispielsweise die Folgen des Cambridge-Analytica-Skandals von Facebook – ein Fall, bei dem die Daten von Millionen von Facebook-Nutzern missbraucht wurden – wird klar, dass Entscheidungsträger beim Umgang mit sensiblen Daten sehr achtsam sein müssen. Infolgedessen versuchen viele Führungskräfte Datenanalysen, die kritische Daten verwenden, aufzuschieben oder sogar zu stoppen, selbst wenn das Projekt dem Unternehmen viel Nutzen bringen würde.

Das häufigste Hindernis für die Beschränkung von Datenanalysen ist eindeutig der Datenschutz. Das Erstellen von Machine-Learning-Modellen auf Basis von Unternehmensdaten und die gleichzeitige Einhaltung der DSGVO-Anforderungen sowie der unternehmenseigenen Datenschutzrichtlinien ist ein komplexes Thema. Zum Schutz werden sensible Daten in der Regel in einer separaten Umgebung gespeichert, die nur für Fachpersonal zugänglich ist. Die notwendigen Daten für KI-Analysen sind also oft zwar theoretisch vorhanden, es kann jedoch aufwendig sein, eine Zugriffsberechtigung für diese zu erhalten.

Verschiedene Datensätze aus unterschiedlichen Umgebungen zusammenzuführen, erscheint vor diesem Hintergrund umso schwieriger. Datenschutzrichtlinien – so sinnvoll sie meistens auch sind – können die Arbeit an Daten also zu einer echten Qual machen.

Diese Probleme, die durch Datenschutzrichtlinien und der Angst vor Datenschutzverletzungen verursacht werden, können mithilfe von synthetischen Daten effektiv vermieden werden. Der Vorteil gegenüber realen Daten liegt darin, dass sensible Informationen anonymisiert werden, sodass sie den Datenschutz- und Compliance-Anforderungen genügen und problemlos innerhalb oder außerhalb des Unternehmens weitergegeben werden können. Dadurch werden die Konsequenzen einer Datenschutzverletzung verhindert und ein uneingeschränkter Zugriff für Analysezwecke ermöglicht.

Unzureichende Datenerfassung behindert das KI-Training

Ein weiteres Hindernis für die Anwendung von KI-Analysen ist eine unzureichende Datenerfassung. Jahrzehntelang fehlte in vielen Unternehmen eine klare Datenstrategie, die definiert, wie Daten gesammelt und für spätere Zwecke aufbewahrt werden müssen. Erst mit dem Aufkommen von KI begannen mehr Unternehmen zu erkennen, dass Datenerfassung ein integraler Bestandteil ihres Geschäftsmodells sein muss. Da dies jedoch erst eine neue Entwicklung ist, sind viele Datensätze relativ jung und daher nicht so umfassend, wie sie für die Durchführung von KI-Analysen sein müssten.

Kleine Datenmengen

Ein Beispiel dafür sind Daten von Finanzinstituten. Wenn die Transaktionshistorie einer bestimmten Gruppe von Kunden nur begrenzt verfügbar ist, können Modelle für maschinelles Lernen nicht ausreichend trainiert werden, um genaue Ergebnisse zu liefern. In einem solchen Fall muss das Finanzinstitut warten, bis eine ausreichende Anzahl von Transaktionen zusammengekommen ist, was vor allem bei kleinen Instituten ein langwieriger Prozess sein kann. Anstatt zu warten, bis genügend Daten gesammelt sind, kann das Institut den kleinen Datensatz aber auch mit zusätzlichen synthetischen Stichproben anreichern.

Fehlende Daten

Ein weiterer Anwendungsfall, bei dem synthetische Daten hilfreich sind, ist häufig im Risikomanagement anzutreffen. Unternehmen haben oft Schwierigkeiten, ihre Risikoprozesse an neue Produkte anzupassen, die im Vergleich zu ihrem bestehenden Produktportfolio andere Preise haben. Wenn für diese neue Preisspanne noch nie Daten gesammelt wurden, ist es schwierig, einen qualitativen Ansatz zur Durchführung von Risikosimulationen zu wählen. In solchen Fällen kann die Erzeugung synthetischer Daten dabei helfen, eine andere Version des vorhandenen Datensatzes zu generieren, der die fehlende Preisspanne enthält. Dieser Datensatz kann dann verwendet werden, um die Risikoprozesse entsprechend abzustimmen.

Unterrepräsentation

Ein weiteres Problem, das in die Kategorie der unzureichenden Daten fällt, tritt häufig bei Betrugsfällen und Finanzkriminalität auf. Die Anzahl der Betrugsfälle ist in der Regel im Vergleich zu Nicht-Betrugsfällen sehr niedrig. Techniken des Machine-Learnings, die auf solche unausgewogenen Datensätze angewandt werden, scheitern deshalb oft bei der Erkennung von Betrugsfällen, da das Signal in den Daten im Vergleich zur hohen Repräsentation von Nicht-Betrugsfällen zu gering ist. Mithilfe von synthetischen Daten ist es möglich, Betrugsfälle zu oversamplen, indem verschiedene Variationen davon erzeugt werden, um einen ausgewogenen Datensatz zu erhalten. Diese Technik wurde bereits von einem großen Finanzinstitut verwendet, um die Genauigkeit ihrer Modelle bei der Erkennung von Betrug bei Kreditkartentransaktionen zu verbessern. In einer weiteren Studie wurde ebenfalls festgestellt, dass das Oversampling unausgewogener Kreditkartendatensätze über synthetische Daten die Genauigkeit der verwendeten Modelle um etwa 22 Prozent erhöhte.

Diese Probleme mit Daten stellen nur einige der Hürden dar, die bei dem Versuch entstehen, die Lücke zwischen Datensammlung und Datenbereitstellung für KI und Analytik zu schließen. Daher ist es nicht verwunderlich, dass laut einem Bericht der Harvard Business Review der Anteil der Unternehmen, die sich als datengetrieben bezeichnen, von 2017 bis 2019 nicht etwa gestiegen, sondern gesunken ist.

Wie können diese Probleme also vermieden werden? Da es sich um ein branchenübergreifendes Problem handelt, wurden bereits Lösungen vorgeschlagen, die erste vielversprechende Ergebnisse zeigen. Eine solche Lösung ist die Generierung von synthetischen Daten, die viel mehr ist als nur die Generierung von Zufallsdaten. Tatsächlich verwenden laut McKinsey's Global Survey on Artificial Intelligence 49 Prozent der KI-High-Performer bereits synthetische Daten, um ihre Modelle zu trainieren, wenn ein Mangel an realen Daten besteht.

Synthetische Daten – die Lösung?

Synthetische Daten sind keine realen Daten, sondern solche, die mit verschiedenen Techniken wie Computersimulationen oder generativen Modellen erzeugt werden. Damit die synthetischen Daten für die oben beschriebenen Anwendungsfälle nützlich sind, müssen sie ähnliche Muster aufweisen wie die im realen Datensatz. Um dies zu verdeutlichen, sehen wir uns folgende Abbildung an. Wir sehen einen direkten Vergleich zwischen den realen und den synthetischen Daten, die durch ein generatives Modell erzeugt wurden. Beide Datensätze haben vergleichbare Verteilungen und weisen ähnliche statistische Eigenschaften auf. Daher sollten sie für den gleichen Anwendungsfall austauschbar sein.

Direkter Vergleich zwischen realen und synthetischen Daten, die durch ein generatives Modell erzeugt wurden.
Direkter Vergleich zwischen realen und synthetischen Daten, die durch ein generatives Modell erzeugt wurden.
(Bild: SHS Viveon)

Einfach ausgedrückt: Datenwissenschaftler, die mit dem synthetischen Datensatz arbeiten, sollten idealerweise ähnliche Ergebnisse erhalten, wie wenn sie mit echten Daten arbeiten würden. Sollte dies erreicht werden können, dann gäbe es kaum mehr Gründe mit privaten Daten zu arbeiten, da die synthetischen Daten einen ähnlichen Wert liefern. Aber wie kann man solche hochwertigen synthetischen Daten tatsächlich erzeugen?

Erzeugung von synthetischen Daten

Als stark vereinfachtes Beispiel stellen Sie sich einen sensiblen Datensatz mit einer linearen Beziehung zwischen x und y vor. Nehmen wir an, dass ein Angreifer, der diesen Datensatz in die Hände bekommt, potenziell die Personen identifizieren könnte, von denen die Daten aufgezeichnet wurden. Um die Vertraulichkeit der Originaldaten zu schützen, könnte ein Forscher ein lineares Modell mit kleinen Verzerrungen an den Daten anpassen und dieses dann als statistisches Modell verwenden, um daraus neue Datenpunkte zu generieren. Auf diese Weise kann ein synthetischer Datensatz erstellt werden, der dem Originaldatensatz sehr ähnlich ist, aber die Vertraulichkeit nicht verletzt.

Um die Vertraulichkeit von Originaldaten zu schützen, kann ein Forscher ein lineares Modell mit kleinen Verzerrungen an den Daten anpassen und dieses dann als statistisches Modell verwenden, um daraus neue Datenpunkte zu generieren. Auf diese Weise kann ein synthetischer Datensatz erstellt werden, der dem Originaldatensatz sehr ähnlich ist.
Um die Vertraulichkeit von Originaldaten zu schützen, kann ein Forscher ein lineares Modell mit kleinen Verzerrungen an den Daten anpassen und dieses dann als statistisches Modell verwenden, um daraus neue Datenpunkte zu generieren. Auf diese Weise kann ein synthetischer Datensatz erstellt werden, der dem Originaldatensatz sehr ähnlich ist.
(Bild: SHS Viveon)

Nun sind reale Datensätze viel komplizierter als dieses einfache Beispiel. In der Praxis wird es weitere Faktoren geben, mit denen man umgehen muss. So sind beispielsweise die Verteilungen sowie Beziehungen zwischen den Datenpunkten anders und die Daten könnten in verschiedenen Tabellen über ein relationales Datenbankschema gespeichert sein.

Um diese Komplexität zu bewältigen, werden anspruchsvollere statistische Modelle benötigt. Ein solches Modell ist der Variational Autoencoder (VAE): Eine Kombination aus zwei neuronalen Netzwerken, wobei das erste, der Encoder, die Originaldaten auf eine niedrigere dimensionale Darstellung komprimiert, während das zweite, der Decoder, versucht, die Originaldaten aus dieser niedrigeren dimensionalen Darstellung wiederherzustellen. Wenn der VAE ausreichend trainiert ist, lernt er, die wichtigen Muster der Originaldaten zu kodieren, die dann vom Decoder verwendet werden können, um neue Muster zu erzeugen. Es handelt sich im Grunde genommen um eine ausgeklügeltere Version gegenüber dem linearen statistischen Modell, das wir zuvor beschrieben haben.

Der Variational Autoencoder (VAE): Eine Kombination aus zwei neuronalen Netzwerken, wobei das erste, der Encoder, die Originaldaten auf eine niedrigere dimensionale Darstellung komprimiert, während das zweite, der Decoder, versucht, die Originaldaten aus dieser niedrigeren dimensionalen Darstellung wiederherzustellen.
Der Variational Autoencoder (VAE): Eine Kombination aus zwei neuronalen Netzwerken, wobei das erste, der Encoder, die Originaldaten auf eine niedrigere dimensionale Darstellung komprimiert, während das zweite, der Decoder, versucht, die Originaldaten aus dieser niedrigeren dimensionalen Darstellung wiederherzustellen.
(Bild: SHS Viveon)

Ein weiteres häufig verwendetes Modell sind Generative Adversarial Networks (GANs), die aus zwei neuronalen Netzwerken bestehen. Diese werden gemeinsam mit dem Ziel trainiert, sich gegenseitig zu überlisten. Ein neuronales Netzwerk, der Generator, generiert neue Daten, während das andere, der Diskriminator, versucht, diese Daten auf ihre Echtheit zu überprüfen. Dadurch wird der Generator im Laufe der Zeit besser darin, neue Daten zu erzeugen, die mit den Originaldaten vergleichbar sind, wohingegen der Diskriminator besser darin wird, zwischen synthetischen und Originaldaten zu unterscheiden. Der Prozess erreicht den optimalen Punkt, sobald der Diskriminator nicht mehr zwischen den Originaldaten und den synthetischen Daten unterscheiden kann.

Generative Adversarial Networks (GANs) bestehen aus zwei neuronalen Netzwerken. Diese werden gemeinsam mit dem Ziel trainiert, sich gegenseitig zu überlisten. Ein neuronales Netzwerk, der Generator, generiert neue Daten, während das andere, der Diskriminator, versucht, diese Daten auf ihre Echtheit zu überprüfen. Dadurch wird der Generator im Laufe der Zeit besser darin, neue Daten zu erzeugen, die mit den Originaldaten vergleichbar sind, wohingegen der Diskriminator besser darin wird, zwischen synthetischen und Originaldaten zu unterscheiden.
Generative Adversarial Networks (GANs) bestehen aus zwei neuronalen Netzwerken. Diese werden gemeinsam mit dem Ziel trainiert, sich gegenseitig zu überlisten. Ein neuronales Netzwerk, der Generator, generiert neue Daten, während das andere, der Diskriminator, versucht, diese Daten auf ihre Echtheit zu überprüfen. Dadurch wird der Generator im Laufe der Zeit besser darin, neue Daten zu erzeugen, die mit den Originaldaten vergleichbar sind, wohingegen der Diskriminator besser darin wird, zwischen synthetischen und Originaldaten zu unterscheiden.
(Bild: SHS Viveon)

Generative Modelle, wie VAEs oder GANs, sind leistungsstarke Werkzeuge zur Erzeugung hochwertiger synthetischer Datensätze. Mit ihrer Hilfe können sie die Probleme angehen, die sich aus sensiblen Informationen ergeben, wie zum Beispiel der Schutz der Privatsphäre, Compliance-Anforderungen sowie unzureichende Datenerfassung. Ein genauerer Blick auf die Modelle und ihre Verwendung für die Generierung synthetischer Daten zahlt sich auf jeden Fall aus. Denn Branchenführer prognostizieren bereits, dass sie in Zukunft zu den wichtigsten Komponenten der Datenstrategie eines Unternehmens zählen werden.

Abschließend kann man feststellen, dass die Verwendung von synthetischen Daten bereits heute ganz konkret zwei wesentliche Probleme von Unternehmen – insbesondere in den Risikoprozessen – lösen kann: Geschwindigkeit und Genauigkeit. Durch die Überwindung der zum Beispiel durch den Datenschutz bestehenden Hürden, können Simulationen und Tests, wie von Bewertungsprozessen für neue Produkte, neue Preise bis hin zu neuen Geschäftsmodellen, viel schneller durchgeführt werden. Die Time to Market reduziert sich, IT und Fachabteilung sparen Zeit und Ressourcen. Sind zudem im Unternehmen zu wenige Daten für aussagekräftige Simulationen vorhanden, steigt bei der Ergänzung durch synthetische Daten die Genauigkeit, mit der Risiko- oder Kreditentscheidungen getroffen werden können, da die Prozesse schlichtweg mit einer größeren Datenbasis gefüttert werden können.

Ergänzendes zum Thema
Die Autoren

Peter Erdelyi-Alarcon ist Senior Data Scientist bei SHS Viveon.









Nurgazy Sulaimanov ist Senior Manager Data Science Services bei SHS Viveon.

Artikelfiles und Artikellinks

(ID:47694476)