Dezentrales Machine Learning

Kommentar von Joseph Dureau, Snips Dezentrales Machine Learning – lernen mit verschlüsselten Nutzerdaten

21.12.2018Autor / Redakteur: Joseph Dureau / Nico Litzel

Künstliche Intelligenz (KI) findet Einzug in immer mehr Geräten und Systemen in allen Branchen und Lebensbereichen. Um die Algorithmen zu optimieren, werden diese beim Machine Learning anhand großer Datensätze trainiert. Ein neuartiger Ansatz, bei dem echte Nutzungsdaten verschlüsselt zum Training dienen, ist das föderierte Lernen – das dezentrale Machine Learning.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Board Deutschland GmbH

Fivetran Germany GmbH

Der Autor: Joseph Dureau ist Chief Technology Officer von Snips
(Bild: Snips)

Anhand möglichst umfangreicher Datensätze werden die KI-Algorithmen trainiert, wie sie am effizientesten auf Eingaben reagieren. Das kann ein maschinell erzeugter Datensatz sein oder, wie bei Sprachassistenten, erzeugt aus den tatsächlichen Nutzungsdaten. Amazon, Google und Apple begehen hier unserer Überzeugung nach einen massiven Missbrauch personenbezogener Daten. Mithilfe der Blockchain arbeiten wir an einer vollkommen randomisierte Datenerhebung.

Aus der Not ...

Für das Trainieren von Künstlichen Intelligenzen gilt: Je mehr Daten zur Verfügung stehen, desto schlauer die KI. Selten stehen Entwicklern die immensen Mengen an realen Nutzungsdaten zur Verfügung, die sie für das Training benötigen. Ein gängiges Mittel, um die Datenmenge zu erhöhen, ist das Erstellen von Pseudodaten. Dabei wird der vorliegende Input entsprechend so oft variiert und dupliziert, bis man die gewünschte Datenmenge erreicht hat.

Da die so erzeugten Datensätze auf leichten Variationen eines viel kleineren Datensatzes beruhen, kann dadurch niemals die Varietät und Vielfalt der gleichen Menge an echt erhobenen Daten erreicht werden. Eine Künstliche Intelligenz zur Spracherkennung, die beispielsweise nicht mit einem starken Dialekt trainiert wurde, wird nicht in der Lage sein diesen zu verstehen. Das lässt sich ebenso auf andere Machine-Learning-Szenarien wie die Gesichts- oder die Anomalieerkennung übertragen.

... eine Tugend machen

Um an eine breite Menge an realen Nutzungsdaten zu gelangen, müssten diese entsprechend aufgenommen und weiterverarbeitet werden. Im Falle von Sprachassistenten bedeutet das einen massiven Eingriff in die Privatsphäre der Nutzer. Es sei denn, die Daten werden so randomisiert und entfremdet, dass der Entwickler, der sie zum Trainieren der Algorithmen nutzt, niemals nachvollziehen kann, mit wessen Daten er arbeitet.

Im Grunde handelt es sich beim Machine Learning um ein Optimierungsproblem. Der Algorithmus muss lernen, welcher Befehl welche Aktion triggern soll. Je eher ein Befehl einem bereits bekannten Befehl ähnelt, desto eher wird die Aktion ausgelöst. Formalisiert wird das über eine Vektorgleichung. Ähnlichkeiten und Abweichungen werden dabei in Gradienten gemessen. Anhand dieser Gradienten können Entwickler die Algorithmen dahin gehend optimieren, entsprechende Befehlsvariationen ebenso zu verstehen. Die dem zugrunde liegenden Rohdaten werden nicht benötigt.

Diesen Sachverhalt nutzen wir: Die Rohdaten verlassen niemals die Endgeräte, also die Smart Speaker. Was übermittelt wird, ist lediglich der Gradient. Bei der dezentralen Datenerhebung steht Datenschutz an oberster Stelle. Daher sind Verschlüsselung und Randomisierung essenziell. Die dezentrale Datenerhebung besteht im wesentlichen aus zwei Phasen:

Dezentrale Datenanalyse: Dabei fragt der Entwickler einer Sprachapplikation die erforderlichen Daten von Nutzern ab. Diese werden verschlüsselt und randomisiert.

Dezentrales Machine Learning: Nutzer bereiten die Sprache soweit auf, dass die Machine-Learning-Algorithmen sie weiterverarbeiten können

Phase 1: Decentral Private Analytics
(Bild: Snips)

Secret Padding: Benutzer verschlüsseln ihre Nutzungsdaten, indem sie einen zufälligen geheimen Padschlüssel hinzufügen, bevor sie ihn an den Entwickler senden, der die Analyse anfordert. Da der Entwickler den geheimen Padschlüssel nicht kennt, hat er keine Möglichkeit zu wissen, was der Benutzer tatsächlich getan hat.

Secret Sharing: Die geheimen Pads der Benutzer werden auf eine Reihe von Verarbeitungsknoten verteilt, die „Clerks“ genannt werden und die sie dann sicher aggregieren. Jeder, der dem SnipsAIR-Netzwerk seine Rechenleistung zur Verfügung stellt, kann ein Sachbearbeiter sein, indem er Token hält. Das schließt Geräte, auf denen Benutzer ihre Assistenten ausführen, ein.

Rekonstruktion: Sobald jeder Clerk die Shares, die er von allen Benutzern erhalten hat, zusammengefasst hat, sendet er sein Ergebnis an den Entwickler, der dann die Summe aller Pads rekonstruieren kann. Subtrahiert man diese von der Summe der ursprünglich von den Benutzern gesendeten Nutzungsdaten, erhält man die gewünschte Analytik. Nach Abschluss des Prozesses bezahlt der Entwickler dann die Sachbearbeiter in Token für die Verarbeitung der Daten, wobei der Betrag proportional zur Menge der von ihnen verarbeiteten Daten ist.

Datenschutz gewährleisten

Die Datensätze sind also beim Entwickler gelandet. Damit die Daten für die Optimierung des Algorithmus genutzt werden können, müssen sie noch annotiert, also verschlagwortet werden. Nur so weiß der Algorithmus, mit was für Datensätzen er arbeitet.

Um den Datenschutz zu gewährleisten geschieht das randomisiert durch die Nutzer selbst. Jeder Nutzer kann über seine App die Sprachschnipsel entsprechend transkribieren und verschlagworten. Dabei wird der Bezug zwischen Wort und auszuführender Aktion hergestellt. Auch die Nutzer werden für ihren Beitrag zur Verbesserung der KI in Form von Snips Air Token durch den Entwickler entlohnt. Der Prozess ist wie folgt:

Auch die Nutzer werden für ihren Beitrag zur Verbesserung der KI durch den Entwickler entlohnt.
(Bild: Snips)

Annotation: Benutzer kommentieren ihre eigenen Daten mit der Snips-App oder einem anderen verfügbaren Tool. Dies geschieht privat, sodass niemand außer ihm selbst auf seine Daten zugreifen kann.

Secret Padding: Die kommentierten Daten werden dann verwendet, um den Gradienten des neuronalen Netzwerks zu aktualisieren, das lokal auf ihrem Gerät läuft. Mit dem gleichen Protokoll wie bei der Analytik wird der aktualisierte Gradient dann durch Hinzufügen eines geheimen Pad-Schlüssels verschlüsselt und an den Entwickler gesendet, der das aktualisierte neuronale Netzwerk anfordert.

Secret Sharing: Die geheimen Pads der Benutzer werden dann von den Sachbearbeitern nach dem genau gleichen Protokoll wie bei der Analytik sicher zusammengefasst.

Rekonstruktion: Der Entwickler führt die Rekonstruktionsoperationen durch, um den Gradienten zu erhalten, wiederum nach dem gleichen Protokoll wie für die Analytik.

Parameter-Aktualisierung: Der Parametervektor wird entsprechend der durch den Gradienten vorgegebenen Richtung aktualisiert. Die KI hat gelernt.

Das dezentrale Machine Learning ermöglicht, dass Künstliche Intelligenzen trainiert werden, ohne dass Nutzerdaten von Unternehmen gesammelt und unbefugt weiterverarbeitet werden können. Alle Rohdaten bleiben auf dem Endgerät, Entwickler für Applikationen erhalten dennoch alle Daten, die sie für die Optimierung der Algorithmen benötigen.

Fazit

Dezentrales Machine Learning ermöglicht es, dass die Modelle anhand einer Bandbreite an realitätsnaher Vielfalt an Daten trainiert werden können, da die Datensätze real sind. Somit ebnet diese Technologie den Weg für einen enormen Entwicklungsschub Künstlicher Intelligenz. Randomisiert und gegen Zugriffe über die Blockchain abgesichert, können Datenschutzbedenken getrost beiseite gelegt werden. Blockchain bietet dabei auch noch ein faires Belohnungsmodell für beteiligte Entwickler.

Artikelfiles und Artikellinks

Link: Snips im Web

(ID:45651591)