Machine Learning Sensible Unternehmensdaten helfen beim maschinellen Lernen
Anbieter zum Thema
E-Mails oder interne Berichte sind oft vertraulich. Doch Forscher sagen, dass sie beim Training von KI-Modellen helfen können – und zwar durch das sogenannte föderale Lernen.

Wie können Unternehmen auch sensible Daten nutzen, um Modelle der Künstlichen Intelligenz (KI) zu trainieren? Diese Frage will nun eine Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR) beantworten. Und zwar durch das sogenannte föderale Lernen. Bei diesem Verfahren bleiben die Trainingsdaten an ihrem jeweiligen Speicherort und werden nicht, wie sonst üblich, an einem zentralen Ort zusammengeführt, erklären die Forscher. Das Vorhaben heißt „ColDa“ (Collaborative Machine Learning for Data Value Creation), hat eine Laufzeit von drei Jahren und wird durch das DLR mit rund 450.000 Euro gefördert.
Gute Trainingsdaten sind für das maschinelle Lernen – ein Verfahren der Künstlichen Intelligenz – von grundlegender Bedeutung, schicken die Forscher voraus. Und mit je mehr und vielfältigeren Daten diese Programme gefüttert würden, desto besser könnten sie später etwa Muster in Bildern oder Zusammenhänge in Texten erkennen. Auch Unternehmen nutzen maschinelles Lernen bekanntlich bereits für verschiedene Aufgaben. Doch dabei stünden sie häufig vor dem Problem, dass die zum Training der Modelle benötigten Daten unter den Datenschutz fallen oder Geschäftsgeheimnisse enthalten. So wird es schwierig, sie etwa zentral in einem Rechenzentrum zu speichern, wie es beim maschinellen Lernen sonst üblich ist. Dagegen wollen die Projektpartner nun etwas tun.
Föderales Lernen schützt fremde Daten, die man dringend braucht
Im Rahmen des föderalen Lernens bleiben die Daten zum Training des Modells, wie bereits erwähnt, an ihrem lokalen Speicherort und müssen nicht weitergegeben werden. So können auch sensible Unternehmensdaten für das maschinelle Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden, machen die Forscher klar. Das Team konzentriere sich dabei auf die Themen Datenintegration und natürliche Sprachverarbeitung (auf Englisch: Natural Language Processing, abgekürzt NLP).
:quality(80):fill(efefef,0)/p7i.vogel.de/wcms/63/c9/63c90d979035a/bdi-ebook-cover-cloud-ki.png)
Unter Datenintegration verstehen Fachleute das Zusammenführen verschiedener Datenansammlungen in eine einheitliche Struktur. Der Prozess erfordere aber nach wie vor oft einen hohen manuellen Aufwand, der aber durch den Einsatz von KI drastisch reduziert werden kann. Dabei sind Unternehmen jedoch in der Zwickmühle. Denn für das Training der KI werden in der Regel mehr Daten benötigt, als ein Unternehmen alleine bereitstellen könnte. Deshalb müssten mehrere Organisationen ihre Daten austauschen, was aber aufgrund der Datensensibilität in der Praxis oft nicht möglich ist. Das Oldenburger Team untersucht deshalb, wie das föderale Lernen diesen Spagat zu meistern hilft. Die Forscher wollen dazu zunächst ein Modell konzipieren und anschließend einen Prototyp entwickeln und evaluieren.
Computer erzeugen und interpretieren menschliche Sprache
Das zweite Thema des Projekts ist der Einsatz natürlicher Sprachverarbeitung innerhalb von Unternehmen. Diese Technik erlaubt es Computern, menschliche Sprache zu interpretieren und zu erzeugen, wie die Oldenburger erklären. Sie bildet etwa die Grundlage für Chat-Bots wie das derzeit vieldiskutierte Programm Chat GPT. Die für das Training solcher Bots benötigten Textdaten seien aber meist nur eingeschränkt zugänglich. Und schon innerhalb eines Unternehmens könnten Textdaten wie E-Mails, interne Berichte oder Lieferscheine nicht ohne Weiteres zwischen unterschiedlichen Abteilungen oder Zweigstellen ausgetauscht werden. Auch hier will das Forschungsteam das föderale Lernen erproben, was mit dem Ziel geschieht, dem Sprachmodell etwa alle lokal verwendeten Vokabeln, Satzstrukturen oder Zusammenhänge beizubringen. Anschließend wollen die Forscher den Erfolg ihrer Methode in einem globalen Modell evaluieren.
Dieser Artikel stammt von unserem Partnerportal Industry of Things.
(ID:49332999)