Kommentar von Sascha Hempe, Datadobi Generative KI ist nur so gut wie ihr Daten-Input

Von Sascha Hempe 6 min Lesedauer

Anbieter zum Thema

Über drei Viertel der Unternehmen haben Künstliche Intelligenz (KI) inzwischen in mindestens einem Geschäftsbereich implementiert. Die Erwartungen an die Technologie sind groß – die möglichen Stolperfallen jedoch auch. Das fängt schon beim Datenmanagement an. Denn der Output einer KI ist nur so gut, wie die Daten, die dahinterstecken.

Der Autor:  Sascha Hempe ist Regional Sales Manager DACH & Nordics bei Datadobi(Bild:  Datadobi)
Der Autor: Sascha Hempe ist Regional Sales Manager DACH & Nordics bei Datadobi
(Bild: Datadobi)

Künstliche Intelligenz hat unser Leben verändert – sowohl im privaten als auch im geschäftlichen Bereich. Lag die Implementierungsquote in Unternehmen zwischen 2018 und 2023 noch bei rund 50 Prozent, ist sie laut einer McKinsey-Studie inzwischen auf 78 Prozent angestiegen. Die Erwartungen sind hoch: Ein Großteil der Unternehmen geht davon aus, dass generative KI (GenAI) zu wichtigen Veränderungen in ihrer Branche führen wird. Die Umfrageteilnehmer berichteten von besserer Performance, Kostensenkungen und Umsatzsteigerungen durch den Einsatz der Technologie.

Trotz dieser Vorteile gibt es aber auch beträchtliche Risiken, die einer erfolgreichen Implementierung im Weg stehen können. Das fängt schon beim Datenmanagement an – denn der Output einer KI ist nur so gut wie die Daten, die dahinterstecken. Viele Firmen tun sich noch schwer damit, die nötige Datenqualität sicherzustellen, Prozesse für die Daten-Governance zu definieren und ihre Daten reibungslos in KI-Modelle einzubinden.

Schrott rein, Schrott raus

Erschwert wird ein sauberes Datenmanagement durch die Tatsache, dass ein Großteil der Unternehmensdaten heute in unstrukturierter Form vorliegt. Wichtige Informationen können beispielsweise nicht nur in Textdokumenten, sondern auch in Videos und Bildern, E-Mails und Social-Media-Inhalten enthalten sein.

Die erfolgreiche Implementierung generativer KI hängt in hohem Maße davon ab, wie Unternehmen diese oft enormen Datenmengen verwalten. Denn um die richtigen Daten zum Trainieren oder Erweitern von Large Language Models (LLMs) zu finden, gilt es, Millionen von Dateien zu durchforsten – ein immenser, aber notwendiger Aufwand. Künstliche Intelligenz ist auf umfangreiche Datensätze angewiesen, um Muster zu erlernen. Das macht die Auswahl genauer, aussagekräftiger und unverzerrter Daten unerlässlich, um hochwertige Ergebnisse zu erzielen.

Das Transformieren von in Data Lakes gespeicherten Daten in qualitativ hochwertige Datensätze ist ebenfalls ein kritischer, aber häufig vernachlässigter Aspekt. Die alte Weisheit der Datenverarbeitung „Garbage in, Garbage out“ (deutsch etwa: wo Schrott reingegeben wird, kommt auch Schrott raus) unterstreicht die Notwendigkeit einer sorgfältigen Datenaufbereitung und -verwaltung. Insbesondere, weil GenAI-Modelle nicht immer gut mit unstrukturierten Daten arbeiten können. Wenn es am Datenmanagement hapert, kann das schnell die KI-Performance beeinträchtigen und zu Ergebnissen führen, die durch unsaubere Daten verzerrt sind.

So lassen sich die Daten in den Griff bekommen

Was also können Unternehmen tun, die zwar ein enormes Potenzial in KI sehen und wertvolle unstrukturierte Daten haben, sich aber schwertun, aus diesen konkrete Ergebnisse zu erzielen?

Der erste Schritt ist, zunächst einmal den vollständigen Überblick über alle unternehmensweit gespeicherten unstrukturierten Daten zu gewinnen. Nur wenn ein Unternehmen weiß, welche Daten es überhaupt besitzt und wo sich diese befinden, kann es fundierte Entscheidungen darüber treffen, welche dieser Daten einen potenziellen Wert haben – und wie sie sich am besten einsetzen lassen.

Anschließend heißt es, die enorme Zahl an Dateien so zu kennzeichnen, zu organisieren und zu visualisieren, dass sie nicht nur für den Einsatz in aktuellen Anwendungen bereit sind, sondern auch mit der rasanten Entwicklung neuer KI-Lösungen Schritt halten können. Diese Aufgabe ist oft hochkomplex und ressourcenintensiv. Doch sie ist unerlässlich, damit Datenwissenschaftler die richtigen Daten identifizieren, GenAI-Modelle optimal trainieren sowie akkurate, verwertbare und zuverlässige Ergebnisse erzielen können.

All das muss im Rahmen von effektiver Daten-Governance erfolgen und unter Anwendung festgelegter Richtlinien und Prozesse, die die Speicherung, Dokumentation und Verwaltung der Daten gemäß den unternehmensinternen Anforderungen und gesetzlichen Vorschriften regeln. Gute Governance erfordert außerdem die kontinuierliche Durchführung von Daten-Audits und eine stetige Optimierung der Datenmanagementprozesse, insbesondere wenn zusätzliche Datensätze in die KI-Systeme mit aufgenommen werden. Der Einsatz unstrukturierter Daten kann Risiken mit sich bringen, von Sicherheitsproblemen und Compliance-Verstößen bis zu unzureichender betrieblicher Effizienz. Mit der richtigen Vorgehensweise lassen sich diese Risiken aber erheblich verringern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Umdenken ist gefragt

Bis in jüngster Vergangenheit mangelte es noch an geeigneten Tools für das Management unstrukturierter Daten. Um den wachsenden Datenfluten Herr zu werden, haben viele Unternehmen lediglich ihre Speicherkapazitäten immer weiter ausgebaut. Angesichts des weiter steigenden Datenaufkommens und der GenAI-Anforderungen ist dieser Ansatz jedoch nicht mehr tragbar. Anstatt sich nur auf die Vergrößerung ihrer Datenspeicher zu konzentrieren, sollten IT-Verantwortliche ihr Augenmerk vielmehr auf Lösungen richten, die solide Datenmanagement-Fähigkeiten bieten.

Ein großes Problem in vielen Firmen ist die Datenfragmentierung. Weil Daten über verschiedene Standorte verstreut vorliegen und über unterschiedliche Protokolle abgerufen werden, ist es schwieriger, sich eine unternehmensweite Übersicht zu verschaffen. Ferner fehlt oft die Möglichkeit, Daten in logisch zusammenhängende Gruppen zu organisieren. Das erschwert die Datenanalyse und die Berichterstattung.

Eine weitere Herausforderung ist die Datenqualität: Sind Daten relevant, noch gültig oder schon veraltet? Werden sie aktiv von einem oder mehreren Nutzern verwaltet, oder sind sie aufgrund wechselnder Zuständigkeiten verwaist? Intelligente Datenmanagement-Lösungen helfen, diese Herausforderungen zu bewältigen, indem sie für die entscheidende Transparenz in Bezug auf Datenattribute wie Alter, Verantwortlichkeiten und Datentypen sorgen. Diese Einblicke ermöglichen fundierte Entscheidungen etwa darüber, wo die Daten aufbewahrt werden sollen, um für KI-Anwendungen leicht zugänglich zu sein.

Die Rolle von Datenmanagement-Lösungen

Die fortschrittlichsten Datenmanagement-Lösungen auf dem Markt sind bereits speziell auf unstrukturierte Daten ausgerichtet. Sie helfen, Ordnung in die Daten zu bringen, die Datenmobilität und Datenspeicherung zu verbessern und die Einhaltung gesetzlicher Vorschriften zu gewährleisten. Unternehmen können diese Plattformen unter anderem einsetzen, um Frameworks für die Daten-Governance aufzubauen, Datenintegrationen zu verwalten und zuverlässige Datenschutzmaßnahmen umzusetzen. Durch eine Analyse der Datennutzungsmuster können sie zudem die Verwendung ihrer Speicherlösungen optimieren – und dadurch Kosten sparen. Und: Sind die Probleme mit Datenfragmentierung und Datenqualität erst einmal gelöst, dann können Unternehmen das Potenzial ihrer Daten zur Entscheidungsfindung und Effizienzsteigerung auch voll ausnutzen.

Durch den Einsatz dieser Lösungen lassen sich nicht nur die wachsenden Datenmengen besser handhaben. Unternehmen profitieren auch von zusätzlicher Datentransparenz in ihren hybriden Umgebungen. So können sie nicht nur die richtigen Daten schnell auffinden und abrufen. Mit erweiterten Datenanalysen wird zudem sichergestellt, dass die in KI-Anwendungen eingesetzten Daten immer korrekt, relevant und aktuell sind. Das ist bei der Vorbereitung von Daten zum Trainieren von KI-Modellen unerlässlich. Indem sichergestellt ist, dass die richtigen Daten zur richtigen Zeit am richtigen Ort sind, lassen sich die Geschäftsergebnisse erzielen, die sich viele Unternehmen von LLMs versprechen.

Die Implementierung einer Datenmanagement-Lösung kann übrigens auch die Zusammenarbeit innerhalb des Unternehmens fördern. Denn teamübergreifende Dateneinblicke schaffen eine einheitliche Plattform für den Datenzugriff und die Datenanalyse. Das kann zu koordinierteren Maßnahmen bei datengestützten Projekten führen, gemeinsame Innovationen beschleunigen und die Produktivität insgesamt verbessern.

Fazit

Mit einem effektiven Datenmanagement-Ansatz und der passenden Technologie lässt sich die Lücke schließen, die entsteht, wenn Teams GenAI-Modelle mit qualitativ hochwertigen Daten trainieren wollen, aber nur über unstrukturierte Rohdaten mit fraglichem Nutzen verfügen. Im Idealfall ermöglicht die verwendete Datenmanagement-Plattform das nahtlose, zuverlässige und effiziente Migrieren, Verwalten und Schützen von Daten auch in heterogenen Speicherumgebungen – und bietet damit die wichtige Grundlage für den erfolgreichen Einsatz Künstlicher Intelligenz. Für Unternehmen, die auf eine Zukunft hinarbeiten, in der GenAI in sämtlichen Aspekten von der strategischen Planung bis zur taktischen Entscheidungsfindung zum Einsatz kommen wird, ist die Schaffung einer soliden Datenbasis eine zwingende Voraussetzung.

Artikelfiles und Artikellinks

(ID:50610855)