Kommentar von Jörg Hesske, Denodo Mit logischem Datenmanagement in Echtzeit zum Erfolg

Von Jörg Hesske 5 min Lesedauer

Anbieter zum Thema

Large-Language-Modelle (LLMs), Chatbots und andere KI-basierte Tools gewinnen zunehmend an Vertrauen. Viele Nutzer verlassen sich bei komplexen Fragen auf die scheinbar fundierten und leicht verständlichen Antworten. Allerdings sind die Ergebnisse solcher Anwendungen nur so gut wie die Daten, auf die sie sich beziehen. Umso wichtiger ist es, eine Datengrundlage aufzubauen, die vollständig, akkurat und aktuell ist.

Der Autor: Jörg Hesske ist Regional Vice President bei Denodo(Bild:  Denodo)
Der Autor: Jörg Hesske ist Regional Vice President bei Denodo
(Bild: Denodo)

Knapp ein Drittel der Generative-AI-Projekte (Gen AI), die Unternehmen bislang initiiert haben, ist zum Scheitern verurteilt. Schätzungen von Gartner zufolge werden sie bis Ende 2025 entweder ergebnislos bleiben oder vorzeitig beendet. Auch wenn einige von ihnen einen messbaren Mehrwert wie Kostenreduzierung, Prozessoptimierung oder höhere Servicezufriedenheit verzeichnen, geht es bei den meisten nun darum, die Use Cases unternehmensweit zu skalieren.

Und an diesem Punkt stoßen viele Unternehmen an ihre Grenzen. Denn oftmals fehlt es ihnen an der notwendigen Datengrundlage, die sich sowohl über die zunehmende Anzahl an Datenquellen als auch das wachsende Volumen hinweg skalieren lässt. Laut einer Untersuchung von McKinsey nennen 72 Prozent der Unternehmen Daten als Hauptherausforderung, wenn es um die unternehmensweite Ausweitung von Use Cases für Künstliche Intelligenz (KI) geht.

Was KI wirklich braucht

Das Informatiker-Credo „garbage in, garbage out“ spielt im modernen KI-Diskurs eine essenzielle Rolle. Damit KI-Anwendungen akkurate, qualitativ hochwertige und vor allem geschäftsrelevante Antworten geben können, muss die Datengrundlage ebenso präzise und erklärbar sein, höchsten Qualitäts-, Sicherheits- und Governance-Ansprüchen genügen sowie das tagesaktuelle Unternehmenswissen abbilden. Weisen verfügbare Informationen Lücken auf oder sind anderweitig fehlerhaft, leidet in erster Linie die Genauigkeit der Ergebnisse.

In Branchen und Bereichen, in denen KI für die Entscheidungsfindung zum Einsatz kommt, kann das katastrophale Folgen haben. Hinzu kommt, dass das Modell dann auch anfällig für „Halluzinationen“ ist. Sprich: Die Anwendung reiht Wörter aneinander, die auf den ersten Blick Sinn ergeben. Bei genauerem Hinsehen fällt jedoch auf, dass sie faktisch komplett danebenliegen. Leider sind wir noch nicht an dem Punkt angelangt, an dem der Algorithmus zwischen Fiktion und Tatsache unterscheiden kann.

Warum es mit der Datengrundlage nicht so recht klappt

Zahlreiche Daten-Management-Hürden halten Unternehmen davon ab, ihren KI-Anwendungen die ideale Informationsgrundlage bereitzustellen. So verstreut sich das gesamte Unternehmenswissen über sämtliche Netzwerkumgebungen hinweg in Silos. In diesem fragmentierten Geflecht werden laufend Daten in unterschiedlichen Formaten generiert, verarbeitet, gespeichert und verwaltet. Die Folge ist eine hohe Komplexität, die den Einsatz verschiedener Zugriffsmethoden notwendig macht. Erschwerend kommt hinzu, dass viele KI-Modelle auf veralteten Trainingsdaten basieren – mit entsprechend negativen Auswirkungen auf deren Leistungsfähigkeit.

Parallel dazu entwickelt sich die regulatorische Landschaft kontinuierlich weiter – schließlich ist KI auch nicht frei von Risiken. Neben bestehenden Regularien wie der EU-DSGVO und dem EU AI Act werden in naher Zukunft noch mehr Gesetze formuliert und in Kraft treten, die verschiedene potenzielle Gefahren abdecken – darunter: Transparenz hinsichtlich der Systemfunktionalität, das Bias-Problem, die Verletzung von Rechten des geistigen Eigentums oder die Rolle des Drittanbieterrisikos.

Ohne zentrales Datenmanagement sind die Erfolgsaussichten gering

In einer Hinsicht unterscheiden sich KI- und Gen-AI-Anwendungen kaum von ihren menschlichen Kollegen: Um ihre Arbeit so genau, so effizient und so effektiv wie möglich machen zu können, brauchen sie barrierefreien, sicheren und vollständigen Zugang zu für sie verständlichen Unternehmensdaten. Deshalb ist ein zentrales Datenmanagement essenziell bei der Einführung von KI- und Gen-AI-Use-Cases. Es schafft einheitliche Kontrolle über die Datenqualität, den Zugriff, die Integration sowie die Governance.

Eine Plattform für logisches Datenmanagement nutzt dafür Datenvirtualisierung. Dabei werden die Zugänge zu zahlreichen Quellen entkoppelt, abstrahiert und zentral zusammengeführt. Konsumenten, wie etwa ein LLM, müssen sich nicht auf die langwierige Suche nach den Informationen machen, die sie brauchen. Stattdessen können sie über einen virtuellen Layer in Echtzeit auf die bereitgestellten Unternehmensdaten zugreifen, ohne diese in aufwendigen Prozessen zu duplizieren, zu verändern oder in ein Repository zu bewegen. Innovative Technologien ermöglichen es mittlerweile sogar, komplexe, semantisch angereicherte Abfragen über verschiedene Datenquellen hinweg auszuführen – unabhängig davon, wo die Daten liegen. Dadurch lassen sich selbst sehr spezifische Informationsbedarfe KI-gestützt in Echtzeit bedienen – ohne den Aufwand klassischer Datenintegration. Auf diesem Weg fördert zentrales Datenmanagement nicht nur die Demokratisierung von Daten für menschliche Mitarbeiter. Es schafft auch einen sicheren Zugangspunkt, über den LLMs jederzeit und in Echtzeit mit Unternehmensdaten jeglichen Formats interagieren können.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Keine Zeit für kostspieliges Re-Training

LLMs, auf denen KI-Anwendungen aufbauen, stoßen an grundlegende Grenzen. Zum einen greifen sie in erster Linie auf die Daten zurück, mit denen sie trainiert wurden. Zum anderen steht ihnen auch nur das Wissen zur Verfügung, zu dem sie Zugriff haben. Sprich: Ist ein Modell an das öffentliche Internet angebunden – was aus Sicherheitsgründen meist nicht empfohlen wird –, fehlt es ihm an vielen unternehmensspezifischen Informationen wie Kunden- und Produktedetails sowie Betriebsabläufen. Folglich sind sie besonders in ihrer Aktualität eingeschränkt. Informationen sind häufig veraltet, lückenhaft und somit mit sehr hoher Wahrscheinlichkeit sogar unbrauchbar.

Eine Möglichkeit, die Datengrundlage aktuell zu halten, ist das regelmäßige Re-Training der zugrunde liegenden Modelle mit neuen, unternehmensrelevanten Daten. In der Praxis scheitert das jedoch oft an fehlendem Know-how. Zudem ist der finanzielle und zeitliche Aufwand solcher Re-Trainings enorm, weshalb dieser Prozess nicht gerade einfach – und vor allem nicht für jedes Unternehmen – umzusetzen ist.

Alternativ greift eine KI-Anwendung bei einer Retrieval-Augmented-Generation-Architektur (RAG) auf zusätzliche Kontextquellen wie beispielsweise Datenbanken zurück, um weiteres notwendiges Wissen einzubinden. Das hat gleich mehrere Vorteile. So nehmen Qualität, Aktualität, Relevanz und Transparenz der Antworten erheblich zu, während das Risiko von Halluzinationen sinkt. Darüber hinaus sind keine aufwendigen und teuren Re-Trainings notwendig, weil Informationen kontinuierlich und automatisch ihren Weg ins Modell finden. Damit die aktuellen Daten an das Modell übergeben werden können, braucht es idealerweise eine Lösung, die sämtliche Informationen in Echtzeit aus allen möglichen Quellen zieht und zentral bereitstellt, ohne die Qualität zu mindern oder die Compliance zu gefährden. Eine logische Datenmanagement-Plattform bietet sich für diese Aufgabe an.

Fazit

Während sich Unternehmen immer mehr mit einer engeren Verknüpfung von LLMs und Unternehmens-Assets beschäftigen, werden sie zwangsläufig auf Datenmanagement-Hürden stoßen. Komplexe IT-Umgebungen und Datensilos müssen überwunden, Datenquellen integriert und lange Daten-Pipelines effizient verwaltet werden. Schließlich braucht es für leistungsstarke, akkurate KI-Anwendungen ein solides Echtzeit-Datenfundament.

Vor diesem Hintergrund ist es umso wichtiger, Unternehmensdaten aus sämtlichen Quellen zentral verfügbar zu machen – zum Beispiel mithilfe einer Plattform für logisches Datenmanagement. Über einen virtuellen Layer – und in Kombination mit einer RAG-Architektur – erleichtert sie den direkten Zugang zu allen relevanten und aktuellen Informationen. Davon profitieren nicht nur die menschlichen Teammitglieder. Auch KI- und Gen-AI-Initiativen können ihr volles Potenzial entfalten. Ein Beispiel dafür ist das Industrieunternehmen Festo, das durch den zentralen Zugriff auf interne strukturierte Daten die Nutzung generativer KI deutlich beschleunigen und die Auswertung geschäftsrelevanter Kennzahlen vereinfachen konnte.

(ID:50536849)