Large-Language-Modelle (LLMs), Chatbots und andere KI-basierte Tools gewinnen zunehmend an Vertrauen. Viele Nutzer verlassen sich bei komplexen Fragen auf die scheinbar fundierten und leicht verständlichen Antworten. Allerdings sind die Ergebnisse solcher Anwendungen nur so gut wie die Daten, auf die sie sich beziehen. Umso wichtiger ist es, eine Datengrundlage aufzubauen, die vollständig, akkurat und aktuell ist.
Der Autor: Jörg Hesske ist Regional Vice President bei Denodo
(Bild: Denodo)
Knapp ein Drittel der Generative-AI-Projekte (Gen AI), die Unternehmen bislang initiiert haben, ist zum Scheitern verurteilt. Schätzungen von Gartner zufolge werden sie bis Ende 2025 entweder ergebnislos bleiben oder vorzeitig beendet. Auch wenn einige von ihnen einen messbaren Mehrwert wie Kostenreduzierung, Prozessoptimierung oder höhere Servicezufriedenheit verzeichnen, geht es bei den meisten nun darum, die Use Cases unternehmensweit zu skalieren.
Das Informatiker-Credo „garbage in, garbage out“ spielt im modernen KI-Diskurs eine essenzielle Rolle. Damit KI-Anwendungen akkurate, qualitativ hochwertige und vor allem geschäftsrelevante Antworten geben können, muss die Datengrundlage ebenso präzise und erklärbar sein, höchsten Qualitäts-, Sicherheits- und Governance-Ansprüchen genügen sowie das tagesaktuelle Unternehmenswissen abbilden. Weisen verfügbare Informationen Lücken auf oder sind anderweitig fehlerhaft, leidet in erster Linie die Genauigkeit der Ergebnisse.
In Branchen und Bereichen, in denen KI für die Entscheidungsfindung zum Einsatz kommt, kann das katastrophale Folgen haben. Hinzu kommt, dass das Modell dann auch anfällig für „Halluzinationen“ ist. Sprich: Die Anwendung reiht Wörter aneinander, die auf den ersten Blick Sinn ergeben. Bei genauerem Hinsehen fällt jedoch auf, dass sie faktisch komplett danebenliegen. Leider sind wir noch nicht an dem Punkt angelangt, an dem der Algorithmus zwischen Fiktion und Tatsache unterscheiden kann.
Warum es mit der Datengrundlage nicht so recht klappt
Zahlreiche Daten-Management-Hürden halten Unternehmen davon ab, ihren KI-Anwendungen die ideale Informationsgrundlage bereitzustellen. So verstreut sich das gesamte Unternehmenswissen über sämtliche Netzwerkumgebungen hinweg in Silos. In diesem fragmentierten Geflecht werden laufend Daten in unterschiedlichen Formaten generiert, verarbeitet, gespeichert und verwaltet. Die Folge ist eine hohe Komplexität, die den Einsatz verschiedener Zugriffsmethoden notwendig macht. Erschwerend kommt hinzu, dass viele KI-Modelle auf veralteten Trainingsdaten basieren – mit entsprechend negativen Auswirkungen auf deren Leistungsfähigkeit.
Parallel dazu entwickelt sich die regulatorische Landschaft kontinuierlich weiter – schließlich ist KI auch nicht frei von Risiken. Neben bestehenden Regularien wie der EU-DSGVO und dem EU AI Act werden in naher Zukunft noch mehr Gesetze formuliert und in Kraft treten, die verschiedene potenzielle Gefahren abdecken – darunter: Transparenz hinsichtlich der Systemfunktionalität, das Bias-Problem, die Verletzung von Rechten des geistigen Eigentums oder die Rolle des Drittanbieterrisikos.
Ohne zentrales Datenmanagement sind die Erfolgsaussichten gering
In einer Hinsicht unterscheiden sich KI- und Gen-AI-Anwendungen kaum von ihren menschlichen Kollegen: Um ihre Arbeit so genau, so effizient und so effektiv wie möglich machen zu können, brauchen sie barrierefreien, sicheren und vollständigen Zugang zu für sie verständlichen Unternehmensdaten. Deshalb ist ein zentrales Datenmanagement essenziell bei der Einführung von KI- und Gen-AI-Use-Cases. Es schafft einheitliche Kontrolle über die Datenqualität, den Zugriff, die Integration sowie die Governance.
Eine Plattform für logisches Datenmanagement nutzt dafür Datenvirtualisierung. Dabei werden die Zugänge zu zahlreichen Quellen entkoppelt, abstrahiert und zentral zusammengeführt. Konsumenten, wie etwa ein LLM, müssen sich nicht auf die langwierige Suche nach den Informationen machen, die sie brauchen. Stattdessen können sie über einen virtuellen Layer in Echtzeit auf die bereitgestellten Unternehmensdaten zugreifen, ohne diese in aufwendigen Prozessen zu duplizieren, zu verändern oder in ein Repository zu bewegen. Innovative Technologien ermöglichen es mittlerweile sogar, komplexe, semantisch angereicherte Abfragen über verschiedene Datenquellen hinweg auszuführen – unabhängig davon, wo die Daten liegen. Dadurch lassen sich selbst sehr spezifische Informationsbedarfe KI-gestützt in Echtzeit bedienen – ohne den Aufwand klassischer Datenintegration. Auf diesem Weg fördert zentrales Datenmanagement nicht nur die Demokratisierung von Daten für menschliche Mitarbeiter. Es schafft auch einen sicheren Zugangspunkt, über den LLMs jederzeit und in Echtzeit mit Unternehmensdaten jeglichen Formats interagieren können.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Keine Zeit für kostspieliges Re-Training
LLMs, auf denen KI-Anwendungen aufbauen, stoßen an grundlegende Grenzen. Zum einen greifen sie in erster Linie auf die Daten zurück, mit denen sie trainiert wurden. Zum anderen steht ihnen auch nur das Wissen zur Verfügung, zu dem sie Zugriff haben. Sprich: Ist ein Modell an das öffentliche Internet angebunden – was aus Sicherheitsgründen meist nicht empfohlen wird –, fehlt es ihm an vielen unternehmensspezifischen Informationen wie Kunden- und Produktedetails sowie Betriebsabläufen. Folglich sind sie besonders in ihrer Aktualität eingeschränkt. Informationen sind häufig veraltet, lückenhaft und somit mit sehr hoher Wahrscheinlichkeit sogar unbrauchbar.
Eine Möglichkeit, die Datengrundlage aktuell zu halten, ist das regelmäßige Re-Training der zugrunde liegenden Modelle mit neuen, unternehmensrelevanten Daten. In der Praxis scheitert das jedoch oft an fehlendem Know-how. Zudem ist der finanzielle und zeitliche Aufwand solcher Re-Trainings enorm, weshalb dieser Prozess nicht gerade einfach – und vor allem nicht für jedes Unternehmen – umzusetzen ist.
Alternativ greift eine KI-Anwendung bei einer Retrieval-Augmented-Generation-Architektur (RAG) auf zusätzliche Kontextquellen wie beispielsweise Datenbanken zurück, um weiteres notwendiges Wissen einzubinden. Das hat gleich mehrere Vorteile. So nehmen Qualität, Aktualität, Relevanz und Transparenz der Antworten erheblich zu, während das Risiko von Halluzinationen sinkt. Darüber hinaus sind keine aufwendigen und teuren Re-Trainings notwendig, weil Informationen kontinuierlich und automatisch ihren Weg ins Modell finden. Damit die aktuellen Daten an das Modell übergeben werden können, braucht es idealerweise eine Lösung, die sämtliche Informationen in Echtzeit aus allen möglichen Quellen zieht und zentral bereitstellt, ohne die Qualität zu mindern oder die Compliance zu gefährden. Eine logische Datenmanagement-Plattform bietet sich für diese Aufgabe an.
Fazit
Während sich Unternehmen immer mehr mit einer engeren Verknüpfung von LLMs und Unternehmens-Assets beschäftigen, werden sie zwangsläufig auf Datenmanagement-Hürden stoßen. Komplexe IT-Umgebungen und Datensilos müssen überwunden, Datenquellen integriert und lange Daten-Pipelines effizient verwaltet werden. Schließlich braucht es für leistungsstarke, akkurate KI-Anwendungen ein solides Echtzeit-Datenfundament.