Kommentar von Jörg Hesske, Denodo Logisches Datenmanagement – ein Enabler für Agentic AI

Von Jörg Hesske 5 min Lesedauer

Anbieter zum Thema

Gebäude sind nur so standhaft wie ihre Grundmauern – und ähnlich verhält es sich mit KI-Anwendungen. Wer solide KI-Architekturen aufbauen möchte, sollte sich zunächst mit dem Datenfundament befassen. Jörg Hesske, Regional Vice President bei Denodo, erklärt, welche Vorteile ein logisches Datenmanagement für eine effizientere KI-Nutzung in Unternehmen bringen kann.

Der Autor: Jörg Hesske ist Regional Vice President bei Denodo(Bild:  Denodo)
Der Autor: Jörg Hesske ist Regional Vice President bei Denodo
(Bild: Denodo)

Niemand, der sich für Künstliche Intelligenz (KI) interessiert, dürfte im vergangenen Jahr an der vielzitierten MIT-Studie vorbeigekommen sein, nach der 95 Prozent aller KI-Projekte scheitern. Doch warum lassen sich die hohen Investitionen der Unternehmen nur so schwer in messbare Ergebnisse übersetzen? Ein wichtiger Grund dafür liegt in der Datengrundlage, auf der KI-Modelle aufbauen. Die Qualität von KI-Outputs hängt direkt von der Qualität der Trainingsdaten ab, die in das System eingespeist werden. Je größer das Datenvolumen und je höher die Datenqualität im Trainingsdatensatz ist, desto genauer sind die Vorhersagen und Entscheidungen, die die KI auf Basis dieser Daten trifft.

Die Grenzen allgemeiner LLMs überwinden

Wenn allgemeine LLMs für spezialisierte Aufgaben innerhalb von Unternehmen eingesetzt werden sollen, offenbart sich eine Schwäche: Trotz des umfassenden allgemeinen Wissensschatzes fehlt in der Regel der Einblick in das Unternehmen selbst, sodass sich die Frage stellt, wie diese Informationen in eigene KI-Anwendungen eingebracht werden können.

Als Antwort darauf etablierte sich Retrieval Augmented Generation (RAG), eine Technik, die LLMs mit internen Datenquellen einer Organisation integriert, etwa CRM-Systemen, Produktdatenbanken und mehr. Anfragen werden über eine Vektordatenbank geleitet, um zusätzliche, zur Anfrage passende Informationsquellen zu identifizieren. Anschließend werden diese Ergebnisse zusammen mit der ursprünglichen Frage wieder an das LLM übergeben. Eine Vektordatenbank ist dabei eine spezialisierte Datenbank, die Daten in numerischen Repräsentationen speichert, um Ähnlichkeitssuchen und eine schnellere Datenabfrage zu ermöglichen.

Durch die Kombination von KI und RAG können Unternehmen ihren Mitarbeitern ermöglichen, in Dialog mit den eigenen Daten zu treten. Sie können sehr tief in diese Informationen einsteigen und beispielsweise Diagramme zu historischen Lagerbeständen, Verkaufszahlen oder Lieferanteninformationen erzeugen. Diese Fähigkeit ist der Schlüssel zu echter Datendemokratisierung. Jede Person kann eine Frage stellen und ein Ergebnis erhalten, ohne Kenntnisse über die Datenstruktur, eine Abfragesprache oder ein Analysewerkzeug zu benötigen. Allerdings ist die Implementierung eines solchen Modells alles andere als trivial. Im Wesentlichen gibt es dafür zwei Ansätze.

Zwischen Datenreplikation und SQL-Abfragen

Von den beiden Möglichkeiten ist die Datenreplikation in Vektordatenbanken oft schneller umzusetzen und ermöglicht kontextbezogene Suchen im Rahmen von RAG-Prozessen, indem Inhalte in einer Vektordatenbank indexiert werden. Das funktioniert sehr gut für Bilder und PDFs, deren Inhalte direkt in Antworten einbezogen werden können. Bei strukturierten Daten hat dieser Ansatz jedoch erhebliche Nachteile. So fehlt häufig die feingranulare Zugriffskontrolle, wie sie in klassischen Datenbanken üblich ist. Zudem lassen sich typische analytische Fragestellungen, die das Verbinden oder Aggregieren von Datenpunkten über sehr große Datenmengen hinweg erfordern, mit SQL-Abfragen deutlich besser lösen.

Die Alternative basiert auf der Idee, natürliche Sprachfragen in SQL-Abfragen zu übersetzen. Damit lassen sich einige der Schwächen des vorherigen Ansatzes überwinden. Allerdings entstehen auch neue Herausforderungen. Häufig kann dieser Ansatz nur auf eine einzelne Datenquelle angewendet werden. Viele Fragen beziehen sich jedoch auf operative Daten aus Anwendungen oder Drittsystemen. In der Praxis liegen diese Informationen meist in mehreren Systemen verteilt vor, was die Umsetzung erschwert. Logisches Datenmanagement kann einige der Vorteile beider Ansätze vereinen und gleichzeitig eine solide Grundlage schaffen, um deren jeweilige Herausforderungen zu bewältigen.

Einerseits unterstützt logisches Datenmanagement RAG, indem es Daten aus allen Unternehmensquellen organisiert, katalogisiert, verschlagwortet und prüft. Es ist vergleichbar mit einem Zettelkatalog oder einer Buchdatenbank, die detaillierte Informationen zu jedem Buch in einer Bibliothek enthält. Diese reichhaltigen Metadaten stellen sicher, dass Suchanfragen Ergebnisse liefern, die wirklich relevant sind, und nicht nur thematisch entfernte Treffer.

Andererseits ermöglicht logisches Datenmanagement auch leistungsfähige Text-zu-SQL-Funktionalitäten, die – im Gegensatz zu anderen Systemen – über die gesamte Datenlandschaft hinweg funktionieren. Sie sind nicht mehr an eine einzelne Datenquelle gebunden, sondern können Fragen zu beliebigen Systemen stellen oder auch solche, die Informationen aus mehreren Quellen erfordern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Weitere Vorteile von logischem Datenmanagement für KI-Implementierungen

Neben der Kombination von Datenreplikation in Vektordatenbanken und SQL-Abfragen bieten logische Datenschichten noch weitere Vorteile für eine gewinnbringende KI-Nutzung. Dazu gehören unter anderem:

  • Zentraler Zugriffspunkt: LLMs müssen alle Daten innerhalb einer Organisation abfragen können, um ein ganzheitliches Bild zu liefern. Eine logische Datenschicht stellt diesen zentralen Zugriffspunkt bereit und ermöglicht Text-zu-SQL-Pipelines unter anderem zu Geschäftssystemen, Data Warehouses und Data Marts.
  • Semantische Schicht: Eine logische Datenschicht übersetzt operative Terminologie in geschäftsbezogene Syntax. Das bedeutet, dass LLMs, die auf einer logischen Schicht basieren, Zugriff auf geschäftlichen Kontext und Wissen erhalten, beispielsweise zu Geschäftsdefinitionen, Kategorien, Tags oder Beispielwerten.
  • Reduzierte Datenreplikation: Die logische Datenschicht liegt oberhalb der zugrunde liegenden Datenquellen. Dadurch wird der Bedarf an Datenreplikation reduziert und Datenzugriff nahezu in Echtzeit ermöglicht.
  • Granulare Zugriffsrechte und Berechtigungen: Sicherheitseinstellungen sind dank logischen Datenmanagements deutlich feingranularer und leichter zu verwalten als bei traditionellen Methoden. So wird sichergestellt, dass die richtigen Nutzer den richtigen Zugriff auf die jeweils relevanten Daten haben.
  • Herstellerneutralität: Logische Schichten können die zugrunde liegenden Datensätze in ein einheitliches Format übersetzen. Dadurch können LLMs und konversationelle BI unabhängig vom ursprünglichen Datenformat eingesetzt werden, ohne dass eine Migration oder physische Transformation der Daten in ein anderes System erforderlich ist.
  • Unternehmensweite Data Governance: Logisches Datenmanagement verbindet mehrere Datensätze und Datendomänen unter einer einzigen logischen Datenschicht. Diese stellt sicher, dass Daten gut verwaltet, bereinigt und validiert sind – ein entscheidender Faktor für die Bereitstellung KI-fähiger Daten.
  • Schnellerer Datenzugriff: Logisches Datenmanagement kann über mehreren Datenquellen liegen, einschließlich solcher, die Daten in Echtzeit erzeugen. Zentrale Ansätze hingegen erfordern das Kopieren aller Daten an einen Ort. Dadurch sind die Daten, die aus einer logischen Datenschicht in die KI einfließen, wesentlich aktueller.

Unterstützung zukünftiger Multi-Agent-Systeme

Logisches Datenmanagement spielt auch mit Blick auf die zukünftige Art der KI-Integration eine wesentliche Rolle. Nach der Ära einfacher Chatbots und isolierter KI-Agenten werden wir bald in größerer Zahl Systeme sehen, die die komplexe Arbeit von Datenanalysten simulieren können. Dabei werden allerdings auch die Anforderungen im Bereich des Datenzugriffs in komplexen Ökosystemen immer anspruchsvoller, vor allem wenn noch Herausforderungen wie Sicherheit und Governance hinzukommen.

Um diese Integration zu erleichtern, bieten neue Protokolle wie das Model Context Protocol (MCP) KI-Agenten eine einfache, standardisierte Möglichkeit, sich mit Tools, Daten und Services zu verbinden. Eine über MCP zugängliche logische Datenschicht kann so zu einem grundlegenden Bestandteil einer modernen, KI-fähigen Datenarchitektur werden. Damit bildet logisches Datenmanagement eine wesentliche Grundlage, um skalierbare, sichere und kontextbewusste KI-Anwendungen zu ermöglichen.

Was ist logisches Datenmanagement?

Logisches Datenmanagement ist ein strategischer Ansatz, der es Unternehmen ermöglichen soll, Daten aus unterschiedlichsten Quellen wie Datenbanken, Data Warehouses, Data Lakes, offenen Tabellenformaten, Cloud-Diensten oder Anwendungen zu integrieren, ohne sie physisch zu verschieben. Es stellt diese Daten für Nutzer als eine einzige, konsistente „logische“ Datenquelle dar und erlaubt Echtzeitzugriff und Virtualisierung. So werden Analysen, Governance und Datensicherheit vereinfacht, während Unternehmen agil und datengetrieben arbeiten können.

Artikelfiles und Artikellinks

(ID:50702681)