Fünf Tipps von Qlik Sichere Datengrundlage schafft vertrauenswürdige GenAI

Von Martin Hensel 2 min Lesedauer

Anbieter zum Thema

Beim Thema generative KI (GenAI) sind Datenschutz und -sicherheit wesentliche Hürden bei der Implementierung. Unternehmen fragen sich oft, wie sie GenAI effektiv nutzen und gleichzeitig die Einhaltung entsprechender Vorgaben sicherstellen können. Der Daten- und Analytics-Spezialist Qlik hat deshalb fünf Tipps zusammengestellt, die für eine sichere Datengrundlage sorgen sollen.

Qlik hat fünf Tipps rund um eine sichere Datengrundlage für generative KI zusammengestellt.(Bild:  Gerd Altmann /  Pixabay)
Qlik hat fünf Tipps rund um eine sichere Datengrundlage für generative KI zusammengestellt.
(Bild: Gerd Altmann / Pixabay)

Die Wahl einer geeigneten Strategie für den Einsatz generativer KI ist komplex. Eine Möglichkeit für die sichere Nutzung von LLMs („Large Language Models“) ist etwa das Training ausschließlich auf Basis unternehmenseigener Daten. Für Firmen, die eine derartige Implementierungsstrategie und Infrastrukturinvestitionen planen, hat Qlik die folgenden fünf Tipps parat. Sie sollen dabei helfen, eine sichere und aufbereitete Datengrundlage für generative KI-Anwendungen zu schaffen.

  • 1. Intelligente Integration
    Das Unternehmen verfügt über eine große Menge an Daten in einer Vielzahl von Formaten und aus einer Vielzahl von – häufig verteilten – Quellen? Für generative KI-Tools ist das grundsätzlich eine gute Sache, da LLM davon profitieren, wenn sie auf großen Datensätzen trainiert werden. Um jedoch einen nahtlosen und effizienten Informationsfluss zum Training des KI-Modells zu ermöglichen, sollte das Unternehmen relevante Daten identifizieren, sammeln und in einem zentralen, leistungsfähigen Data Warehouse oder Data Lake zeitnah verfügbar machen. Eine entsprechende Datenreplikationsplattform repliziert, synchronisiert, verteilt und konsolidiert Daten aus und zwischen verschiedenen Quellen und gewährleistet dabei eine geringe Datenlatenz und maximale Datenverfügbarkeit.
  • 2. Kontinuierliche Aktualisierung
    Die Bereitstellung stets aktueller Daten ermöglicht es LLMs, sich anzupassen, zu verbessern und kontextuell relevante und kohärente Ergebnisse für ein breites Spektrum sprachbasierter Aufgaben und Anwendungen zu erzeugen. Das erfordert einen Datenmanagementansatz, der die Erfassung von Änderungsdaten in Echtzeit unterstützt sowie Daten kontinuierlich erfasst und repliziert, wann und wo sie benötigt werden. Das Streaming von Echtzeitdaten optimiert die Genauigkeit und Relevanz der Ergebnisse, die das Sprachmodell liefert.
  • 3. Datenumwandlung
    Damit die Daten für ein LLM nutzbar sind, müssen sie aus dem Rohzustand transformiert werden – im Idealfall auf möglichst effiziente für das Zielsystem geeignete Weise. Beispielsweise eignet sich Push Down SQL hervorragend für ein Cloud Data Warehouse, während ein Spark Cluster und Spark SQL besser mit einem Data Lake harmonieren.
  • 4. Automatische Datenbereinigung
    Es lässt sich nicht oft genug betonen: Die Datenqualität ist für generative KI von entscheidender Bedeutung, da sie Zuverlässigkeit, Genauigkeit und Kohärenz der Modellergebnisse direkt beeinflusst. Durch die Verwendung hochwertiger Daten beim Training kann das Modell aussagekräftige Muster und Assoziationen lernen und so sicherstellen, dass es kontextuell angemessene und wertvolle Inhalte erzeugt. Mit entsprechenden Lösungen lassen sich die Daten automatisch und nahezu in Echtzeit bereinigen und profilieren, so dass das Modell von Anfang an nur mit qualitativ hochwertigen Daten trainiert wird.
  • 5. Datenverwaltung
    Auch Data Governance ist für generative KI von entscheidender Bedeutung, da sie die verantwortungsvolle und effektive Nutzung von Daten durch das Sprachmodell gewährleistet. Dies kann nicht nur durch etablierte Strategien und Richtlinien für die Sammlung, Pflege und Speicherung von Daten erreicht werden, sondern auch durch Technologien zur Automatisierung dieser Prozesse für die Datenpipeline. Mit Lösungen zur Katalogisierung und Herkunftsbestimmung („Data Lineage“) werden die Daten in der Analysepipeline von der Quelle bis Anwendung transparent. Sie geben sofortigen Einblick in die Quelle und den Weg der Daten.

(ID:49914630)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung