Organisationen sind heute stetig auf der Suche nach neuen Anwendungsfällen für den Einsatz von Künstlicher Intelligenz (KI), um Effizienzgewinne zu erzielen oder Geschäftsvorteile zu erlangen. Eines haben all diese Anwendungsszenarien gemeinsam: Sie sind auf große Mengen an Daten angewiesen. Aber letztlich kann jeder Anwendungsfall nur so gut sein, wie die Daten, mit denen ein spezifisches Modell trainiert wurde und kontinuierlich weiter versorgt wird.
Der Autor: Dr. Phil Tee ist EVP und Head of AI Innovations bei Zscaler
(Bild: Zscaler)
Bislang war die vorherrschende Denkweise, dass KI-Modelle umso besser sind, je mehr Daten sie erfasst und verarbeitet haben. Doch angesichts der Billionen von Datensätzen zum Füttern der KI ist ein Wendepunkt in dieser Einstellung erreicht. Der Größenunterschied von 15 Billionen gegenüber fünf Billionen Datenpunkten mag im Verhältnis zu der Qualität der eingesetzten Daten irrelevant erscheinen. Angesichts dieser Größenordnung an Daten und den damit einhergehenden Anforderungen ist es an der Zeit zu überdenken, wie die Daten für KI sinnvoll genutzt werden.
Agentenbasierte Workflows und SLMs
Nach Jahren mit einem Fokus auf Large Language Models (LLMs) ist aktuell eine neue Tendenz mit agentenbasierten Workflows und Small Language Models (SLMs) auf dem Vormarsch. Im Gegensatz zu ihren multifunktionalen LLM-Pendants können SLMs gezielt auf begrenzten Datensätzen trainiert werden, was sie für bestimmte Aufgaben oder Bereiche sehr effektiv macht. Zum Teil ist dieser Wandel auf die Kosten- und Latenzprobleme zurückzuführen, die mit LLMs verbunden sind, andererseits auch auf die mit großen Datenmengen einhergehenden Sicherheitsaspekte.
Von einem LLM-Chatbot zum Beispiel erwarten die Anwender, dass ihre Fragen innerhalb von Sekunden beantwortet werden. Dafür muss die gesamte Leistungsfähigkeit der Hardware eines LLMs für die Beantwortung einer Frage bereitgestellt werden. So kann es zur Herausforderung werden, 11.000 Logs pro Sekunde mit einer Latenzzeit von wenigen Sekunden in Einklang zu bringen. Angesichts dieser Ineffizienzen geht man heute davon aus, dass man für den Einsatz von KI in spezifischen Einsatzbereichen, wie beispielsweise der Produktion, kleinere Modelle benötigt, unabhängig davon, ob es sich dabei um Standardmodelle oder fein abgestimmte Varianten handelt.
Die wachsende Popularität von SLMs spiegelt demnach eine gezieltere Herangehensweise von Organisationen an KI-Anfragen wider. Wurde bisher mit einer Frage gestartet und alles gesammelt, was sich möglicherweise darauf beziehen könnte, nimmt man heute die mögliche Antwort als Ausgangspunkt und bildet davon ausgehend einen Workflow ab, der lediglich die notwendigen Daten in der Reihenfolge ihrer Nützlichkeit berücksichtigt.
Fokus auf Datentiefe
Diese strategische Verlagerung hin zu einer gezielten Datenerfassung führt dazu, dass das Argument der Qualität gegenüber der Quantität von Daten überdacht wird. Nicht alle Daten werden gleichwertig betrachtet. Ihr Wert ergibt sich nicht allein aus dem Datenumfang, sondern aus einer Kombination von Tiefe und Relevanz – und der Art und Weise, wie sie aufbereitet werden.
Maschinell erstellte Daten in Form von Logs sind ein klassisches Beispiel dafür, dass der Datenumfang der Feind von Qualität sein kann. Eine Log-Datei ist in der Regel eine Sammlung unstrukturierter Debug-Meldungen, die von Ingenieuren erstellt wurden, die inzwischen möglicherweise ihre Rolle oder sogar das Unternehmen gewechselt haben. Infolgedessen enthalten die Daten nur noch einen geringen Informationsgehalt. Vereinfacht ausgedrückt: Solche Daten beinhalten ebenfalls einen großen unbrauchbaren Anteil, in dem sich ein geringer Teil an „KI-Gold“ verbirgt. Daher ist ein Vorverarbeitungsschritt, der die Logs durch Entfernen des Mülls sozusagen verdichtet, eine weitaus bessere Strategie, anstelle Ressourcen auf die Vorhaltung und Verarbeitung des unbrauchbaren Informationsgehalts zu verschwenden.
Das ideale Szenario für KI-Anwendungsfälle ist ein hohes Volumen an Qualitätsdaten. Aber selbst dann sollten Modelle nicht mit übermäßig großen Datenmengen trainiert werden, da sich das sogar unvorteilhaft auswirken könnte. „Overfitting“ beschreibt die negativen Folgen des Versuchs, zu viele Datenpunkte miteinander zu verbinden. Das kann dazu führen, dass die KI-Ergebnisse ungenauer und zufälliger werden. Datenwissenschaftlern ist dieses Phänomen als „Bias-Variance Trade-off“ bekannt, bei dem die endlose Verfeinerung des Modells anhand von Trainingsdaten zu einem Schock führt, wenn plötzlich neue Datenpunkte hinzugefügt werden. Vorsicht ist demnach auch bei zu vielen Informationsquellen geboten. Sonst besteht die Gefahr, dass in einigen Jahren die Gesamtmenge des Datenverkehrs im Netz größer sein wird als die gesamte bisherige Datenproduktion auf dem Planeten Erde.
Nebeneffekt der Verschlankung an Daten: Nachhaltigkeit
Vordenker geben zu bedenken, dass Technologie eine extraktive Economy ist. Technologie wird zwar als sauber und wertschöpfend angesehen, da es darum geht, Informationen zu bewegen und darauf aufbauend bedeutsame Ergebnisse zu erzielen. Doch das ist leider im Bereich der Künstlichen Intelligenz nicht immer der Fall. Sie ist nicht nur daten- und rechenleistungsintensiv, sondern benötigt ebenso große Mengen an Energie und Wasser, um die Daten zu sammeln, zu verarbeiten, zu trainieren und zu speichern. Allein in Bezug auf die Datenvorhaltung in der Cloud fällt für ein Terabyte an Daten, das ein Jahr lang in der Cloud gespeichert wird, ein größerer CO2-Fußabdruck an als durch einen Flug von Schiphol nach New York. Und in der Größenordnung der KI ist ein Terabyte eine verschwindend geringe Maßeinheit.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Aus diesem Grund haben alle Anstrengungen, um Daten zu recyceln oder während des KI-Prozesses mehr Wert aus ihnen zu ziehen, aus Sicht der Nachhaltigkeit erhebliche Auswirkungen. Mit Blick auf Qualität statt Quantität bedeutet das, dass im Zuge des Verdichtungsprozesses von Logs Daten von „in Ruhe“ zu „in Bewegung“ umgewandelt werden. Dabei werden Metadaten extrahiert und der Rest wird verworfen. Nach der Verwendung muss dieser Anteil an benötigten Information dann nicht mehr gespeichert werden.
Abgesehen von den Auswirkungen auf das Datenspeichervolumen wird durch diese enorme Reduktion auch die Latenzzeit verringert. So kann ein System Zehntausende von Logs pro Sekunde verarbeiten und eine GenAI-Antwort in drei bis vier Sekunden liefern. Außerdem wird damit die Herausforderung der Datensouveränität adressiert, da immer mehr Unternehmen Bedenken äußern, dass Daten ins Ausland verschoben und dort gespeichert werden. Je weniger Daten verwendet und aufbewahrt werden, desto geringer wird dieses Problem.
In diesem Zusammenhang spielt die Datenklassifizierung – der Prozess der Identifizierung und Kategorisierung sensibler Daten auf der Grundlage vordefinierter Kriterien – eine entscheidende Rolle. Damit lässt sich verhindern, dass Unternehmen unnötiger- oder sogar fälschlicherweise zu viele oder gar vertrauliche Daten an KI-Tools senden. Außerdem bekommen die IT-Verantwortlichen dadurch eine Grundlage dafür, mit welchen Daten sie arbeiten sollten und mit welchen nicht.
Ein neuer Umgang mit Daten für die KI
Datenmengen wachsen weiterhin exponentiell. Im Zeitalter der KI werden diejenigen Unternehmen florieren, die die Kunst der Datenveredelung beherrschen. Das heißt, die aus einem Minimum an Daten ein Maximum an Wert schöpfen. Ein solcher Ansatz bietet eine starke Kombination von Vorteilen wie beispielsweise verbesserte Reaktionszeiten der KI-Tools, reduzierte Betriebskosten durch geringeren Einsatz von Ressourcen und damit eine höhere Nachhaltigkeit.
Unterm Strich gewinnen Unternehmen auch in puncto Sicherheit, wenn sie den besseren Überblick über ihre Daten haben, diese nur selektiv für KI einsetzen und gleichzeitig im Zuge der Souveränitätsbestrebungen wissen, wo die Daten vorgehalten werden. Durch die Umsetzung eines neuen Umgangs mit Daten können Unternehmen von der nächsten Generation an von KI-Innovationen profitieren und gleichzeitig einige der drängendsten technologischen Herausforderungen bewältigen.