Data Science – ist Künstliche Intelligenz die Zukunft der Datenarbeit?

Kommentar von Michael Berthold, KNIME Data Science – ist Künstliche Intelligenz die Zukunft der Datenarbeit?

23.12.2024 Von Michael Berthold 7 min Lesedauer

Anbieter zum Thema

Generative Künstliche Intelligenz (GenAI) hat, wie auch in vielen anderen Bereichen, ein großes Potenzial, die Arbeit mit Daten zu beschleunigen. Gleichzeitig bringt der Einsatz aber auch neue Herausforderungen mit sich, die ein Umdenken bei der Datenwissenschaft erfordern.

Der Autor: Michael Berthold ist Gründer und CEO von KNIME(Bild: KNIME) — Der Autor: Michael Berthold ist Gründer und CEO von KNIME
(Bild: KNIME)

Bei der Datenarbeit fließen bis zu 80 Prozent der Zeit in die Datenvorbereitung, bevor die eigentliche Analyse beginnt. Mithilfe von KI-gestützten Tools lassen sich zeitaufwendige und repetitive Aufgaben automatisieren, sodass sich Data Engineers und Analysts verstärkt auf ihre eigentliche Arbeit fokussieren können. Allerdings gilt es, zusätzlich zu den typischen Governance- und Sicherheitsproblemen, beim Einsatz von Künstlicher Intelligenz zu bedenken, dass nicht alles, was KI erzeugt, zuverlässig ist und nicht jeden von KI generierten Erkenntnissen vertraut werden kann.

Wie können wir sicherstellen, dass jeder, der mit Daten arbeitet, von den enormen Möglichkeiten, die KI bietet, profitieren und darauf aufbauen kann? Und wie stellen wir gleichzeitig sicher, dass die generierten Datenzusammenfassungen, Reports, oder Vorhersagen zuverlässig und vertrauenswürdig sind und den Anforderungen der Corporate Governance entsprechen? Die Antwort ist einfach: Es gibt mittlerweile Tools, die genau für diese Art von Aufgaben konzipiert sind und kollaboratives und transparentes Arbeiten mit Daten und KI unterstützen.

„Sprachbarrieren“ bei der Datenarbeit

Die Herausforderungen, die sich daraus ergeben, dass Menschen in einer kohärenten Umgebung zusammenarbeiten, sind nicht neu. Da Daten- und KI-Experten aus den unterschiedlichsten Bereichen kommen, bringen sie oft ihre Lieblingstools mit. Solche Tools sind dabei häufig Programmiersprachen wie SQL bei Data Engineers, Python bei Data Scientists oder R bei Statistikern – um nur die drei prominentesten Beispiele zu nennen. Hinzu kommen noch die vielen Excel-Experten, die Makros programmieren. All diese Tools oder „Sprachen“ haben versucht, die anderen Disziplinen einzubinden, Python wahrscheinlich am erfolgreichsten. Dennoch müssten Datenwissenschaftler oder alle, die umfassend mit Daten arbeiten, theoretisch alle diese Tools (und einige mehr) beherrschen. Mit dem Aufkommen von GenAI, kommen nun auch noch interne und Cloud-KI-Lösungen für die Einbindung Künstlicher Intelligenz in diesen Werkzeugkasten. Es ist daher an der Zeit, zu erkennen, dass Data Worker ihre eigene Umgebung brauchen und aufhören, sie von anderen Disziplinen zu leihen.

Es empfiehlt sich daher einmal grundsätzlich darüber nachzudenken, was Data Worker tatsächlich wissen und kontrollieren müssen, um ihre ohnehin schon komplexe Arbeit zu erledigen. Müssen sie wirklich verstehen, in welcher Programmiersprache eines der Tools, die sie verwenden, implementiert ist? Müssen sie in die tatsächliche Implementierung eintauchen? In den meisten Fällen ist das nicht der Fall. Data Science über Coding läuft oft darauf hinaus, eine Reihe von Bibliotheksaufrufen aneinanderzureihen. Aber warum beschränkt man die Datensammlung und -analyse zunächst auf Bibliotheken, die nur in dieser Sprache verfügbar sind? Warum sind Data Workers gezwungen, eine Liste von Bibliotheksaufrufen in einer Programmiersprache zu programmieren, die für andere Zwecke entwickelt wurde?

Konzentration auf Datenmodelle statt Implementierung

Es gibt geeignetere Möglichkeiten, eine Kette von Bibliotheksaufrufen zu definieren, durch die die Daten fließen. Die Arbeit mit visuellen Workflows ermöglicht es den Anwendern im Idealfall den Datenfluss über ein entsprechend ausgerichtetes Tool direkt zu bearbeiten. Dabei wird von der eigentlichen Implementierung (und den dazu verwendeten Sprachen) – die natürlich im Hintergrund weiter genutzt werden – abstrahiert.

Ein einfaches Beispiel: Wenn ich eine Datenbank lesen und eine Verbindung zu ihr herstellen und eine Tabelle lesen möchte, diese dann mit Daten aus einer Excel-Datei kombinieren und darauf ein Regressionsmodell erstellen will, muss ich mir wirklich Gedanken darüber machen, wie der SQL-Code für die Datenbank strukturiert ist und welche Bibliothek zum Lesen dieser Excel-Datei verwendet wird? Wahrscheinlich ist die Excel-Reader-Bibliothek zudem in einer anderen Sprache geschrieben als der Regressionslernalgorithmus, sodass ich die Datenbankausgabe auch mit der Datendarstellung dieser beiden Sprachen verbinden müsste.

Eigentlich interessiere ich mich nicht für diese Details, allerdings muss ich nach wie vor wissen, was eine Regressionsanalyse tatsächlich bewirkt – sonst kann ich die Koeffizienten nicht interpretieren oder das resultierende Regressionsmodell nicht richtig verwenden. Kurz gesagt: Data Worker müssen wissen, was ihre Tools tun – nicht wie sie es tun. Und ehrlich gesagt, das ist kompliziert genug. Es gibt unzählige Möglichkeiten, Daten zu verarbeiten und zu analysieren. Zwingen wir unsere Datenteams dazu, sich um die technischen Details der Implementierung zu kümmern, werden sie dazu verleitet, nur diejenigen Tools zu verwenden, die in ihrer Lieblingssprache verfügbar sind, anstatt die besten Werkzeuge für die jeweilige Datenaufgabe zu nutzen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Workflows beseitigen Barrieren bei der Datenarbeit

Wenn wir all diese verschiedenen Sprachen und ihre Bibliotheken bis auf die Ebene des Datenflusses abstrahieren, folgen wir einem Prinzip das Informatiker seit Jahren anwenden: Wir abstrahieren von den Details, die keine Rolle spielen, und legen dem Programmierer nur die Teile offen, die kontrolliert werden müssen. Denn am Ende sind auch diese Workflows nichts anderes als Programme. Der Akt – und die Kunst – des Programmierens schreibt nicht vor, dass dies durch das Schreiben von Codezeilen geschehen muss. Eine gute Programmierumgebung ermöglicht es Programmierern, sich auf ihre eigentliche Arbeit zu konzentrieren und die für ihre Arbeit unnötigen Details zu abstrahieren. Wenn das richtig gemacht wird, zeigt sich, dass viele dieser Daten-Workflows viel komplexere Dinge tun, als es auf den ersten Blick erscheint. Eine elegante Lösung für ein Datenproblem zu finden und dies als Workflow auszudrücken, ist genauso lohnend (und komplex) wie eine elegante Lösung für ein algorithmisches Problem zu finden und dies in Codezeilen auszudrücken.

Das Arbeiten auf der entsprechenden Abstraktionsebene und die Verwendung von Workflows hat jedoch noch weitere Vorteile. Wir können sie nutzen, damit Experten aus unterschiedlichen Disziplinen – beispielsweise ein Dateningenieur, ein KI-Ingenieurin, ein Visualisierungsexperte und eine Governance-Beauftragte – ohne „Sprachbarrieren“ zusammenarbeiten können. Anschließend können wir den Workflow nutzen, um anderen zu erklären, was mit den Daten passiert und wie wir zu diesen Ergebnissen gekommen sind.

Transparenz als Schlüssel beim Einsatz von KI

Mit dem Einsatz von KI wird dieser Aspekt noch wichtiger. Wenn ich Teile meiner Arbeit an eine KI delegieren kann, bin ich, wie jeder andere Programmierer da draußen, gut beraten, genau zu prüfen, was die KI gebaut hat. Macht sie wirklich das, was ich von ihr verlangt habe, oder hat sie eine „kreative“, aber völlig falsche Lösung gefunden? Wenn KI einen Teil des Workflows aufbaut, bin ich besser in der Lage, das Ergebnis zu validieren, was vorgeschlagen wurde, und kann Fehler schnell identifizieren. Auf diese Weise werden Workflows für mich und mein Team zur gemeinsamen Sprache, um mit KI zusammenzuarbeiten und gemeinsam komplexe Datenworkflows zu erstellen.

Als netter Nebeneffekt dienen Workflows auch als großartige Grundlage für den Aufbau eines Wissensspeichers, den andere als Blaupause für ihre eigene Arbeit verwenden können, damit sie nicht bei null anfangen müssen. Sobald die KI dieses Workflow-Repository annimmt, wird sie von einem passiven Pool an Community-Weisheit zu einem aktiven Kollaborateur, der sich über alles im Klaren ist, was zuvor getan wurde. So kann die KI geeignete Lösungen vorschlagen und vielleicht hier und da auch auf untypische Stellen in Workflows hinweisen, die „seltsam“ aussehen. Es kann sein, dass das ein neuer oder besonders kreativer Ansatz ist, den die KI noch nicht kennt – aber wahrscheinlicher ist es doch, dass das ein Fehler und keine Absicht war.

Lückenlose Dokumentation und kritische Validierung

Die Transparenz der Workflow-Darstellung hat noch weitere Vorteile. Schon vor der Einführung von GenAI wurden Workflows häufig zu Dokumentations- und sogar Auditzwecken verwendet. Sie ermöglichen Antworten auf Fragen, wie: Wie genau wurde dieser Finanzbericht erstellt? Wie kam es zu der Entscheidung, diesen Kreditantrag abzulehnen? Warum wurde der Produktionsprozess vor vier Monaten umgestellt und was können wir tun, um diesen Fehler in Zukunft nicht noch einmal zu machen? Diese und andere Prüfungsfragen lassen sich gut mithilfe von Workflows als transparente Dokumentation dessen, was mit den Daten gemacht wurde, durchführen.

Dieser Validierungsaspekt von Workflows wird noch wichtiger, wenn wir KI nutzen, um eine Ausgabe vollständig zu generieren. Wenn wir ein KI-System haben, das Erkenntnisse direkt aus Daten ableitet, müssen wir in vielen Fällen in der Lage sein zu verstehen, wie diese Erkenntnisse tatsächlich zustande gekommen sind. Einem Black-Box-KI-System zu vertrauen, das anfällig für Halluzinationen ist, birgt ein enormes Risiko. Es ist ganz sicher nicht geeignet, um vierteljährliche Steuererklärungen oder kritische Prognosen zu erstellen, von denen der Erfolg unseres Unternehmens abhängt. Mithilfe von Workflows kann KI den gesamten Argumentationsprozess aufzeigen und den Workflow dazu nutzen, um zu erklären und zu validieren, wie es zu den jeweiligen Schlussfolgerungen gekommen ist.

Die kollaborative Arbeit – zusammen mit KI – erfordert die richtige Umgebung, damit alle an der Arbeit Beteiligten die gleiche Sprache sprechen. Workflows bieten die entsprechende Abstraktionsebene, um sich auf die Komplexität der Arbeit mit Daten konzentrieren zu können, ohne von technischen Details abgelenkt zu werden, die für die eigentliche Datenarbeit nicht relevant sind. Sie bieten einen transparenten Mechanismus für die Zusammenarbeit und eine vertrauenswürdige Basis für Dokumentation und Prüfung, die die Arbeit mit Daten und KI verlässlich machen.

Artikelfiles und Artikellinks

Link: Webseite von KNIME

(ID:50252282)