Kommentar von Michael Berthold, KNIME Data Science – ist Künstliche Intelligenz die Zukunft der Datenarbeit?

Von Michael Berthold 7 min Lesedauer

Anbieter zum Thema

Generative Künstliche Intelligenz (GenAI) hat, wie auch in vielen anderen Bereichen, ein großes Potenzial, die Arbeit mit Daten zu beschleunigen. Gleichzeitig bringt der Einsatz aber auch neue Herausforderungen mit sich, die ein Umdenken bei der Datenwissenschaft erfordern.

Der Autor: Michael Berthold ist Gründer und CEO von KNIME(Bild:  KNIME)
Der Autor: Michael Berthold ist Gründer und CEO von KNIME
(Bild: KNIME)

Bei der Datenarbeit fließen bis zu 80 Prozent der Zeit in die Datenvorbereitung, bevor die eigentliche Analyse beginnt. Mithilfe von KI-gestützten Tools lassen sich zeitaufwendige und repetitive Aufgaben automatisieren, sodass sich Data Engineers und Analysts verstärkt auf ihre eigentliche Arbeit fokussieren können. Allerdings gilt es, zusätzlich zu den typischen Governance- und Sicherheitsproblemen, beim Einsatz von Künstlicher Intelligenz zu bedenken, dass nicht alles, was KI erzeugt, zuverlässig ist und nicht jeden von KI generierten Erkenntnissen vertraut werden kann.

Wie können wir sicherstellen, dass jeder, der mit Daten arbeitet, von den enormen Möglichkeiten, die KI bietet, profitieren und darauf aufbauen kann? Und wie stellen wir gleichzeitig sicher, dass die generierten Datenzusammenfassungen, Reports, oder Vorhersagen zuverlässig und vertrauenswürdig sind und den Anforderungen der Corporate Governance entsprechen? Die Antwort ist einfach: Es gibt mittlerweile Tools, die genau für diese Art von Aufgaben konzipiert sind und kollaboratives und transparentes Arbeiten mit Daten und KI unterstützen.

„Sprachbarrieren“ bei der Datenarbeit

Die Herausforderungen, die sich daraus ergeben, dass Menschen in einer kohärenten Umgebung zusammenarbeiten, sind nicht neu. Da Daten- und KI-Experten aus den unterschiedlichsten Bereichen kommen, bringen sie oft ihre Lieblingstools mit. Solche Tools sind dabei häufig Programmiersprachen wie SQL bei Data Engineers, Python bei Data Scientists oder R bei Statistikern – um nur die drei prominentesten Beispiele zu nennen. Hinzu kommen noch die vielen Excel-Experten, die Makros programmieren. All diese Tools oder „Sprachen“ haben versucht, die anderen Disziplinen einzubinden, Python wahrscheinlich am erfolgreichsten. Dennoch müssten Datenwissenschaftler oder alle, die umfassend mit Daten arbeiten, theoretisch alle diese Tools (und einige mehr) beherrschen. Mit dem Aufkommen von GenAI, kommen nun auch noch interne und Cloud-KI-Lösungen für die Einbindung Künstlicher Intelligenz in diesen Werkzeugkasten. Es ist daher an der Zeit, zu erkennen, dass Data Worker ihre eigene Umgebung brauchen und aufhören, sie von anderen Disziplinen zu leihen.

Es empfiehlt sich daher einmal grundsätzlich darüber nachzudenken, was Data Worker tatsächlich wissen und kontrollieren müssen, um ihre ohnehin schon komplexe Arbeit zu erledigen. Müssen sie wirklich verstehen, in welcher Programmiersprache eines der Tools, die sie verwenden, implementiert ist? Müssen sie in die tatsächliche Implementierung eintauchen? In den meisten Fällen ist das nicht der Fall. Data Science über Coding läuft oft darauf hinaus, eine Reihe von Bibliotheksaufrufen aneinanderzureihen. Aber warum beschränkt man die Datensammlung und -analyse zunächst auf Bibliotheken, die nur in dieser Sprache verfügbar sind? Warum sind Data Workers gezwungen, eine Liste von Bibliotheksaufrufen in einer Programmiersprache zu programmieren, die für andere Zwecke entwickelt wurde?

Konzentration auf Datenmodelle statt Implementierung

Es gibt geeignetere Möglichkeiten, eine Kette von Bibliotheksaufrufen zu definieren, durch die die Daten fließen. Die Arbeit mit visuellen Workflows ermöglicht es den Anwendern im Idealfall den Datenfluss über ein entsprechend ausgerichtetes Tool direkt zu bearbeiten. Dabei wird von der eigentlichen Implementierung (und den dazu verwendeten Sprachen) – die natürlich im Hintergrund weiter genutzt werden – abstrahiert.

Ein einfaches Beispiel: Wenn ich eine Datenbank lesen und eine Verbindung zu ihr herstellen und eine Tabelle lesen möchte, diese dann mit Daten aus einer Excel-Datei kombinieren und darauf ein Regressionsmodell erstellen will, muss ich mir wirklich Gedanken darüber machen, wie der SQL-Code für die Datenbank strukturiert ist und welche Bibliothek zum Lesen dieser Excel-Datei verwendet wird? Wahrscheinlich ist die Excel-Reader-Bibliothek zudem in einer anderen Sprache geschrieben als der Regressionslernalgorithmus, sodass ich die Datenbankausgabe auch mit der Datendarstellung dieser beiden Sprachen verbinden müsste.

Eigentlich interessiere ich mich nicht für diese Details, allerdings muss ich nach wie vor wissen, was eine Regressionsanalyse tatsächlich bewirkt – sonst kann ich die Koeffizienten nicht interpretieren oder das resultierende Regressionsmodell nicht richtig verwenden. Kurz gesagt: Data Worker müssen wissen, was ihre Tools tun – nicht wie sie es tun. Und ehrlich gesagt, das ist kompliziert genug. Es gibt unzählige Möglichkeiten, Daten zu verarbeiten und zu analysieren. Zwingen wir unsere Datenteams dazu, sich um die technischen Details der Implementierung zu kümmern, werden sie dazu verleitet, nur diejenigen Tools zu verwenden, die in ihrer Lieblingssprache verfügbar sind, anstatt die besten Werkzeuge für die jeweilige Datenaufgabe zu nutzen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Workflows beseitigen Barrieren bei der Datenarbeit

Wenn wir all diese verschiedenen Sprachen und ihre Bibliotheken bis auf die Ebene des Datenflusses abstrahieren, folgen wir einem Prinzip das Informatiker seit Jahren anwenden: Wir abstrahieren von den Details, die keine Rolle spielen, und legen dem Programmierer nur die Teile offen, die kontrolliert werden müssen. Denn am Ende sind auch diese Workflows nichts anderes als Programme. Der Akt – und die Kunst – des Programmierens schreibt nicht vor, dass dies durch das Schreiben von Codezeilen geschehen muss. Eine gute Programmierumgebung ermöglicht es Programmierern, sich auf ihre eigentliche Arbeit zu konzentrieren und die für ihre Arbeit unnötigen Details zu abstrahieren. Wenn das richtig gemacht wird, zeigt sich, dass viele dieser Daten-Workflows viel komplexere Dinge tun, als es auf den ersten Blick erscheint. Eine elegante Lösung für ein Datenproblem zu finden und dies als Workflow auszudrücken, ist genauso lohnend (und komplex) wie eine elegante Lösung für ein algorithmisches Problem zu finden und dies in Codezeilen auszudrücken.

Das Arbeiten auf der entsprechenden Abstraktionsebene und die Verwendung von Workflows hat jedoch noch weitere Vorteile. Wir können sie nutzen, damit Experten aus unterschiedlichen Disziplinen – beispielsweise ein Dateningenieur, ein KI-Ingenieurin, ein Visualisierungsexperte und eine Governance-Beauftragte – ohne „Sprachbarrieren“ zusammenarbeiten können. Anschließend können wir den Workflow nutzen, um anderen zu erklären, was mit den Daten passiert und wie wir zu diesen Ergebnissen gekommen sind.

Transparenz als Schlüssel beim Einsatz von KI

Mit dem Einsatz von KI wird dieser Aspekt noch wichtiger. Wenn ich Teile meiner Arbeit an eine KI delegieren kann, bin ich, wie jeder andere Programmierer da draußen, gut beraten, genau zu prüfen, was die KI gebaut hat. Macht sie wirklich das, was ich von ihr verlangt habe, oder hat sie eine „kreative“, aber völlig falsche Lösung gefunden? Wenn KI einen Teil des Workflows aufbaut, bin ich besser in der Lage, das Ergebnis zu validieren, was vorgeschlagen wurde, und kann Fehler schnell identifizieren. Auf diese Weise werden Workflows für mich und mein Team zur gemeinsamen Sprache, um mit KI zusammenzuarbeiten und gemeinsam komplexe Datenworkflows zu erstellen.

Als netter Nebeneffekt dienen Workflows auch als großartige Grundlage für den Aufbau eines Wissensspeichers, den andere als Blaupause für ihre eigene Arbeit verwenden können, damit sie nicht bei null anfangen müssen. Sobald die KI dieses Workflow-Repository annimmt, wird sie von einem passiven Pool an Community-Weisheit zu einem aktiven Kollaborateur, der sich über alles im Klaren ist, was zuvor getan wurde. So kann die KI geeignete Lösungen vorschlagen und vielleicht hier und da auch auf untypische Stellen in Workflows hinweisen, die „seltsam“ aussehen. Es kann sein, dass das ein neuer oder besonders kreativer Ansatz ist, den die KI noch nicht kennt – aber wahrscheinlicher ist es doch, dass das ein Fehler und keine Absicht war.

Lückenlose Dokumentation und kritische Validierung

Die Transparenz der Workflow-Darstellung hat noch weitere Vorteile. Schon vor der Einführung von GenAI wurden Workflows häufig zu Dokumentations- und sogar Auditzwecken verwendet. Sie ermöglichen Antworten auf Fragen, wie: Wie genau wurde dieser Finanzbericht erstellt? Wie kam es zu der Entscheidung, diesen Kreditantrag abzulehnen? Warum wurde der Produktionsprozess vor vier Monaten umgestellt und was können wir tun, um diesen Fehler in Zukunft nicht noch einmal zu machen? Diese und andere Prüfungsfragen lassen sich gut mithilfe von Workflows als transparente Dokumentation dessen, was mit den Daten gemacht wurde, durchführen.

Dieser Validierungsaspekt von Workflows wird noch wichtiger, wenn wir KI nutzen, um eine Ausgabe vollständig zu generieren. Wenn wir ein KI-System haben, das Erkenntnisse direkt aus Daten ableitet, müssen wir in vielen Fällen in der Lage sein zu verstehen, wie diese Erkenntnisse tatsächlich zustande gekommen sind. Einem Black-Box-KI-System zu vertrauen, das anfällig für Halluzinationen ist, birgt ein enormes Risiko. Es ist ganz sicher nicht geeignet, um vierteljährliche Steuererklärungen oder kritische Prognosen zu erstellen, von denen der Erfolg unseres Unternehmens abhängt. Mithilfe von Workflows kann KI den gesamten Argumentationsprozess aufzeigen und den Workflow dazu nutzen, um zu erklären und zu validieren, wie es zu den jeweiligen Schlussfolgerungen gekommen ist.

Die kollaborative Arbeit – zusammen mit KI – erfordert die richtige Umgebung, damit alle an der Arbeit Beteiligten die gleiche Sprache sprechen. Workflows bieten die entsprechende Abstraktionsebene, um sich auf die Komplexität der Arbeit mit Daten konzentrieren zu können, ohne von technischen Details abgelenkt zu werden, die für die eigentliche Datenarbeit nicht relevant sind. Sie bieten einen transparenten Mechanismus für die Zusammenarbeit und eine vertrauenswürdige Basis für Dokumentation und Prüfung, die die Arbeit mit Daten und KI verlässlich machen.

Artikelfiles und Artikellinks

(ID:50252282)