Balance zwischen Effizienz und Leistung Checkliste für den Einsatz von GenAI bei der Datenarbeit

Von Bernhard Lück 4 min Lesedauer

Anbieter zum Thema

Generative KI (GenAI) ist bei der Arbeit mit Daten auf dem Vormarsch. Jedoch kann GenAI, je nach Einsatzgebiet, Abläufe auch verkomplizieren. Data-Science-Spezialist KNIME erklärt, wann GenAI sinnvoll ist und wann traditionelle Datenanalysetechniken die bessere Wahl sind.

Rosaria Silipo von KNIME: „Bei mancher Anwendung wäre der Einsatz von GenAI überdimensioniert, als würde man mit Kanonen auf Spatzen schießen.“(Bild:  KNIME)
Rosaria Silipo von KNIME: „Bei mancher Anwendung wäre der Einsatz von GenAI überdimensioniert, als würde man mit Kanonen auf Spatzen schießen.“
(Bild: KNIME)

Bei der Datenarbeit eignet sich GenAI für viele Aufgaben, deren Implementierung ansonsten sehr aufwendig wäre. Bei der Sentiment-Analyse beispielsweise benötigt man den geeigneten Datensatz, muss ein neuronales Netzwerk bauen, das Modell trainieren etc. Mit GenAI werden viele dieser Schritte abgekürzt. Technische Lösungen erfordern jedoch oft einen Kompromiss zwischen Implementierungseffizienz und Leistung. GenAI sollte daher nicht als Standardlösung, sondern vielmehr als gezielt eingesetztes, strategisches Tool betrachtet werden.

Um zu beurteilen, ob der Einsatz von GenAI in einem Projekt tatsächlich einen Mehrwert bietet, sollten Unternehmen folgende vier Kriterien prüfen:

Wie wichtig ist die Genauigkeit bei dieser Anwendung?

GenAI kann in vielen Bereichen beeindruckende Ergebnisse liefern, doch die Zuverlässigkeit großer Sprachmodelle (LLMs) variiert. Wenn ein Projekt die Verarbeitung strukturierter Daten und konsistenter, präziser Ergebnisse erfordert – etwa bei der Vorhersage von Anlagenausfällen in der Fertigung – können traditionelle Data-Science-Techniken wie Regressionsmodelle oft genauere Ergebnisse liefern. Ist Genauigkeit entscheidend, sollte die Leistung von GenAI daher sorgfältig mit seit Langem bewährten Methoden verglichen werden.

Kann Transparenz und Erklärbarkeit gewährleistet werden?

Der Mangel an Transparenz in GenAI-Modellen macht es schwierig, die Gründe für die Ergebnisse zu verstehen – ein großer Nachteil bei Aufgaben, die Rechenschaftspflicht und Überprüfbarkeit erfordern. So muss beispielsweise ein Kredit-Scoring-Modell nachvollziehbar sein, um Fairness zu gewährleisten und gesetzliche Vorgaben einzuhalten. In sensiblen Bereichen wie der medizinischen Diagnostik ist Transparenz sogar noch entscheidender. Traditionelle Methoden wie Random Forest, Support Vector Machines (SVMs), Entscheidungsbäume oder lineare Regression eignen sich in solchen Fällen besser, da sie üblicherweise mehr Erklärbarkeit liefern.

Sind die nötigen Steuerungsoptionen verfügbar?

Herkömmliche Data-Science-Techniken bieten klare Parameter, um das Verhalten eines Algorithmus gezielt zu steuern. Beispielsweise kann das Erhöhen eines Schwellenwerts die Anzahl der Ausreißer reduzieren, während das Hinzufügen weiterer Bäume in einem Random-Forest-Modell in der Regel die Zuverlässigkeit der Ergebnisse verbessert. Im Gegensatz dazu verfügen GenAI-Modelle nur über begrenzte Parameter zur Steuerung von Ausgängen, wie beispielsweise die Anpassung der Eingabeaufforderung. Prompt Engineering bleibt jedoch intransparent, da selbst kleine Änderungen an der Eingabe zu unerwarteten und schwer erklärbaren Abweichungen in der Ausgabe führen können. Da Kontrolle und Transparenz eng miteinander verknüpft sind, eignen sich für Projekte, die eine nachvollziehbare Implementierung der Algorithmen erfordern, oft klassische Methoden besser, wenn diese eine direktere Kontrolle bieten.

In welchem Verhältnis stehen Kosten und Mehrwert?

Die Implementierung von GenAI-Anwendungen kann erhebliche Kosten mit sich bringen – sei es durch Lizenzgebühren für fortschrittliche Lösungen und Modelle oder die interne Entwicklung maßgeschneiderter Lösungen. Zudem erfordert der Implementierungsprozess erhebliche Ressourcen für die Datenvorbereitung, das Feinjustieren von Eingabeaufforderungen und die Nachbearbeitung der Ergebnisse. Gartner prognostiziert, dass bis Ende 2025 rund 30 Prozent der GenAI-Projekte nach dem Proof of Concept scheitern werden. Gründe dafür werden u. a. hohe Kosten und ein nicht klar erkennbarer Mehrwert für Unternehmen sein. Wenn also ein einfacherer, weniger ressourcenintensiver Ansatz die gleichen Ergebnisse erzielen kann, ist er wahrscheinlich die klügere Wahl.

Abwägungsbeispiel aus der Praxis

Die genannten Abwägungen lassen sich an einem Beispiel aus der Praxis verdeutlichen: Ein Einzelhändler möchte sein Kundenfeedback kategorisieren. In diesem Fall eignet sich GenAI dank seiner Fähigkeit, natürliche Sprache zu verstehen und zu verarbeiten, hervorragend zur Klassifizierung von Inhalten in Themen oder Stimmungen (positives oder negatives Feedback). In diesem Fall sind leichte Abweichungen in der Genauigkeit akzeptabel. Die Transparenz hinsichtlich der Ergebnisfindung ist kein entscheidender Faktor und die Ergebnisse lassen sich mit vergleichsweise einfachen Anpassungen der Eingabeaufforderungen steuern. Die Automatisierung dieses Prozesses spart Zeit und Ressourcen und überwiegt damit potenzielle Risiken sowie die Kosten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Anders sieht es bei Aufgaben wie der Segmentierung von Einzelhandelskunden oder der Betrugserkennung aus. Hier kann GenAI zu unzuverlässig sein, denn selbst kleine Änderungen in der Eingabe können zu unvorhersehbaren und unerklärlichen Ergebnissen führen. Natürlich kann man Daten in ein Modell wie ChatGPT einspeisen und eine Clusterung des Datensatzes anfordern. ChatGPT führt jedoch im Hintergrund ein Python-Skript aus und dies ist nur für einfache Datensätze und einfache Datenflüsse möglich. Sobald der Datenfluss komplexer wird, beispielsweise durch das Hinzufügen anderer Verfahren zur Merkmalsgenerierung, ist es schwierig, dies in eine KI-Eingabeaufforderung einzuspeisen. Es ist zwar möglich, GenAI so zu verfeinern, dass es mit der Präzision und Verlässlichkeit traditioneller Methoden konkurriert, doch der damit verbundene Aufwand kann die Vorteile schnell zunichtemachen. In diesem Szenario eignen sich daher standardmäßige, zuverlässige und transparente Klassifizierungs- und Techniken zur Ausreißererkennung besser.

„GenAI bietet aufgrund seiner Fähigkeit, Text, Bilder, Code und mehr zu generieren, einen validen Ansatz für viele Anwendungsfälle der Datenwissenschaft. Aber es ist bei Weitem nicht die universelle Antwort auf jede Aufgabe. Bei mancher Anwendung wäre der Einsatz von GenAI überdimensioniert, als würde man mit Kanonen auf Spatzen schießen, da hier traditionelle Datenanalysetechniken effizienter und genauso effektiv sind. In anderen Bereichen scheitert der Einsatz heute noch an der Genauigkeit oder Transparenz. GenAI sollte daher passgenau als strategisches Werkzeug und nicht als Standardlösung eingesetzt werden“, resümiert Rosaria Silipo, VP of Data Science Evangelism bei KNIME.

(ID:50329983)