gesponsertLLM Hype schlägt nicht in Projektausschreibungen durch Die gefragtesten Skills in Data-Science-Projekten

3 min Lesedauer

LLMs und Generative AI spielen in Data-Science-Projekten bislang kaum eine Rolle. Stattdessen geht es um ETL-Pipelines, Infrastrukturen und Containerisierung.

LLMs wie ChatGPT dominieren die Berichterstattung, spielen in Projekten aber nur eine untergeordnete Rolle.(Bild:  © Gorodenkoff - stock.adobe.com)
LLMs wie ChatGPT dominieren die Berichterstattung, spielen in Projekten aber nur eine untergeordnete Rolle.
(Bild: © Gorodenkoff - stock.adobe.com)

Schlagwörter wie ChatGPT, Large Language Models (LLMs) und Generative AI dominieren derzeit die Berichterstattung in der IT. Doch spiegeln sich diese Hype-Themen auch faktisch in Projektausschreibungen und Anforderungsprofilen der Data-Science-Branche wider? Wie sehen typische Projektausschreibungen aus und welche Tech-Stacks überwiegen?

Um diese Fragen zu beantworten, haben wir öffentlich einsehbare Projektausschreibungen von Personalvermittlern aus den Jahren 2022 bis 2024 im Hinblick auf die dort geforderten Skills untersucht.

Python als Basis

Das Offensichtliche vorweg: In der Welt der Datenanalyse und -verarbeitung führt kein Weg an der Programmiersprache Python vorbei. Sie wird in rund der Hälfte aller Projektausschreibungen gefordert. Deutlich kleinteiliger ist das Bild bei den wichtigsten Libraries: Diese stellten in den letzten zwölf Monaten NumPy (in 6 % der Projekte gefordert), Pandas (9 %) und PySpark (14 %) dar.

Infrastrukturen und Tools zur Datenorchestrierung

Bei den geforderten Kenntnissen in Infrastrukturen dominieren Microsoft Azure und Amazon Web Services. Azure verzeichnete seit 2022 zwar einen merklichen prozentualen Rückgang von 22,7 % auf 18,2 %, während AWS stabil blieb (18,1 % zu 19,5 %). Doch beide Plattformen bleiben die bevorzugte Wahl für die Datenspeicherung und -verarbeitung in der Cloud. Zur Orchestrierung großer Datenmengen sind Tools wie Apache Spark und Azure Databricks unerlässlich. Apache Spark hält sich seit 2022 konstant als geforderte Skill in über 16 % der Projekte, während Databricks in den Jahren 2022 und 2023 bei rund 9 % lag. Zudem nach wie vor höchst relevant: SQL, das in über 45 % der Projekte eine Rolle spielt.

Containerisierung und Cluster-Management

Die Bedeutung von Docker und Kubernetes nimmt stetig zu. Docker dient der Containerisierung von Anwendungen, was eine effiziente Bereitstellung und Skalierung von Anwendungen in verschiedenen Umgebungen ermöglicht. Kubernetes übernimmt das Management dieser Container und verzeichnet einen langfristig leicht aufsteigenden Trend von 12,3 % auf 14,3 %. Docker ist mit einer Steigerung von 10,1 % auf 15,6 % ebenfalls häufig im Einsatz.

Was ist mit KI und LLMs?

Was in der Aufstellung bislang fehlt, sind die Hype-Themen wie LLMs, OpenAI/ChatGPT oder Prompt Engineering. Diese Skills wurden in den letzten Monaten von Januar bis März 2024 kaum gefordert. Das Gleiche gilt für Neuronale Netze und Deep Learning. Eine typische Projektanfrage sieht vielmehr so aus: Aufsetzen eines ETL Prozesses im Tech-Stack Python, SQL, Apache Spark und AWS.

Doch warum finden sich die genannten Hype-Skills nicht in den aktuellen Trends wieder? Die Ursachen können vielfältig sein: Vielleicht braucht es einfach seine Zeit, bis aus einem Hype-Thema rund um eine Technologie konkrete Projekte werden, die zu Personalbedarfen führen. In diesem Fall könnte sich die Lage in den nächsten Monaten deutlich ändern.

„Echte“ KI-Projekte noch Jahre entfernt?

Eine andere Erklärung: „Echte“ KI-Projekte rund um neuronale Netze und LLMs sind nicht nur sehr komplex, sie erfordern eines: Daten. Und derzeit scheinen viele Unternehmen noch gar nicht daran denken zu können, wie sie ihre Daten für KI-Anwendungen nutzen. Vielmehr geht es erstmal darum, die eigenen Daten in der Cloud zu erfassen und zugänglich zu machen. Dafür spricht, dass derzeit deutlich mehr Datenexperten mit einem Fokus auf CI/CD und DevOps Themen gesucht werden als mit einem Fokus auf bestimmten Algorithmen. Zudem fokussieren rund 25 % der ausgeschriebenen Projekte auf das Thema ETL und das Aufsetzen der zugehörigen Prozesse zur Verarbeitung und Vereinigung von Daten. Zum Vergleich: Deep Learning spielt nur in knapp 10 % der Projekte eine Rolle. Diese Ansicht wird dadurch untermauert, dass Experten mit Erfahrung in Container-Lösungen wie Docker und Kubernetes sowie klassischer Datenhaltung in Data Warehouses signifikant mehr verdienen als ihre Kollegen.

Fazit: Erst die Daten, dann die Algorithmen

Generative AI, LLMs und Neuronale Netze sind wichtige Themen mit hoher Relevanz für die IT und die Wirtschaft im Ganzen. Derzeit stellen sie aber in Projektausschreibungen lediglich die Spitze des Eisberges dar. Der Großteil der Projekte dreht sich um ETLs und Datenhaltung, um das Thema DevOps und die Produkte Azure und AWS der großen Hyperscaler. Unternehmen, die selbst noch damit beschäftigt sind, ihre eigenen Daten besser zu erfassen, zu transformieren und bereitzustellen, befinden sich also in bester Gesellschaft.

(ID:50035902)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung