Kommentar von Rosaria Silipo, KNIME 30 Jahre Data Science: Evolution von Algorithmen und Tools

Von Rosaria Silipo 5 min Lesedauer

Rosaria Silipo, Leiterin Data Science Evangelism bei KNIME, beschreibt, wie sich Algorithmen, Werkzeuge und Anforderungen in der Datenanalyse seit den 1990er-Jahren verändert haben – und was das für heutige Unternehmen bedeutet.

Die Autorin: Rosaria Silipo ist Head of Data Science Evangelism bei KNIME (Bild:  KNIME)
Die Autorin: Rosaria Silipo ist Head of Data Science Evangelism bei KNIME
(Bild: KNIME)

Die langjährige Entwicklung eines Fachbereichs lässt sich besonders gut nachvollziehen, wenn technologische und methodische Fortschritte über Jahrzehnte hinweg direkt begleitet wurden. Dies zeigt sich exemplarisch im Bereich der Künstlichen Intelligenz (KI), der sich seit den frühen 1990er-Jahren grundlegend gewandelt hat. Damals bezeichnete der Begriff ein neues, aufstrebendes Modell: selbstlernende Systeme, die an neuronale Strukturen angelehnt waren – und keine klassischen statistischen Hypothesen benötigten. Die Rede ist von neuronalen Netzen.

Ein Meilenstein war damals die verbesserte Anwendung des Back-Propagation-Algorithmus, der das Training mehrschichtiger Netzwerke mit versteckten Schichten ermöglichte. Eine Welle von Innovation folgte – gebremst einzig durch die begrenzte Rechenleistung der damaligen Systeme.

Praxis bremst: Warten auf Rechenleistung

Das Training eines mehrschichtigen neuronalen Netzwerks erfordert erhebliche Rechenleistung – insbesondere dann, wenn die Anzahl der Netzwerkparameter hoch ist und der Datensatz groß. Rechenleistung, über die die damaligen Maschinen nicht verfügten. Es wurden zwar theoretische Rahmenwerke entwickelt, wie zum Beispiel Backpropagation Through Time (BPTT) im Jahr 1988 für Zeitreihen oder Long Short Term Memory (LSTM) im Jahr 1997 für selektives Gedächtnislernen. Dennoch blieb die Rechenleistung ein Problem, und die meisten Data-Analytics-Experten legten neuronale Netzwerke vorerst auf Eis – in der Hoffnung auf bessere Zeiten.

Die Stunde der Entscheidungsbäume

Stattdessen etablierten sich in der Zwischenzeit schlankere und oft ebenso leistungsfähige Algorithmen: Entscheidungsbäume, z. B. in der C4.5-Variante wurden 1993 populär, obwohl sie in der CART-Variante bereits seit 1984 existierten. Entscheidungsbäume waren leichter zu trainieren, intuitiver zu verstehen und lieferten auf den damaligen Datensätzen oft ausreichend gute Ergebnisse. Bald lernte man auch, viele Entscheidungsbäume zu kombinieren – entweder als Forest im Random-Forest-Algorithmus oder als Kaskade im Gradient-Boosted-Trees-Verfahren. Obwohl diese Modelle durchaus groß sein können – mit einer hohen Anzahl an zu trainierenden Parametern – blieben sie dennoch in vertretbarer Zeit machbar. Besonders Gradient Boosted Trees, bei denen die Bäume sequenziell trainiert werden, verteilten den Rechenaufwand über die Zeit und machten den Algorithmus damit sehr effizient und äußerst erfolgreich in der Data Science.

Die Big-Data-Wende und das Comeback der neuronalen Netze

Bis Ende der 90er-Jahre bestanden alle Datensätze aus klassischen, überschaubar großen Daten: Kundendaten, Patientendaten, Transaktionen, Chemiedaten und so weiter. Im Grunde klassische Geschäftsdaten. Mit der Ausbreitung von sozialen Medien, E-Commerce und Streaming-Plattformen wuchsen die Daten jedoch viel schneller, was ganz neue Herausforderungen mit sich brachte.

Zunächst die Herausforderung der Speicherung und des schnellen Zugriffs auf so große Mengen strukturierter und unstrukturierter Daten. Außerdem die Notwendigkeit schnellerer Algorithmen für deren Analyse. Big-Data-Plattformen übernahmen die Speicherung und den schnellen Zugriff. Traditionelle relationale Datenbanken, die strukturierte Daten verwalten, machten Platz für neue Data Lakes, die alle Arten von Daten speichern. Zudem förderte das Wachstum von E-Commerce-Geschäften die Popularität von Empfehlungssystemen. Ob für die Warenkorbanalyse oder für Video-Streaming-Empfehlungen – zwei Algorithmen setzten sich dabei durch: der Apriori-Algorithmus und der Collaborative-Filtering-Algorithmus.

Mit der verbesserten Leistungsfähigkeit der Computerhardware – insbesondere durch GPUs – kehrten neuronale Netze mit neuer Kraft zurück. Immer komplexere Architekturen wurden möglich, trainierbar, einsatzbereit. Die zweite Welle neuronaler Netze hatte begonnen: Deep Learning. Mit ihr gewann auch der Begriff Künstliche Intelligenz wieder an Aufmerksamkeit. Bald darauf kam die nächste Evolutionsstufe: Generative KI.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Generative KI und das neue Engineering-Zeitalter

Der Nebenzweig des Deep Learnings, die generative KI, konzentrierte sich darauf, neue Daten zu erzeugen: Zahlen, Texte, Bilder, und sogar Musik – und brauchen dafür riesige Datensätze sowie eine enorme Rechenleistung. Modelle und Datensätze wurden immer größer und komplexer, um realistischere Bilder, Texte sowie Interaktionen zwischen Mensch und Maschine zu ermöglichen.

Neue Modelle und neue Daten wurden schnell durch weitere neue Modelle und neue Daten ersetzt – ein kontinuierlicher Zyklus. Das wurde zunehmend mehr zu einem Ingenieurproblem statt zu einem reinen Data-Science-Problem. In jüngerer Zeit wurden dank bewundernswerter Leistungen im Bereich Data- und Machine-Learning-Engineering automatische Frameworks entwickelt, die eine kontinuierliche Datensammlung, Modell-Training, Testing, menschliche Eingriffe (Human-in-the-Loop) und schließlich den Einsatz sehr großer Machine-Learning-Modelle ermöglichen. Diese gesamte technische Infrastruktur bildet die Grundlage der heutigen Large Language Models (LLMs), die darauf trainiert sind, Antworten auf eine Vielzahl von Problemen zu liefern und dabei Mensch-zu-Mensch Interaktion zu simulieren.

Der Lebenszyklus für Machine Learning

Die größte Veränderung der vergangenen Jahre im Bereich Data Science betrifft meiner Meinung nach nicht die Algorithmen, sondern die zugrundeliegende Infrastruktur: von der fortlaufenden Datenerfassung hin zu einem kontinuierlichen, reibungslosen Retraining und der erneuten Bereitstellung von Modellen. Es hat sich also ein Wandel vollzogen: Data Science ist weniger eine reine Forschungsdisziplin, sondern mehr zu einer ingenieurtechnischen Aufgabe geworden.

Der Lebenszyklus eines Machine-Learning-Modells hat sich verändert: Weg von einem einzelnen Zyklus aus Erstellung, Training, Test und Deployment, wie es beispielsweise das CRISP-DM-Modell oder ähnliche Paradigmen beschreiben, hin zu einem Doppelzyklus. Dieser umfasst einerseits die Erstellung und andererseits die Produktionsreife – also Bereitstellung, Validierung, Nutzung und Wartung.

Neue Anforderungen an Tools & Plattformen

Folglich mussten sich auch die Data-Science-Tools anpassen. Sie mussten nicht mehr nur die Phase der Modellerstellung unterstützen, sondern auch die Produktionsphase eines Machine-Learning-Modells. Es mussten zwei Produkte oder zwei getrennte Bereiche innerhalb derselben Lösung existieren: einerseits zur Unterstützung des Nutzers bei der Erstellung und dem Training eines Data-Science-Modells, andererseits für eine reibungslose und fehlerfreie Produktionsreife des finalen Modells. Während die Erstellung noch eine intellektuelle Aufgabe ist, handelt es sich bei der Produktionsreife um eine strukturierte, wiederholbare Tätigkeit.

Offensichtlich benötigen Data Scientists für die Erstellungsphase eine Plattform mit umfangreicher Abdeckung von Machine-Learning-Algorithmen – von den grundlegenden bis hin zu den fortgeschrittensten und komplexesten. Man weiß nie, welcher Algorithmus für welches Problem am besten geeignet ist. Natürlich haben die leistungsstärksten Modelle eine höhere Erfolgschance, was aber mit einem größeren Risiko für Overfitting und langsamerer Ausführung einhergeht. Data Scientists sind letztlich wie Handwerker, die eine Werkzeugkiste mit unterschiedlichen Werkzeugen für die vielfältigen Herausforderungen ihrer Arbeit benötigen.

Low-Code-basierte Plattformen haben ebenfalls an Popularität gewonnen, da Low-Code es Programmierern und sogar Mitarbeitern ohne Programmierkenntnisse ermöglicht, alle Arten von Data-Science-Anwendungen schnell zu erstellen und zu aktualisieren.

Da die Erstellung von Machine-Learning-Modellen eine intellektuelle Aufgabe ist, sollte sie für alle zugänglich sein. Deshalb ist eine Open-Source-Plattform für Data Science ideal geeignet. Open Source ermöglicht freien Zugang zu Datenoperationen und Machine-Learning-Algorithmen für alle angehenden Data Scientists und erlaubt gleichzeitig der Community, den Quellcode zu prüfen und zu verbessern.

Auf der anderen Seite des Zyklus erfordert die Produktionsreife eine Plattform, die ein verlässliches IT-Framework für die Bereitstellung, Ausführung und Überwachung der einsatzbereiten Data-Science-Anwendung bietet.

Fazit: Datenwissenschaft wird Ingenieursdisziplin

Die Datenwissenschaft hat sich gewandelt – von einem forschungsgetriebenen Fachgebiet zu einer industriellen Disziplin mit Fokus auf Skalierbarkeit, Wiederverwendbarkeit und Stabilität.

Was heute zählt, ist nicht nur das beste Modell, sondern auch das nachhaltige Deployment. Und dafür braucht es Werkzeuge, die beide Seiten des Lebenszyklus beherrschen. KNIME zum Beispiel verfolgt daher genau diesen Ansatz: Brücken bauen zwischen Experiment und Betrieb, zwischen Algorithmus und Anwendung.

Artikelfiles und Artikellinks

(ID:50474344)