Datenanalyse für Einsteiger und Fortgeschrittene Kaggle – Datenwissenschaft als Wettbewerb

Autor / Redakteur: Mirco Lang / Stephan Augsten

100.000 Dollar Preisgeld für die Auswertung von NFL-Football-Spielen? Auf Kaggle wird Data Science zum Wettbewerb. Aber auch angehende Datenanalysten werden ihre Freude haben.

Firmen zum Thema

Kaggle macht aus Data Science einen Wettbewerb und bietet allerlei Rohdatensätze für Datenanalysen.
Kaggle macht aus Data Science einen Wettbewerb und bietet allerlei Rohdatensätze für Datenanalysen.
(Bild: Kaggle.com)

Kaggle ist eine Data-Science-Competition-Plattform und wer sie nicht kennt, sollte sie sich dringend anschauen – egal, ob Datenanalyst oder nicht. Die Plattform existiert bereits seit 2010 und gehört seit 2017 zu Google. Schon kurz nach der Übernahme meldete Kaggle mehr als eine Million registrierter Nutzer.

Die Nutzerschaft besteht vor allem aus Datenwissenschaftlern, Entwicklern im Bereich Machine Learning und Lernwilligen, die sich für diese Themenbereiche interessieren. Bevor es an die einzelnen Tools geht, soll ein wenig Spannung abgebaut werden, hier also eine kurze Auflösung der Trigger aus dem Teaser – schließlich sind 100.000 Euro kein Pappenstiel und die NFL zieht in der Regel auch reichlich Interesse an.

Auf Kaggle läuft derzeit ein Wettbewerb zur Analyse von Helmkontakten in Football-Spielen, ausgelobt von der NFL und Amazon Web Services. Ziel ist es, Algorithmen zu entwickeln, die Helme mit einer Ziel-Trefferquote von 90 Prozent deren Trägern zuordnen. Helmkontakte selbst wurden bereits in früheren Wettbewerben analysiert, nun sollen diese Kontakte eben konkreten Spielern zugeordnet werden können.

Letztlich will man auf diese Weise ein Programm zur Überwachung und Vermeidung/Verminderung von Verletzungen aufzubauen. Als Datengrundlage stehen dafür 9.947 Bilder, 125 Videoclips und 7 CSV-Dateien zur Verfügung, insgesamt 3,2 Gigabyte an Daten. Der Wettbewerb zieht sich vom 10. August bis zum 2. November und lobt Preisgelder von 5.000 Dollar für den fünften Platz bis 50.000 Dollar für den ersten Platz aus. Das Projekt hat immerhin 199 Teams und 213 Wettbewerber angezogen.

Nicht alle Data-Science-Wettbewerbe sind entsprechend ausgelegt, bei vielen geht es auch einfach um Wissen, Ehre oder Swag, wie sich Kaggle ausdrückt. Einige weitere Beispiele:

Auswirkung von Covid-19 auf digitales Lernen (Preisgeld: 20.000 Dollar)

Wahrzeichen in Bildern wiedererkennen (Preis: Kaggle-Merchandise/Swag)

Vorhersage von Immobilienpreisen (Einsteigerprojekt, Preis: Wissen)

Solche Wettbewerbe sind der eigentliche Kern von Kaggle und hier gab es bereits einige wohlklingende Projekte, beispielsweise für Gestenerkennung für Microsoft Kinect, Hilfe bei der Suche nach dem Higgs-Boson am CERN oder der Erforschung von HIV.

Jupyter Notebooks

Ein Jupyter Notebook in Kaggle.
Ein Jupyter Notebook in Kaggle.
(Bild: Lang / Kaggle)

Kaggle liefert aber nicht bloß Wettbewerbe und Datensätze, sondern auch die komplette Arbeitsumgebung für die Bewältigung der Aufgaben, inklusive der nötigen Rechenleistung im Hintergrund. Basis dafür sind Jupyter Notebooks, in denen per R oder Python programmiert werden darf.

Praktisch sind das in der Weboberfläche schlicht unterschiedliche, abwechselnde Kästen (Cells) mit Beschreibungen, Code und Ausgaben. In den Text-Cells wird zum Beispiel die Arbeitsumgebung festgelegt, also Dinge wie „import numpy as np“, in die Code-Cells kommt jeglicher Code, der dann auch direkt und Zelle für Zelle ausgeführt werden kann – die Ausgabe erfolgt dann entsprechend in den Output-Cells.

Code kann direkt im Browser ausgeführt werden.
Code kann direkt im Browser ausgeführt werden.
(Bild: Lang / Kaggle)

Hinzu kommen einige Hilfsmittel, so dass man letztlich eine sehr schlanke Entwicklungsumgebung für Python und R im Browser bekommt, samt interaktiver Konsole. Und natürlich können die Jupyter Notebooks auch ex- und importiert werden. Für erfahrene Programmierer und/oder Datenanalysten braucht es also nicht mehr als diese drei Dinge, um loszulegen: Wettbewerb, Datensätze und Jupyter Notebook als Arbeitsumgebung.

Daten und Kurse

Kaggle ist allerdings nicht nur für Veteranen interessant, die sich ganz praktisch an die teils riesigen Datensätze wagen – Spitzenreiter ist ein Projekt zur Diabetes-Forschung mit stolzen 82,2 Gigabyte an Daten. Auf Kaggle finden sich auch etliche kostenlose Kurse rund um den Kosmos der Datenanalyse.

Dies beginnt Python-Grundlagen und die Einführung in Machine Learning und geht weiter über SQL, Deep Learning, Spiele-KI und KI-Ethik, Material zu Computer Vision, Feature-Entwicklung und Verarbeitung natürlicher Sprache und sogar einen Kurs „Geospatial Analysis“ zum Erstellen und Auswerten (interaktiver) Karten.

Die Kurse sind dabei recht kurz und bündig gehalten, auf Datenanalyse ausgerichtet, in der Regel mit Python umgesetzt und auch für nicht ganz blutige Anfänger sehr gut verständlich. All die Theorie schreit aber natürlich nach praktischer Umsetzung, für Einsteiger sind echte Wettbewerbe freilich ungeeignet.

Auf Kaggle findet sich allerdings eine riesige Auswahl an Datensätzen, mit denen Entwicklerinnen und Entwickler frei arbeiten können. Um einen Eindruck zu gewinnen, hier ein Beispiel mit Alltagsbezug: Eine Sammlung von 15.176 Covern von Filmen, Serien und Comics mit Titeln und Genre und als Inspiration die Frage: „Gibt es einen Zusammenhang zwischen Cover-Bildern und Genre?“

Schon hier würde eine sehr komplexe Aufgabe warten, nämlich die Extraktion und Klassifikation von Objekten und Texten in den Bildern nebst einer anschließenden Analyse von Zusammenhängen. Deutlich einfacher wird es mit reinen Textdaten, beispielsweise den knapp 80.000 Antworten aus der Stack Overflow Developer Survey 2021. Weitere Beispiele:

Fast-Food-Restaurants in den USA – eine Beispielauswertung.
Fast-Food-Restaurants in den USA – eine Beispielauswertung.
(Bild: Lang / Kaggle)

Die Daten sind in der Regel frei zugänglich, es müssen lediglich die Bedingungen des jeweiligen Wettbewerbs/Anbieters akzeptiert werden. Dazu gehört standardmäßig auch, dass die eigenen Errungenschaften von den Anbietern genutzt werden dürfen. Und natürlich finden sich bei den Datensätzen letztlich auch die Lösungen anderer Nutzer, was enorm hilfreich für „fortgeschrittene Anfänger“ ist (jeweils im Tab „Code“).

Kaggle ist vordergründig „nur“ eine Wettbewerbsplattform für Datenanalysten und KI-/ML-Experten. Dank der vielen Grundlagenkurse, Online-IDE, Code-Snippets, Rechenleistung, Ideen und nicht zuletzt frei zugänglichen, ordentlich formatierten Daten, taugt Kaggle aber auch als wunderbarer One-Stop-Einstiegspunkt für alle, die sich näher mit Datenanalyse beschäftigen wollen – egal, welchen Wissensstand sie mitbringen.

Für den Einstieg ist auch das Blog von Kaggle einen Blick wert, das sich etwas versteckt im Menü unter „more“ findet und leider nicht ganz aktuell ist. Dennoch finden sich hier spannende Stories über und mit Wettbewerbsgewinnern, die einen guten Einblick in den Verlauf von Wettbewerben geben. Ein guter Einstieg ist etwa der Beitrag zu einem früheren NFL-Wettbewerb – mit Gewinnern, die von Football gar keine Ahnung hatten.

Einen etwas entspannteren Einstieg in Kaggle liefert ein gut 6 Minuten langes Video von Kaggle selbst, das zeigt, wie man den Titanic-(Lern-)Wettbewerb durchläuft.

(ID:47614889)