Datensätze und -modelle Kaggle – die Online Community für die Datenanalyse

Autor / Redakteur: Thomas Joos / Nico Litzel |

Auf Kaggle lassen sich Jupyter Notebook ohne Einrichtung online erstellen. Mittlerweile gehört Kaggle zu Google. Im Fokus stehen Dienstleistungen rund um das Thema Big Data, Machine Learning und Data Mining.

Anbieter zum Thema

Auf Kaggle gibt es zahlreiche Wettbewerbe, bei denen die Community Modelle für öffentliche Datensätze entwickelt.
Auf Kaggle gibt es zahlreiche Wettbewerbe, bei denen die Community Modelle für öffentliche Datensätze entwickelt.
(Bild: T. Joos)

Kaggle bietet eine Plattform, die sich vor allem an Data Scientists oder Entwickler richtet, die Daten analysieren oder sich in den Bereichen Big Data, Machine Learning und der Datenanalyse weiterbilden möchten.

Die Plattform ist für alle Arten von Anwendern interessant, die sich mit dem Thema Big Data auseinandersetzen, und sich tiefer in die Datenanalyse einarbeiten wollen – und für Unternehmen, Organisationen und Wissenschaftler, die eine Lösung für ein Problem suchen, das mit Daten beantwortet werden soll. Die Plattform will Daten und Datenwissenschaftler zusammenbringen und bietet eine Menge an Datensätzen, Modellen, Online-Kursen und Kommunikationsplattformen.

Einstieg in Kaggle

Die Erstellung eines Kontos für die Teilnahme an Kaggle ist kostenlos. Wer sich in das Thema Data Mining, Big Data und Machine Learning einarbeiten will oder eine bestimmte Vorhersage zu einem Datensatz benötigt, kann mit Kaggle die entsprechende Lösung finden oder dazu beitragen. Viele Modelle und Programme auf Kaggle werden mit Python entwickelt. Aus diesem Grund stehen auf der Webseite auch Online-Kurse zum Erlernen von Python bereit.

Wenn Daten vorliegen, die verarbeitet und analysiert werden sollen, kann Kaggle dabei helfen, das dazu notwendige Modell zu entwickeln. Dazu stehen auch verschiedene GPUs und ein Repository zur Verfügung. Die Community erweitert die einzelnen Bestandteile und Modelle regelmäßig und über einen Wettbewerb, der erstellt werden kann, besteht die Möglichkeit, die Community in die Problemlösung einzubinden.

Es befinden sich laut Anbieter, derzeit knapp 20.000 Datensätze und 200.000 öffentliche Notebooks auf Kaggle. Die Wettbewerbe sind auf der Webseite einsehbar, genauso wie die Daten zur Analyse. Kaggle gehört zu den bekanntesten Seiten in diesem Bereich und hat sich zu einer wichtigen Anlaufstelle und Quelle für das Erstellen von Modellen entwickelt, wenn die Datensätze öffentlich zugänglich sind.

Hat ein Unternehmen, eine Organisation oder ein Wissenschaftler ein Projekt und Datensätze dazu vorliegen, kann das auf Kaggle eingestellt werden, um mit der Community ein Modell zu finden. Dabei werden die Daten zur Verfügung gestellt, und ein Preisgeld ausgegeben. Danach macht sich die Community an die Lösung und entwickelt Modelle. Das beste Modell gewinnt den Wettbewerb und damit das Preisgeld. Natürlich gibt es bei den Wettbewerben auch kostenlose Aktionen, die nicht bezahlt werden. Auch Wikipedia hat Kaggle bereits in Anspruch genommen, um besonders aktive und zuverlässige Autoren zu finden. Auf der Seite sind zahlreiche Wettbewerbe und Modelle zugänglich, die auch beim Einsatz in anderen Bereichen sinnvoll sind.

Analysieren in der Community

Mit Kaggle können Datenforscher also nicht nur mit eigenen Daten oder Notebooks/Modellen arbeiten, sondern auch die Community aktiv mit einbeziehen. Die Mitglieder helfen bei der Entwicklung von Modellen zur Auswertung von Datensätzen. Die Competitions sind auf der Webseite von Kaggle zu finden. Die Gründer von Kaggle hatten das Ziel, Datenwissenschaftler mit Organisationen zu verbinden, die Daten analysieren wollen. Dabei profitieren also Anfänger in der Datenanalyse, Entwickler, Data Scientists und Unternehmen gleichermaßen.

Auf Kaggle können Unternehmen, Organisationen, Regierungen oder auch Wissenschaftler einen Wettbewerb ausschreiben, bei dem es darum geht, ein Datenmodell zu entwickeln oder Daten effektiv zu analysieren. Wettbewerbe lassen sich auch einfach nur zur Übung erstellen, um ein dazu passendes Datenmodell zu entwickeln. Das Modell ist unter Umständen auch für andere Bereiche und Datensätze sinnvoll einsetzbar. Im Grunde genommen geht es bei den Wettbewerben in den meisten Fällen darum, dass ein Datensatz vorliegt, sowie eine Fragestellung, die in Zusammenhang mit den Daten beantwortet werden soll. Anschließend helfen die Data Scientists der Community dabei, ein Modell zu entwickeln, das die Fragen beantworten kann. In den meisten Fällen handelt es sich um Vorhersagen, die auf Basis von bestimmten Daten getroffen werden sollen.

Die Daten können von den Teilnehmern heruntergeladen werden und auch bereits vorhandene Modelle lassen sich nutzen, verbessern und zusammen mit der Community erweitern. Dadurch gewinnt am Ende des beste Modell der Community.

Lernen mit Kaggle

Auf Kaggle gibt es nicht nur die Wettbewerbe, Datensätze und Modelle, sondern auch Kurse, mit denen sich Entwickler und angehende Datenwissenschaftler in das Thema einarbeiten können. Die Kurse werden online zur Verfügung gestellt und stehen auch kostenlos zur Verfügung. Zusammen mit den Daten aus den Wettbewerben, und den Lösungsmodellen, besteht die Möglichkeit, sich eng in den Bereich Big Data und ML einzuarbeiten, sogar mit echten Daten und Fragestellungen. Dabei lassen sich die Modelle und die verwendeten Lösungsansätze verwenden, um das eigene Wissen zu verbessern.

Fazit

Wer sich mit Big Data, der Datenanalyse, Künstlicher Intelligenz und Machine Learning auseinandersetzt, kommt um Kaggle kaum herum. Schon alleine aufgrund der vielen Modelle und Fragestellungen sowie frei zugänglichen Datensätzen, kann Kaggle eine wertvolle Informationsquelle sein. Wer Daten hat, die öffentlich zugänglich sein können, erhält mit Kaggle die Möglichkeit, seine Fragestellung zu lösen und erhält ein dazu passendes Modell. Dieses kann natürlich auch selbst weiterentwickelt werden. Die Online-Kurse helfen in der Einarbeitung zum Thema Big Data und helfen auch bei der Entwicklung von Modellen.

(ID:46640201)