Kommentar von Benjamin Aunkofer, Datanomiq

So gelingt der Einstieg in die Data Science

| Autor / Redakteur: Benjamin Aunkofer / Nico Litzel

Der Autor: Benjamin Aunkofer ist Chief Data Scientist bei der Datanomiq GmbH, einem Dienstleister für Data Strategy, applied Data Science und Data Trainings.
Der Autor: Benjamin Aunkofer ist Chief Data Scientist bei der Datanomiq GmbH, einem Dienstleister für Data Strategy, applied Data Science und Data Trainings. (Bild: Datanomiq)

Big Data, Data Science und Machine Learning sind die Buzzwords dieser Jahre und Daten sind der Rohstoff für ... Lassen wir das! Wer bei BigData-Insider liest, der weiß längst, welche Rolle Daten als Rohstoff und Kapital einnehmen und wie gefragt gerade Datenexperten sind. In diesem Artikel wollen wir den Job des Data Scientists mal strukturiert durchleuchten und dann Chancen für einen Quereinstieg ausloten. Auch auf den Data Engineer gehen wir dabei ein.

Das Science in Data Science deutet ganz klar auf Wissenschaft hin, auch wenn – meiner Meinung nach – der Begriff wissenschaftlich im Deutschen etwas strenger verwendet wird als Science im Englischen.

Als Data Scientist oder Data Engineer kann sich folglich jeder bezeichnen, denn geschützt ist dieser Beruf bzw. seine Bezeichnung nicht. Und das ist auch gut so, denn die Data Science und angrenzende Bereiche sind ein breites Feld in einer dynamischen Welt, welches sich schneller wandelt, als dass hier irgendeine staatliche Regulierung mithalten könnte. Außerdem profitieren aktuelle Data Science Teams sehr von ihren unterschiedlichen akademischen Ursprüngen. So setzen sich Teams häufig aus Mathematikern, Physikern und anderen Naturwissenschaftlern zusammen sowie auch aus Ingenieuren und natürlich aus Informatikern. Aber auch Absolventen aus den Wirtschaftswissenschaften und den Geisteswissenschaften (meistens Psychologie) finden ihren Einzug in diese Berufsgruppe, jedoch immer unter der Voraussetzung, dass die nötigen Grundlagen der Analyse-Methodik und Mathematik vorhanden sind.

Die Data Science lebt in ihrer beruflichen Praxis also von Quereinsteigern. Mittlerweile gibt es längst auch dedizierte Studiengänge für Data Science und Data Engineering. Das wird vermutlich dazu führen, dass der Quereinstieg in Zukunft schwieriger werden wird. Für die nächsten Jahre wird der spezialisiertere Nachwuchs jedoch vermutlich nicht ausreichen, um die Arbeitsmarktnachfrage zu decken. Zumindest für die kommenden paar Jahre sollte der Quereinstieg weiterhin kein Problem sein und ist vermutlich darüber hinaus auch immer noch möglich.

So stellt sich die Frage, wie ein möglicher Quereinstieg in die Data Science funktionieren kann. Bevor wir dazu kommen, ist es erstmal wichtig, zu verstehen, welche Skills ein Data Scientist und ein Data Engineer überhaupt benötigen und auf welchen Ebenen die Arbeitswelt stattfindet.

Layer-Model zur Abstraktion der Skills für Data Science

Zur Erklärung der notwendigen Fähigkeiten der Data Experts nutze ich den Data Science Knowledge Stack, ein Modell mit sechs Ebenen der Herausforderungen für Data Scientists.

Der Data Science Knowledge Stack mit Beispielen für aktuelle Tools/Themen
Der Data Science Knowledge Stack mit Beispielen für aktuelle Tools/Themen (Bild: Datanomiq)

Der Data Science Knowledge Stack ist ein Modell mit sechs aufeinander gestapelten Schichten (ähnlich dem OSI-Layer-Modell der Netzwerktechnik) und es lässt sich direkt von unten nach oben erläutern (andersrum ginge es aber genauso!):

Database Technology: Wer Daten analysieren bzw. verarbeiten möchte, muss sich in Datenbanken und anderen Datenquellen zurechtfinden können. Die meisten Daten mögen in relationalen Datenbanken gespeichert und verwaltet sein und bedingen somit SQL-Kenntnisse. Andere Daten sind in dokumenten- oder graphenorientierten Datenbanken gespeichert, die einer anderen Logik unterliegen.

Data Access & Transformation: Datenbanken und andere Datenquellen geben ihre Daten in der Regel nicht ganz freiwillig heraus, sondern Schnittstellen (APIs) müssen dafür verwendet werden, um einen Zugang zu den Daten aufzubauen. Um die Daten in das Analyse-Zielsystem zu laden, müssen sie vorher oder nachher in der Regel noch in das passende Format transformiert werden. Diese Schicht des Modells ist allgemein als ETL- (Extract, Transform, Load) oder ELT-Prozess bekannt. Manchmal spielen darüber hinaus auch Benutzerrechte, Netzwerkprotokolle und Grundlagen der IT-Sicherheit (insbesondere Entschlüsselung) eine Rolle.

Programming Language: Die Programmiersprache fassen wir hier nicht als spezielles Tool auf, sondern als einen grundlegenden Enabler für die Gestaltung von Prozessen der Datenverarbeitung und -analyse. Sehr viele Programmiersprachen stehen zur Verfügung, für angewandte Data Science spielen R, Python und neuerdings auch Julia eine spezielle Rolle und liegen gerade im (Karriere-)Trend. Die gewählte Programmiersprache muss nicht nur für das Projekt geeignet sein, sondern auch der Data Scientist muss diese hinreichend gut beherrschen und Fehlermeldungen souverän überwinden können.

Data Science Tools und Libraries: Wer sich mit den Methoden der Data Science sehr gut auskennt, kann diese durchaus selbst implementieren, würde damit aber das Rad in den meisten Fällen neu erfinden und somit ineffizient arbeiten. Auch um das Vertrauen für die Stakeholder der Analysen zu gewinnen, wird in der Regel mit einem Analyse-Tool (z. B. IBM SPSS) oder einer Bibliothek (z. B. Scikit-Learn oder TensorFlow) gearbeitet, die in der Wissenschaft und Industrie als etabliert gelten. Dies erfordert jedoch auch einen sicheren Umgang mit jenen Tools und Bibliotheken, die oftmals eine steile Lernkurve abverlangen.

Data-Science-Methoden: Die vielen Tools und Programmier-Bibliotheken in Kombination mit den vielen freien Tutorials im Internet ermöglichen mit entsprechenden IT-Vorkenntnissen einen schnellen Zugang in die Data Science. Wer jedoch Regressionsanalysen betreiben oder Klassifikationsprobleme mit künstlichen neuronalen Netzen lösen möchte, sollte zumindest die Grundlagen (besser noch: die tieferen Zusammenhänge) dieser Methoden der Statistik und des maschinellen Lernens, das auch Deep Learning inkludiert, verstanden haben, da diese sonst vom Anwender schnell falsch benutzt oder die Ergebnisse nicht richtig interpretiert werden.

Fachexpertise: Die Fachexpertise ist ein wesentlicher Bestandteil der angewandten Data Science. Nicht umsonst wird die Interdisziplinarität der Data Science häufig als Venn-Diagramm mit den drei Bereichen Substanzwissenschaft, also Fachexpertise im Anwendungsgebiet, IT- und Mathematikkenntnisse dargestellt. Wer Datenanalysen in der Medizin einsetzen möchte, sollte Mediziner verstehen können. Analog gilt dieser Grundsatz ebenso beispielsweise für Finanz- oder Maschinendatenanalysen.

Venn-Diagramm der Datenwissenschaft (Data Science)
Venn-Diagramm der Datenwissenschaft (Data Science) (Bild: Datanomiq)

Data Science und Data Engineering

Wenn es um die Praxis geht, sollte zunächst einmal zwischen Data Science und Data Engineering unterschieden werden, denn diese beiden Ausrichtungen können zwar von einigen wenigen Fachkräften gleichermaßen beherrscht werden, in der Regel suchen Unternehmen jedoch für jede Position jeweils entweder eher das Eine oder das Andere, auch wenn es einen Überlappungsbereich zwischen beiden Jobbeschreibungen geben mag.

In der Wissenschaft mag das oftmals anders sein. In der Wirtschaft ist das Prinzip der Arbeitsteilung vorherrschend und so stellen die Data Engineers die Daten bereit, die von den Data Scientists analysiert werden.

Das zuvor besprochene Schichten-Modell schließt in einer erweiterten Definition der Data Science die Handhabung der Datenquellen, Datenbanken, Datensicherheit und der Datenflüsse (ETL) mit ein. Diese Themen sind mit einem ganz eigenen Arbeitsalltag verbunden und werden in der Praxis daher eher dem Data Engineering zugeordnet. In der engeren Definition der Data Science werden diese Themen, also die unteren zwei Ebenen, exkludiert und nur die Ebenen der Programmierung, der Tools & Bibliotheken sowie der Analysemethoden einbezogen.

Dies ist wichtig zu wissen, denn es erklärt auch den Unterschied zu den Data-Science-Kursen und der Praxis in den Unternehmen, denn Hochschulen und private Schulungsanbieter beschränken sich bei der Vermittlung von Data Science auf eben diese drei Bereiche.

Und es erklärt auch, warum selbst die Fachexpertise nicht Teil der engeren Definition ist, denn zum einen lassen sich die Methoden der Data Science auf alle möglichen fachlichen Gebiete anwenden. Zum anderen sind Hochschulen und Schulungsanbieter meistens nicht in der Lage, Expertise in den unzähligen Anwendungsgebieten zu vermitteln, wenn auch sicherlich Übungsaufgaben mit einem fachlichen Kontext versehen werden. Allerdings gibt es auch einige Data-Science-Studiengänge, die von Anfang an auf ein bestimmtes Fachgebiet (z. B. Medizin) ausgerichtet sind und diese Spezialisierung bereits im Namen des Studiengangs offenbaren.

Data Science in der engeren Definition beschränkt sich auf die Programmier-/Tool-Skills sowie auf die Kompetenz der Statistik und des maschinellen Lernens.
Data Science in der engeren Definition beschränkt sich auf die Programmier-/Tool-Skills sowie auf die Kompetenz der Statistik und des maschinellen Lernens. (Bild: Datanomiq)

Wie der Quereinstieg in die Data Science gelingt

Ein Blick in aktuelle Data Science Teams verrät, dass Quereinsteiger entweder von der unteren Ebene herkommen (Bottom-up), folglich also über ihr Wissen um Datenbanken und ETL-Prozesse in die Data Science stießen, oder dass sie von der oberen Ebene, der Fachexpertise in einem jeweiligen Anwendungsgebiet und der Methodenkompetenz, sich weiter nach unten eingearbeitet haben (Top-down).

Via Bottom-up zur Karriere als Data Scientist

Wer Informatik studiert hat oder über andere Wege die gefragten Programmiersprachen, Datenbanken und vielleicht auch ETL-Tools bedienen und etwaige Kenntnislücken zügig schließen kann, der kann auch seine Mathematik- und Statistik-Kenntnisse auffrischen und sich in neue Tools und Bibliotheken einarbeiten.

Via Top-down zur Karriere als Data Scientist

Wer in seinem Fachbereich auf den Bedarf von fortgeschritteneren Datenanalyse oder den Einsatz von operativer Automation mit Machine Learning evaluieren muss, beispielsweise im Marketing, in der Produktion oder im Finanzwesen, der kann sich – dem Modell entsprechend – runter in die tieferen Ebenen arbeiten und sich in die relevanten Analysemethoden, in die Programmiersprachen, Tools und Bibliotheken einarbeiten. Wenn Data Engineers mit freien Kapazitäten vorhanden sind, muss in der Regel kaum ein Gedanke in die Datenbeschaffung investiert werden, aber auch ein weiteres Eintauchen in die Ebene der Datenbereitstellung ist durchaus möglich, um zumindest den notwendigsten Teil der Ad-hoc-Datenbeschaffung zu ermöglichen.

Ob Top-down oder Bottom-up, in jedem Fall gehören zum Einstieg in die Materie viel Durchhaltevermögen, autodidaktische Fähigkeiten mit Bereitschaft zu privaten Projekten (die via GitHub-Account zum Aushängeschild werden können!) und – nicht zuletzt – die Lust zum interdisziplinären Arbeiten.

Die Nachfrage nach Data Scientists ist derzeitig noch so hoch, dass ambitionierte Bewerber, die ihre Motivation und ihre Kenntnisse glaubwürdig verkaufen können, gute bis sehr gute Chancen auf den Karriereeinstieg haben.

Größere Hürden für den Einstieg ins Data Engineering

Das Gesagte ist übrigens leider nicht exakt so auf den expliziten Beruf des Data Engineers übertragbar, der durch sein spezielles technisches Wissen im Bereich der Datenbanken und des Datenmanagements nämlich einen sehr informationstechnischen Hintergrund benötigt und in der Regel etwas weiter vom Business entfernt arbeitet als der Data Scientist. Sicherlich gibt es auch hier Quereinsteiger, die sich dann jedoch tief einarbeiten mussten und meistens aus einer Natur- oder Ingenieurwissenschaft ausgebildet wurden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45972550 / Analytics)