Suchen

Kommentar von Dr. Gero Presser, QuinScape Warum wir das „Big“ in „Big Data“ verloren haben

| Autor / Redakteur: Dr. Gero Presser / Nico Litzel

Sprechen Sie noch von „elektronischer Bildverarbeitung“? Vermutlich kaum. Es ist mittlerweile selbstverständlich, dass die Bildverarbeitung elektronisch erfolgt – entsprechend obsolet ist dieser Zusatz geworden. Eine ähnliche Entwicklung beobachte ich beim Terminus „Big Data“.

Der Autor: Dr. Gero Presser ist einer von drei Geschäftsführern bei der QuinScape GmbH in Dortmund
Der Autor: Dr. Gero Presser ist einer von drei Geschäftsführern bei der QuinScape GmbH in Dortmund
(Bild: QuinScape GmbH)

Im Rahmen meiner Vorlesung zum Thema „Big Data“ darf ich jährlich Studenten eine Einführung geben, was sich hinter diesem Begriff verbirgt. Leider fehlt es an einer wirklich validen Definition. Für einige fängt Big Data dort an, wo Excel aufhört. Zutreffender und gängiger ist eine Eingrenzung über drei oder mehr Vs: Volume, Velocity und Variety. Ein TDWI-Beitrag bringt es sogar auf zehn Vs.

Mir reichen hier und heute drei Vs. Hinter Big Data befinden sich gewaltige Datenmengen (Volume), der Datenbestand nimmt typischerweise schnell zu bzw. die Daten fließen vergleichsweise schnell (Velocity) und die Daten sind vielfältig strukturiert bzw. auch semi-strukturiert und unstrukturiert (Variety).

Dies zusammen führt zu Herausforderungen, die im Vergleich zur traditionellen Datenbank neue Ansätze erfordern. Damit einher gehen vielfältige neue Geschäftschancen. Viele Unternehmen sind sehr erfolgreich geworden, indem sie Big Data ernst genommen haben und sich Daten und den Erkenntnisgewinn aus Daten zunutze gemacht haben. Daten sind heute ein wertvolles Asset.

Eine besondere Rolle hat technologisch einst Hadoop gespielt. Die meisten werden sich noch an das Logo mit dem gelben Elefanten erinnern, das auf ein Schmusetier des Sohns von Doug Cutting zurückgeht, dem Mitinitiator des Hadoop Frameworks. Entscheidend in der Architektur war die prinzipiell parallele Speicherung und Verarbeitung der Daten mit dem Grundprinzip, dass sich der Algorithmus in vielen parallelen Instanzen zu den Daten bewegt, nicht umgekehrt. Letztlich war und ist dies die einzig probate Vorgehensweise, um schnell die gewaltigen Datenmengen in vielfältigen Formaten durch die Nutzung massiver Parallelisierung zu bearbeiten, z. B. um Erkenntnisse aus den Daten zu gewinnen.

Höhepunkt 2013 und 2014

Viele von uns erinnern sich wohl auch noch an den Höhepunkt der Big Data Ära – grob 2013 und 2014 – die herausragende Bedeutung der Hadoop-Distributionen von Cloudera, Hortonworks und MapR sowie die unglaubliche Menge neuer Open-Source-Projekte, die nahezu im Monatstakt das Hadoop-Ökosystem komplettiert haben. Big Data hatte es auf die Titelseite vieler Publikationen geschafft und war in aller Munde.

Was ist eigentlich aus diesem Hype geworden? Warum hört man immer weniger von Big Data und warum nimmt die Bedeutung des Begriffs ab, wie man beispielsweise an seiner Popularität in Suchanfragen erkennen kann.

Popularität de Begriffs „Big Data“ in Suchanfragen
Popularität de Begriffs „Big Data“ in Suchanfragen
(Bild: Google Trends)

Die Antwort ist im Grunde einfach: Big Data ist Mainstream geworden. Insbesondere durch die Cloud hat sich die „Big Data“-Verarbeitung von einer „Raketenwissenschaft“ zur normalen Herausforderung im Bereich Data Management und Data Analytics entwickelt.

„Big“ Data folgt demn Gartner Hype Cycle

Die Aufmerksamkeit für den Begriff ist dem „Gartner Hype Cycle“ gefolgt, wir sind bei der produktiven Anwendung in der Fläche angelangt. Damit entfällt der Bedarf, explizit auf die Charakteristika hinzuweisen, die das Wort „Big“ unterstreicht.

Hype Cycle nach Gartner
Hype Cycle nach Gartner
(Bild: Gartner Research's Hype Cycle diagram / Gartner Research's Hype Cycle diagram / Jeremy Kemp / CC BY-SA 3.0 / CC BY-SA 3.0)

Big Data ist nicht tot, Big Data ist da. Und damit geht ein Stück weit die Besonderheit verloren, was früher Big Data war, sind heute einfach Daten. Hinzu kommt, dass der Begriff Big Data etwas unglücklich dahingehend ist, „weil er suggeriert, es ginge nur um größere Datenmengen“, wie Prof. Dr. Andreas Seufert schon 2012 im Interview mit der Computerwoche äußerte.

Tatsächlich sind die Daten und deren Analyse zwei Seiten einer Medaille. Erst durch den Erkenntnisgewinn aus den Daten entsteht Nutzen. Hier sind dankenswerterweise andere Begriffe eingesprungen, letztlich wohlbekannte Themen aus der Informatik. Künstliche Intelligenz und speziell das Maschinelle Lernen haben Big Data den Rang abgelaufen und es wiederum auf die Titelseiten geschafft. Ich vermute, dass auch diese Begriffe ihren Reiz verlieren werden, je stärker sie sich im Alltag etablieren. Bitte verstehen Sie mich nicht falsch, die Bedeutung von „Big Data“ und „Machine Learning“ steigt, die Methoden durchdringen gewissermaßen alles. Nur ist es heute fast Normalität, sich solcher Methoden zu bedienen.

Fazit

Wir bewegen uns in eine Welt voller Daten und die Einsichten, die wir oder Maschinen aus diesen Daten gewinnen, können dies zu einer besseren Welt machen. Im Herzen dieser Welt leben und wirken Big Data und Maschinelles Lernen. Dies wird für uns so selbstverständlich, dass wir es nicht mehr betonen müssen. Wir werden nicht mehr von Big Data sprechen, sondern von Daten.

Schon bei meiner ersten Vorlesung zu Big Data im Jahr 2016 hatte ich den Studenten avisiert, dass wir irgendwann das „Big“ aus dem Titel streichen können und dieser Punkt ist langsam erreicht. Es geht schlicht um Daten und die Erkenntnisse, die sich hieraus gewinnen lassen. Bei QuinScape, wo ich als Geschäftsführer tätig bin, sprechen wir nur noch von Data & Analytics. Natürlich umfasst dies auch vielfach Projekte im Bereich „Big Data“ und „Machine Learning“, die wir für unsere Kunden realisieren dürfen.

Artikelfiles und Artikellinks

(ID:46905617)