Data Science IoT-Basics – Big Data zwischen Hype und realem Nutzen

Autor / Redakteur: Klaus Hübschle / Nico Litzel

Im bekannten Gartner Hype Cycle für Technologietrends taucht Big Data mittlerweile gar nicht mehr auf. Doch ist Big Data keineswegs passé, sondern bereits fest im Daily Business verankert. Aber was ist Big Data eigentlich? Der Artikel versucht eine Begriffsklärung.

Anbieter zum Thema

Big Data gilt als Treiber für Industrie 4.0, Internet der Dinge und Digitalisierung.
Big Data gilt als Treiber für Industrie 4.0, Internet der Dinge und Digitalisierung.
(Bild: Pexels / CC0 )

Industrie 4.0, Internet der Dinge, Digitalisierung sind Megatrends, über die viel gesprochen und geschrieben wird. Auch Big Data gehört zu diesem illustren Kreis und ist dabei gleichzeitig auch ein wichtiger Treiber für die drei zuerst genannten. Wie die meisten Technologietrends folgte auch Big Data dabei dem typischen Hype Cycle nach GARTNER. Nach einer Phase der übertriebenen Euphorie und der darauffolgenden Ernüchterung zeigen konkrete und erfolgreiche Anwendungen das wahre Potenzial von Big Data.

Im Gartner Hype Cycle für Technologietrends taucht Big Data zuletzt gar nicht mehr auf. Nicht weil sich das Thema Big Data von alleine erledigt hat, sondern weil die Analysten ganz im Gegenteil davon ausgehen, dass Big Data in der Zwischenzeit so tief in das Geschäftsleben eingedrungen ist, dass man gar nicht mehr von einem Zukunftstrend reden kann. Laut Gartner ist der breite Einsatz von Big Data heute bereits Realität in den Unternehmen. Dies sollte Grund genug sein, sich spätestens jetzt die Grundlagen von Big Data und dessen Einsatzmöglichkeiten auch im industriellen Umfeld genauer anzuschauen.

Ab wann sind Data big?

Manche sprechen von Big Data, wenn die gesammelte Datenmenge die Grenze von mehreren 100 Terabyte überschreitet. Andere verstehen unter Big Data ganz konkret den Einsatz der Technologien rund um Apache Hadoop. Eine der am häufigsten zitierten Definitionen für Big Data nutzt jedoch das sogenannte 3-VModell, das wohl auf einem Papier von Gartner aus dem Jahr 2001 basiert [I.1]. Demnach spricht man von Big Data, wenn in einer Anwendung zumindest einer der Faktoren Datenmenge (engl.: volume), Verarbeitungsgeschwindigkeit (engl.: velocity) und Vielfältigkeit der Daten (engl.: variety) in Dimensionen vorstößt, die mit den bisher üblichen Datenverarbeitungstechnologien nicht oder nur mit sehr hohen Kosten machbar sind.

Konkret bedeutet dies, dass das anfallende Datenvolumen in die Größenordnung Petabytes (1.024 Terabytes) oder gar Exabytes (1.024 Petabytes) geht. Oder es fallen stetig neue Daten an oder ändern sich mit immenser Geschwindigkeit, und die verarbeitenden Systeme müssen auf diese Änderungen in Echtzeit reagieren. Oder es müssen Daten aus verschiedensten Quellen gleichzeitig zur Datenanalyse herangezogen werden. Die Informationen dabei liegen in vielfältigen Datenformaten vor und müssen nun in einer Anwendung miteinander verknüpft werden. Dabei gibt es einen zunehmenden Anteil unstrukturierter oder semi-strukturierter Daten. Neuere Definitionen fügen mit dem englischen Begriff „veracity“ein weiteres V als zusätzliche Herausforderung an Big Data hinzu.

Veracity lässt sich am besten mit den deutschen Begriffen Richtigkeit oder Wahrhaftigkeit umschreiben und fordert, dass die gesammelten Daten und die daraus abgeleiteten Analysen die notwendige Genauigkeit und Qualität besitzen müssen, um damit Unternehmensprozesse steuern zu können. Das setzt bei den Anwendern der Analyseergebnisse ein Vertrauen in die Qualität der Datenbasis und in die Analysemethoden voraus, und auch die Analyseergebnisse müssen einer Überprüfung ihrer Sinnhaftigkeit standhalten.

Wie wird Big Data heute eingesetzt?

Der potenzielle Nutzen von Big Data beschränkt sich nicht auf bestimmte Branchen. Man erwartet, dass sich in fast jeder Branche sinnvolle Anwendungen für Big Data finden werden. Die an Big Data geknüpften Erwartungen sind dabei sehr vielseitig. Auf der einen Seite wird Big Data als die Basis für neue Geschäftsmodelle angesehen, die ohne diese Technologien zuvor nicht möglich waren. Es entstehen neuartige smarte Produkte und Dienstleistungen. Alteingesessene Geschäftsmodelle werden durch Big Data disruptiv zerstört.

Durch den Technologieeinsatz werden strategische Wettbewerbsvorteile etabliert. Häufig wird Big Data aber auch zur Optimierung von bestehenden Produkten und Herstellungsprozessen eingesetzt. Die Qualität der Produkte wird verbessert, indem Nutzungsdaten konsequent ausgewertet werden. Big Data ermöglicht die Identifikation unentdeckter Kosteneinsparungs- und Optimierungspotenziale in bestehenden Prozessen und steigert damit die Produktivität über alle Unternehmensbereiche hinweg – von der Entwicklung über die Produktion bis hin zu Vertrieb und Service.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

In Produktion und Logistik hilft Big Data bei der Steuerung bestehender, nur schwer durchschaubarer Prozesse und stellt neue datenbasierte Methoden für Planung und Entscheidungsfindung in Geschäftsprozessen bereit. Komplexe Compliance-Regeln können durch Big Data effizient überwacht und Verstöße automatisch erkannt und gemeldet bzw. gleich verhindert werden.

Big Data oder besser Smart Data?

Die Philosophie von Big Data lautet, erst einmal massiv Daten zu sammeln und später die darin verborgenen Schätze zu heben; eine Erfolgsgarantie gibt es nicht. Big Data erzeugt hohe Kosten, der im Einzelfall daraus zu erzielende Nutzen ist nicht immer vorhersagbar. Für den Einsatz von Big Data sprechen die Erfolgsbeispiele, bei denen die Kosten durch den erzielten Nutzen deutlich aufgewogen wurden. Es gab aber in der Vergangenheit auch genügend Beispiele, wo dies nicht der Fall war und die mit Big Data verknüpften Erwartungen nicht erfüllt worden sind.

Die Kosten für Big Data dürfen nicht unterschätzt werden. Schon das massive Sammeln von Daten erzeugt hohe direkte Kosten. Jeder einzelne erfasste Messwert erzeugt Kosten durch die Erhebung, die Übertragung, die Speicherung und natürlich die Verarbeitung. Hinzu kommen weitere indirekte Kosten, die sich durch die Komplexität des Umfeldes für Big-Data-Anwendungen ergeben. Dabei ist die fachliche Komplexität der eigentlichen Datenanalyse durch die hohen Anforderungen an das ausführende Personal noch relativ gut einschätzbar.

Weniger offensichtliche Komplexitäten ergeben sich eher aus Fragen im rechtlichen und sicherheitstechnischen Bereich. Wem gehören die gesammelten Daten? Kann zu einhundert Prozent sichergestellt werden, dass nur berechtigte Personen und Systeme Zugriff auf die Daten bekommen? Wird das durch verstärktes Datensammeln erhöhte Risiko unbefugter Nutzung durch den dadurch erzeugten Nutzen aufgewogen oder wird dieses Risiko viel zu teuer erkauft? Diese Fragen müssen geklärt werden. Auch diese Klärung verursacht weitere Kosten.

Aus diesem Spannungsfeld ist der Begriff von Smart Data entstanden. Smart Data selektiert die zu erfassenden Daten bereits vor und sammelt nur solche Daten, die der geplanten Nutzungsweise entsprechen. Smart Data verspricht dadurch den Vorteil reduzierter Initialkosten; klarer Nachteil ist aber, dass unerwartete und nicht vorhersehbare Potenziale in den Daten so eher nicht erschlossen werden.

Bei Big Data geht ein Trend dahin, die noch unerschlossenen Daten zunächst möglichst günstig und wenn möglich sogar vor Ort zu speichern und erst bei erkanntem Potenzial die Daten dann ganz gezielt in teurere, zentrale Echtzeitverarbeitungssysteme zu überführen oder auch Analysen vor Ort auszuführen. Auch dies kann dazu beitragen, die Kosten von Big Data in den Griff zu bekommen.

Erfolgreiche Big-Data-Killerapplikationen

Von einer Killerapplikation kann man sprechen, wenn ein bestimmter Anwendungstypus einer ganzen Technologie zum breiten Durchbruch verhilft, weil er deren Nutzen dem Betrachter auf überzeugendste Art und Weise direkt vor Augen führt. Auf der Basis von Big Data wurden zahlreiche erfolgreiche Geschäftsmodelle implementiert, die neue Märkte schufen oder bestehende umwälzten und dadurch Firmen innerhalb weniger Jahre vom kleinen Start-up zu Multi-Milliarden-Konzernen wachsen ließen. Für Big Data gibt es denn auch mindestens zwei solcher Killerapplikationen.

Die erste Killerapplikation im Zusammenhang mit Big Data war die Schaffung des transparenten Kunden, die zum Ziel hat, dem dahinterstehenden Menschen zielgenau die Produkte und Dienstleistungen anzubieten, die er sich wünscht oder die er sich nach Ansicht des Anbieters wünschen sollte. Dazu werden möglichst viele personenbezogenen Daten gesammelt, um ein möglichst vollständiges Profil des einzelnen Kunden erstellen zu können, auf dessen Basis das erfolgversprechendste Angebot formuliert werden kann.

Zum Beispiel werden per Click-Stream alle Eingaben des Kunden auf der Web-Site eines Online-Anbieters überwacht und sein historisches Kaufverhalten protokolliert. Gleichzeitig werden in den sozialen Netzwerken die allgemeinen Stimmungslagen von bestimmten Anwendergruppen ausgewertet (Social Network Sentiments), aber auch persönliche Daten des Kunden miterfasst. Durch Verknüpfung dieser und aller möglichen weiterer Daten aus den unternehmensweiten Systemen (z. B. aktueller Lagerbestand) oder dem Internet (z. B. Wetterdaten) werden personalisierte Produktvorschläge für den Kunden abgeleitet. Vor allem große Onlinehändler wie Amazon, aber auch Hersteller von Gütern für den Endverbraucher profitieren von diesem Einsatzbereich von Big Data.

Die andere Big-Data-Killerapplikation sind smarte Produkte. Produkte besitzen neben ihren physischen Komponenten aus Mechanik und Elektrik auch immer mehr intelligente Komponenten. Neben Mikroprozessoren, Sensoren, Datenspeichern und Software sind dabei vor allem auch die eingebauten Kommunikationsschnittstellen wichtig. Dadurch sind die smarten Produkte in der Lage, sich mit zentralen webbasierten Diensten der Hersteller zu verbinden, woraus sich wiederum völlig neue Möglichkeiten in der Überwachung, Steuerung, Optimierung und Automatisierung dieser Produkte ergeben.

Ein herausragendes Beispiel für smarte Produkte sind moderne Smartphones, die eigentlich immer mehr oder weniger mit ihrem Hersteller in Verbindung stehen und diesem so genaue Informationen über das Nutzungsverhalten seiner Kunden liefern. Diese Informationen kann der Hersteller direkt in die nächste Gerätegeneration einfließen lassen. Gleichzeitig bieten die Smartphones ein umfassendes Ökosystem für viele weitere Anbieter, die ihre Apps und zusätzliche Services auf den entsprechenden Handelsplattformen mit anbieten.

Die ganz großen Erfolgsgeschichten von Big Data werden bisher vor allem im Geschäft mit dem privaten Konsumenten erzielt, also dem B2C-Bereich. Solche offensichtlichen Killerapplikationen fehlen bis heute noch für den industriellen Einsatz in der Produktion. Dennoch gibt es auch hier viele erfolgversprechende Anwendungsfälle für Big Data, deren Realisierbarkeit durch entsprechende erfolgreiche Beispiele auch belegt ist.

Wer hat Big Data erfunden?

Da sich hinter dem Begriff Big Data eine Vielzahl verschiedenster Technologien verstecken, gibt es nicht den einen Erfinder von Big Data. Aber ohne die Innovationskraft der großen amerikanischen Internetfirmen wie Google, Facebook, Twitter, Instagram und anderen gäbe es Big Data in der heutigen Form wohl nicht. Diese waren die Initiatoren und Wegbereiter für viele der Big-Data-Technologien.

Eine Google-Suchmaschine muss in der Lage sein, große Teile des sichtbaren Internets so zu repräsentieren, dass beliebige Abfragen eines beliebigen Anwenders in einer Sekunde weltweit verfügbar sind. Bei Facebook müssen die Daten von inzwischen weit über eine Milliarde Nutzern miteinander verknüpft werden, damit meine Freunde mitbekommen, was ich gerade treibe. In der Videoplattform YouTube wurden 2015 in jeder Minute 400 Stunden Videomaterial hochgeladen –macht grob geschätzt etwa 1,5 TB pro Minute und hochgerechnet auf einen Tag bereits mehr als ein Petabyte.

Solche und ähnliche Herausforderungen haben die jungen Wilden der Internet Economy in Silicon Valley zu neuen technischen Innovationen getrieben, die heute die Basis von Big Data bilden. Die wichtigsten Basis-Technologien, die diese Anwendungen von Big Data erst ermöglichen, stehen heute jedem in Form von Open-Source-Lösungen zur Verfügung. Das prominenteste Beispiel für eine solche Technologie ist hierbei sicherlich Apache Hadoop. Zahlreiche Start-ups treiben die Weiterentwicklung dieser Open-Source-Lösungen stetig voran und ergänzen sie um zusätzliche bezahlte Services, die den unternehmensweiten Einsatz vereinfachen.

Big Data und Cloud-Computing

Nicht alle der unter der Flagge von Big Data segelnden Technologien sind jedoch wirklich neu. Viele basieren auf Konzepten, die in der IT oft schon seit Jahrzehnten bekannt und im Einsatz sind. Doch erst durch die heute verfügbaren Rechen-, Speicher- und Netzwerkkapazitäten und die effektive Rekombination einzelner bereits länger bekannter Konzepte ließ sich das Potenzial dieser oft recht ressourcenfressenden Verfahren richtig erschließen.

Dass die dazu erforderlichen IT-Ressourcen überhaupt bereitstehen, ist nicht zuletzt auch dem Trend zum Cloud-Computing zu verdanken. Durch die Bereitstellung von vorkonfigurierten Big-Data-Infrastrukturkomponenten als sogenanntes Platform-as-a-Service-Angebot (PaaS) sinkt die Einstiegshürde für den Betrieb von Big-Data-Lösungen deutlich, und Big Data wird dadurch auch für kleine und mittlere Unternehmen erschwinglich und technisch realisierbar. Dies war auch eine wichtige Erfolgsbasis für die Start-up-Kultur rund um Big Data, denn sehr viele dieser Startups betreiben ihre Lösungen auf gemieteten Servern in der Cloud.

Cloud-Computing ist also ein wichtiger Wegbereiter für den breiten Einsatz von Big-Data-Technologien. Gleichzeitig treiben erfolgreiche Big-Data-Anwendungen in der Cloud aber auch die Akzeptanz von Cloud-Computing entscheidend mit an, da Big Data ohne entsprechende IT-Kapazitäten nicht funktioniert.

You never walk alone: Data Science ist Teamsport

Mit dem Erfolg von Big Data ist auch ein ganz neues Berufsbild entstanden: das des Data Scientist. Ein Data Scientist verwaltet und analysiert große und oft hochkomplexe Datenarchive und ist in der Lage, die notwendigen Werkzeuge zu entwickeln, um den Nutzen dieser Informationen für sein Unternehmen zu maximieren.

Um dieser Aufgabe gerecht zu werden, ist ein extrem breites Spektrum an Fähigkeiten notwendig. Fundiertes Wissen zu Statistik, Data Mining und Machine-Learning-Algorithmen wird vorausgesetzt. Gleichzeitig sind aber auch beste Kenntnisse über die Anwendungsdomäne gefragt, damit überhaupt erst die richtigen Fragen gestellt werden können, die dann mit entsprechenden Analysemethoden und Modellen beantwortet werden sollen. Zur Integration von Big-Data-Lösungen in robuste Geschäftsanwendungen wird weitreichendes IT- und Software-Entwicklungs-Know-how erwartet, speziell im Bereich Cluster-Computing und Datenmanagement. Und um die erzielten Ergebnisse auch entsprechend darstellen zu können, gehört auch ein gutes Stück Fähigkeit zur Visualisierung und natürlich auch Kommunikation allgemein dazu.

Da das Berufsbild des Data Scientist zum „Sexiest Job of the 21st Century“ ausgerufen worden ist und der Data Scientist gleichzeitig ein äußerst rares Individuum zu sein scheint, werden inzwischen auch von zahlreichen Institutionen Studiengänge und Weiterbildungen zum Data Scientist angeboten. Realistisch betrachtet, wird aber wohl kaum ein Mensch fähig sein, das geforderte Wissensspektrum in voller Breite ausfüllen zu können. Deswegen sind für anspruchsvolle Big-Data-Projekte interdisziplinäre Teams notwendig, bestehend aus Anwendungsexperten, Datenanalysten mit sehr guten Mathematik- und Statistikkenntnissen, Software-Entwicklern und IT-Experten. Data Science kann nur im Team erfolgreich betrieben werden.

Dipl.-Inform. (FH) Klaus Hübschle studierte Informatik an der Fachhochschule Furtwangen und startete noch während des Studiums als Softwareentwickler bei der M&M Software GmbH. In seiner beruflichen Laufbahn hat er seitdem im Unternehmen leitende Rollen in zahlreichen Beratungs- und Softwareentwicklungsprojekten in verschiedensten Bereichen der Automatisierungstechnik ausgeübt. Als geschäftsführender Gesellschafter im Bereich Technik treibt er heute die Ausrichtung des Unternehmens auf die neuen Herausforderungen von Industrie 4.0 und Digitalisierung mit an und setzt Schwerpunkte mit den Themen Cloud-Computing, Big Data, Internet of Things und Assistenzsysteme.

Quellen/Literatur

[I.1] LANEY, DOUGLAS: 3D Data Management: Controlling Data Volume, Velocity, and Variety. Stamford: META Group Inc., Februar 2001. https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf (abgerufen am 09.05.2017).

Fachbuch „Industrie 4.0: Potenziale erkennen und umsetzen“ Dieser Beitrag stammt aus den dem Fachbuch „Industrie 4.0: Potenziale erkennen und umsetzen“ von Thomas Schulz (Hrsg.) Das Buch bietet dem Professional einen praxisorientierten und umfassenden Einblick in die Digitalisierung der Fertigung und der Produktion. Das Buch „Industrie 4.0“ kann hier versandkostenfrei oder als eBook bestellt werden.

Dieser Artikel stammt von unserem Partnerportal Industry of Things. Verantwortlicher Redakteur: Jürgen Schreier

(ID:45186305)