Buchbesprechung - Big Data im Wiley-Verlag "powered by" EMC Big Data ist eine Reise, bei der die Suche das Ziel ist

Autor / Redakteur: Jakob Jung / Rainer Graefen

Nach dem ersten großen Bildband über das menschliche Gesicht von Big Data, bewirbt EMC nun im zweiten Anlauf das Fachbuch des eigenen CTO zum Thema. Bill Schmarzo zeigt auf, wie sich Geschäftsnutzen aus dem großen Datenschatz ableiten lässt.

Firma zum Thema

(Scan: Jakob Jung)

Der Big Data Hype läuft auf Hochtouren. Die Analyse der Datenströme im Internet wirft aber viele Fragen auf. Einen Entschlüsselungsversuch macht Bill Schmarzo, Chief Technology Officer EMC Global Service, in seinem Buch „Big Data – Understanding how data powers big business“, erschienen im Wiley Verlag, Indianapolis 2013, ISBN 978-1-118-73957-0, erhältlich bei Amazon für 19,00 Euro als Kindle Edition und 22,35 Euro als Taschenbuch.

Schmarzo gibt eine praktische Anleitung, wie ein Plan für eine Big Data Infrastruktur und Architektur aussehen sollte, die echten Geschäftsnutzen verspricht. Laut seiner Definition sind Big Data massive Datenströme im Petabyte oder Terabyte Bereich, die von sozialen Medien, mobilen Geräten, Sensoren und anderen Datenquellen erzeugt werden und in Echtzeit ausgewertet sein müssen.

Bildergalerie
Bildergalerie mit 16 Bildern

Der Rückblick wird vom Ausblick abgelöst

Er geht davon aus, dass Big Data eine völlig neue Herangehensweise und ein neues Denken seitens der IT-Entscheider erfordert. Mit den granularen Daten kann ein Unternehmen vorhersehende Wartung starten, Produktleistungsempfehlungen abgeben und das Netzwerk optimieren.

Entscheidungen können nicht mehr nur durch einen Blick in den Rückspiegel gestützt werden, sondern wirklich vorausschauend beurteilt werden. Bisherige Analysemethoden berücksichtigen weniger als zehn Prozent der verfügbaren Daten, Big Data dagegen wirklich alle. Der Schritt führt von der Geschäftsüberwachung hin zur Geschäftsoptimierung.

Schmarzo stellt ein Modell mit fünf Phasen vor, an das sich Unternehmen halten sollten, wenn sie an Big Data herangehen wollen. Die erste Phase ist Geschäftsüberwachung (Business Monitoring), die in den meisten größeren Unternehmen mit traditionellen Data Warehouse (DW) oder Business Intelligence (BI) Lösungen bereits eingeführt ist.

Zurück auf Start

Man sollte dies als Startpunkt nutzen, und sich die Fragen noch einmal stellen, die man zum Zeitpunkt der Einführung der DW oder BI Systeme formuliert hat, also was sind die Kerngeschäftsprozesse und wie erhalte ich Informationen über diese.

Im nächsten Schritt geht es darum, Geschäftseinblicke (Business Insights) zu gewinnen. Das heißt, man sollte versuchen, neben den in den Datenbanken abgelegten strukturierten Daten auch unstrukturierte Daten aus verschiedenen Quellen in die Analyse einzubeziehen. Es geht hier darum, diese neue Daten mit den traditionellen Daten zu verknüpfen.

In der dritten Phase sollte die Geschäftsoptimierung (Business Optimization) im Vordergrund stehen. Hier sollte man bereits versuchen, aus den ausgewerteten Daten konkrete Empfehlungen für das Marketing und die Preispolitik abzuleiten.

Eine neue Architektur hilft

Im vierten Schritt geht es dann darum, aus den Daten geldwerte Vorteil zu ziehen (Data Monetization). Das kann dadurch erreicht werden, dass man seinen Analyseergebnisse verpackt und an andere Unternehmen weiterverkauft oder durch die Gestaltung von neuen, intelligenten Produkten, die höheren Gewinn abwerfen.

Der Königsweg lautet schließlich in der fünften Phase Geschäftsmetamorphose (Business Metamorphosis). Hier wird das traditionelle Geschäftsmodell eines Unternehmens so umgestaltet und erweitert, dass eine Wandlung hin zu Neuem vollzogen wird.

So weit die Geschäftstheorie, aber Schmarzo gibt auch eine Anleitung, wie dies technisch umgesetzt werden kann. Es ist eine neue Architektur nötig. Die großen Pioniere sind mit der traditionellen Online Transaction Process (OLTP) schnell an Grenzen gestoßen, aber Amazon, Google und Facebook haben Modelle entwickelt, um mit großen Datenmengen fertig zu werden.

Das Wesentliche steckt in weniger Daten

Gemeinsam ist bei ihnen das Vertrauen auf Open Source Stacks. Apache Hadoop hat sich als de facto Standard für ein Big Data Framework herauskristallisiert.

Hadoop verwendet ein Paradigma namens MapReduce. MapReduce splittert Anwendungen in Fragmente auf, die auf einem einzigen Knoten im Cluster abgearbeitet werden können. Hadoop verwendet weiterhin das Dateisystem Hadoop Distributed File System (HDFS), das Daten auf Knoten abspeichert und somit für hohe Bandbreiten im gesamten Cluster sorgt. Sowohl HDFS als auch MapReduce können den Ausfall eines Knotens im Netzwert automatisch ausgleichen.

Apache Hive ist eine Data Warehouse Infrastruktur, die auf Hadoop aufbaut und Zusammenfassungs-, Suche- und Analysefähigkeiten bietet. Hive wurde ursprünglich von Facebook konzipiert, wird aber jetzt auch von anderen Unternehmen weiterentwickelt. Apache HBase ist eine nichtrelationale verteilte Datenbank, die ebenfalls Teil des Hadoop Stacks ist und auf HDFS läuft.

ETL kontra Data Federation

Pig ist eine Programmiersprache, die die Entwicklung von MapReduce Programmen erlaubt und ähnlich aufgebaut ist wie SQL. Diese Standard Komponenten einer Hadoop Architektur sollten laut Schmarzo zu einer erweiterten Architektur ausgebaut werden.

Er empfiehlt hierfür die neuen Konzepte der EMC-Tochter Pivotal. Pivotal bietet unter anderem die Möglichkeit, MapReduce Anwendungen mit der Standard SQL-Sprache zu entwickeln, was Zeit und Kosten für das Erlernen einer neuen Programmiersprache erspart.

Auch zahlreiche neue Analysewerkzeuge und Analysealgorithmen sind auf Open Source Basis erhältlich.

Um Big Data in die traditionelle Data Warehouse Welt zu bringen, ist ein Umdenken nötig. Der traditionelle Extract, Transform,Load (ETL) Zugang ist überholt und muss durch den Ansatz der Data Federation ersetzt werden.

Fazit

Massiv parallele Prozesse (MPP) Datenbanken können erhebliche Leistungsgewinne schaffen. In-Database-Analyse erlaubt es, große Datenmengen zwischen dem Data Warehouse und den Analyse Umgebungen zu verschieben.

Wichtig zu betonen ist es, dass Big Data eine Reise ist, auf der es kein vorgegebenes Ziel gibt. Die Marktdynamik ändert sich dank Big Data bereits, weil die großen Internet-Pioniere diese Konzepte bereits verwenden.

Wichtig bei der Reise ist es auch, dass alle Mitarbeiter mitgenommen werden und dass deren Interessen und Ziele berücksichtigt werden. Dann kann Big Data den Wertschöpfungsprozess entscheidend verbessern und neue Geschäftschancen und Einkommensquellen erschließen.

(ID:42721401)