In-Memory rettet vor der Datenflut und sorgt für RoI - auch im Mittelstand Die Big-Data-Lüge

Redakteur: Ulrike Ostler

„Wie Rotkäppchen und der böse Wolf oder die Mär vom drohenden Weltuntergang ist auch das Big-Data-Phänomen eine Fiktion. Eine Erfindung.“ So beginnt Irfan Khan, SVP und CTO beim SAP-Unternehmen Sybase, sein White Paper „Intelligenz für Jedermann“.

Firmen zum Thema

Der Titel des Artikels und das Bild sind dem Whitepaper von SAP "Intelligenz für jedermann" entlehnt.
Der Titel des Artikels und das Bild sind dem Whitepaper von SAP "Intelligenz für jedermann" entlehnt.
(Bild: SAP-Whitepaper "Intelligenz für jedermann")

Geradezu ein Armageddon beschwörten Analysten und Medien herauf, schreibt Khan, die IT-Welt scheine in der Big-Data-Welle unterzugehen. Doch der Sybase-Experte beruhigt: „Hier mein Rat: Entspannen Sie sich. Big Data ist halb so schlimm, wie uns momentan weisgemacht wird.“

An dieser Stelle könnte der Artikel und das White Paper beendet sein, doch ganz so harmlos kommt die Datenschwemme doch nicht daher. Khan zitiert das Marktforschungsunternehmen IDC, nach dem sich in den meisten Unternehmen das Datenvolumen bis 2020 um das 35-Fache aufblähen wird.

Insgesamt gibt es weltweit rund drei Milliarden Computer; alleine 2010 wurden 352 Millionen Geräte ausgeliefert. Schon 2009 wurden laut IDC 2009 weltweit 800.000 Petabyte an Daten erzeugt und gespeichert; bis 2020 soll das Datenvolumen auf runde 35 Zettabyte ansteigen.

Big Data in Memory

Wie Carsten Bange vom Business Application Research Center (BARC) ausführt, kennzeichnet Big Data jedoch nicht nur die schiere Menge. Vielmehr gehören für ihn in die Definition das Merkmal „poly-strukturierter Daten“, also Daten, die in unterschiedlichen Graden strukturiert sind (siehe: Abbildung 1) und die Anforderung, Daten möglichst schnell zu erfassen, zu speichern und auszuwerten. In Englisch fallen hier die Begriffe „volume“, „velocity“ und „variety“, bekannt auch als „die 3 Vs“.

Bildergalerie

Wie Khan ausführt, brauchen sich Unternehmen Dank einer verfügbaren spaltenorientierten Analyse-Infrastruktur heute keine Sorgen über Big Data zu machen. Denn: „Massive Datenmengen, selbst wenn sie so heterogen sein sollten wie unstrukturierte Daten, können in spaltenorientierten Data Warehouses problemlos analysiert werden“.

Kein Grund zur Panik!

Spaltenorientierte Data Warehouses aber zeichneten sich durch ihre hohe Verarbeitungsgeschwindigkeit, hohe Kompressionsfähigkeit (siehe: Abbildung 3 und 4) und ausgezeichnete Skalierbarkeit aus. Das bedeutet unter anderem auch, dass so viele Anwender und Daten hinzu kommen können, wie zur Erledigung der jeweiligen Aufgabe vonnöten sind.

Dazu das Beispiel der deutschen Citigroup-Tochter aus dem SAP-Sybase-Whitepaper: „Ihre spaltenorientierte Datenbank enthält Handelsdaten aus vier Jahren (13,2 Millionen Transaktionen!) und erzielt eine Komprimierungsrate von 43 Prozent. Ein herkömmliches zeilenbasiertes System würde demgegenüber jeden Deal, den die Citigroup-Tochter in ihrer Datenbank speichert, um 4 Prozent vergrößern.“

Eine spaltenorientierte Datenbank indexiert die Daten, sobald sie in das System geladen werden, ohne eine Meta-Ebene über die Rohdaten zu legen. Die spaltenorientierte Ablage, auch im Hauptspeicher, hat zudem den Vorteil, dass die Verarbeitung sich parallelisieren lässt, man spricht von „Massively Parallel Processing“ (MPP).

Wie passt HANA ins Konzept?

Die SAP-Datenbank HANA, beziehungsweise entsprechende Appliances, etwa von Dell oder Fujitsu, sind so organisiert. Nach außen bieten sie jedoch eine SQL-Schnittstelle oder die für „Hadoop“ angepasste Form „High Quality Query“ (HQL). Das hat den Vorteil, dass es sehr viele IT-Spezialisten SQL beherrschen und so mit einer In-Memory-Technik umgehen können.

Bildergalerie

Der Schlüssel für die Skalierung liegt in der Verwendung einer Shared-Everything-Technik, anstelle von Shared-Nothing. Ein MPP-gestütztes Data Warehouse mit einem Shared-Everything-Ansatz kann Abfragelasten über alle Netzknotenpunkte hinweg dynamisch managen und ausbalancieren“, schreibt Khan. Denn es verwendet einen Load Balancer.

In-Memory-Datenbanken wie HANA haben zudem den Vorteil, dass sie keine Daten für die Analyse verschieben müssen. Die Workload-relevanten Daten müssen somit nicht von außerhalb abgerufen werden. Die Reaktionszeiten verkürzen sich drastisch.

Big Data geht jeden an?

Insofern brauchen sich die Unternehmen keine Sorgen zu machen, zumal auch der Storage-Markt sich bis jetzt immer den Herausforderungen an noch mehr Daten stellen konnte. (siehe: Abbildung 2) – die Festplattenkapazität steigt, die Plattengröße sinkt, die Speicherkosten und die durchschnittliche Zugriffszeit auch reduzierten sich.

Dennoch: Welche Unternehmen geht warum Big Data etwas an? Genauer gefragt: Ist Big Data ein Thema für den Mittelstand?

Jeder versteht die Beispiele aus dem SAP-Whitepaper, die Konzerne betreffen: Walmart mit einem täglichen Volumen von 267 Millionen Transaktionen stellt fest, fest, dass „die Einbindung von Customer Insight in Geschäftsentscheidungen dramatische Wettbewerbsvorteile bringen könne, die elektronische Patientenakte und die resultierende Analyse von Patientendaten versprechen jährliche Einsparungen von 707 Milliarden Euro, Finanztransktionen, bei denen sich die Frist für Entscheidungen von Mikrosekunden auf Millisekunden und Nanosekunden verkürzt und Telekommunikationsriesen, die in Daten fast ersticken (siehe: Kasten).

HANA schlägt jedes Buch auf

Europäische Tier-1-Anbieter hätten von 2007 bis 2010 eine Zunahme ihres Datenvolumens um 700 Prozent verzeichnet, heißt es im Whitepaper. In Lateinamerika habe sich der Datenzustrom bei vergleichbaren Anbietern in nur vier Jahren von 5 auf 10 Terabyte verdoppelt. Darüber hinaus sorgt der Netzverkehr durch Smartphone auf ein Anschwellen wird von 18,5 Prozent 2009 auf geschätzte 56 Prozent im Jahr 2015.

Viel zitiert ist der HANA-Anwender und E-Commerce-Anbieter, der 750 Magabyte bis 1 Terabyte Web-Log-Daten auswertet. Doch sagen die Experten auch, dass ein Markt für Analyse-Anwendungen erst entsteht. In-Memory-Datenbanken wie HANA erlauben, so Chief Research Expert Burkhard Neidecker-Lutz, sich jedes Buch einer Bibliothek anzusehen, nicht nur eine Auswahl. Dadurch ist Datenbankanalyse nicht ein Spezialgebiet weniger Experten, die vorab schon definieren müssen, was sie hinterher wissen wollen.

Erstens ließen sich jetzt viel mehr Daten durchforsten, quasi per „Rasterfahndung“ bisher unentdeckte Beziehungen herstellen und dann auch noch ad hoc. Doch noch fehlen die Anwendungen, die, mit denen es sich lohnt, jedes Buch aufzuschlagen.

Die Suche nach dem Unerwarteten

Allerdings lassen sich auch bestehende Probleme mit der In-Memory-Technik besser lösen. Neidecker-Lutz gibt ein Beispiel: Eine Drogeriekette möchte auch die Regal-Lagerhaltung verzichten und legt Zeitreihen darüber an, was zu welchen Mengen und zu welchen Zeiten in den spezifischen Märkten verkauft wurde. Mit der Zeit ergibt sich ein Profil für den jeweiligen Markt und der Lagerbestand lässt sich zu 30 Prozent reduzieren.

Bildergalerie

Das Problem ist besteht lediglich darin, dass die Daten aus den einzelnen Märkten zunächst einmal in eine zentrale Datenhaltung „hinein gewuchtet“ werden muss, um sie dann wieder zu extrahieren.

Doch selbst für die Telekommunikationsunternehmen ist Big Data keine Urgewalt. Das SAP-Whitepaper findet drei konkrete Herausforderungen, die die Branche zu bewältigen hat:

  • Customer Analytics – Geringere Kundenfluktuation und höherer ARPU durch bessere, schnellere Einblicke in umfangreiche Daten zu Kundenprofil, -nutzung und –trends
  • Servicequalität – Sicherstellung der Kundenzufriedenheit und Einhaltung stringenter SLAs durch die Integration und Analyse von Netzwerk- und Kundendaten in Echtzeit
  • Optimierung der Netzwerkkapazität – Optimierung von Netzwerkaufwendungen und -auslastung durch die Echtzeitüberwachung und –messung von Milliarden Netzwerkereignissen bis hinunter auf die Geräte-Ebene

Statt Big Data: SAP

Der Einsatz von Datenströmen und adäquater Technik zur Lösung konkreter Aufgaben aber nimmt Big Data den Monsterstatus der Märchenwelt.

SAP wiederum stellt das Thema auf den Kopf und bietet seine Standardsoftware direkt gekoppelt mit der In-Memory-Datenbank HANA an. Zudem schreibt das Unternehmen seinen Hardware-Partnern vor, wie die Appliances, auf denen HANA läuft, ausgestaltet sein soll: mit dem Intel-Prozessor „Westmere“, einem fixen Befehlssatz und dem Suse-Betriebssystem. Dabei könnte HANA theoretisch auch auf einen „Aldi-PC“ laufen, sagt Neidecker-Lutz (siehe: Abbildung 3 und 4).

Zu den ersten Partnern gehört Fujitsu. Speziell auf den Mittelstand zielend haben SAP und Fujitsu im Frühjahr 2012 Analytics powered by SAP HANA für SAP Business One“ angekündigt. Diese Anwendung ermöglicht eine unternehmensweite Suche, wobei sämtliche Arten von Datenquellen gelesen und ausgewertet werden können.

Die HANA-Appliances

Das Angebot wird laut Fujitsu bereits betriebsbereit ausgeliefert, denn die Images werden im Augsburger Werk des Herstellers auf einem Fujitsu-Server „Primergy TX300 Server“ bereits installiert. Das erlaubt eine sehr schnelle Inbetriebnahme vor Ort, zumal es bereits 41 Länderanpassungen gibt.

Rund 50 Kunden zähle Fujitsu derzeit, das Wachstum sei zweistellig. Business One (B1) startet bei 2000 Euro pro Engine. Dazu kommen die Kosten für den Server ab 9.000 Euro und die Lizenzen pro User.

Laut Fujitsu ist HANA noch nicht wirklich ein Thema für Cloud-Angebote jeglicher Art. Das liegt daran, dass für die Appliances lediglich lediglich ein "side-car-approach" gefahren werden kann: Die Analyse-Appliance läuft parallel zu bestehenden SAP Anwendungen, zum Beispiel SAP ERP. Um Schnelligkeit zu garantieren, sollten die Rechner daher nahe beieinander stehen.

In Zukunft allerdings soll diese technische Restriktion verschwinden. Bei "BW on HANA" beispielsweise wird die komplette Datenbank in den Hauptspeicher übertragen beziehungsweise migriert.. Anbieter für SAP HANA out of the Cloud sollen in der Regel SAP Hosting Service Provider sein, die ihr klassisches Hosting-Angebot damit ergänzen

HANA gehört ins eigene Rechenzentrum

Fujitsu wird auch eine „SAP Business Objects Edge“-Version basierend auf HANA anbieten. Damit bekommen Anwender weitere Business-Intelligence-Funktionen an die Hand. Appliances wie die von Fujitsu eigneten sich insbesondere für den Mittelstand; so sollte das Datenvolumen laut Whitepaper 1 Petabyte nicht überschreiten.

Bildergalerie

Doch lohnt sich der Einsatz einer In-Memory-Technik? Das SAP Whitepaper weicht auf RoI-Berechnungen für Analyse-Anwendungen aus. Laut einer Analyse der Univerty of Texas könnte ein Unternehmen mit einem Umsatz von 12 Milliarden Euro über fünf Jahre hinweg zusätzlich 45 Millionen Euro erwirtschaften.

Voraussetzungen wären, es ist ein typisches Fortune-1000-Unternehmen, es verfügt über entsprechend kompetente und befugten Mitarbeiter mit guten Analyse-Instrumenten, die helfen „Trends und Nachfragemuster genauer erkennen, fundiertere Empfehlungen für Entscheidungen aussprechen und das Profile Matching optimieren. Ein solches Unternehmen könnte durch Verkäufe an Neukunden ein zusätzliches Umsatzplus von jährlich 10 Millionen Euro realisieren.

Die Formel für den RoI

Die Universität gibt sogar eine Formel an die Hand, mit der sich der Return on Investment berechnen lässt:

(Bild: SAP-Whitepaper "Informationen für jedermann")

Doch auch für den Mittelstand kann sich eine schnelle Entscheidung durch Analyse rechnen, etwa wenn in die Kataloge mit den Stücklisten ein neues Bauteil, Werkzeug integriert werden muss. Dann ist es notwendig zu wissen, wie sich unter Umständen das Preisgefüge ändert.

Ein Maschinenbauer ist wiederum in der Lage, in Sekundenschnelle zu analysieren, inwiefern sich die Herstellung seiner Maschine verteuert, wenn ein Bauteil nicht mehr lieferbar ist, und wie sich das längerfristig auf die Profitabilität seines Unternehmens auswirkt.

(ID:35544410)