Die Cloud und Big Data, eine natürliche Symbiose

Big-Data-Betriebsmodell Cloud Computing Die Cloud und Big Data, eine natürliche Symbiose

01.06.2015 Von Dipl. -Ing. Thomas Drilling

Anbieter zum Thema

Die Big-Data-Analyse im Betriebsmodell Cloud Computing eröffnet auch kleinen Unternehmen die Chance, von Big Data zu profitieren. Mehr und mehr Anbieter verknüpfen Schlüsseltechnologien wie Hadoop mit sehr individuellen Big-Data-Lösungen und Frameworks auf Cloud-Basis.

Big Data & Cloud: natürliche Symbiose(Bild: EMC) — Big Data & Cloud: natürliche Symbiose
(Bild: EMC)

Mehr und mehr Verantwortliche im Unternehmen erkennen den wahren Wert der in ihrem Unternehmen kontinuierlich anwachsenden Datenmengen. Warum diese also nicht auch ohne explizite Big-Data-Ambitionen kosteneffizient analysieren, statt sie nur mehr oder weniger zu verwalten? Der Erkenntnisgewinn aus der Korrelation unterschiedlichster Datenquellen – und stammen sie nur aus dem eigenen Haus – kann überraschend sein und vielleicht völlig ungeplant ein neues Geschäftsmodell aufzeigen.

Big Data in Deutschland 2015

Seit gut fünf Jahren ist Big Data in Deutschland ein Begriff. Von einem Hype im negativen Sinne kann man 2015 allerdings nicht mehr sprechen. Den gab es in den Jahren 2013 und 2014. Heute ist Big Data auch in Deutschland in der Realität angekommen. Die Befürchtung vieler Analysten, dass nach dem üblichen „Durchsdorftreiben einer neuen Sau“ Ernüchterung eintrete, hat sich nicht bewahrheitet. Big Data wird nicht wieder verschwinden.

Nachdem viele Unternehmen die vergangenen zwei Jahre genutzt haben, eigenes Know-how aufzubauen und insbesondere im vergangenen Jahr bestehende Fördertöpfe des Bundes ausgeschüttet wurden, widmen sich vor allem große Organisationen jetzt dem Implementieren neuer datengetriebener Geschäftsmodelle. Wie aber können auch kleine und mittlere Unternehmen die für Big Data erforderlichen Voraussetzungen stemmen? Nicht wenige fürchten nämlich einen Wettbewerbsnachteil, wenn sie nicht zeitnah in Big Data einsteigen.

Jetzt in einsteigen

Laut Kai-Oliver Schäfer, Leiter Insights & Data bei Capgemini, einem der weltweit größten Anbieter von Management-, IT-Consulting-, Technologie- und Outsourcing-Services, sei 2015 ein Wendepunkt im Big-Data-Markt erreicht. Das gehe aus einer Ende 2014 zum Thema in Auftrag gegebenen Studie hervor. Wenn Unternehmen jetzt nicht anfingen, die Chancen von Big Data zu nutzen, liefen sie Gefahr, ihre Wettbewerbsfähigkeit einzubüßen.

Dabei seien vielfältige Herangehensweisen an das Thema denkbar. Während viele Unternehmen Erkenntnisse aus Big-Data-Datenhaltung und/oder Analysen nur als Vehikel nutzten, um Kosten zu senken oder ihre Leistungsfähigkeit zu steigen, betrachteten andere Unternehmen Big Data als Eintrittskarte in neue Märkte und Geschäftsmodelle. Letztendlich müsse jedes Unternehmen für sich den richtigen Weg ins Big-Data-Zeitalter finden und den passenden geschäftlichen Nutzen aus internen und externen Daten ziehen.

Kai-Oliver Schäfer, Leiter Insights & Data bei Capgemini(Bild: Capgemini) — Kai-Oliver Schäfer, Leiter Insights & Data bei Capgemini
(Bild: Capgemini)

Schnelligkeit ist Trumpf

Insbesondere das Erschließen neuer Geschäftsmodelle biete künftig zahlreiche Anknüpfungspunkte mit anderen zukunftsweisenden Trends wie dem Internet der Dinge, Industrie 4.0 und Cloud Computing. Letztlich geht es, so Paul Maritz, Chief Executive Officer der EMC-Tochter Pivotal, vor allem um Schnelligkeit bei der Nutzung von Big Data. Viele Unternehmen haben noch immer nicht verstanden, dass es bei Big Data nicht nur darauf ankomme, Daten aus verschiedenen Quellen zu verarbeiten und auszuwerten, um darauf schnell reagieren zu können. Unternehmen müssten vielmehr ihr gesamtes Handeln an den gewonnenen Erkenntnissen ausrichten.

So haben laut der oben zitierten Studie schon über 20 Prozent der befragten Führungskräfte die eigene IT-Abteilung für Data-Analytics-Projekte übergangen, weil sie Big Data eine große strategische Bedeutung zusprechen, die in klassischen IT-Abteilungen verhafteten Denkweisen aber der Etablierung neuer, auf Big-Data-Analytics basierender Geschäftsideen im Wege stünden.

Und das, ganz ungeachtet der Frage, ob gerade kleine Unternehmen überhaupt die benötigten Ressourcen in Form von Kapital und Know-how zum Bereitstellen der erforderlichen Infrastruktur stemmen können. Ob es in diesem Zusammenhang in absehbarer Zeit zu den eruptionsartigen Marktverschiebungen kommt, das bleibt abzuwarten. Während Hersteller, Investoren und Börse jetzt aufs große Geldverdienen warten, ist für Unternehmen noch nicht unbedingt klar, ob und wann sich Big Data für sie rechnet.

Einstiegshürde

Für Big-Data-Einsteiger ist das derzeit noch recht unübersichtliche Angebot an Lösungen rund um Hadoop und YARN ein weiteres Problem. Der Big-Data-Zoo hat mittlerweile beträchtliche Ausmaße angenommen. Seit Anfang des Jahres versucht daher die von Pivotal und Hortonworks initiierte Open Data Platform, Struktur in das Angebot zu bringen. Mit EMC, VMware, IBM, Capgemini, Splunk, GE, Terradata und SAS stehen immerhin namenhafte Unternehmen hinter dem Versuch, das bislang recht fragmentierte Hadoop-Ökosystem mit einer stabilen Referenzplattform auf Basis von Hadoop 2.6 und Ambari 2.0 für die Installation und Verwaltung von Hadoop-Clustern zu vereinheitlichen. Dennoch bleibt die Implementation einer Big-Data-Lösung für viele kleine Unternehmen eine Herausforderung.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Big Data und die sieben „V“

Eine wesentliche Eigenschaft verteilter Systeme wie Hadoop ist die nahtlose Zusammenarbeit des Quasi-Cluster-Managers YARN (Yet Another Resource Negotiator), der sich um das verteilte Rechnen an sich und das Verwalten und Verteilen sämtlicher Hadoop-Applikationen kümmert, und dem verteilten Dateisystem HDFS. Hadoop fasst Hunderte bis Tausende einzelnen Rechner zu einem verteilten System zusammen, um darauf „verteilt“ Applikationen laufen zu lassen.

Von den – je nach Interpretation – drei, vier fünf oder sieben „V“, die sich aus der klassischen Big-Data-Definition von Gartner mit 1. (Volume), 2. (Velocity), 3. (Variety), 4 (Variability), 5. (Veracity), 6. (Visualisation) und 7. (Value) ableiten, wären insbesondere die Aspekte Volume und Velocity gar nicht erst denkbar, müssten zur Laufzeit von Hadoop-Jobs erst Hunderte von Gigabyte an Daten jedes Mal über das Netz kopiert werden. Stattdessen wird in einer Hadoop-Umgebung schlicht der jeweilige Programmcode zu den betreffenden Daten kopiert.

Die verschiedenen Spezialisten im Hadopp-Ökosystem, allen voran die NoSQL-Fraktion, die auf das Verarbeiten von Echtzeitdatenströmen spezialisierten Spezies wie Flink oder Storm, Speicher-Spezialisten wie (Hive) oder die auf Geschwindigkeit optimierte, parallele Execution-Engine Spark, sorgen durch YARN zur harmonischen Zusammenarbeit getriggert dafür, dass sie im verteilten HDFS-basierten Storage-Cluster nicht nur nach und nach der Rohstoff für das Industrie-4.0-Zeitalter ansammelt, sondern sich auch nahezu auf Knopfdruck Erkenntnisse gewinnen lassen, die ohne die Verknüpfung strukturierter und unstrukturierter Daten noch vor wenigen Jahren kaum vorstellbar war.

Big Data aus und mit der Cloud

Das insbesondere kleine und mittlere Unternehmen immer noch zögern, vom Erkenntnisgewinn aus Big Data ihren Nutzen zu ziehen, liegt vor allem daran, dass sie zur Realisierung einer Big-Data-Analyseplattform erforderliche Investitionen scheuen. Laut der von IDC bereits Ende 2013 in Deutschland durchgeführten Studie „Big Data und Datenstrategien in Deutschland 2013“ rechnen viele Unternehmen mit einem erheblichen Implementationsaufwand für Datenspeicherung, Datenmanagement, Datensicherheit und die Datenbereitstellung.

Laut einer IDC-Studie von Ende 2013 sehen viele kleine Unternehmen Hadoop und Big Data immer noch nur als Vehikel zum Speichern großer Datenmengen.(Bild: IDC) — Laut einer IDC-Studie von Ende 2013 sehen viele kleine Unternehmen Hadoop und Big Data immer noch nur als Vehikel zum Speichern großer Datenmengen.
(Bild: IDC)

Ein Ausweg, insbesondere den Implementationsaufwand für Datenbereitstellung und Datenspeicherung zu senken, liegt in einer Symbiose zwischen Big Data und Cloud. Das Betriebsmodell Cloud Computing kann daher für Big Data als Türöffner fungieren, weil es die Auswertung großer Datenmengen bereits in vielen Punkten unterstützt. Mit einer Big-Data-Analyse in der Cloud können auch kleine Unternehmen mit überschaubarem Aufwand in Big Data einsteigen.

Mit den relativ klar definierten Servicemodellen der Cloud-Anbieter generieren Unternehmen sogar ganz ohne Entwicklungsumgebung eigene Big-Data-Produkte, bei denen sich große Datenmengen auf Basis einer IaaS-Plattform speichern und verarbeiten lassen. Die eigentliche Analyse findet dann mithilfe bestehender, aber via Cloud bereitgestellter Standardsoftware auf virtualisierten Umgebungen statt. Einige Big-Data-Plattformen bieten darüber hinaus bereits selbst Dienste, die in einer Cloud-Struktur zur Verfügung stehen und kein internes Know-how voraussetzen.

T-Systems Dynamic Services for SAP HANA

Ein passende Lösung auf Basis von SAP HANA bietet beispielsweise T-Systems mit „Dynamic Services for SAP HANA“, ein Angebot, mit dem nicht nur Großunternehmen ihre Big-Data-Strategien mithilfe gänzlich neuer Rechen- und Speicheroptionen vergleichsweise einfach umsetzen können. Verlagern Unternehmen die Big-Data-Verarbeitung in die Cloud, beispielsweise mithilfe vom SAP HANA, verringern sich nicht nur Bereitstellungskosten, sondern auch Daten-Durchlaufzeiten und damit die Betriebskosten.

Dynamic Services for SAP HANA wurde von T-Systems und SAP gemeinsam entwickelt und integriert SAP HANA als In-Memory-Datenbank mit ihrem Nearline-Storage-Prinzip, bei dem nur die häufig genutzten Daten im Hauptspeicher landen, während der Rest automatisch auf kostengünstigere Speichermedien ausgelagert wird, mit Sybase ASE (Adaptive Server Enterprise) und Sybase IQ. Konkret stellt Dynamic Services for SAP HANA alle benötigten Technologien als standardisierte, industrialisierte und integrierte Bausteine, maßgeschneidert abgestimmt auf die Cloud Services von T-Systems zur Verfügung. Unternehmen finden so nicht nur einen möglichst einfachen Einstieg in die Welt von SAP HANA, sie werden auch in die Lage versetzt, HANA-Entwicklungsumgebungen aus der Cloud zu nutzen. So können sie gleichermaßen erste Erfahrungen im Umgang mit SAP HANA sammeln, profitieren aber auch von den T-Systems-Cloud-Lösungen an sich, indem sie die benötigten Infrastrukturen, etwa im Rahmen der T-Systems DSI vCloud, anwenden, ohne sie selbst betreiben zu müssen. Der Verbrauch wird – wie bei Public Clouds üblich – nach dem jeweiligen Verbrauch abgerechnet.

Big-Data- und Cloud-Portfolios vom IBM und Microsoft

Während die Lösung von T-Systems und SAP bereits out-of-the-Box für Big-Data-Analysen in der Cloud konzipiert ist, finden sich bei anderen Großen der Branche wie IBM und Microsoft zumindest alle Module, die der versierte Solutions-Architekt zum Realisieren eines solchen Szenarios benötigt. Als weiteres Beispiel sei die Kombination aus IBM InfoSphere BigInsights, IBM InfoSphere Streams und IBM SmartCloud (Soft Layer) genannt. Hier dient IBM InfoSphere BigInsights dem Analysieren beliebiger Datentypen aus Hadoop-Clustern, während sich IBM InfoSphere Streams um die kontinuierliche Analyse von Streaming-Daten in Echtzeit kümmert.

IBM InfoSphere BigInsights bietet bereits weitreichende Analyse-Funktionen wahlweise on premise oder als Service in der Bluemuix PaaS, setzt aber einen Hadoop-Cluster voraus.(Bild: IBM) — IBM InfoSphere BigInsights bietet bereits weitreichende Analyse-Funktionen wahlweise on premise oder als Service in der Bluemuix PaaS, setzt aber einen Hadoop-Cluster voraus.
(Bild: IBM)

Was die Cloud an sich betrifft, ist IBM bekanntlich seit einiger Zeit damit befasst, seine IaaS-Cloud-Angebote auszulagern. Mit der im Sommer 2013 erfolgen Akquisition des Unternehmens SoftLayer hat Big Blue sein SmartCloud-Portfolio um mehrere Rechenzentren erweitert und ist ebenfalls in der Lage, skalierbare und dedizierte Rechenressourcen für Big Data in der Cloud bereitzustellen. IBM stellt eine kostenlose Trial-Version von BigInsights on Cloud zum Ausprobieren zur Verfügung – wahlweise für den On-Premise-Betrieb auf Basis einer bestehenden Hadoop-Umgebung (als VM-Image oder native Software) sowie auf IBMs Bluemix-PaaS.

IBM InfoSphere BigInsights als Bluemix-Service(Bild: IBM) — IBM InfoSphere BigInsights als Bluemix-Service
(Bild: IBM)

Cloud-Hadoop mit Azure

Auch auf Basis von Windows Azure lässt sich ein vergleichbares Bereitstellungsmodell konstruieren, etwa in der Kombination aus Windows Azure als Cloud-Platform, Windows Azure HDInsight als Hadoop-Cluster in Azure, sowie Microsoft StreamInsight.

Mit Windows Azure HDInsight können Unternehmen eines Hadoop/HDP-Cluster in der MS-Cloud betreiben(Bild: Microsoft) — Mit Windows Azure HDInsight können Unternehmen eines Hadoop/HDP-Cluster in der MS-Cloud betreiben
(Bild: Microsoft)

Auch mit diesem Setup ist es möglich, via Hadoop und MapReduce riesige Mengen an Daten kostengünstig zu verarbeiten. Allerdings scheint IBMs InfoSphere Streams zum Verarbeiten von Streaming-Daten ausgereifter und besser ausgebaut, da die Lösung speziell auf den Einsatz im Unternehmen ausgerichtet ist. Microsoft baut bei Big-Data-Analysen auf die Integration der eigenen BI-Tools in Form von Erweiterungen für MS SQL Server und MS Excel, was aber möglicherweise die Hemmschwelle für den Erstkontakt bei Nutzern senkt.

IBM und Microsoft im Vergleich

Die jeweiligen Bereitstellungsmodelle sind allerdings recht unterschiedlich. Microsoft kombiniert mit Windows Azure HDInsight Big-Data-Funktionen mit Funktionen einer PaaS-Plattform, während IBMs Modell eher einem IaaS-Ansatz gleicht, sieht man mal davon ab, dass BigInsights an sich auch in der Bluemix-PaaS verfügbar ist. Seit der Übernahme von SoftLayer müssen potenzielle Kunden bei IBM jetzt allerdings auf die IaaS-Dienstleistungen von SoftLayer ausweichen.

In jedem Fall müssen Systemarchitekten sowohl bei IBM als auch bei Microsoft hinreichend Know-how mitbringen, um eine geeignete Analyse-Umgebung zu konfigurieren, etwa im Vergleich zum sehr recht speziellen, auf SAP HANA abgestimmten Angebot von T-Systems. Dafür lassen sich mit den Lösungen von IBM und Microsoft aber je nach Bedarf ganz verschiedene Szenarien abdecken, etwa das schnelle Auswerten sehr großer Mengen an Echtzeitdaten oder eine jederzeit mögliche Ad-hoc-Auswertung historischer Daten. Beide Lösungen stellen für Unternehmen aber eine wesentliche Vereinfachung gegenüber dem Versuch dar, sich mit Hadoop/YARN oder einer der zahlreichen Hadoop-Distributionen selbst eine Analyse-Plattform aufzubauen, denn das reine Bereitstellen eines Hadoop-Clusters markiert ja in jedem Fall nur den Anfang.

Fazit

Die Cloud ist nicht nur eine willkommene Ergänzung für kleine Unternehmen, um Big-Data-Projekte überhaupt mit vertretbarem Aufwand umsetzen zu können. Sie ist für kleine Unternehmen auch notwendige Voraussetzung, um Big Data effektiv nutzen zu können, weil die benötigten IT-Ressourcen stets schnell und in der exakt benötigten Menge zur Verfügung stehen und bei Bedarf entsprechend skalieren.

Da dadurch die notwendigen Investitionen für Unternehmen sinken, eröffnet die Allianz von Big Data und Cloud interessante integrierte Analysemethoden, deren Ergebnisse unmittelbar in Geschäftsentscheidungen einfließen und auch neue Geschäftsprozesse generieren können.

So könnte etwa, um das eingangs erwähnte Beispiel mit SAP HANA aufzugreifen, Ergebnisse von Analysen mithilfe vom SAP HANA unmittelbar in Geschäftsentscheidungen einfließen oder gar neue Geschäftsprozesse erzeugen. Allerdings setzen die verschiedenen Anbieter die Verknüpfung von Cloud Computing und Big Data sehr unterschiedlich um.

(ID:43343266)