Big Data und Cloud Computing Die besten Cloud-Lösungen zur Datenanalyse

Autor / Redakteur: Thomas Joos / Nico Litzel

Big Data lässt IT-Verantwortliche an schnelle Server denken, etwa an spezielle Datenbank-Server, die installiert, lizenziert und gewartet werden müssen. Doch es gibt eine Alternative: Cloud Computing.

Anbieter zum Thema

Für Big Data brauchen Unternehmen nicht zwangläufig eine lokale Infrastruktur. Zahlreiche Unternehmen bieten Hadoop-Lösungen auch als Cloud-Dienst an.
Für Big Data brauchen Unternehmen nicht zwangläufig eine lokale Infrastruktur. Zahlreiche Unternehmen bieten Hadoop-Lösungen auch als Cloud-Dienst an.
(Bild: © mikkolem - Fotolia.com)

Beim Betrieb von Big Data in der Cloud spielt für die meisten Unternehmen vor allem die Zusammenarbeit mit Hadoop eine wichtige Rolle. In diesem Bereich spielen die beiden Cloud-Platzhirsche Amazon mit Amazon Web Services (AWS) und Microsoft mit Microsoft Azure eine besonders wichtige Rolle. Beide Cloud-Dienste bieten extrem schnelle virtuelle und cloudbasierte Server mit integrierten Big-Data-Diensten. Neben den beiden größten Unternehmen in diesem Bereich gibt es aber auch einige kleinere, die Hadoop-Lösungen als Cloud-Dienst anbieten.

Elastic MapReduce und Microsoft Azure HDInsight

Microsoft bietet in Microsoft Azure einen Hadoop-Cluster mit der Bezeichnung HDInsight. In AWS gibt es ebenfalls einen Hadoop-Dienst. Dieser trägt die Bezeichnung Elastic MapReduce.

Die Datenspeicherung für Big Data erfolgt in AWS über den Cloud-Dienst Simple Storage Services (S3). Wie bei Microsoft auch, müssen die Clusterknoten nicht selbst installiert werden. Administratoren oder Entwickler können direkt auf Hadoop aufbauen, ohne das zugrunde liegende Betriebssystem verwalten zu müssen.

Rackspace Cloud Big Data Platform

Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Auch hier müssen Administratoren die Server nicht selbst verwalten, sondern die Big-Data-Platform wird vom Anbieter verwaltet. Durch die relativ günstigen Kosten können auch kleinere Unternehmen auf Big Data setzen. Die Preisliste ist auf der Seite des Anbieters zu finden. Unternehmen, die Big Data in die Cloud auslagern wollen, sollten sich neben Azure und AWS auch Rackspace anschauen und in den Vergleich mit einbeziehen.

Apache Hadoop und Google Cloud Platform

Wer Google genügend Vertrauen entgegenbringt, kann Hadoop auch auf der Google Cloud Platform betreiben. Von allen Anbietern hat Google sicherlich die größte Erfahrung, wenn es um den Betrieb von Lösungen mit großen Datenmengen geht. Wie bei Microsoft Azure und Amazon AWS können interessierte Unternehmen die Plattform kostenlos testen. Googles Platform unterstützt auch Docker. Unternehmen können diese quelloffene Container-Technologie also auch im Bereich Big Data nutzen.

In diesem Bereich gibt es mit Cloudbreak jetzt eine Möglichkeit, Hadoop direkt mit Docker-Technologien zu verbinden. Die Technik soll noch ausgebaut werden, sodass bestimmte Anwendungen, wie Hadoop, nicht mehr auf einer virtuellen Maschine laufen, sondern in einem Docker-Container innerhalb eines Google-Clusters. Dadurch wird die Lösung wesentlich flexibler und skalierbarer.

SAP HANA – In-Memory-Technik aus Deutschland

Natürlich darf bei der Verarbeitung großer Datenmengen auch SAP nicht fehlen. Mit SAP HANA (High-Performance Analytics Appliance) bietet SAP die Möglichkeit, Big Data im eigenen Unternehmen zu betreiben, aber auch als Platform Service, also als reiner Cloud-Dienst. Unternehmen, die bereits mit SAP arbeiten, sollten sich die Möglichkeiten von SAP HANA ansehen, da hier bereits die notwendigen Schnittstellen zur Verfügung stehen. Nachteil von SAP ist allerdings, wie auch in anderen Bereichen, der recht hohe Preis und die relativ komplizierten Lizenzgebühren. Diese werden entweder auf Basis eines bereits abgeschlossenen Wartungsvertrages mit SAP berechnet oder über den Arbeitsspeicher, der zur Berechnung der Daten verwendet wird. Derzeit setzen vor allem große Unternehmen wie Coca Cola, Procter & Gamble, Bosch oder Siemens auf die Big-Data-Lösung.

IBM InfoSphere BigInsights

IBM ist derzeit wohl der Marktführer, sowohl bei lokalen Big-Data-Lösungen als auch bei Cloud- Lösungen. InfoSphere BigInsights gibt es in verschiedenen Ausrichtungen. Während sich Microsoft und Amazon bei Big Data eher auf Platform-as-a-Service (PaaS) konzentrieren, verfolgt IBM hier einen Infrastructure-as-a-Service-Ansatz (IaaS). In BigInsight wird ebenfalls mit Hadoop gearbeitet, allerdings etwas optimiert für IBM-Anwendungen und -Hardware.

Neben Hadoop lassen sich Daten mit IBM auch in Echtzeit analysieren. Dazu gibt es das Produkt InfoSphere Streams. Wie bei Amazon, Google und Microsoft, werden die virtuellen Server auf mehrere Rechenzentren weltweit ausgelagert.

Cloud-Big-Data-Plattform von HP: Haven

Auch HP mischt mittlerweile im lukrativen Big-Data-Markt mit. Auf Basis der Helion-Cloud bietet HP zukünftig auch einen Big-Data-Dienst mit der Bezeichnung „Haven“ an. Haven verwendet die HP-Big-Data-Lösung Vertica OnDemand und IDOL OnDemand. Unternehmen können Haven in verschiedenen Modellen lizenzieren, zum Beispiel über eine Managed Virtual Private Cloud. Entwickler können Informationen aus Social-Media-Netzwerken, Text, Bilder, Videos oder andere Datentypen über das Web analysieren lassen. Vertica OnDemand bietet die dazu notwendigen SQL-Funktionen.

(ID:43118214)