Welches Hadoop darf's denn sein?

Planungshilfe für Big Data Welches Hadoop darf's denn sein?

30.09.2015Autor / Redakteur: Jens Kröhnert / Nico Litzel

Zukunftsorientiert, wirtschaftlich und flexibel – es gibt viele Gründe, die Hadoop zur Allzweckwaffe für den Übergang in das Big-Data-Zeitalter machen. Das große Spektrum an Möglichkeiten wirft bei IT-Verantwortlichen aber auch zahlreiche Fragen auf.

Anbieter zum Thema

QUNIS GmbH

BigData-Insider

Fivetran Germany GmbH

ORAYLIS GmbH

Die Möglichkeiten einer Hadoop-Integration sind äußerst vielfältig. Im Rahmen des dargestellten Entscheidungsbaumes werden zumindest die gängigsten Anwendungssituationen durchgespielt.
(Bild: Oraylis GmbH)

„Wir brauchen Hadoop!“, hallt es gegenwärtig weltweit aus Entscheiderkreisen, wenn es um die Zukunft der unternehmenseigenen Business Intelligence (BI) geht. Das Open Source Framework der Apache-Gemeinde hat sich fraglos als Standard für Big Data etabliert.

Die geringen Kosten sind nur eines von vielen Argumenten: Hadoop und seine Distributionen, wie etwa die Hortonworks Data Platform (HDP), können lizenzfrei und bei Bedarf sogar auf günstiger Standard-Hardware betrieben werden. Dazu locken vollkommen neue Geschäftsideen, da sich Datenbestände in bislang ungekannter Vielfalt und Menge verarbeiten lassen.

Gleichzeitig erlaubt die Technologie Abfragen über SQL – sprich: Anwender, die mit relationalen Datenbanken umgehen, werden sich auch in der Hadoop-Welt zurechtfinden. Nicht zuletzt gibt es dank der offenen Entwicklungsumgebung für jedes gängige Praxisszenario passende Lösungsbausteine.

Die Qual der Wahl

Doch gerade der Segen der Flexibilität kann auch zum Fluch werden. Denn: Welche Hadoop-Variante ist für die eigenen Anforderungen die richtige? Wie geht man in diesem Zusammenhang mit sicherheitsrelevanten Daten um? Ist die berüchtigte Cloud eine Option? Inwieweit kann ich die Technologie selbst installieren? Die Liste der Fragen lässt sich beliebig erweitern. Ein Blick auf typische Anwendungssituationen bringt Licht ins Dunkel.

„On-premise“ in einer Linux-Umgebung

Vor allem in Deutschland wird das Thema Sicherheit weiterhin groß geschrieben. Daher besteht ein hoher Bedarf an Lösungen, bei denen Datenbestände „On-premise“, also intern oder auf lokalen Ressourcen gehalten werden. Für die allgemein übliche Linux-Serverlandschaft bietet Hadoop eine besonders kostengünstige Option: Die Technologie kann auf der bereits vorhandenen Hardware betrieben werden.

Voraussetzung ist jedoch, dass die Rechner der Cluster-Knoten hinsichtlich Leistung und Speicher möglichst identisch ausgestattet sind. Andernfalls gestaltet sich die Installation äußerst komplex, wobei sich Fehler unmittelbar auf die Abfrage- und Analyse-Performance auswirken.

Know-how ist Pflicht

Daran zeigt sich auch: Wer Hadoop in Eigenregie betreiben möchte, der sollte über entsprechendes Know-how im Unternehmen verfügen. Ebenso kann sich die Unterstützung externer Berater als sinnvoll erweisen. Sonst schlägt der vermeintliche Kostenvorteil schnell ins Gegenteil um.

Der führende Hadoop-Anbieter Hortonworks bietet ein „Jumpstart“-Programm an, bei dem ein Cluster innerhalb von einer Woche hochgezogen und bereitgestellt wird. Zudem hält das Unternehmen im Rahmen eines Support-Abos einen Rundum-Service für den laufenden Betrieb bereit.

Vorkonfigurierte Lösung für Windows

Für den On-premise-Einsatz in einem Windows-Umfeld steht eine eigene Hadoop-Version zur Verfügung. Sie ist das Resultat der Microsoft-Partnerschaft mit Hortonworks und basiert folgerichtig auf der HDP. Darüber hinaus hat Microsoft die Hortonworks-Distribution zur Hadoop-Plattform HDInsight weiterentwickelt.

Nach Aussage des Herstellers fällt die Implementierung der Windows-Variante auf der eigenen Hardware prinzipiell leichter als im Linux-Bereich. Sinnvoll ist die Verwendung allemal, wenn die passenden Server in einem Unternehmen bereits vorhanden sind. Hierbei hat Microsoft für die Bereitstellung, Verwaltung und Überwachung eigens das Hadoop-Framework Ambari in sein System Center bzw. den Operations Manager integriert.

Einfacher gestaltet sich der Einstieg in die Hadoop-Welt mit einer vorkonfigurierten Appliance. Ein anschauliches Beispiel bildet das Analytics Platform System (APS). Die „schlüsselfertige“ Komplettlösung basiert einerseits auf dem „Massively Parallel Processing“ (MPP) des Parallel Data Warehouse (PDW), in dessen Kontext die strukturierten Datenbestände des SQL-Servers verarbeitet werden. Andererseits wurde mit HDInsight eine Komponente beispielsweise für unstrukturierte Massendaten integriert.

Die Abfragetechnologie „PolyBase“ sorgt schließlich dafür, dass die beiden Welten mittels SQL auch von Fachanwendern nahtlos, transparent und flexibel verknüpft werden können. Das APS lässt sich im Regelfall sehr einfach in ein bestehendes BI-Umfeld einbinden. Vorhandene Data Marts, DWHs und Hadoop-Cluster können umfassend konsolidiert bzw. integriert werden. Ebenso ist eine Auslagerung der unstrukturierten Daten in die Cloud möglich. Zudem kann die Anwendung bis in den Multi-Peta-Bereich linear skaliert werden, sodass man auch für künftige Big-Data-Szenarien gerüstet ist.

Datenmanagement in der privaten Cloud

Im Windschatten von Big Data bahnt sich auch die Cloud unaufhaltsam ihren Weg. Beliebig skalierbare Rechen- und Speicherressourcen, die auf Abruf bereitstehen – das klingt nach guten Voraussetzungen für das neue Datenzeitalter. So öffnet sich selbst die kritische, deutsche Klientel zunehmend der Thematik. Denn: Neben den Vorteilen der Wirtschaftlichkeit und des einfachen Handlings halten Cloud-Anbieter mittlerweile auch für Sicherheitsfragen die passenden Antwort bereit.

Für den Hadoop-Einsatz auf Linux lässt sich beispielsweise eine sogenannte Private Cloud mittels HDP einrichten. Dabei werden die Cluster auf gesonderten Servern ausgerollt, die ausschließlich für den eigenen Gebrauch bereitstehen. HDP deckt in diesem Kontext das gesamte Spektrum von der Speicherung über das Management bis hin zur Analyse der strukturierten und unstrukturierten Massendaten ab. Auf diese Weise können virtuelle Rechnerverbünde aufgebaut werden, die die gleichen Arbeitsprozesse wie eine On-premise-Lösung übernehmen.

Unternehmen haben somit die Möglichkeit, Zukunftsszenarien kostengünstig zu antizipieren und einen fließenden Übergang in die Big-Data-Ära geschaffen werden. Ebenso lässt sich eine hybride Umgebung anlegen, bei der etwa personenbezogene Daten konsequent on-premise gehalten werden können, während man per se unkritische Quellen wie Sensoren oder Weblogs per Cloud verwaltet.

Über den Azure Marketplace lässt sich ein privates HDP-Cluster mithilfe des Wizard-Assistenten sehr einfach aufbauen. Dabei können die Clustergrößen frei gewählt und je nach Bedarf aufgestockt oder verringert werden. Das seit HDP 2.3 verfügbare Cloudbreak bietet sogar die Möglichkeit, diese Vorgänge zu automatisieren: Etwaige Lastgrenzen werden im Vorfeld definiert. Wenn man diese erreicht hat, vergrößert das System selbstständig die Anzahl der Knoten. Indes werden bei einer „Unterbeschäftigung“ die Ressourcen automatisch wieder zurückgefahren.

„Hadoop as a Service“

Wird indes Wert auf eine einfache und kostengünstige Nutzung gelegt, dann ist der HDInsight-Service auf Microsofts Cloud-Computing-Plattform „Azure“ zu bevorzugen. Nicht nur die Integration in die Microsoft-Welt fällt auf diesem Weg wesentlich leichter, da beispielsweise C# anstelle von Java als Programmiersprache genutzt wird.

Auch das Handling durch den Anwender gestaltet sich komfortabler. Es ist keinerlei Know-how zur Infrastruktur oder der Konfiguration erforderlich. Vielmehr erfolgt die Navigation über eine intuitiv zu bedienende Web-Oberfläche, auf der Cluster in beliebiger Größe erzeugt und auch während des Betriebs verändert werden können. Ebenso lässt sich die Hinzunahme oder Verringerung von Speicherressourcen terminieren bzw. automatisieren.

Ein besonderer Benefit ist dabei, dass Datenimport und -export auf einem anderen Speicher-Container stattfinden können, als dem HDInsight-Cluster. Das heißt: Die betreffenden Daten – etwa von Sensoren – laufen über den Tag hinweg im Speicher auf. In der Nacht startet ein gebuchtes HDInsight-Cluster automatisch mit der Transformation der Daten und schiebt diese schließlich wieder zurück. Danach schaltet sich das Cluster selbstständig wieder ab. Somit handelt es sich auch um eine äußerst wirtschaftliche Lösung, da letztendlich nur für die Zeit bezahlt wird, in der das Cluster online war.

Fazit: Sicherheit ist kein Argument

Cloud oder on-premise? Das ist also eine der Kernfragen, die sich bei der Auswahl der passenden Hadoop-Technologie stellt. Dabei wird die Sicherheit als wichtigstes Argument für eine interne Datenhaltung oftmals überbewertet. Nicht nur, dass Cloud-Anbieter inzwischen ebenso umfassende wie effektive Schutzfunktionen bieten. Gleichzeitig müssen sich die On-premise-Befürworter vergegenwärtigen, dass auch hinter der eigenen Firewall viele Gefahren lauern können.

Hardware, die bereits verwanzt geliefert wird, ist hierfür nur eines von zahlreichen Beispielen. Daher sind auch in diesem Kontext umfangreiche Sicherungsmaßnahmen erforderlich, angefangen bei einer leistungsfähigen Security-Architektur bis hin zur Verschlüsselung von ruhenden und bewegenden Daten. So ist es immer weniger von Belang, wo sich der Hadoop-Cluster letztendlich befindet.

Insofern macht eine konsequente Datenhaltung „on-premise“ nur noch Sinn, wenn per se sämtliche Bestände auf internen Ressourcen vorliegen und entsprechend verschoben werden müssten. Währenddessen sehen sich die Unternehmen in Zukunft noch stärker mit den schnell wechselnden und wachsenden Anforderungen einer modernen Geschäftswelt konfrontiert. Zum Erhalt der Wettbewerbsfähig wird ein hohes Maß an Flexibilität erforderlich sein, dass letztendlich nur Cloud-basierte Hadoop-Lösungen gewährleisten können. Entsprechend werden diese auch immer mehr an Bedeutung gewinnen.

(ID:43582914)