Suchen

Kommentar von Ingo Marienfeld, BMC Deutschland So automatisieren Sie Hadoop richtig

Autor / Redakteur: Ingo Marienfeld / Nico Litzel

Im digitalen Zeitalter gilt eine einfache Regel: Jedes Unternehmen ist ein IT-Unternehmen, denn Innovationen wie die Cloud, Big Data und das Internet der Dinge werden in immer mehr Branchen zu unverzichtbaren Erfolgsfaktoren. Trotzdem stellt gerade Big Data die IT-Abteilungen vor eine große Herausforderung. Oftmals gelingt es nicht, aus dem offenkundigen Potenzial der Technologie Kapital zu schlagen.

Firmen zum Thema

Der Autor: Ingo Marienfeld ist Geschäftsführer von BMC Deutschland
Der Autor: Ingo Marienfeld ist Geschäftsführer von BMC Deutschland
(Bild: BMC Deutschland)

Unternehmen experimentieren zwar mit Big Data, schaffen aber kaum Mehrwert. Dieser Befund gilt auch für Hadoop. Das Open Source Framework ist beeindruckend leistungsfähig und vielseitig, im Gegenzug aber ebenso einschüchternd und komplex. Um diesen Spagat zu schließen, sollten IT-Verantwortliche verstärkt auf die Automatisierung von Workloads setzen.

Das Ziel: Schneller in Produktion gehen

Ja, es stimmt also: Hadoop birgt zahlreiche Herausforderungen. Doch auf der anderen Seite lockt das Potenzial scheinbar grenzenloser Anwendungsmöglichkeiten. Einer Forrester-Studie zufolge experimentierten zwar 82 Prozent der befragten Unternehmen mit Big-Data-Lösungen, die auf Hadoop basieren. Lediglich 16 Prozent hatten hingegen ein Hadoop-System bereits in Produktion. Das zeigt, Unternehmen setzen auf die neue Technologie, beim Know-how sind sie aber oft etwas hinterher. Warum ist das so?

Hadoop fasziniert, denn es eröffnet ungekannte Wege der Datennutzung und schafft einen Mehrwert, indem es Risiken reduziert, die Produktentwicklung beschleunigt oder neue Marketing-Strategien ermöglicht – um die Anwendungsbeispiele überschaubar zu halten. Doch dieses Potenzial bereitet vielen Unternehmern auch Kopfzerbrechen. Oft als magische Erfolgsformel missverstanden, ist Hadoop zunächst ein Framework für skalierbare, verteilt arbeitende Software.

Als Datenquellen kommen E-Mail-, CRM- und ERP-Systeme sowie Logs unterschiedlichster Form in Frage. Hadoop füttert nach der Aufbereitung Anwendungen mit diesen Daten – entweder direkt oder indirekt über Analysetools. Teil des Ökosystems sind außerdem Datenbanken und Prozesse, die zusätzliche Funktionalitäten bereitstellen. Diese Komplexität überfordert viele IT-Abteilungen.

Unternehmen, die datengestützte digitale Services nutzen wollen, müssen mit Hadoop umgehen lernen. Keine ganz leichte Aufgabe, denn gleich drei Bereiche können Schwierigkeiten bereiten. Erstens gilt es die Umgebungsvariablen zu justieren: Alle Ressourcen und Komponenten, die für die Umsetzung eines Big-Data-Projekts benötigt werden, sollten vorhanden sein. Zweitens müssen Anwendungen entwickelt werden, die den Big Data Layer optimal ausnutzen. Und drittens müssen Analysetools und Software in Produktion gehen – diesen Schritt empfinden IT-Verantwortliche häufig als besonders entmutigend.

Die ideale Umgebung schaffen

Der Aufbau einer Hadoop-Umgebung kann einer IT-Abteilungen also schlaflose Nächte und eine hohe Problemlösungs-Bereitschaft abverlangen. Das Team muss den Hadoop-Cluster entwerfen und aufbauen, Abhängigkeiten ermitteln sowie die Netz- und Software-Infrastruktur konfigurieren. Als Open-Source-Technologie unterliegt Hadoop außerdem regelmäßigen Veränderungen; in kürzesten Abständen erscheinen Patches und neue Versionen, die aufgespielt werden sollten. Darüber hinaus gehört es zum Verantwortungsbereich der IT, dass Systeme reibungslos laufen. Je größer ein System ist, desto mehr Zeit und Geld verschlingen diese Aufgaben.

Automatisierung schafft Abhilfe: Die meisten der genannten Prozesse können im Grunde auch automatisch ablaufen. Entsprechende Lösungen sind auf dem Markt bereits verfügbar. Sie helfen dabei, das System auf dem neuesten Stand zu halten, erkennen, melden oder lösen Probleme und erleichtern IT-Verantwortlichen die Arbeit, indem sie einen Kontrollpunkt für alle Workloads zur Verfügung stellen.

Herausforderungen an die Anwendungsentwicklung

Anwendungsentwicklung ist nicht gleich Anwendungsentwicklung. Die Programmierung einer simplen Java-Anwendung erfolgt mit einem klaren Ziel im Blick, einzelne Codeabschnitte und Funktionen können schnellen Praxistests unterzogen werden. Nicht so bei Big-Data-Anwendungen. Ein Algorithmus etwa, der Kaufinteressen vorhersagen soll, muss fortlaufend verfeinert werden, um die Genauigkeit zu verbessern. Außerdem kann ein Code nur getestet werden, wenn dazu Daten verwendet werden, die in Volumen und Qualität möglichst nah an den Anwendungsfall heranreichen. Während dieser aufwendigen Tests ruht aber der Entwicklungsprozess.

Hadoop setzt – ähnlich wie andere Big-Data-Technologien – an vielen Stellen auf Batch-Workloads. Ehe ein Job ausgeführt werden kann, müssen oftmals Daten aus unterschiedlichsten Quellen gefiltert, aufbereitet oder aktualisiert werden. Dies verdeutlicht abermals den Unterschied zur Entwicklung einer simplen Java-Anwendung: Dort ist das Datenmaterial allenfalls von untergeordneter Bedeutung, in der Hadoop-Welt aber steht es im Zentrum.

Die Automatisierung vereinfacht es, neue Anwendungen zu entwickeln und zu testen. Doch alle Anforderungen des Tagesgeschäfts dürfen hierbei nicht vernachlässigt werden; Workloads gilt es entsprechend zu priorisieren. Intelligente Automatisierung hilft zudem, Produktionsdaten zu Entwicklungszwecken einzusetzen.

Produktion als Meisterprüfung

Der Sprung ins kalte Wasser ist erfolgt – die entwickelte Lösung geht endlich in Produktion. Noch sind aber nicht alle Herausforderungen gemeistert, im Gegenteil: Der Betrieb einer Big-Data-Plattform gestaltet sich fast noch komplexer als ihre Einrichtung. Zahlreiche Komponenten müssen zusammenwirken, damit der Betrieb aufrechterhalten werden kann: Zum Beispiel Systeme für ERP, ETL, Datenintegration, Analytics und Dateitransfers, aber auch IT-Services wie E-Mail, Monitoring und Change Management. Es reicht nicht aus, den Output einzelner Module zu kontrollieren – das Gesamtbild zählt: Liefert die Plattform, was das Unternehmen sich von ihr verspricht?

Darüber hinaus muss gewährleistet werden, dass die Anwendung sicher ist und die Compliance-Anforderungen erfüllt. Und auch wenn Systeme aus Entwicklung und Test auf die Daten der Plattform zugreifen, dürfen Service-Level-Agreements nicht verletzt werden. Es ist für die IT nicht einfach, dieses Maß an Kontrolle sicherzustellen. Hadoop-Systeme bestehen zuweilen aus Tausenden von Nodes – zu viele also, um sie von Hand zu überprüfen und zu warten. Compliance-Checks müssen automatisiert werden, so viel ist klar. Aber das allein reicht nicht aus: Auch dabei entdeckte Fehler sollten automatisch behoben werden.

Zu guter Letzt muss die Hadoop-Anwendung ihre eigene Performance im Blick behalten. Auf Anwendungs-Ebene bedeutet das, User Experience und Nutzungsverhalten zu dokumentieren. Auf Infrastruktur-Ebene hingegen geht es darum, Überlastungen oder Unterforderungen der Hardware automatisch zu erkennen und zu melden. Somit können gegebenenfalls Server hinzugeschaltet oder überschüssige Kapazitäten abgebaut werden. In diesem Zusammenhang kommt auch wieder die Workload-Automatisierung ins Spiel. Wenn sowohl Belastungsspitzen als auch Ruhephasen bekannt sind, können Workloads optimal terminiert werden.

Fazit: Automatisierung als Schlüssel

Den IT-Abteilungen, die lange am unteren Ende vieler Unternehmenshierarchien angesiedelt waren, kommt neuerdings eine zentrale Bedeutung für den Geschäftserfolg zu. Um ihrer gewachsenen Rolle gerecht zu werden, muss die IT in der Lage sein, neue Technologien perfekt zu beherrschen. Hadoop-Plattformen liefern ein gutes Beispiel. Sie zeigen, dass es einerseits um Know-how geht, andererseits aber auch um die intelligente Nutzung von Prozessen, die die Komplexität von Systemen reduzieren helfen. Die Automatisierung von Workloads ist der Schlüssel, um Hadoop-Lösungen schneller in Produktion zu bringen, zuverlässig zu kontrollieren und effizient zu nutzen. Nur wenn dies gelingt, entsteht für Unternehmen ein langfristiger Mehrwert.

(ID:44184629)