Open Source im Unternehmen

Das richtige Hadoop auswählen

| Autor / Redakteur: Fabian Wilckens* / Nico Litzel

(Bild: © scandinaviastock - Fotolia.com)

Bei der Suche nach einer geeigneten IT-Infrastruktur für Big Data landen Unternehmen früher oder später bei Hadoop. Datenverarbeitung und Analyse in großem Umfang treffen hier auf Open-Source-Charme und kostengünstige Commodity-Hardware. Dazu existieren Distributionen, die die Open-Source-Software auf den Einsatz im Unternehmen trimmen – ein scheinbar ideales Paket für Big-Data-hungrige Unternehmen mit einem Auge auf den Kosten.

Doch bei den Hadoop-Distributionen gibt es große Unterschiede. Bei der Open-Source-Variante finden Unternehmen im Einsatz einige Hürden, die sie zuvor nicht bemerkt hatten. Wer sich Gedanken über den Einsatz macht, sollte daher folgende Aspekte berücksichtigen.

Gesamtkosten und Lock-in im Blick behalten

Open Source wird zuweilen als Gratis-Lösung verstanden – oder wenigstens als deutlich günstiger im Vergleich zu kommerziellen Alternativen. Dies gilt gegebenenfalls für die reine Software, nicht aber im Hinblick auf die Gesamtkosten. Kommerzielle Lösungen, die auf Hadoop aufsetzen, benötigen für die gleiche Leistung häufig weniger Hardware und senken zusätzlich den Energieverbrauch. Zudem verringert sich der Administrationsaufwand durch Vorkonfigurationen und zusätzliche Serviceleistungen.

Dass Open Source nicht günstiger sein muss, zeigt sich am Beispiel eines Medienunternehmens, das seine acht HBase-Cluster zu einem mit MapR betriebenen Cluster konsolidieren und einen Großteil der Ressourcen einsparen konnte. Zugleich erlaubt das Datenbank-Konzept die parallele Ausführung von Betrieb und Analyse auf einer einzigen Plattform, sodass sich Snapshots einer Tabelle umgehend analysieren lassen.

Wer den von On-Premise-Lösungen bekannten Lock-in-Effekt fürchtet, sollte sich für ein Konzept entscheiden, dass über die gleichen Schnittstellen wie die Open-Source-Variante verfügt und Hadoop-Komponenten wie Spark, Hive oder Flume unterstützt. Dies bietet den Vorteil, dass sich Gratis-Lösungen beliebig einsetzen lassen und bei Bedarf an der richtigen Stelle durch weitere Funktionen ergänzt werden können. Die Unterstützung von NFS ist ebenfalls sinnvoll, da viele Anwendungen und Entwicklertools auf dieses Protokollformat zurückgreifen.

Skalierbarkeit: NameNodes als Flaschenhals

Wer viele Daten speichert, der kann auch skalieren – möchte man meinen. Die NameNode-Architektur von Hadoop erweist sich jedoch eher als ein Flaschenhals für die Skalierbarkeit: NameNodes sind eine Voraussetzung für Cluster, jedoch können Cluster nur gemäß der Größe der NameNodes skalieren. Wenn manuell konfiguriert, kann das dazu führen, dass auch eine ein Megabyte große Datei einen kompletten Zwei-Gigabyte-Speicherblock belegen kann. Administratoren müssen einen erheblichen Konfigurationsaufwand betreiben, um dies zu umgehen.

Zudem produzieren NameNodes einen sogenannten Single Point of Failure: Ein einziger Prozess kann einen gesamten Cluster funktionsunfähig machen. Das Datenmodell von HBase verfügt im Vergleich zu HDFS zwar über zusätzliche Funktionen, liefert jedoch nicht die nötige Ausfallsicherheit, da hier auf verdichteten Code zurückgegriffen wird und Datenverdichtungen im schlimmsten Falle zum Ausfall des kompletten Clusters führen können.

Hadoop-Distributionen mit einer verteilten Metadaten-Architektur können dieses Problem adressieren und die Limitierung der Blockgröße aufheben, um im Ergebnis nicht 100 Millionen, sondern Billiarden an Dateien zu verarbeiten. Eine hohe Verlässlichkeit lässt sich durch die Nutzung einer Read-Write-Funktion gewährleisten, über die das verteilte Dateisystem HDFS aber nicht in jeder Distribution verfügt.

Sicherheit: Snapshots und Verschlüsselung

Sicherheit spielt auch bei Big Data eine große Rolle – egal ob Datenschutz, Ausfallsicherheit oder Integrität. Besonders, wenn die Daten auf mehrere Cluster verteilt wird, wie es bei Hadoop standardmäßig der Fall ist. Backup-Funktionen für Hadoop-Cluster sorgen daher dafür, dass ein Produktivsystem weiterhin betrieben werden kann, sollten etwa beim Rollout einer neuen Softwareversion Probleme auftreten.

Doch die Funktionen der Open-Source-Variante sind hier eingeschränkt. Das Hadoop Distributed File System, kurz HDFS, behebt zwar Festplattenfehler – beschädigte Dateien reproduzieren sich jedoch von einem Cluster zum anderen. Menschliche Fehler zu beheben, wird mit HDFS zur Herausforderung, da die eingeschränkte Snapshot-Funktion dazu führt, dass sich Snapshots mit der Größe der kopierten Dateien verändern. Besitzt die gewählte Unternehmenslösung dagegen ein POSIX-kompatibles Dateisystem mit Random-Read-Write-Funktionen, sind Snapshots in Echtzeit kein Problem.

In der einfachen Open-Source-Version bietet Hadoop lediglich eine Kerberos-Authentifizierung und damit keine mehrstufigen Verschlüsselungsverfahren. Die Unterstützung der Linux Pluggable Authentification Modules (PAM) sollte daher in einer Unternehmens-Distribution gegeben sein, da hier der großvolumige Datentransfer zwischen den Nodes durch zusätzliche Verschlüsselung gesichert wird.

Support: richtige Unterstützung suchen

Viele Unternehmen verzeichnen einen Fachkräftemangel im IT-Bereich – laut einer aktuellen Bitkom-Studie insbesondere unter Software-Entwicklern, gefolgt von Anwendungsbetreuern und Administratoren. Dementsprechend zögern manche Unternehmen, Hadoop einzusetzen, da ihnen die internen Ressourcen für einen reibungslosen Betrieb fehlen. Wer allerdings nicht die reine Open-Source-Variante einsetzt, findet heute ein engmaschiges Supportnetz von Anbietern, die IT-Administratoren entlasten; so muss die Konfiguration von Blockgrößen oder die Wiederherstellung eines NameNodes nicht die gesamte Belegschaft beanspruchen und Unternehmen profitieren dennoch von der Big-Data-Leistung einer Hadoop-Lösung.

Fazit: das passende Hadoop auswählen

Unstrukturierte Daten im Internet der Dinge verwalten und Analysen in Echtzeit durchführen – Hadoop gilt für viele geschäftskritische Szenarios als geeignete Plattform. Die Einschränkungen von Open-Source-Software stehen dem nicht entgegen, da kommerzielle Weiterentwicklungen ein Hadoop-Portfolio geschaffen haben, das alle Anforderungen für den Unternehmenseinsatz abdeckt, auf den Lock-In-Effekt von On-Premise-Lösungen und teure Lizenzierungen jedoch verzichtet.

* Fabian Wilckens ist EMEA Solutions Architect bei MapR

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43386732 / Infrastruktur)