Auswahl & Bewertung

Hadoop-Distributionen im Vergleich

| Autor / Redakteur: Michael Matzer / Nico Litzel

Hadoop-Komponenten in der Übersicht
Hadoop-Komponenten in der Übersicht (Bild: BARC)

Von Vielen wird Hadoop bereits als Quasi-Standard für die Verarbeitung von Big Data angesehen. Doch die Basisversion bedarf offenbar noch einiger Ergänzungen, besonders in puncto SQL. Daher haben große Datenbankanbieter ihre eigene Hadoop-Distribution zusammengestellt. Deutschsprachige Analysen dieser Angebote bieten seit Kurzem das BARC-Institut und die Experton Group.

Hadoop wird in immer mehr Enterprise-Umgebungen als Plattform für die Entwicklung von Big Data Analytics eingeführt. Nach Überzeugung der Experton Group wird Hadoop im Bereich Big Data sehr schnell produktiv eingesetzt werden, weil Hadoop als Weiterentwicklung von Business Intelligence und Business Analytics und von bestehenden Datenbankmethoden nicht den typischen Hype Cycle einer neuen, disruptiven Technologie durchlaufen wird.

Doch der Schritt von der gewohnten SQL-basierten Datenbank zum NoSQL-Filecluster ist größer als gedacht. Die Nutzer erwarten „Performance, Stabilität, Security, Analysefähigkeit, Nutzbarkeit, etwa in Form eines ausreichenden SQL-Zugriffs, Wartbarkeit oder Administrierbarkeit“, berichtet BARC-Analyst Lars Iffert. Zudem sei die Frage des verlässlichen Supports und der Haftung zu klären – ein „General Availability (GA)“-Vermerk für Open-Source-Hadoop-Projekte heiße nichts anderes als „fehlerfrei kompiliert“.

Bausteine und Erweiterungen bieten Mehrwert

Iffert und seinen Koautor Tim Grosser wundert es daher nicht, dass zahlreiche bedeutende Datenbankanbieter eigene Hadoop-Distributionen auf den Markt bringen. Diese sollen mithilfe von eigenen Bausteinen oder Erweiterungen einen eigenen Mehrwert bieten oder schlicht bestehende Unzulänglichkeiten beheben. Die Berater haben in einer umfangreichen Studie die Hadoop-Plattformen unter die Lupe genommen und anhand selbstentwickelter Kategorien bewertet.

Die Marktübersicht auf dem Stand von Mitte 2014 bietet dem Leser einen aktuellen Überblick der fünf Hadoop-Distributionen

  • 1. Cloudera CDH 5.1.0,
  • 2. Hortonworks Data Platform HDP 2.1,
  • 3. IBM InfoSphere BigInsights Hadoop 3.0,
  • 4. MapR M7 Edition und
  • 5. Pivotal HD 2.0.

„Diese Distributionen“, so Iffert, „wurden deshalb für die Betrachtung ausgewählt, weil sie sowohl direkt vertrieben werden als auch Ausgangsdistributionen für weitere Softwareanbieter sind. So hat Oracle etwa eine Partnerschaft mit Cloudera geschlossen, um diese Distribution im Oracle-Soft- und Hardwarestack anzubieten. Microsoft setzt hingegen auf Hortonworks, welches der Konzern leicht angepasst im Microsoft-Cloud-Angebot ,Azure' oder im Software-Paket ,HDInsights' seinen Kunden zur Verfügung stellt.“ HP hat sich mittlerweile bei Hortonworks eingekauft und bietet diese Distribution seit kurzem im Rahmen seines Big-Data-Frameworks HAVEn an.

Im Rahmen dieses Beitrags können die Studienergebnisse nur knapp zusammengefasst werden. Die Produktbewertungen müssen leider entfallen, denn eine undetaillierte, pauschale „Schulnote“ zu vergeben, wäre unfair. Man findet sie in der kostenlosen Leseprobe von BARC. Wertvoll sind hingegen die Kriterien, nach denen die Auswahl einer individuell geeigneten Hadoop-Distribution erfolgen kann. „Bei der Auswahl der Distribution sollte ein Abgleich mit der IT-Strategie des Unternehmens erfolgen“, so Iffert. Eigenständige Hadoop-Distributionen entwickeln und vertreiben folgende Anbietergruppen:

  • 1. Reine Hadoop-Distributoren wie Cloudera, MapR und Hadoop selbst fokussieren auf ihre Software und bieten darüber hinaus Service an. Für darüber hinaus gehende Anforderungen wie die weitergehende Datenanalyse oder ein umfangreiches Datenmanagement verweisen sie an Partner.
  • 2. Software-Stack-Anbieter mit einer eigenen Hadoop-Distribution wie IBM oder Microsoft haben die Hadoop-Technologie mit in ihr Portfolio integriert und unterbreiten dem Kunden ein umfangreiches, zuweilen auch recht unübersichtliches Angebot.
  • 3. Spezialisten für Speicherlösungen wie Pivotal bieten Hadoop-Distributionen an, die um eigene Optimierungen für ihre Speichersysteme erweitert sind. Sofern bereits entsprechende Hardware im Unternehmen vorhanden ist und keine weitergehenden Anforderungen an die Hadoop-Distribution gestellt werden, sollten diese Anbieter geprüft werden.

Partnerschaften

„Einige Anbieter“, so Iffert weiter, „unterhalten Partnerschaften mit den Herstellern eigenständiger Hadoop-Distributionen. Hierbei geschieht die wesentliche Weiterentwicklung der Hadoop-Distribution durch den Partner, der Anbieter versucht die Partner-Distribution durch Erweiterungen oder Unterstützung des Partners besonders gut in seine Softwarelandschaft zu integrieren.“ Bei speziellen Fragen des Endanwenders zur Hadoop-Distribution verweisen die Anbieter zuweilen an ihre Distributionspartner.

  • Software-Stack-Anbieter wie Microsoft, Oracle und Teradata setzen auf Partnerschaften mit kommerziellen Hadoop-Distributionsanbietern, um ihr Portfolio zu erweitern.
  • Spezialisten für Speicherlösungen wie NetApp und Pivotal nutzen Hadoop-Distributionen, um weitere Einsatzgebiete für ihre Speichersysteme zu erschließen.
  • Cloud-Service-Anbieter wie Amazon oder Rackspace stellen eine Hadoop-Plattform zur Verfügung, die für Plattform- oder SaaS-Szenarien interessant sind und setzen auch hier auf die Weiterentwicklung der Hadoop-Distribution durch einen Partner.

Auch der „Big Data Vendor Benchmark 2014“ der Experton Group fokussiert auf diese Gruppen. Bei den Datenbanken, bei denen analytische Datenbanken einbezogen worden sind, unterteilen sich die betrachteten Lösungen in:

  • 1. auf Big-Data-Bedarfe erweiterte relationale SQL-basierende Datenbanken,
  • 2. In-Memory-Konzepte und
  • 3. Not-only-SQL-Datenbanken, graphenbasierende Datenbanken und spaltenorientierten Datenbanken.

Es geht bei Experton also keineswegs nur um Hadoop.

Hardware-Anbieter entdecken den Software-Markt

Interessant an den BARC-Marktforschungsergebnissen ist, dass neben reinen Software-Anbietern vor allem auch Hardware-Anbieter den Software-Markt für sich entdeckt haben und eigene Hadoop-Distributionen anbieten, die punktuell bestimmte Funktionen dank entsprechender Hardware-Optimierung besonders gut unterstützen, so etwa Kompression und Verschlüsselung. „Die Angebote basieren meist auf Apache Hadoop oder aber Hortonworks, einer Distribution, die sich, getrieben durch Apache-Entwickler, zum Ziel gesetzt hat, vor allem die Hadoop-Funktionen und ihre Performance weiterzuentwickeln.“

Allen Hadoop-Distributionen, so Iffert weiter, sei gemein, dass vor allem im Datenmanagement versucht wird, die vielen Werkzeuge (für Integration, Speicherung, Zugriff, Analyse und Business Intelligence Reporting) unter einer einheitlichen Administrationskonsole einfacher verwaltbar zu machen. „Die BARC-Analyse hat ergeben, dass vor allem in den Bereichen Datenmanagement, Security, Analytics und Benutzerfreundlichkeit differenzierende Faktoren zu finden sind“, berichtet er.

Ob sich der höhere Preis für den Mehrwert rechtfertigen lässt, ändert sich von Quartal zu Quartal: Laufend kommen Zusatzfunktionen hinzu. „Eine kontinuierliche Validierung der eingesetzten Distribution ist daher durchaus sinnvoll“, so der Analyst. „Auch das Angebot an Analysewerkzeugen auf Hadoop-Distributionen nimmt spürbar zu.“

Elf Marktsegmente

Die Studie der Experton Group betrachtet hingegen den Anbietermarkt in elf Quadranten – das sind erheblich mehr als die BARC-Studie:

  • 1. Big Data Consulting & Solutions
  • 2. Big Data Consulting
  • 3. Big Data IT-Operations
  • 4. Big Data Datenbanken
  • 5. Big Data Appliances
  • 6. Big Data Storage
  • 7. Big Data Aggregation
  • 8. Big Data Analytics
  • 9. Big Data Syndizierung / Visualisierung / Dashboards
  • 10. Big Data Protection (Schutz großer Datenvolumina)
  • 11. Big Data Security Analytics (Sicherheit durch Big Data)

Seit der Festschreibung ihrer Definition für das Thema „Big Data“ als neue Dimension der IT hat die Experton Group die Datensicherheit und die Datenintegrität als wesentliche Bestandteile der Definition betrachtet. Nach Ansicht von Holm Landrock, dem Autor der Marktstudie, werde der zweite Big Data Vendor Benchmark (2014) dem gerecht, indem in ihm die IT-Sicherheit in zwei Quadranten betrachtet wird.

Der Quadrant „Big Data Protection (Protection of Big Data)“ betrachtet die Frage, wie Big-Data-Anwendungen vor unberechtigten Zugriffen und Manipulationen geschützt werden. Der Quadrant „Big Data Security (Security due to Big Data)” untersucht die Fähigkeit, mithilfe von Big-Data-Lösungen die Unternehmenssicherheit zu erhöhen, etwa durch Betrugserkennung, Kreditkartenmanipulation usw.

Diese zwei Segmente deuten bereits auf die Kriterien zur Bewertung von Hadoop-Distributionen hin und sollten hierzulande vor allem im Hinblick auf die Einhaltung gesetzlicher Datenschutzvorgaben berücksichtigt werden.

Weitere Kriterien zur Bewertung von Hadoop-Distributionen

Die Auswahl einer Hadoop-Distribution sollte nach Ansicht Ifferts anhand unternehmensspezifischer Kriterien erfolgen. Tabelle 6 der Studie (und der kostenlosen Leseprobe) zeigt Kriterien, die sich in BARC-Software-Auswahlprojekten als geeignet erwiesen haben. Daran werden die Hadoop-Distributionen gemessen und bewertet. Auf Basis von Herstellerinformationen erfolgte die Bewertung in Form einer Prozentangabe: 0 % = Keine Unterstützung; 25 % = Beschränkte Unterstützung; 50 % = Teilweise Unterstützung; 75 % = Gute Unterstützung; 100% = Sehr gute Unterstützung.

Allgemeine Kriterien sind:

  • Anbieterbeschreibung
  • Anbieterstrategie; Charakterisierung der Hadoop-Distribution und Open-Source-„Gesinnung“
  • Deployment
  • Support
  • Partner
  • Lizenzmodell

Technische Kriterien sind:

  • Distributionsspezifische Erweiterungen
  • Datenmanagement
  • Infrastruktur
  • Operativer Betrieb
  • Datenzugriff
  • Datensicherheit
  • Datenanalyse

Gegenüberstellung

„Im Vergleich der Anbieterstrategien zeigt sich, dass Cloudera und MapR den Fokus darauf legen, ihre Lösungen Enterprise-ready zu gestalten, wohingegen Hortonworks sich eher auf die funktionale Weiterentwicklung, etwa in den Bereichen Performancesteigerung und besserer SQL-Unterstützung konzentriert“, fassen Iffert und Grosser ihre Ergebnisse zusammen. „Betrachtet man den aktuellen funktionalen Stand der Distributionen, so sind wesentliche Unterschiede noch in der SQL-Unterstützung (Operationen auf Einzeldatensatz wie Insert, Update, Delete), Verschlüsselungsumfang und unterschiedlichen Strategien der Abfragetechnologie zu erkennen.“

Zudem konzentrierten sich die Anbieter vorwiegend auf den Ausbau der Hadoop-basierten Datenablage und -verwaltung, für die Datenanalyse werde auf Standard-Hadoop-Analysefunktionen oder externe Werkzeuge verwiesen. Die Ausnahme hierbei stelle IBM dar, indem eine eigene Auswerteplattform zur Verfügung gestellt wird.

Für den laufenden Betrieb empfehlen die BARC-Analysten den Anbietern, noch einen umfangreicheren und möglichst lokalen Support aufbauen. Das Deployment-Angebot werde neben der reinen Software auch um Cloud- und Appliance-Lösungen ausgebaut; hier seien unterschiedliche Strategien ersichtlich – da Cloudera, Hortonworks und MapR die Softwareentwicklung fokussieren, würden Cloud- oder Appliance-Lösungen durch Partner umgesetzt.

Pivotal und IBM böten eigene Appliances an; nur IBM halte eine eigene Cloud-Umgebung vor. Die Distributionen von Cloudera, Hortonworks, MapR und Pivotal seien auch in einer funktional eingeschränkten kostenlosen Version erhältlich, die Distribution von IBM ist hingegen bei jeglicher produktiver Nutzung zu lizenzieren. Zwei Tabellen (6 und 7) fassen die Ergebnisse anhand der obengenannten Prozentgewichtung zusammen (siehe auch die Leseprobe).

Die BARC-Analysten erwarten eine Konsolidierung von einander ähnlichen Angeboten sowie das weitere Professionalisieren der Angebote der Spezialisten. „Hadoop wird ein wesentlicher Baustein in Unternehmenslandschaften werden“, sind sie sich gewiss.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43117422 / Infrastruktur)