E-Book von BigData-Insider

Hadoop-Distributionen im Überblick

| Autor / Redakteur: Michael Matzer / Nico Litzel

Die Weiterentwicklung der Hadoop-Distributionen richtet sich zunehmend an den Bedürfnissen von Unternehmensanwendern aus. Einen Überblick bietet das jüngste E-Book von BigData-Insider.
Die Weiterentwicklung der Hadoop-Distributionen richtet sich zunehmend an den Bedürfnissen von Unternehmensanwendern aus. Einen Überblick bietet das jüngste E-Book von BigData-Insider. (Bild: Vogel IT-Medien)

Das Apache-Projekt Hadoop hat sich schon nach wenigen Jahren zu einem Standard für die Nutzung von Massendaten entwickelt. In einem flexibel skalierbaren und mittlerweile performanten Cluster-Framework können Unternehmen Datenmengen ab etwa einem Terabyte wirtschaftlich und sinnvoll ablegen, zusammenführen, verwalten, transformieren und auswerten.

Methoden wie ein „Data Lake“ oder eine Kombination mit der Compute-Engine Apache Spark finden zunehmend Verbreitung, und es gibt keinen Datenbankhersteller mehr, der Hadoop nicht unterstützt.

Skalierbarkeit und vielseitige Programmierbarkeit

Das Bemerkenswerte am quelloffenen Software-Ökosystem Hadoop ist nicht nur seine Skalierbarkeit, sondern auch seine vielseitige Programmierbarkeit. Eine Vielzahl von Hilfsprogrammen und Entwicklungswerkzeugen lassen sich mit dem inneren Framework verknüpfen, so dass eine Vielfalt von Einsatzzwecken erfüllt werden kann.

Daraus ergibt sich allerdings auch eine gewisse Bandbreite von Hadoop-Distributionen. Von ganz reinen Implementierung, die Hortonworks vertreibt und weiterentwickelt, über die optimierten Distributionen von Cloudera und MapR findet der Interessent mehrere quelloffene Optionen. Die Weiterentwicklung dieser Distributionen richtet sich zunehmend an den Bedürfnissen von Unternehmensanwendern aus.

Neben der Unterstützung von Performance, Sicherheit und Verwaltungsfunktionen findet man deshalb zunehmend Support für den Abfragestandard ANSI-SQL. Der Grund ist einfach der, dass die entsprechenden Mitarbeiter sich zwar bestens mit SQL auskennen, aber bei Hadoop bislang zu wenig SQL-Support gefunden haben. Die Datenbankhersteller IBM und Oracle haben aus dieser Not eine Tugend gemacht und SQL-Funktionen in den Mittelpunkt ihrer Angebote gestellt.

Hadoop in der Public Cloud

Dass Hadoop-Implementierungen und Distributionen heute vor allem in der Public Cloud bereitgestellt werden, ist mittlerweile ebenfalls Standard. Amazon unterstützt MapReduce seit jeher, und Microsoft Azure bietet mit HDinsight eine Implementierung von Hortonworks. Ebenso wie SAP Vora und die Teradata Appliance for Hadoop sind dies keine Distributionen mehr im engeren Sinne, sollten aber in einer Marktübersicht keinesfalls fehlen.

Die Cloud ist für Hadoop unerlässlich, um Kapazitäten für Compute, Storage und Network bereitzustellen. Außerdem finden sich alle Entwicklungswerkzeuge für Hadoop in der Cloud als Platform as a Service wieder. Bislang empfahlen Experten, einen Hadoop-Cluster als analytisches Repository zu nutzen, während eine performante In-Memory-Datenbank-Engine plus Business-Intelligence-Werkzeuge den Compute- & Analyse-Part übernahmen.

Rechenpower immer näher an Hadoop

Mit der steigenden Nutzung von Apache Spark und Machine Learning ändert sich dieses Szenario allmählich. Die Rechenpower wird immer näher an Hadoop selbst gebracht, bis hin zu Native Hadoop SQL. Der Interessent sollte sich daher jede Distribution genau auf jene Bausteine hin anschauen, die ihm den größten Mehrwert und schnelle Wertschöpfung erlauben, damit seinem Big-Data-Projekt nicht auf halber Strecke die Puste ausgeht.

Weitere Informationen zum Thema haben wir für Sie im E-Book „Hadoop-Distributionen“ zusammengestellt, das Sie hier kostenlos herunterladen können.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44146967 / Infrastruktur)