E-Book von BigData-Insider Hadoop-Distributionen im Überblick
Das Apache-Projekt Hadoop hat sich schon nach wenigen Jahren zu einem Standard für die Nutzung von Massendaten entwickelt. In einem flexibel skalierbaren und mittlerweile performanten Cluster-Framework können Unternehmen Datenmengen ab etwa einem Terabyte wirtschaftlich und sinnvoll ablegen, zusammenführen, verwalten, transformieren und auswerten.
Anbieter zum Thema

Methoden wie ein „Data Lake“ oder eine Kombination mit der Compute-Engine Apache Spark finden zunehmend Verbreitung, und es gibt keinen Datenbankhersteller mehr, der Hadoop nicht unterstützt.
Skalierbarkeit und vielseitige Programmierbarkeit
Das Bemerkenswerte am quelloffenen Software-Ökosystem Hadoop ist nicht nur seine Skalierbarkeit, sondern auch seine vielseitige Programmierbarkeit. Eine Vielzahl von Hilfsprogrammen und Entwicklungswerkzeugen lassen sich mit dem inneren Framework verknüpfen, so dass eine Vielfalt von Einsatzzwecken erfüllt werden kann.
Daraus ergibt sich allerdings auch eine gewisse Bandbreite von Hadoop-Distributionen. Von ganz reinen Implementierung, die Hortonworks vertreibt und weiterentwickelt, über die optimierten Distributionen von Cloudera und MapR findet der Interessent mehrere quelloffene Optionen. Die Weiterentwicklung dieser Distributionen richtet sich zunehmend an den Bedürfnissen von Unternehmensanwendern aus.
Neben der Unterstützung von Performance, Sicherheit und Verwaltungsfunktionen findet man deshalb zunehmend Support für den Abfragestandard ANSI-SQL. Der Grund ist einfach der, dass die entsprechenden Mitarbeiter sich zwar bestens mit SQL auskennen, aber bei Hadoop bislang zu wenig SQL-Support gefunden haben. Die Datenbankhersteller IBM und Oracle haben aus dieser Not eine Tugend gemacht und SQL-Funktionen in den Mittelpunkt ihrer Angebote gestellt.
Hadoop in der Public Cloud
Dass Hadoop-Implementierungen und Distributionen heute vor allem in der Public Cloud bereitgestellt werden, ist mittlerweile ebenfalls Standard. Amazon unterstützt MapReduce seit jeher, und Microsoft Azure bietet mit HDinsight eine Implementierung von Hortonworks. Ebenso wie SAP Vora und die Teradata Appliance for Hadoop sind dies keine Distributionen mehr im engeren Sinne, sollten aber in einer Marktübersicht keinesfalls fehlen.
Die Cloud ist für Hadoop unerlässlich, um Kapazitäten für Compute, Storage und Network bereitzustellen. Außerdem finden sich alle Entwicklungswerkzeuge für Hadoop in der Cloud als Platform as a Service wieder. Bislang empfahlen Experten, einen Hadoop-Cluster als analytisches Repository zu nutzen, während eine performante In-Memory-Datenbank-Engine plus Business-Intelligence-Werkzeuge den Compute- & Analyse-Part übernahmen.
Rechenpower immer näher an Hadoop
Mit der steigenden Nutzung von Apache Spark und Machine Learning ändert sich dieses Szenario allmählich. Die Rechenpower wird immer näher an Hadoop selbst gebracht, bis hin zu Native Hadoop SQL. Der Interessent sollte sich daher jede Distribution genau auf jene Bausteine hin anschauen, die ihm den größten Mehrwert und schnelle Wertschöpfung erlauben, damit seinem Big-Data-Projekt nicht auf halber Strecke die Puste ausgeht.
Weitere Informationen zum Thema haben wir für Sie im E-Book „Hadoop-Distributionen“ zusammengestellt, das Sie hier kostenlos herunterladen können.
(ID:44146967)