Big Data mit Hadoop und Erweiterungen optimal betreiben 10 Dinge, die Sie über Hadoop wissen sollten

Autor / Redakteur: Thomas Joos / Nico Litzel

Im Bereich Big Data spielt Hadoop eine wichtige Rolle. In diesem Beitrag geben wir zehn Tipps, was Unternehmen in diesem Bereich alles zu Hadoop wissen sollten. Zudem stellen wir die besten Erweiterungen und Zusatzlösungen für Hadoop vor.

Anbieter zum Thema

Hadoop ist auch in Microsoft Azure integriert. Hier trägt das Framework die Bezeichnung HDInsight.
Hadoop ist auch in Microsoft Azure integriert. Hier trägt das Framework die Bezeichnung HDInsight.
(Bild: T. Joos)

1. Was ist Hadoop

Hadoop ist, einfach ausgedrückt, ein Programmiergerüst (Framework) auf Basis von Java und dem MapReduce-Algorithmus von Google. Durch die Apache-Lizenz steht das Produkt generell kostenlos zur Verfügung und wurde von Microsoft in Azure integriert. Hier trägt Hadoop die Bezeichnung HDInsight. Auch in den Amazon Web Services ist Hadoop enthalten. Durch die Notwendigkeit, auch extrem große Datenmengen verarbeiten zu können, lassen sich Cluster mit tausenden Knoten aufbauen.

2. MapReduce – Berechnungen durchführen

Die Entwickler nutzen in Hadoop hauptsächlich den MapReduce-Algorithmus von Google. Es gibt in diesem Bereich aber eine neue Technik, auf die wir ebenfalls noch eingehen. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes). Die Clusterknoten werden durch die einzelnen Hadoop-Komponenten gesteuert und verwaltet.

3. HDInsight in der Praxis nutzen

Microsoft bietet die Möglichkeit, Windows Azure bis zu 30 Tage vollkommen kostenlos zu nutzen. Nach den 30 Tagen wird der Testzugang blockiert, Unternehmen können durch das Abschließen des Abonnements ihre Einstellungen aber weiter nutzen. Die MapReduce-Aufträge lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure PowerShell. Microsoft zeigt in einem Film auf YouTube, wie so ein Job erstellt wird. Zusätzlich stellt Microsoft noch das kostenlose E-Book „Introducing Microsoft Azure HDInsight“ zur Verfügung.

4. Die wichtigsten Hadoop-Distributionen

Neben den Möglichkeiten, Hadoop in Microsoft Azure HDInsight oder in den Amazon Web Services zu betreiben, können Unternehmen natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden:

5. Entwicklungsplattformen für Hadoop und Co.

Mit Cloudera Impala erhalten Unternehmen eine sogenannte MPP-SQL-Abfrage-Engine (Massively Parallel Processing), die mit Hadoop zusammenarbeitet. Mit dieser Open-Source-Lösung (Apache Lizenz) lassen sich direkte Abfragen für HDFS (Hadoop Distributed File System) und HBase ausführen. In diesem Bereich spielt auch Lingual eine Rolle.

6. Ressourcen-Manager für Hadoop

YARN ist einer der wichtigsten Bestandteile von Hadoop 2.3. YARN ist, einfach ausgedrückt, eine Cluster-Verwaltungstechnik für Hadoop, wobei YARN den neuen Ressourcen-Manager darstellt. Viele Big-Data-Profis bezeichnen YARN mittlerweile auch als MapReduce 2. Die Cluster-Verwaltungstechnik schreibt das Ressourcenmanagement und die Zeitplanungsfunktionen um und entkoppelt MapReduce von der Datenverarbeitungskomponente. Dadurch kann Hadoop mehr Bearbeitungsansätze unterstützen und eine breitere Palette von Anwendungen unterstützen. Ein Beispiel ist das Verwenden von interaktiven Abfragen und Streaming-Daten, parallel mit dem MapReduce-Batch-Job.

7. Cluster zentral steuern

Mit Apache Zookeeper können Administratoren die Hadoop-Infrastruktur zentral steuern. Zookeeper ist ein zentraler Dienst für die Pflege von Konfigurationsinformationen, die Benennung von Objekten und bietet eine verteilte Synchronisation und Gruppendienste.

8. Prozesse besser verwalten

Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools im Hadoop-Netzwerk. Mit der Technik lassen sich Apache Hive, Apache Pig und Apache MapReduce effizienter und vor allem gemeinsam und interaktiv verwalten.

9. SQL-Abfragen für NoSQL-Datenbanken

Apache Drill erweitert Hadoop-Umgebungen und NoSQL-Datenbanken um die Möglichkeit, SQL-Abfragen zu erstellen. Grundlage von Drill ist das Google-Produkt Dremel, welches in hoher Geschwindigkeit Daten aus schemafreien SQL-Datenbanken abfragen kann. Im Fokus der Lösung stehen Echtzeit-Abfragen und Ad-hoc-Berichte in BI- oder Big-Data-Umgebungen.

10. Daten in Hadoop schneller analysieren

Apache Spark erweitert die Möglichkeit von Hadoop-Clustern um Echtzeitabfragen, ähnlich zu SQL. Dazu bietet das Framework In-Memory-Technologien, kann also Abfragen und Daten direkt im Arbeitsspeicher der Clusterknoten speichern. Da die Abfragen sich auch parallel auf mehrere Knoten verteilen lassen, steigt die Leistung enorm. Apache Spark soll MapReduce in Hadoop ablösen und bietet eine extrem schnellere Abfragegeschwindigkeit von Daten. Die Entwickler selbst sprechen von einer hundertfach höheren Geschwindigkeit. Auch in Cloud-Lösungen wie Microsoft Azure HDInsight lässt sich Spark nahtlos integrieren. Eine entsprechende Anleitung dazu stellt das Azure-Team zur Verfügung.

(ID:43288711)