Einfachere Verwaltung und höhere Sicherheit für Hadoop-Cluster

YARN & Co. – Hadoop-Erweiterungen im Überblick

| Autor / Redakteur: Thomas Joos / Nico Litzel

Die Architektur von Apache YARN im Überblick
Die Architektur von Apache YARN im Überblick (Bild: The Apache Software Foundation)

Neben der Hadoop-Basis gibt es für die Open-Source-Big-Data-Lösung zahlreiche Erweiterungen und Zusatzfunktionen. Ein prominentes Beispiel ist YARN (Yet Another Resource Negotiator), welches ebenfalls zum offiziellen Apache-Hadoop-Projekt gehört. In diesem Beitrag geben wir einen Einblick in die Möglichkeiten von YARN, ZooKeeper und anderen Erweiterungen.

YARN ist einer der wichtigsten Bestandteile von Hadoop. Einfach ausgedrückt handelt es sich dabei um eine Cluster-Verwaltungstechnik für Hadoop. YARN stellt sozusagen den neuen Ressourcen-Manager dar – viele Big-Data-Profis bezeichnen YARN auch als „MapReduce 2“.

YARN und ZooKeeper – mehr Interaktivität mit dem Hadoop-Cluster

YARN schreibt das Ressourcenmanagement und die Zeitplanungsfunktionen um und entkoppelt MapReduce von der Datenverarbeitungskomponente. Dadurch kann Hadoop mehr Bearbeitungsansätze und eine breitere Palette von Anwendungen unterstützen.

Beispiel ist das Verwenden von interaktiven Abfragen und Streaming-Daten, parallel mit dem MapReduce Batch-Job. MapReduce mit YARN ermöglicht, dass Hadoop-Umgebung besser geeignet für operative Anwendungen sind, die nicht auf das Ende der Batch-Jobs warten können. Auf diesem Weg hält also die Echtzeit-Datenverarbeitung Einzug in Hadoop. Erreicht wird das in erster Linie durch die Aufteilung von Ressourcen-Management und Job-Scheduling in zwei getrennte Daemons.

Mit Apache ZooKeeper können Administratoren die Hadoop-Infrastruktur zentral steuern. ZooKeeper ist ein zentraler Dienst für die Pflege von Konfigurationsinformationen, die Benennung von Objekten und bietet eine verteilte Synchronisation und Gruppendienste. Die Lösung soll vor allem Wildwuchs in der Infrastruktur verhindern und dabei helfen, eine einheitliche Konfiguration zu erreichen.

Apache Hive, Pig und HCatalog

Wollen Unternehmen das MapReduce-Framework mit einer leistungsstarken Abfragesprache ausstatten, hilft die Hadoop-Erweiterung Apache Hive. Mit dieser Erweiterung können Entwickler Hadoop-Umgebungen abfragen, ähnlich wie SQL-Abfragen. Entwickler können mit Hive dabei direkt die Daten abfragen, die in HDFS gespeichert sind.

Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools im Hadoop-Netzwerk. Mit der Technik lassen sich Apache Hive, Apache Pig und Apache MapReduce effizienter und vor allem gemeinsam und interaktiv verwalten. HCatalog kann Dateien in verschiedenen Formaten lesen und schreiben: Standardmäßig unterstützt HCatalog RCFile, CSV, JSON, und SequenceFile-Formate. Die Möglichkeiten zeigt Hortonworks in einem Youtube-Video.

Mit Apache Pig können Entwickler komplizierte MapReduce-Transformationen schreiben und dabei auf eine einfache Skript-Sprache setzen. Die Sprache trägt die Bezeichnung Pig Latin und kann aggregieren, Daten einbinden und zusammenfassen. Pig übersetzt danach die Pig-Latin-Skripte in MapReduce und kann diese in Hadoop ausführen – hier gibt es Beispiele. Wer also häufig eigene Skripte schreibt, sollte sich die Scripting Engine Pig ansehen.

Mehr Sicherheit im Hadoop-Cluster – Apache Knox und Chukwa

Bei Apache Knox handelt es sich um ein REST API Gateway für Hadoop-Cluster. Wer ständig Big-Data-Analysen im Cluster betreibt, muss natürlich auch für die Sicherheit im Cluster sorgen. Hier spielt Apache Knox eine wichtige Rolle. Die Hadoop-Erweiterung erweitert das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen für den Zugriff auf die Daten.

Knox bietet einen zentralen Zugriffspunkt für alle REST-Interaktionen mit dem Hadoop-Cluster. Dadurch lassen sich die Zugriffe nicht nur steuern, sondern auch überwachen. Für die Anbindung der Benutzer kann Knox auch auf Active Directory und andere LDAP-Verzeichnisse zugreifen. Auch die Anbindung an andere Authentifizierungsmechanismen ist leicht möglich.

Um die Hadoop-Infrastruktur zu überwachen, setzen Administratoren am besten auf Apache Chukwa. Das System setzt auf Hadoop auf und überwacht HDFS-Datenzugriffe. Auch das MapReduce-Framework lässt sich analysieren und überwachen.

Kommerzielle Erweiterungen von Oracle, IBM und Co.

Neben kostenlosen Erweiterungen auf Basis von Open Source bieten auch immer mehr etablierte Software-Anbieter Erweiterungen für Hadoop an. Oracle bietet zum Beispiel mit Big Data SQL die Möglichkeit, über SQL-Abfragen auf Big-Data-Daten zuzugreifen.

Die Abfragen lassen sich mit Hadoop-Clustern ausführen, aber parallel auch für NoSQL-Datenbanken und natürlich für Daten, die in Oracle-Datenbanken gespeichert sind. Entwickler können die von ihnen bevorzugten Abfragen und Tools weiter verwenden und müssen nicht zwischen den Datenquellen unterscheiden.

IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Zunächst lassen sich in Hadoop-Clustern Multi Tenancy und bessere Workload-Fähigkeiten nutzen. Der Cluster wird in der Steuerung darüber hinaus flexibler.

Die IBM-Distribution erweitert das Apache Hadoop auf mehreren Ebenen. Das beginnt in der unteren Schicht bei der Laufzeitumgebung. Hier wurde Hadoop um praktische Anforderungen wie Multi Tenancy, Workload-Fähigkeiten und die flexible Steuerung eines Hadoop-Clusters ergänzt. Als Dateisystem bietet BigInsights das Hadoop Distributed Filesystem (HDFS) und das General Parallel File System (GPFS).

Mit GPFS können Unternehmen Security, Hochverfügbarkeit, Desaster Recovery und die Datensicherung sowie Snapshots integrieren oder verbessern. BigSQL bietet wiederum SQL-Zugriff auf Daten aus Hadoop sowie anderen Datenbankquellen. Auf diesem Weg können Entwickler Abfragen aus einem Hadoop-System und einer relationalen Datenbank wie IBM DB2 abfragen.

Fazit

Auch wenn Hadoop für sich alleine gesehen eine mächtige Umgebung ist, sollten sich Unternehmen Gedanken um die Sicherheit und um die Überwachung machen. Apache Knox und Chukwa sind wichtige und sinnvolle Ergänzungen für Hadoop-Cluster. Geht es um Abfragen, spielen auch die anderen in diesem Artikel erwähnten Erweiterungen eine wichtige Rolle.

Die meisten der hier vorgestellten Erweiterungen funktionieren auch in den Hadoop-Distributionen der verschiedenen Cloud-Dienste. Hier sollte die Anbindung vor allem an Amazon Elastic MapReduce und Microsoft Azure HDInsight geprüft werden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43112798 / Infrastruktur)