Definition

Was ist Hadoop?

| Autor / Redakteur: tutanch / Nico Litzel

(© aga7ta - Fotolia)

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Das Software Framework Hadoop ist eine Art Ökosystem, das auf verschiedenen Architekturen und unterschiedlicher Hardware betrieben werden kann. Es ist in der Programmiersprache Java geschrieben und als Quellcode von Apache frei verfügbar. Erfinder von Hadoop ist Doug Cutting, der mit der Veröffentlichung des MapReduce-Algorithmus durch Google im Jahr 2003 dessen Bedeutung erkannte und die Entwicklung von Hadoop begann. Seit 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation. Der Name Hadoop geht zurück auf einen kleinen Spielzeugelefanten des Sohns von Doug Cutting. Noch heute ist der Elefant im Logo von Hadoop vorhanden.

Das Software Framework ist für verteilt arbeitende, skalierbare Systeme vorgesehen. Zentraler Bestandteil ist unter anderem der MapReduce-Algorithmus von Google. Es lassen sich mit Hadoop intensive Rechenprozesse mit riesigen Datenmengen, wie sie im Big-Data-Umfeld auftreten, auf einer Vielzahl zu einem Cluster zusammengefasster Computer ausführen.

Die einzelnen Bestandteile von Hadoop

Hadoop besteht aus einzelnen Komponenten. Die vier zentralen Bausteine des Software-Frameworks sind:

  • Hadoop Common,
  • das Hadoop Distributed File System (HDFS),
  • der MapReduce-Algorithmus sowie
  • der Yet Another Resource Negotiator (YARN).

Hadoop Common stellt die Grundfunktionen und Tools für die weiteren Bausteine der Software zur Verfügung. Dazu gehören beispielsweise die Java-Archiv-Files und -Scripts für den Start der Software. Die Kommunikation zwischen Hadoop Common und den anderen Komponenten erfolgt über Schnittstellen. Über diese lassen sich die Zugriffe auf darunterliegende Dateisysteme oder die Kommunikation innerhalb von Clustern steuern.

Beim Hadoop Distributed File System (HDFS) handelt es sich um ein verteiltes Dateisystem, mit dem sich Daten auf verschiedenen Systemen in einem Rechnerverbund speichern lassen. Dadurch wird die Vorhaltung von großen Datenmengen möglich. Nach Angaben von Apache ist HDFS in der Lage, mehrere 100 Millionen Daten zu verwalten. Mit zum Dateisystem gehören Mechanismen zur Duplizierung von Daten für den Fall eines Ausfalls einzelner Rechner.

Die zentrale Engine von Hadoop bildet der MapReduce-Algorithmus, der in seinen Grundzügen von Google entwickelt wurde. Der Algorithmus stellt verschiedene Funktionen zur Verfügung, die es erlauben, komplexe und rechenintensive Aufgaben in viele kleine Einzelteile auf mehrere Rechner aufzuspalten. Durch die parallele Abarbeitung der Teilaufgaben ergibt sich eine hohe Rechengeschwindigkeit. Die Teilergebnisse führt der MapReduce-Algorithmus am Ende zu einem Gesamtergebnis zusammen.

Der Yet Another Resource Negotiator (YARN) stellt eine Art Ergänzung des MapReduce-Algorithmus dar. Er kann die Ressourcen in einem Rechnerverband managen und Ressourcen eines Clusters dynamisch verschiedenen Jobs zuordnen. Über Queues legt YARN die Kapazitäten der Systeme für die einzelnen Aufgaben fest.

Die Funktionsweise von Hadoop

Die zentralen Funktionen von Hadoop übernehmen das Filesystem HDFS und der MapReduce-Algorithmus. HDFS sorgt dafür, dass die Daten auf die einzelnen Systeme im Rechnerverbund verteilt werden.

MapReduce spaltet die Verarbeitung der Daten in Einzelaufgaben, die sich auf den Systemen parallel ausführen lassen, auf und fügt deren Resultate zu einem Gesamtergebnis zusammen. Innerhalb eines Hadoop-Clusters nimmt ein Rechnerknoten die Rolle des Masters an, die anderen arbeiten im Slave-Mode. Der Master ist für die Verwaltung der Metadaten des Filesystems verantwortlich. Auf den Slaves erfolgt die eigentliche Ablage der Daten. Der Master sorgt dafür, dass die Datenblöcke repliziert und auf mehreren Knoten gleichzeitig vorhanden sind. Er kennt die Ablageorte der Datenblöcke und kann Datenverlust aufgrund eines Rechnerausfalls im Verbund durch die Replizierung verhindern. Meldet sich ein Knoten über eine längere Zeit nicht mehr beim Master, erfolgt der Zugriff auf die replizierten Daten. Gleichzeitig kümmert sich der Master darum, dass neue Kopien der Daten erzeugt und gespeichert werden. Um für den Ausfall des Masters gerüstet zu sein, ist eine Art Secondary Master vorhanden, auf dem alle Veränderungen der Metadaten gesichert und wiederherstellbar sind.

Business Intelligence – ein typisches Anwendungsgebiet

Die Fähigkeit von Hadoop, große, auch inhomogene Datenmengen in hoher Geschwindigkeit verarbeiten zu können, macht das Framework ideal geeignet für den Einsatz im Business-Intelligence-Umfeld. Oft stammen die für die Business Intelligence Reports und Analysen herangezogenen Daten aus vielen verschiedenen Datenquellen und haben eine sehr unterschiedliche Struktur. Ein Hadoop-System ist in der Lage, die riesigen Datenmengen verteilt und in vielen kleinen Prozessschritten parallel zu verarbeiten. Es lassen sich komplexe Rechenaufgaben mit Daten im Petabyte-Bereich schnell und wirtschaftlich bewältigen. Die Ergebnisse der Big-Data-Verarbeitung durch Hadoop liefern Erkenntnisse, um beispielsweise die strategische Planung des Unternehmens neu auszurichten, die Entscheidungsfindung zu unterstützen, das Unternehmen effizient zu steuern oder das Berichtswesen zu vereinfachen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Matlab erhält Toolbox für Entwurf und Testen von Algorithmen

Predictive Maintenance

Matlab erhält Toolbox für Entwurf und Testen von Algorithmen

Die neue Predictive Maintenance Toolbox in Matlab bietet Funktionen und Referenzbeispiele für Entwickler, die Algorithmen entwerfen, um Daten zu strukturieren, Zustandsindikatoren zu erstellen, Maschinenzustände zu überwachen und die wirtschaftliche Restlebensdauer zu schätzen und so Geräteausfälle zu vermeiden. lesen

So schnell ist das Deep Learning Framework Caffe

Künstliche Intelligenz

So schnell ist das Deep Learning Framework Caffe

Das Deep Learning Framework Caffe ist auf Modularität, Skalierbarkeit und Schnelligkeit ausgelegt. Dadurch lassen sich unter anderem Modelle für Künstliche Intelligenz innerhalb nur weniger Stunden anstatt mehrerer Tage trainieren. lesen

Warum Big Data und BI künftig verschmelzen

Kommentar von Mark Zimmermann, Infomotion

Warum Big Data und BI künftig verschmelzen

Alle Unternehmen sammeln mittlerweile Daten – aber die wenigsten verarbeiten sie effizient. Ein Grund dafür ist häufig die organisationsinterne Trennung von Business Intelligence und Big Data. Meist verarbeiten Unternehmen sie in jeweils unterschiedlichen Abteilungen: Der CIO ist für BI verantwortlich, der CDO für die innovativen Big-Data-Projekte. Doch genau hier gehen Effizienz und Synergien verloren. Künftig werden beide Bereiche immer stärker zur Data Science verschmelzen. lesen

Big-Data-Datenbanken

E-Book von BigData-Insider

Big-Data-Datenbanken

Big-Data-Datenbanken sollen die unterschiedlichsten Datentypen schnell und effizient verarbeiten. Sie lösen die herkömmlichen, überwiegend relationalen Datenbanktypen ab, die meist ein Data Warehouse unterstützen. Sie lösen sie ab, um neue Geschäftsmodelle zu ermöglichen, oder sie ergänzen die Data-Warehouse-Architektur mit notwendige Fähigkeiten, etwa für Data Discovery, Realtime Analytics und Advanced Analytics (Prognose). lesen

Intel Big Data Analytics Platforms im Überblick

Aufeinander abgestimmte Hard- und Software

Intel Big Data Analytics Platforms im Überblick

Geht es um Big-Data-Analysen, müssen Unternehmen auf leistungsstarke Hardware setzen, die optimal mit der Analyse-Software zusammenarbeitet. Hier gibt es verschiedene Anbieter, mit denen Intel kooperiert. lesen

Hortonworks baut DataPlane Services weiter aus

Nachbericht DataWorks Summit Berlin 2018

Hortonworks baut DataPlane Services weiter aus

Hortonworks hat mit dem Data Steward Studio (DSS) einen weiteren Service in seiner DataPlane-Service-Ebene angekündigt. Die DataPlane Services bilden eine Ebene plattformübergreifender Dienste, die auf der Hortonworks Data Platform (HDP) und auf der Hortonworks Data Flow Platform (HDF) aufsetzen. Auch Partnerprodukte können so in der Cloud bereitgestellt und genutzt werden. lesen

Opentext verbessert Informationsmanagement durch KI

Nachbericht Opentext Innovation Tour

Opentext verbessert Informationsmanagement durch KI

Opentext gehört zu den Marktführern im Bereich Enterprise Information Management. Den aktuellen technischen Trends entsprechend, ergänzt der Hersteller sein Angebot nun verstärkt durch intelligente analytische Algorithmen, Sicherheitsfeatures und modernisiert seine Plattformarchitektur. lesen

IoT Analytics vereint zwei Datenwelten

Kommentar von Nathan Jagoda, Information Builders

IoT Analytics vereint zwei Datenwelten

Die Kombination von IoT- und Geschäftsdaten bietet ganz neue Einblicke in Geschäftsprozesse. IoT-Analytics-Applikationen helfen, Unternehmen effizienter zu steuern und neue Märkte zu erschließen. lesen

Teradata automatisiert die vierte Analytics-Dimension

Zeitreihen-Auswertung für Edge-Computing-Anwendungen

Teradata automatisiert die vierte Analytics-Dimension

Kurz vor der europäischen „Universe“-Konferenz Ende April hat der Analytics-Spezialist Teradata einige signifikante Ankündigungen gemacht. Sie indizieren einen Trend: raus aus der „Splendid Isolation“, rein in sinnvolle Partnerschaften, zum Beispiel mit Cisco und NVIDIA. Auf der Produktseite stellt der Anbieter zudem eine Software vor, welche die Analyse von Sensordaten „on the edge“ vereinfachen soll. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44560607 / Definitionen)