Definition

Was ist Hadoop?

| Autor / Redakteur: tutanch / Nico Litzel

(© aga7ta - Fotolia)

Bei Hadoop handelt es sich um ein auf Java basierendes Software Framework. Mit ihm lassen sich große Datenmengen auf verteilten Systemen in hoher Geschwindigkeit verarbeiten. Es ist zur Bewältigung der Datenverarbeitung im Big-Data-Umfeld geeignet.

Das Software Framework Hadoop ist eine Art Ökosystem, das auf verschiedenen Architekturen und unterschiedlicher Hardware betrieben werden kann. Es ist in der Programmiersprache Java geschrieben und als Quellcode von Apache frei verfügbar. Erfinder von Hadoop ist Doug Cutting, der mit der Veröffentlichung des MapReduce-Algorithmus durch Google im Jahr 2003 dessen Bedeutung erkannte und die Entwicklung von Hadoop begann. Seit 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation. Der Name Hadoop geht zurück auf einen kleinen Spielzeugelefanten des Sohns von Doug Cutting. Noch heute ist der Elefant im Logo von Hadoop vorhanden.

Das Software Framework ist für verteilt arbeitende, skalierbare Systeme vorgesehen. Zentraler Bestandteil ist unter anderem der MapReduce-Algorithmus von Google. Es lassen sich mit Hadoop intensive Rechenprozesse mit riesigen Datenmengen, wie sie im Big-Data-Umfeld auftreten, auf einer Vielzahl zu einem Cluster zusammengefasster Computer ausführen.

Die einzelnen Bestandteile von Hadoop

Hadoop besteht aus einzelnen Komponenten. Die vier zentralen Bausteine des Software-Frameworks sind:

  • Hadoop Common,
  • das Hadoop Distributed File System (HDFS),
  • der MapReduce-Algorithmus sowie
  • der Yet Another Resource Negotiator (YARN).

Hadoop Common stellt die Grundfunktionen und Tools für die weiteren Bausteine der Software zur Verfügung. Dazu gehören beispielsweise die Java-Archiv-Files und -Scripts für den Start der Software. Die Kommunikation zwischen Hadoop Common und den anderen Komponenten erfolgt über Schnittstellen. Über diese lassen sich die Zugriffe auf darunterliegende Dateisysteme oder die Kommunikation innerhalb von Clustern steuern.

Beim Hadoop Distributed File System (HDFS) handelt es sich um ein verteiltes Dateisystem, mit dem sich Daten auf verschiedenen Systemen in einem Rechnerverbund speichern lassen. Dadurch wird die Vorhaltung von großen Datenmengen möglich. Nach Angaben von Apache ist HDFS in der Lage, mehrere 100 Millionen Daten zu verwalten. Mit zum Dateisystem gehören Mechanismen zur Duplizierung von Daten für den Fall eines Ausfalls einzelner Rechner.

Die zentrale Engine von Hadoop bildet der MapReduce-Algorithmus, der in seinen Grundzügen von Google entwickelt wurde. Der Algorithmus stellt verschiedene Funktionen zur Verfügung, die es erlauben, komplexe und rechenintensive Aufgaben in viele kleine Einzelteile auf mehrere Rechner aufzuspalten. Durch die parallele Abarbeitung der Teilaufgaben ergibt sich eine hohe Rechengeschwindigkeit. Die Teilergebnisse führt der MapReduce-Algorithmus am Ende zu einem Gesamtergebnis zusammen.

Der Yet Another Resource Negotiator (YARN) stellt eine Art Ergänzung des MapReduce-Algorithmus dar. Er kann die Ressourcen in einem Rechnerverband managen und Ressourcen eines Clusters dynamisch verschiedenen Jobs zuordnen. Über Queues legt YARN die Kapazitäten der Systeme für die einzelnen Aufgaben fest.

Die Funktionsweise von Hadoop

Die zentralen Funktionen von Hadoop übernehmen das Filesystem HDFS und der MapReduce-Algorithmus. HDFS sorgt dafür, dass die Daten auf die einzelnen Systeme im Rechnerverbund verteilt werden.

MapReduce spaltet die Verarbeitung der Daten in Einzelaufgaben, die sich auf den Systemen parallel ausführen lassen, auf und fügt deren Resultate zu einem Gesamtergebnis zusammen. Innerhalb eines Hadoop-Clusters nimmt ein Rechnerknoten die Rolle des Masters an, die anderen arbeiten im Slave-Mode. Der Master ist für die Verwaltung der Metadaten des Filesystems verantwortlich. Auf den Slaves erfolgt die eigentliche Ablage der Daten. Der Master sorgt dafür, dass die Datenblöcke repliziert und auf mehreren Knoten gleichzeitig vorhanden sind. Er kennt die Ablageorte der Datenblöcke und kann Datenverlust aufgrund eines Rechnerausfalls im Verbund durch die Replizierung verhindern. Meldet sich ein Knoten über eine längere Zeit nicht mehr beim Master, erfolgt der Zugriff auf die replizierten Daten. Gleichzeitig kümmert sich der Master darum, dass neue Kopien der Daten erzeugt und gespeichert werden. Um für den Ausfall des Masters gerüstet zu sein, ist eine Art Secondary Master vorhanden, auf dem alle Veränderungen der Metadaten gesichert und wiederherstellbar sind.

Business Intelligence – ein typisches Anwendungsgebiet

Die Fähigkeit von Hadoop, große, auch inhomogene Datenmengen in hoher Geschwindigkeit verarbeiten zu können, macht das Framework ideal geeignet für den Einsatz im Business-Intelligence-Umfeld. Oft stammen die für die Business Intelligence Reports und Analysen herangezogenen Daten aus vielen verschiedenen Datenquellen und haben eine sehr unterschiedliche Struktur. Ein Hadoop-System ist in der Lage, die riesigen Datenmengen verteilt und in vielen kleinen Prozessschritten parallel zu verarbeiten. Es lassen sich komplexe Rechenaufgaben mit Daten im Petabyte-Bereich schnell und wirtschaftlich bewältigen. Die Ergebnisse der Big-Data-Verarbeitung durch Hadoop liefern Erkenntnisse, um beispielsweise die strategische Planung des Unternehmens neu auszurichten, die Entscheidungsfindung zu unterstützen, das Unternehmen effizient zu steuern oder das Berichtswesen zu vereinfachen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Hard-und Software-Bundle für Hadoop und Deep Learning

Dell EMC Ready Solutions für KI

Hard-und Software-Bundle für Hadoop und Deep Learning

Mithilfe der „Dell EMC Ready Solutions für KI“ sollen Unternehmen ihre KI-Umgebungen nicht mehr in einzelnen Komponenten beschaffen und zusammenfügen müssen. Stattdessen könnten sie sich auf ein von Dell EMC entwickeltes und validiertes Paket von Best-of-Breed-Software verlassen – einschließlich KI-Frameworks und -Bibliotheken sowie den benötigten Rechen-, Netzwerk- und Speicherkapazitäten. lesen

Daten gehören zum wichtigsten Kapital eines Unternehmens

Kommentar von Benjamin Krebs, Dell EMC

Daten gehören zum wichtigsten Kapital eines Unternehmens

Die Digitale Transformation verändert die Welt. Experten prognostizieren, dass in den nächsten drei Jahren die Hälfte der globalen Wertschöpfung digital entsteht. Der Einsatz von Daten und die Behandlung von Daten als Unternehmenskapital treiben diesen Wandel entscheidend voran. Durch die Fähigkeit, Daten gezielt für das eigene Geschäft zu nutzen, werden sich die Gewinner von den Verlierern unterscheiden. lesen

Mit Künstlicher Intelligenz profitable Geschäfte machen

Mensch, Prozesse, Technologie

Mit Künstlicher Intelligenz profitable Geschäfte machen

Der erfolgreiche Einsatz Künstlicher Intelligenz im Unternehmen beginnt mit Menschen und Geschäftsprozessen – erst danach kommt die Technologie. Vor der Einführung entsprechender Lösungen sollten Führungskräfte eine Vision entwickeln, wie KI ein profitables Geschäft antreiben kann. lesen

Wenn schon Big Data, dann aber richtig

Kommentar von Neil Barton, Wherescape

Wenn schon Big Data, dann aber richtig

Nach der Anfangseuphorie hat sich im Bereich Big Data Ernüchterung breit gemacht. Nicht wenige Unternehmen haben kräftig in Big Data investiert und müssen sich nun die Frage gefallen lassen, ob den getätigten Investition denn auch entsprechende Werte für ihr Unternehmen gegenüberstehen. Tatsächlich mündet nur ein Bruchteil von Big-Data-Projekten in der Produktion. Mit diesen fünf grundlegenden Planungstipps kann man Fehlinvestitionen schon in der Planungsphase vermeiden und Big Data im Unternehmen zum Erfolg führen. lesen

Data Artisans stellt dA Platform v1.1 für Data Stream Processing vor

Stream Processing mit Apache Flink

Data Artisans stellt dA Platform v1.1 für Data Stream Processing vor

Data Artisans hat die Version 1.1. der „dA Platform“ für Stream Processing auf Basis von Apache Flink 1.5 vorgestellt. Die wichtigste Neuerung in Version 1.1 ist der Support für die neue Version 1.5 des Streaming-Frameworks Apache Flink, die Unterstützung von Batch Jobs und eine verbesserte Integration mit Kubernetes. lesen

SAS stellt KI, Governance und Collaboration in den Vordergrund

Nachbericht SAS Forum Deutschland 2018

SAS stellt KI, Governance und Collaboration in den Vordergrund

Auf seiner Anwenderkonferenz „SAS Forum Deutschland 2018“ in Bonn stellte der US-Analytics-Spezialist SAS seine Self-Service-Analyse-Plattform SAS Viya in der Version 3.3 vor und gewährte Ausblicke auf Version 3.4. Viya ist auf moderne Analytics- und KI-Technologien ausgerichtet, daher sollen auch Grafikprozessoren, Container und Collaboration-Technologien unterstützt werden. lesen

Mehr Security, schnellere Analyse und günstige TCO

MapR 6.1 soll Big Data unternehmenstauglicher machen

Mehr Security, schnellere Analyse und günstige TCO

Ein neues „Major Release“ seiner Datenplattform MapR hat der gleichnamige Softwareanbieter aus Santa Clara, Kalifornien, für den kommenden Herbst in Aussicht gestellt: MapR 6.1 ist unter anderem dafür ausgelegt, die Datenanalyse für KI-Anwendungen zu beschleunigen und die Betriebskosten zu senken. lesen

Hortonworks baut Kooperationen aus

Zusammenarbeit mit IBM, Google und Microsoft

Hortonworks baut Kooperationen aus

Anlässlich des DataWorks Summits in Kalifornien hat Hortonworks eine Reihe von neuen und vertieften Partnerschaften bekanntgegeben. Zudem kündigte das Unternehmen Version 3.0 seiner Data Platform an. lesen

Databricks erweitert Sparks KI-Fähigkeiten mit ML-Framework

Künstliche Intelligenz mit Apache Spark

Databricks erweitert Sparks KI-Fähigkeiten mit ML-Framework

Databricks, Entwickler und Betreuer der Analytics-Plattform Apache Spark, hat mit der Unified Analytics Platform ein neues Machine Learning Framework vorgestellt. Drei zusätzliche Spark-Funktionen sollen die Zusammenarbeit zwischen Datenbereitstellung und KI-Entwicklung plattformübergreifend performant machen lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44560607 / Definitionen)