Information Overkill ist ein Fremdwort für die Apache Software Foundation Die Freunde des Hadoop-Ökosystems wollen alles ganz genau wissen

Autor / Redakteur: Harald Sander / Rainer Graefen

Wir fliegen mit Google Earth über jeden Ort der Erdkugel, wir wissen dank Facebook, was unsere Freunde in China zum Abendessen verspeisten. Doch wo sind noch die großen Abenteuer? Sie stecken in den unendlichen Sensorwerten von uns allen!

Firma zum Thema

In Zukunft bleibt wenig verborgen, wenn sich das humane Internet und das Internet der Dinge abfragen lassen.
In Zukunft bleibt wenig verborgen, wenn sich das humane Internet und das Internet der Dinge abfragen lassen.
(Grafik: @pixout-webdesign.de)

Für Google, für Facebook, für Yahoo und diverse andere Unternehmen, die im Bereich sozialer Netzwerke aktiv sind, ist die Aufgabe klar definiert: Wir machen aus der Welt ein Dorf, im Endeffekt ein virtuelles, das sich jeweils auf einigen Zehntausend Rechnerknoten befindet.

Und jeder „Dorfbewohner“ darf sein Scherflein dazu beitragen, damit die Rechnung der Dorfbetreiber aufgeht. Am Ende eines jeden Dorftages hat beispielsweise Facebook 500 Terabyte Daten in Form von Texten, Bildern, Videos und vielen geschmäcklerischen Likes mehr auf der Habenseite.

Bildergalerie
Bildergalerie mit 7 Bildern

Datenspeicher kosten, Metadaten bringen Geld

Zurzeit überschlägt sich die Industrie mit der Ankündigung von Hypes: Cloud Computing, Big Data und seit kurzem noch das Internet der Dinge. Man kann das als getrennte Ereignisse betrachten, ein Blick auf die Inhalte dieser Hypes zeigt allerdings, dass es bei den drei Themen um unbeschränkte Rechenleistung für die Analyse eines unbeschränkten Datenwachstums von Milliarden Menschen und Maschinen geht.

Der Analyse-Markt verspricht außer vielen Erkenntnissen auch viel Umsatz. Gartner veröffentlichte gerade seine ersten Schätzungen, welches Umsatzpotenzial im Internet der Dinge steckt: Die Marktforscher rechnen mit 300 Milliarden US-Dollar schon im Jahr 2020. Und auf eine Analyse-Plattform schwören sich eine seit sieben Jahre wachsende Anzahl von Anbietern ein: Hadoop.

Hadoop gilt als die frei verfügbare Software-Plattform, die ein Datenvolumen von einigen zehn Terabyte bis zu einigen Hundert Petabytes handeln kann. Auch wenn nicht jedes Big-Data-Projekt in diesen Datenvolumendimensionen betrieben wird, die Wahrscheinlichkeit großer Datenmengen wächst mit sozialen Netzwerken, Humangenetik, Erdbebenvorhersage und spätestens mit dem „Internet of Things“, das uns Milliarden von Sensoren bringen wird.

Hadoop konzentriert viel Rechenleistung auf den Datenhaufen

Hadoop kann eine Hardwarebasis aus vielen Tausend Rechnerknoten beschäftigen, die in einem Master-Slave-Betrieb riesige Datenmengen durchsuchen. Die Knoten rechnen mit x86-Industrierechnern und Linux-Software. Über die gesamte Hardware inklusive der Betriebssysteme wird das Hadoop Distributed File System gespannt. Während die Slave-Knoten jeweils einen Anteil der Daten bearbeiten und den Status der Rechenarbeit per Task Tracker an die Zentrale melden, muss der Master-Knoten den zentralen Namensraum für alle Slaves bereitstellen und per Job Tracker die Aufgaben (Task) an freie Slave-Knoten verteilen.

Ein redundanter zweiter Master sorgt für die Ausfallsicherheit. Das entspricht der Aufgabenverarbeitung im klassischen High Performance Computing (HPC), wobei hier aber Datenbanken und nicht Formeln ausgewertet werden. Der Hadoop-Cluster kann im Modus „standalone“, „pseudo-distributed“ und „fully distributed“ betrieben werden.

Die freie Software Hadoop selbst hat zwei Hauptkomponenten:

  • Das Hadoop Distributed File System (HDFS) ist ein selbstheilender, breitbandiger Speicher-Cluster, der auf lokale Betriebssysteme wie ext3 oder xfs aufsetzt.
  • Map Reduce ist eine fehlertolerante, verteilte Prozessverarbeitung, die die Nadel im Datenheuhaufen findet.

HDFS ist nicht unangefochten. Bevor es zu HDFS wurde, war es Googles File System. Nun ist es Open Source Software und wird von der Apache Software Foundation verwaltet und weiterentwickelt. Dass das Hadoop Distributed File System nicht das Maß aller Dinge ist, zeigen alternative Distributionen wie Cloudera, Hortonworks und MapR. Letztere wollen einige bislang ungelöste Probleme wie Instabilitäten, Misstrauen in den zeitgerechten Ablauf von Batch-Prozessen oder zu komplizierte I/O-Arbeitsabläufe in ihrer Distribution gelöst haben.

Zusätzlich zu diesen bekannteren Distributionen bietet beispielsweise Google noch Konnektoren an, die HDFS umgehen und den Hadoop-Cluster direkt mit dem Google Cloud Storage verbinden und neben einfacher bedienbaren, gemeinschaftlichen Zugriffsfunktionen auch Verschlüsselung bieten. Amazon offeriert mit S3 eine Infrastructure as a Service, also ähnliches wie Google an. Weitere Konkurrenz zu HDFS kommt von den großen Anbietern wie IBM, HP, SGI oder auch Quantum, die ebenfalls verteilte Dateisysteme in ihrem Besitz haben.

Datenhaufen bestehen eigentlich nur aus Stecknadeln

Anders als HDFS ist Map Reduce die herausragende Funktion bei Hadoop. Map Reduce verteilt die Daten über die Rechenknoten, die jeder für sich auf die Suche gehen nach z.B. den höchsten und tiefsten Temperaturen auf der Welt im Jahr 2013. Map Reduce schüttelt, mischt und schiebt die Daten auf jedem Knoten nach den drei Parametern Temperatur hoch, Temperatur tief, Jahr 2013 durcheinander, verwirft die Teilresultate, weil sie weder größer noch kleiner sind, und reduziert so mit jedem Rechenschritt die gesamte Datenmenge, bis nur noch zwei Werte vorhanden sind und die höchste und tiefste Temperatur gefunden ist.

So könnte man auch die Straße mit den tiefsten Schlaglöchern ermitteln, wenn viele Autos mit GPS ausgestattet und in den Stoßdämpfern Sensoren angebracht wären. Oder man stattet Bordsteine mit Bewegungsmeldern aus und weiß dadurch, wo noch ein Parkplatz im Stadtzentrum frei ist. Das Internet der Dinge wird da sicherlich noch mit einigen überraschenden Ergebnissen aus der Verknüpfung der Messwerte von Milliarden Sensoren kombiniert mit menschlicher Sensorik aufwarten.

(ID:42602247)