Ein Elefant erfreut die kindlichen Herzen der Open Source Community Die kurze Geschichte von Hadoop
Autor / Redakteur: Harald Sander / Rainer Graefen
Vielleicht wird es eines Tages Internet-Märchenbücher geben. Dann wird dort sicherlich die Geschichte vom kleinen Elefanten Hadoop zu lesen sein, der extrem neugierig ist und innerhalb kürzester Zeit in jedem Heuhaufen die Stecknadel findet.
Douglass Read Cuttings Sohn hatte seinem Spielzeugelefanten den Namen Hadoop gegeben, ist im Internet zu lesen. Doug Cutting selbst war zu diesem Zeitpunkt Entwickler von Open-Source-Suchtechnik.
Von ihm stammt der Suchindizierer Lucene und die nun weithin bekannte Hadoop-Plattform. Die einfache Aussprache und die sehr gute „Googlebarkeit“ überzeugten ihn von der Wortschöpfung seines Sohnes.
Doug Cuttings
Cuttings ist eine zentrale Figur in der Open-Source-Softwarebewegung, der auch die Bedeutung des von den Google Labs veröffentlichten MapReduce-Algorithmus erkannte und darum herum das Hadoop-System entwickelte. Hadoop rechnet mit einem großen Cluster von x86-Standard-Hardware.
Damals, so um die Jahreswende 2003/2004 arbeitete der Suchspezialist noch bei Yahoo, wechselte dann aber zu Cloudera und wurde 2010 zum Vorsitzenden der Apache Software Foundation gewählt.
Jay Parikh
Hadoop ist natürlich nicht die Leistung eines einzelnen Menschen. Verständlicherweise hat neben Google auch Facebook viele Finger und auch viele Inder um den Entwicklungschef Jay Parikh ins Entwicklerspiel gebracht, die der Hadoop-Plattform viel Feinschliff verpassten und auch viele grobe Schwächen beseitigten, die erst den professionellen Einsatz ermöglichten.
Die Facebook-Entwickler lösten die Fesseln des an ein Rechenzentrum gebundenen Hadoop-Clusters auf, so dass die Rechnerinfrastruktur heute auch in global verteilten Rechenzentren arbeitsfähig ist. Weitere Entwicklungen durch Facebook sind Hive und Presto.
Google Basics
Mittels Hive kann man die Hadoop-Daten sehr einfach abfragen. Und Presto ist ein rasant arbeitendes Abfrage-Werkzeug, das fast in Echtzeit 250 Petabyte Daten durchsuchen kann. Das funktioniert selbstredend nur mit einer dazu passenden Datenbank.
Bei Facebook hat man Googles Vorarbeiten der Entwicklungsbeschreibungen zur Datenbanksoftware BigTable benutzt, um mit HBase eine eigene massiv-parallele Datenbank zu konstruieren, die auch von Netflix und Digg benutzt wird.
HBase ist keine relationale Datenbankmaschine, sondern eine Datenbank mit dokumentenorientierten Baumstrukturen, die aktuell als „Not only SQL Database“ (NoSQL-Datenbank) bekannt werden. Die Datenbanktabellen mit Spalten und Reihen dominieren hier nicht mehr, ebenso wenig wie es noch Binary Large Objekts gibt, da jedes Datum indiziert ist.
Stand vom 30.10.2020
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.