Big Data und Datenmanagement Die Zukunft von Hadoop in einer cloud-basierten Welt
Anbieter zum Thema
Mit dem Versprechen, enorme Mengen von Daten in verteilten Umgebungen wirtschaftlich speichern und möglichst einfach verarbeiten zu können, hat Hadoop seit 2006 das Datenmanagement revolutioniert. Im vergangenen Jahr ereilte das Framework dann ein ziemlicher Schlag, mit Auswirkungen auf Anwendung und Anwender. Dennoch bleibt uns Hadoop noch eine Weile erhalten.

Mit Übernahmen im Wert von rund 18 Milliarden US-Dollar haben wir 2019 wahre tektonische Verschiebungen in der Big-Data-Industrie erlebt. Darunter die Übernahmen von Tableau durch Salesforce, von Looker durch Google und von Hedvig durch CommVault. Diese Konsolidierungswelle signalisiert zweifellos eine grundlegende Veränderung der Aussichten für Hadoop. Doch selbst angesichts der jüngsten Achterbahnfahrt von Cloudera, MapR und anderer Hadoop-Player, ist es noch zu früh, sich jetzt schon festzulegen, was das genau für die Plattform bedeutet. Hadoops einstiger Superstar-Status ist sicherlich geschwächt, doch steht seine Existenz nicht in Frage. Um das einzuordnen, braucht es zunächst den Blick zurück und dann nach vorn auf die nächsten Etappen.
Was ist Hadoop?
Hadoop ist ein Java-basiertes Open-Source-Framework, das von der Apache Software Foundation verwaltet wird. Es wurde entwickelt, um riesige Datensätze über Cluster von Standard-Hardware zu speichern und zu verarbeiten und einfache Programmiermodelle zu nutzen. Hadoop wurde für die Skalierung von Einzel- bis hin zu Tausenden von Servern entwickelt. Für seine Hochverfügbarkeit setzt es eher auf Software als auf Hardware – was bedeutet, dass das System von selbst Fehler in der Anwendungsschicht erkennt und behandelt. Hadoop besteht aus zwei Hauptkomponenten: dem Hadoop Distributed File System (HDFS) und Yet Another Resource Negotiator (YARN).
HDFS ist das Haupt-Datenspeichersystem von Hadoop, das eine NameNode/DataNode-Architektur verwendet, um den High-Performance-Zugriff auf Daten in einem verteilten Dateisystem zu ermöglichen, das auf hoch skalierbaren Hadoop-Clustern basiert. YARN, das ursprünglich „MapReduce 2“ genannt wurde – als nächste Generation des sehr beliebten „MapReduce“ –, unterstützt bei der Planung von Aufträgen und der Verwaltung von Ressourcen in allen Cluster-Anwendungen. Häufig wird es auch von Hadoop-Entwicklern verwendet, um Anwendungen zu erstellen, die mit extrem großen Datensätzen arbeiten können.
Eine kurze Geschichte von Hadoop
Die Ursprünge von Hadoop gehen auf das Jahr 2002 zurück, als die Entwickler Doug Cutting und Mike Cafarella von Apache Nutch sich auf die Suche nach einer kostengünstigeren Projektarchitektur begaben, die der Nutch’schen Zielstellung gerecht werden kann, eine Milliarde Webseiten zu indizieren. Doug wechselte 2006 zu Yahoo und bekam ein engagiertes Team samt Ressourcen, mit denen er Hadoop zu einem webbasierten System entwickeln konnte. 2008 dann brachte Yahoo Hadoop für Apache heraus und es wurde erfolgreich über einen Cluster mit 4.000 Knoten getestet.
Im Jahr darauf, 2009, wurde Hadoop erstmals erfolgreich im Petabyte-Maßstab getestet – es bewältigte Milliarden von Suchvorgängen und indexierte Millionen von Seiten in gerade einmal 17 Stunden. Zum damaligen Zeitpunkt fast noch undenkbar. Noch im selben Jahr verließ Doug Cutting dann Yahoo und wechselte zu Cloudera, das er zum ersten Hadoop-spezifischen Unternehmen machte. Erklärtes gemeinsames Ziel war, Hadoop auf andere Branchen auszuweiten. Auf Cloudera folgten 2009 MapR sowie 2011 Hortonworks und Hadoop gewann schnell die Gunst der Fortune-500-Anbieter, die Big Data als ein sich rasant entwickelndes und hochwertiges Feld identifizierten.
Das große Versprechen...
Der Begriff „Big Data“ bedeutet für verschiedene Menschen ganz unterschiedliche Dinge. Vielleicht lässt er sich deshalb besser mit „viel mehr Daten mit viel größerer Wirkung“ ausdrücken. Denn irgendwann stellten Unternehmen fest, dass alle Daten, die sie aus ihren Web- und Social-Media-Präsenzen generierten, entweder verloren gingen oder sich einfach nur ungenutzt in teuren Speichern ansammelten. Sie erkannten, dass diese Daten für eine bessere und personalisierte User Experience genutzt werden konnten, die Zufriedenheit und Umsätze gleichermaßen steigern würden. Ihnen fehlten bloß noch die Werkzeuge, um dies kostengünstig und in großem Maßstab zu tun.
Auftritt Hadoop! Diese neue Technologie versprach die wirtschaftliche Datenspeicherung in großem Maßstab und eine rationalisierte Verarbeitung von Datenvolumen im hohen Petabyte-Bereich. So wurde die Idee unternehmenseigener „Datenseen“ (Data Lakes) geboren – und die glorreiche Ära der effektiven Verarbeitung großer Datenmengen begann.
...und was davon geblieben ist
Als Hadoop ins Leben gerufen wurde und an Popularität gewann, war es die sprichwörtliche Idee, deren Zeit gekommen ist (und nichts auf der Welt ist mächtiger als eine solche, wie wir seit Victor Hugo nun mal wissen). Endlich gab es eine kostengünstige Möglichkeit, Petabytes von Daten zu einem Preis zu speichern, der nur einen Bruchteil der traditionellen Data-Warehousing-Kosten ausmachte. Doch dann erkannten die Unternehmen, dass die Speicherung von Daten und deren Verarbeitung zwei völlig unterschiedliche Herausforderungen sind. Sie begannen, ihre Data Warehouses als „Datensumpf“ zu nutzen, aber die hier abgelegten Daten nicht wirklich zu verwerten.
Trotz der Versprechen von Cloudera, MapR und anderen Unternehmen, cloud-ähnliche Flexibilität via Hadoop zu erreichen, begannen Data Architects ihre riesigen Data Lakes zu überdenken. Cloudera und andere Hadoop-Anbieter reagierten auf das wachsende Interesse an cloud-basierten Lösungen mit Hybrid- und Multi-Cloud-Angeboten wie der Cloudera Datenplattform (CDP), die schließlich im vergangenen März eingeführt wurde. Nur basierten diese Angebote weitgehend auf klobigen „Lift & Shift“-Methoden, deren Wirksamkeit und Effizienz nach wie vor fraglich sind.
Das war „too little, too late“. Im Wesentlichen hatten die Hadoop-Anbieter versucht, ihre eigene Version eines Lock-ins zu schaffen. Stattdessen schufen sie einen neuen Markt. Indem sie versuchten, der Innovation Einhalt zu gebieten, trieben sie Organisationen mit großen Datenmengen direkt in die offenen Arme spezialisierter Cloud-Dienste zur Speicherung, Verarbeitung und Analyse großer Datenmengen, wie sie von AWS, Azure und Google Cloud angeboten werden. Die Verantwortlichen in diesen Organisationen haben sich an die Freiheit, Leistung und Flexibilität der cloud-basierten Lösungen gewöhnt. Davon gibt es kein Zurück mehr.
Ein langes und langsames Verschwinden
Hadoops freier Fall im vergangenen Jahr steht exemplarisch für den anhaltenden Übergang der Branche weg von der Technologie einer veralteten Ära. Wir bewegen uns fort von der lokalen Speicherung von Daten und Milliarden von batch-basierten Abfragen – hin zu Echtzeit-Analysen von massiven Datensätzen in der Cloud. Dennoch wird Hadoop nicht so bald verschwinden. Denn aktuell und noch einige Zeit müssen Unternehmen einen Weg finden, den Übergang zu vollziehen und dabei sukzessive andere Optionen in einer Welt nach Hadoop zu finden.
Derweil werden Hadoop-basierte Data Lakes noch jahrelang in Branchen weiterleben, in denen zeitkritische und aufschlussreiche Analysen weniger wichtig sind und die Kosten die Effizienz übertrumpfen. Hadoop wird seinen rechtmäßigen Platz im großen Daten-Ökosystem haben. Aber in dynamischen und schnelllebigen Business-Landschaften wird das Datenmanagement zweifellos in der Cloud stattfinden und Unternehmen müssen diesen Übergang schon heute planen. Es wird Zeit.
Alles fließt in Datenströmen
Data Lakes gehören der Vergangenheit an, denn Daten sind kein statisches geschlossenes Konstrukt. Vielmehr müssen wir Daten als einen Fluss betrachten, der nicht gestaut werden kann – nicht als See. Daten fließen und befinden sich in ständigem Wandel, das Geschäft kann nicht wegen Migrationen, Upgrades oder Ausfallzeiten stillstehen. Der Datenkontext entwickelt sich von Minute zu Minute weiter, und die Sicherstellung von Datenkonsistenz und -verfügbarkeit ist die wahre Herausforderung für die Datenverantwortliche – nicht nur das Füllen eines Reservoirs.
Und deshalb wird Hadoop letztlich verblassen und schwinden, wie es alle monolithischen technologischen Modelle unweigerlich zugunsten ihrer dynamischeren Nachkommen tun. Die Menschen sind auf Seiten der Freiheit, die dem Cloud-Paradigma innewohnt. Daten sollten nicht in Seen versenkt werden, sie müssen ungehindert fließen können.
* Der Autor David Richards ist Hadoop-Begleiter der ersten Stunde. Er ist Co-Gründer von WANdisco und führt das Unternehmen seit 2005 als CEO.
(ID:46685797)