Interview mit dem Hadoop-Schöpfer D. Cutting „Das Hadoop-Ökosystem wird weiter wachsen“

Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Hadoop, das fast schon synonym für Big Data genannte Framework zum Verarbeiten großer Datenmangen, feiert in diesem Jahr seinen zehnten Geburtstag. BigData-Insider blickt gemeinsam mit dem Hadoop-Erfinder Doug Cutting auf die vergangenen zehn Jahre zurück und befragt ihn nach seiner Einschätzung zur Zukunft von Big Data und Hadoop.

Firmen zum Thema

Douglas „Doug“ Cutting
Douglas „Doug“ Cutting
(Bild: Cloudera)

Hadoop und das verteilte HDFS-Dateisystem sind trotz vieler Fortschritte im Bereich Echtzeit- und Streaming-Verarbeitung das bei den weitaus meisten großen Unternehmen eingesetzte Big-Data-Framework für das schnelle Analysieren unstrukturierter Daten. Dass sich letztlich das von Douglas „Doug“ Cutting entwickelte Framework als Quasi-Standard etablieren sollte, war dabei anfangs gar nicht absehbar. Wie genau die Umstände der Entstehung von Hadoop waren, kann niemand besser erläutern als der inzwischen bei Cloudera beschäftigte Erfinder selbst.

BigData-Insider: Herr Cutting, Gratulation! Hadoop ist jetzt zehn Jahre alt. Wie kam es zur Entwicklung des Frameworks? Sie hatten ja bereits mit Lucene Erfahrungen gesammelt und Anleihen zu MapReduce stammen von Google, oder?

Cutting: Wir arbeiteten seinerzeit an einem Problem, bei dem skalierbare, verteilte Datenberechnungen benötigt wurden. Die Software bestand aus einem Open-Source-Projekt, Apache Nutch. Zu dieser Zeit veröffentlichte Google Beschreibungen von verteilten Computing-Methoden, die den in Nutch eingesetzten Lösungen weit überlegen waren. Daher implementierten wir diese Methoden als Open Source innerhalb von Nutch. Als die Leute erkannten, dass dies auch über Nutch hinaus nützlich sein würde, bildeten wir ein neues Projekt und nannten es Hadoop. Das war der Name, den sich mein Sohn für seinen Stoffelefanten ausgedacht hatte. Inspiriert hatten uns aber letztendlich die technischen Veröffentlichungen von Google.

Es steht heute außer Frage, dass Hadoop sich als Basis-Framework für skalierbare, verteilt arbeitende Software zum Quasistandard entwickelt hat. Im Rahmen der medialen Berichterstattung ist Hadoop gleichbedeutend mit Big Data und Analytics. Dabei muss man zwischen dem von Ihnen initiierten Framework, dem HDFS-Dateisystem und dem eigentlichen Map-Reduce-Algorithmus auf der einen Seite sowie darauf aufbauenden Technologien und Lösungen auf der anderen Seite unterscheiden. Glauben Sie, dass Lösungen aus dem Apache-Ökosystem in Zukunft die eigentlichen Basis-Technologien, namentlich Hadoop, zumindest in der öffentlichen Wahrnehmung verdrängen?

Cutting: Richtig, Apache Hadoop umfasst zwei Teile. Zunächst gibt es das Hadoop-Projekt, das HDFS und MapReduce beinhaltet. Es gibt aber auch das Ökosystem anderer Apache-Projekte, die sich um Hadoop gebildet haben. Der erstgenannte Teil kann im Laufe der Zeit tatsächlich an Bedeutung verlieren. Der andere Teil aber wird weiter wachsen und scheint sogar die Oberhand zu gewinnen. Das Hadoop-Projekt wird in den künftigen Datensystemen der Menschen nicht immer eine zentrale Rolle spielen, das Hadoop-Ökosystem aber ganz bestimmt, weil sein Evolutionsmodell am nachhaltigsten ist.

Wie wird Ihrer Einschätzung nach das Thema Big Data in der Öffentlichkeit wahrgenommen?

Cutting: Big Data kommt in der Öffentlichkeit nicht immer gut an. Meiner Meinung nach verstehen die Menschen zwar, dass Big Data für viele der guten Dinge verantwortlich ist, die wir jeden Tag erleben, wie zum Beispiel die Spracherkennung, bequeme Telekommunikation, komfortables Shopping, verbesserte Gesundheitsfürsorge und so weiter. Die Menschen sind aber auch zu Recht besorgt, dass Big Data ihre Privatsphäre einschränken könnte. Sicherzustellen, dass Daten nicht missbraucht werden, ist jedoch keine rein technische, sondern vor allem eine gesellschaftliche Frage. Ich bin optimistisch, dass wir wirksame Schutzmaßnahmen entwickeln können, sodass Menschen den Institutionen, die Daten erheben, vertrauen können.

Welche Vorstellungen haben Ihrer Meinung nach Unternehmen, Institutionen und Verbraucher vom Wert von Big Data Analytics? Der Bogen reicht ja von Social Marketing bis zu Smart Citys.

Cutting: Die Unternehmen haben bemerkt, dass sie ihre Geschäfte am effektivsten durch die Nutzung von Daten verbessern können. Fast jede Institution besitzt Schnittstellen zur digitalen Welt und erzeugt darüber hinaus auch relevante Daten. Um Wettbewerbsvorteile zu erzielen, muss der Nutzen dieser Daten analysiert werden. Das Hadoop-Ökosystem bietet dafür das beste Werkzeug. Das gilt für nahezu jede Branche: Banken, Versicherungen, Gesundheitswesen, Fertigung, Einzelhandel, Telekommunikation, Regierungsbehörden usw. Allerdings beschleunigt das Internet of Things diese Entwicklung und führt zur Digitalisierung weiterer Branchen.

Hortonworks – treibende Kraft hinter den Apache-Projekten rund um Hadoop – hat angekündigt, seine Hadoop-Unternehmensversion HDP ab jetzt häufiger zu aktualisieren. Zudem kooperiert Hortonworks offenbar jetzt mit Hewlett-Packard Enterprise (HPE), was aber in erster Linie zu weiteren Verbesserungen von Apache Spark führen soll. Auf anderen Seite sollen Kernkomponenten von Apache Hadoop wie das Dateisystem HDFS, der Algorithmus MapReduce, das Cluster-Management-System YARN sowie das Konfigurationssystem Zookeeper nur jährlich aktualisiert werden, auf Hadoop aufsetzende Dienste wie Spark, Hive, HBase und Ambari on Block dagegen mehrmals jährlich. Wie beurteilen Sie dieser Entwicklung und welche Strategie verfolgt Cloudera?

Cutting: Es geht letztendlich immer um einen Kompromiss zwischen Agilität und Stabilität. Unabhängig voneinander freigegebene Dinge verschaffen den Nutzern häufig mehr Flexibilität. Für einen zuverlässigen Betrieb erfordert der Zugang zu neueren Features aber auch eine komplexere Umgebung. Wenn vier unterschiedliche Versionen aus vier Komponenten beliebig miteinander vermischt werden können, dann benötigen 256 unterschiedliche Kombinationen Support. Versionen bereitzustellen, die mit einem Upgrade-Pfad zusammenarbeiten, stellt eine der wichtigsten Aufgaben eines Anbieters dar. Wir erleben oft, dass diejenigen, die ohne einen Lieferanten arbeiten, an einen bestimmten Satz gepatchter Versionen gebunden sind und keine Möglichkeit zum Upgrade haben. Ein Anbieter, der weniger Optionen bereitstellt, mag folglich vielleicht erst einmal kurzfristig für Frustration sorgen, aber auf lange Sicht könnte die Stabilität seines Systems von Nutzen sein. Für Abenteurer bietet Cloudera übrigens über Cloudera Labs einen frühzeitigen Zugriff auf noch nicht unterstützte Software.

„Hadoop“, so hat Doug Cuttings Sohn seinen Stoffelefanten getauft.
„Hadoop“, so hat Doug Cuttings Sohn seinen Stoffelefanten getauft.
(Bild: Cloudera)

Wie beurteilen Sie die zunehmende Bedeutung von Dataflow im Zusammenhang mit IoT-Anwendungen? Immerhin hat Hortonworks gerade in den vergangenen zwei Jahren, insbesondere durch Kooperationen und Zukäufe, in seine Dataflow-Engine investiert.

Cutting: Der Plattform werden immer mehr Komponenten hinzugefügt, die den „Datenfluss“ und IoT-Anwendungen besser unterstützen. Heute kombinieren unsere Kunden häufig Kafka, Flume, Spark Streaming und HBase, um solche Anwendungsfälle zu unterstützen. Wir freuen uns, dass wir gemeinsam mit Google am Apache-Beam-Projekt arbeiten können, der Open-Source-Komponente von Google Cloud DataFlow. Kudu ist noch recht jung, erweist sich für Echtzeit-Anwendungen aber bereits als wertvoll. Sobald sich neue Komponenten als nützlich erweisen und populär werden, beginnen Anbieter wie Cloudera damit, mehr und mehr davon zu unterstützen.

Wie beurteilen Sie die derzeitigen Konzentrationsbewegungen des Marktes? Sie haben mit Cloudera 2009 den Anfang gemacht und sogar Unternehmen wie Intel dazu gebracht, eigene Ambitionen zurück zu stecken. Hortonworks kooperiert seit Längerem mit Pivotal. Bleibt als dritte Kraft noch MapR. Cloudera und MapR bietet vorwiegend kommerzielle, möglichst einfach benutzbare Distributionen, während Hortonworks zumindest seine Distribution frei zugänglich hält und sich auf Support konzentriert. Natürlich können sich versierte Unternehmen ihre Big-Data-Umgebungen aus den Apache-Komponenten zusammenschrauben, doch geht das Know-how dazu nicht mit jedem neuen Cloudera- oder MapR-Relase verloren?

Cutting: Open Source schafft ein ganz anderes Umfeld. Es ist kein Fehler, sondern ein Erfolg, wenn die Leute direkt von Apache-Releases profitieren können oder von freien Versionen anderer Anbieter. Wie Tim O'Reilly es formulierte, müssen wir „mehr Werte schaffen als wir verbrauchen“. Institutionen bezahlen Anbieter nur dann, wenn sie Werte erhalten, die sie aus unabhängigen, alternativen Quellen nicht so einfach bekommen können. Dies zwingt die Anbieter dazu, sich auf die Qualität ihrer Angebote zu konzentrieren, da die Kunden Alternativen haben. Das ist eine viel gesündere Dynamik als die der traditionellen kommerziellen Software-Plattformen.

Vielen Unternehmen mangelt es an fachlicher Kompetenz und den technischen oder finanziellen Möglichkeiten zum Aufbau einer eigenen Big-Data-Infrastruktur. Gleichwohl ist der Betriebsstoff in Form eigener oder zugekaufter Daten oft vorhanden, nicht selten sogar in der Cloud lagernd. HDP in Azure, MapR auf AWS – die Beispiele lassen sich fortsetzen. Cloudera selbst treibt das Cloud-Thema seit Jahren voran und ist nach eigener Einschätzung die einzige Hadoop-Distribution, die hybride Cloud-Umgebungen unterstützt. Der Cloudera Director ist ja jüngst in Version 2.0 erschienen. Stimmen Sie zu, dass In-Memory- und Map-Reduce-Frameworks auf der einen Seite und die Cloud – als unerschöpfliches Reservoir des Big-Data-Betriebsstoffs Daten – in perfekter Weise harmonieren und daher langfristig immer weniger Unternehmen eigene Infrastrukturen und Frameworks betreiben?

Cutting: Die Cloud-Bereitstellung von Hadoop wächst derzeit schneller als der Vor-Ort-Einsatz. Auf die Cloud entfallen derzeit etwa 15 Prozent der Cloudera-Kundeninstallationen, aber das kann bald auf 50 Prozent oder mehr ansteigen. Folglich handelt es sich um einen Bereich, in dem sich Anbieter wie Cloudera richtigerweise auf eine verbesserte Unterstützung konzentrieren. Vor-Ort-Installationen dürften nie ganz verschwinden, daher ist ein hybrider Ansatz pragmatisch. Darüber hinaus werden versierte Institutionen mehrere Cloud-Anbieter nutzen, um feste Bindungen zu vermeiden und die Preise zu senken. Um die Kundenbedürfnisse am besten zu erfüllen, sollte ein Anbieter demnach nicht nur hybride, sondern auch Multi-Cloud-Bereitstellungen unterstützen.

Das IoT stellt gänzlich neue Anforderungen an die Integrität von Daten. Diese wird für Personal- und Geschäftsentscheidungen enorm wichtig sein, von der medizinischen Diagnose, über den Schutz und die Überwachung der Umgebung bis zu Befehlen, die die Identifikation und Autorisierung des physischen Zugangs zu Maschinen und Geräten steuern. Wie sehen Sie diese Entwicklung?

Cutting: Da immer mehr persönliche Daten gespeichert werden, wird Sicherheit immer wichtiger. Mit einer gut unterstützen Verschlüsselung muss der physische Zugang zu den Systemen nicht unbedingt beeinträchtigt sein. Die Schlüssel müssen sorgfältig verwaltet und Systeme sorgfältig entworfen werden. Wir sehen in diesen Bereichen gute Fortschritte. Ich persönlich finde aber, dass die technischen Herausforderungen der Datensicherung weit weniger besorgniserregend sind als die gesellschaftlichen und politischen Herausforderungen, die sich um den ethisch korrekten Umgang mit personenbezogenen Daten drehen. Wir befinden uns am Anfang einer neuen Ära. Viele neu aufgestellte Datenschutzrichtlinien werden uns wahrscheinlich über Jahrzehnte begleiten. Wir müssen sicherstellen, dass wir uns sowohl ethisch korrekt verhalten als auch in der Lage sind, die mit der Datenbereitstellung verbundenen erheblichen gesellschaftlichen und wirtschaftlichen Vorteile zu nutzen. Ich glaube, dass es einen entsprechenden Weg in der Mitte gibt. Um alles in die richtigen Kanäle zu lenken, wird es aber eine ruhige Hand erfordern.

Was bringt die Zukunft? Wie geht es in den kommenden Jahren mit Hadoop und Big Data weiter?

Cutting: Ich gehöre nicht zu denen, die langfristige Pläne machen. Selbst wenn es so wäre, hätte ich nicht die Kraft, diese Pläne auch alle umzusetzen. Hadoop und sein Ökosystem werden sich organisch entwickeln, angetrieben von den Nutzern und den anderen Mitwirkenden. Organische Entwicklung stellt gegenüber einer zentralen Steuerung ein viel besseres Verfahren dar. In den vergangenen zehn Jahren haben wir mit Hadoop eine sehr viel schnellere Weiterentwicklung unserer Software-Datenplattform erlebt als in den vielen Jahrzehnten zuvor. Ich bin überzeugt, dass dieser Prozess andauern wird. Aufgrund der vorhandenen Steigerungsraten werden wir für die kommenden Jahrzehnte immer bessere Systeme bereitstellen können. Aber auch ich habe keine Ahnung, wie diese neuen Systeme aussehen werden.

(ID:44041371)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist