Interview mit dem Hadoop-Schöpfer D. Cutting

„Das Hadoop-Ökosystem wird weiter wachsen“

Seite: 2/2

Firmen zum Thema

„Hadoop“, so hat Doug Cuttings Sohn seinen Stoffelefanten getauft.
„Hadoop“, so hat Doug Cuttings Sohn seinen Stoffelefanten getauft.
(Bild: Cloudera)

Wie beurteilen Sie die zunehmende Bedeutung von Dataflow im Zusammenhang mit IoT-Anwendungen? Immerhin hat Hortonworks gerade in den vergangenen zwei Jahren, insbesondere durch Kooperationen und Zukäufe, in seine Dataflow-Engine investiert.

Cutting: Der Plattform werden immer mehr Komponenten hinzugefügt, die den „Datenfluss“ und IoT-Anwendungen besser unterstützen. Heute kombinieren unsere Kunden häufig Kafka, Flume, Spark Streaming und HBase, um solche Anwendungsfälle zu unterstützen. Wir freuen uns, dass wir gemeinsam mit Google am Apache-Beam-Projekt arbeiten können, der Open-Source-Komponente von Google Cloud DataFlow. Kudu ist noch recht jung, erweist sich für Echtzeit-Anwendungen aber bereits als wertvoll. Sobald sich neue Komponenten als nützlich erweisen und populär werden, beginnen Anbieter wie Cloudera damit, mehr und mehr davon zu unterstützen.

Wie beurteilen Sie die derzeitigen Konzentrationsbewegungen des Marktes? Sie haben mit Cloudera 2009 den Anfang gemacht und sogar Unternehmen wie Intel dazu gebracht, eigene Ambitionen zurück zu stecken. Hortonworks kooperiert seit Längerem mit Pivotal. Bleibt als dritte Kraft noch MapR. Cloudera und MapR bietet vorwiegend kommerzielle, möglichst einfach benutzbare Distributionen, während Hortonworks zumindest seine Distribution frei zugänglich hält und sich auf Support konzentriert. Natürlich können sich versierte Unternehmen ihre Big-Data-Umgebungen aus den Apache-Komponenten zusammenschrauben, doch geht das Know-how dazu nicht mit jedem neuen Cloudera- oder MapR-Relase verloren?

Cutting: Open Source schafft ein ganz anderes Umfeld. Es ist kein Fehler, sondern ein Erfolg, wenn die Leute direkt von Apache-Releases profitieren können oder von freien Versionen anderer Anbieter. Wie Tim O'Reilly es formulierte, müssen wir „mehr Werte schaffen als wir verbrauchen“. Institutionen bezahlen Anbieter nur dann, wenn sie Werte erhalten, die sie aus unabhängigen, alternativen Quellen nicht so einfach bekommen können. Dies zwingt die Anbieter dazu, sich auf die Qualität ihrer Angebote zu konzentrieren, da die Kunden Alternativen haben. Das ist eine viel gesündere Dynamik als die der traditionellen kommerziellen Software-Plattformen.

Vielen Unternehmen mangelt es an fachlicher Kompetenz und den technischen oder finanziellen Möglichkeiten zum Aufbau einer eigenen Big-Data-Infrastruktur. Gleichwohl ist der Betriebsstoff in Form eigener oder zugekaufter Daten oft vorhanden, nicht selten sogar in der Cloud lagernd. HDP in Azure, MapR auf AWS – die Beispiele lassen sich fortsetzen. Cloudera selbst treibt das Cloud-Thema seit Jahren voran und ist nach eigener Einschätzung die einzige Hadoop-Distribution, die hybride Cloud-Umgebungen unterstützt. Der Cloudera Director ist ja jüngst in Version 2.0 erschienen. Stimmen Sie zu, dass In-Memory- und Map-Reduce-Frameworks auf der einen Seite und die Cloud – als unerschöpfliches Reservoir des Big-Data-Betriebsstoffs Daten – in perfekter Weise harmonieren und daher langfristig immer weniger Unternehmen eigene Infrastrukturen und Frameworks betreiben?

Cutting: Die Cloud-Bereitstellung von Hadoop wächst derzeit schneller als der Vor-Ort-Einsatz. Auf die Cloud entfallen derzeit etwa 15 Prozent der Cloudera-Kundeninstallationen, aber das kann bald auf 50 Prozent oder mehr ansteigen. Folglich handelt es sich um einen Bereich, in dem sich Anbieter wie Cloudera richtigerweise auf eine verbesserte Unterstützung konzentrieren. Vor-Ort-Installationen dürften nie ganz verschwinden, daher ist ein hybrider Ansatz pragmatisch. Darüber hinaus werden versierte Institutionen mehrere Cloud-Anbieter nutzen, um feste Bindungen zu vermeiden und die Preise zu senken. Um die Kundenbedürfnisse am besten zu erfüllen, sollte ein Anbieter demnach nicht nur hybride, sondern auch Multi-Cloud-Bereitstellungen unterstützen.

Das IoT stellt gänzlich neue Anforderungen an die Integrität von Daten. Diese wird für Personal- und Geschäftsentscheidungen enorm wichtig sein, von der medizinischen Diagnose, über den Schutz und die Überwachung der Umgebung bis zu Befehlen, die die Identifikation und Autorisierung des physischen Zugangs zu Maschinen und Geräten steuern. Wie sehen Sie diese Entwicklung?

Cutting: Da immer mehr persönliche Daten gespeichert werden, wird Sicherheit immer wichtiger. Mit einer gut unterstützen Verschlüsselung muss der physische Zugang zu den Systemen nicht unbedingt beeinträchtigt sein. Die Schlüssel müssen sorgfältig verwaltet und Systeme sorgfältig entworfen werden. Wir sehen in diesen Bereichen gute Fortschritte. Ich persönlich finde aber, dass die technischen Herausforderungen der Datensicherung weit weniger besorgniserregend sind als die gesellschaftlichen und politischen Herausforderungen, die sich um den ethisch korrekten Umgang mit personenbezogenen Daten drehen. Wir befinden uns am Anfang einer neuen Ära. Viele neu aufgestellte Datenschutzrichtlinien werden uns wahrscheinlich über Jahrzehnte begleiten. Wir müssen sicherstellen, dass wir uns sowohl ethisch korrekt verhalten als auch in der Lage sind, die mit der Datenbereitstellung verbundenen erheblichen gesellschaftlichen und wirtschaftlichen Vorteile zu nutzen. Ich glaube, dass es einen entsprechenden Weg in der Mitte gibt. Um alles in die richtigen Kanäle zu lenken, wird es aber eine ruhige Hand erfordern.

Was bringt die Zukunft? Wie geht es in den kommenden Jahren mit Hadoop und Big Data weiter?

Cutting: Ich gehöre nicht zu denen, die langfristige Pläne machen. Selbst wenn es so wäre, hätte ich nicht die Kraft, diese Pläne auch alle umzusetzen. Hadoop und sein Ökosystem werden sich organisch entwickeln, angetrieben von den Nutzern und den anderen Mitwirkenden. Organische Entwicklung stellt gegenüber einer zentralen Steuerung ein viel besseres Verfahren dar. In den vergangenen zehn Jahren haben wir mit Hadoop eine sehr viel schnellere Weiterentwicklung unserer Software-Datenplattform erlebt als in den vielen Jahrzehnten zuvor. Ich bin überzeugt, dass dieser Prozess andauern wird. Aufgrund der vorhandenen Steigerungsraten werden wir für die kommenden Jahrzehnte immer bessere Systeme bereitstellen können. Aber auch ich habe keine Ahnung, wie diese neuen Systeme aussehen werden.

(ID:44041371)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist