Interview mit dem Hadoop-Pionier Doug Cutting

„Open Source verhindert Abhängigkeiten“

| Autor / Redakteur: Kai Leonhardt / Nico Litzel

Doug Cutting, Chief Architect bei Cloudera
Doug Cutting, Chief Architect bei Cloudera (Bild: Cloudera)

Vor etwas mehr als zehn Jahren war Doug Cutting maßgeblich an der Entwicklung von Hadoop beteiligt, heute ist er Chief Architect bei Cloudera. Der Big-Data-Experte gibt im Interview einen Ausblick auf die aus seiner Sicht wichtigsten Open-Source- und Big-Data-Themen 2017.

BigData-Insider: 2016 war das Jahr von Big Data. Welche Bereiche werden dieses Jahr am meisten von Open-Source-Technologien beeinflusst?

Cutting: Die Frage ist eher, in welchen Bereichen Open Source keine Veränderungen hervorruft. Generell erwarte ich, dass sich die Produktivität in Branchen wie der Fertigung, Telekommunikation, bei Transport oder Finanzen verbessert, weil Big Data ein besseres Verständnis über die Kunden ermöglicht. Spannend wird es auch bei Versorgern, die Hadoop nutzen, um Energieverbräuche zu optimieren. Persönlich bin ich sehr gespannt darauf, welche Verbesserungen sich durch neue Technologie-Stacks in der Genomanalyse und Präzisionsmedizin erreichen lassen.

Immer mehr Unternehmen verschieben ihre Daten in die Cloud. Welche Auswirkungen hat das auf die Open-Source-Community?

Cutting: Cloud-Anbieter sind dabei, ihre Angebote vom einfachen Infrastructure-as-a-Service (IaaS) hin zu Platform-as-a-Service (PaaS) zu entwickeln. Sie wollen nicht mehr nur als Hosts bzw. Speicherort dienen, sondern selbst Datenbanken und Verarbeitungssysteme bereitstellen. Unglücklicherweise verwenden sie dazu aber meist proprietäre APIs und bringen Anwender damit wiederum in Abhängigkeiten, denen sie schon bei On-Premise-Lösungen ausgesetzt waren. Mit Open-Source-Datenbanken und -Lösungen können sich Anwender jedoch von dieser Einschränkung befreien und gewinnen erheblich an Flexibilität. Das erlaubt es Ihnen beispielsweise, ohne Probleme mehrere Cloud-Anbieter in Anspruch nehmen zu können, ohne jedes Mal ihre Anwendungen anpassen zu müssen. Sie können auch die jeweils kostengünstigsten Cloud-Angebote in Anspruch nehmen, unterschiedliche Clouds in verschiedenen Regionen nutzen oder eine Kombination aus Cloud-basierten und lokalen Systemen einsetzen.

Open-Source-Projekte werden zunehmend von traditionellen Unternehmen in Angriff genommen. Was müssen diese berücksichtigen, wenn sie die Technologie erfolgreich implementieren wollen?

Cutting: Der aktuelle Technologie-Stack setzt ein neues Denken voraus, denn er verwendet einen anderen Betriebsmodus. Anstelle punktueller Lösungen liefert er den Anwendern jetzt eine umfassende Datenplattform. Daten müssen nicht mehr in ein anwendungsspezifisches Schema gepresst werden, sondern können in einem relativ „rohen“ Format gespeichert werden, auf das die unterschiedlichsten Anwendungen zugreifen können. Mittlerweile stehen auch unheimlich viele Tools zur Verfügung: Neben SQL-Engines lassen sich Search, Streaming und beispielsweise Machine Learning flexibel kombinieren. All dies erfordert neue Fertigkeiten aber vor allem einen anderen Führungsstil und oftmals auch eine andere Organisationsstruktur. Wichtig ist, ganz oben in der Organisation Unterstützung für Open Source zu haben. Trotzdem sollten am Anfang kleine Projekte stehen und nicht der Versuch, direkt das Rad neu zu erfinden.

Laut einer Umfrage von Databricks hat sich die User Community von Apache Spark im vergangenen Jahr verdreifacht. Wird MapReduce durch Spark überflüssig werden?

Cutting: Es ist richtig, dass Entwickler immer weniger neue Anwendungen auf Basis von MapReduce erstellen und stattdessen lieber Spark verwenden. MapReduce wird auch in Tools wie Hive und Pig sukzessive durch Spark als Engine ersetzt. Aber das macht MapReduce nicht überflüssig. Es wird noch für viele Jahre bei existierenden Anwendungen gut funktionieren und für gewisse, Batch-Prozesse mit hohem Volumen sogar das überlegene Werkzeug bleiben. Wenn MapReduce die Engine v1.0 für das Open-Source-Datenökosystem war, dann ist Spark jetzt die v2.0.

Wo liegen die besten Karrieremöglichkeiten im Open-Source-Umfeld?

Cutting: Man sollte sich nicht auf einzelne Technologien oder Lösungen konzentrieren, sondern darauf, wie sich die einzelnen Komponenten des Open-Source-Datenökosystems am besten problemorientiert miteinander verbinden lassen. Wichtig ist ein Verständnis dafür, wie sich neue Technologien in bestehenden Szenarien einsetzen lassen, was sie ersetzen könnten und vor allem was sie ermöglichen. Wer über ein solch architektonisches Verständnis verfügt, hat in unserer Branche beste Karrierechancen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44499427 / Infrastruktur)