Suchen

Apache Flume und Apache Sqoop Cloudera forciert Entwicklung von quelloffenen API-Kompatibilitätstests

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Cloudera steht einer Initiative vor, die die Entwicklung quelloffener API-Kompatibilitätstests für Big-Data-Projekte auf Hadoop-Basis wie Apache Sqoop und Apache Flume vorantreiben soll.

Firmen zum Thema

Cloudera initiiert API-Kompatibilitätstests für Apache Flume und Scoop
Cloudera initiiert API-Kompatibilitätstests für Apache Flume und Scoop
(Bild: Cloudera, ASF)

Im Rahmen der Kompatibilitätstestinitiative geht es Cloudera nach Aussage von Mike Olson, Chief Strategy Officer bei Cloudera, nicht nur um die Tests an sich. Zusammen mit anderen Unternehmen wie Couchbase, Capgemini, Intel, Oracle, SAS oder Dell will man auch die hierzu erforderlichen Test-Frameworks unter einer Open-Source-Lizenz entwickeln, weil Anwendungsentwickler derzeit keinen Zugang zu quelloffenen Werkzeugen zum Validieren der Kompatibilität ihrer Implementierungen haben.

Laut Olson sollen diese Test-Frameworks den Entwicklungsprozess zukünftiger Produkte und Apps zum Einspeisen und Analysieren von Daten rationalisieren. Man wolle Abnehmern die Sicherheit geben, dass jedes Produkt, das diese Tests besteht, kompatibel mit den Veröffentlichungen der Apache Software Foundation sei.

In der Tat ist bei Big-Data-Projekten auf Basis von Hadoop die nutzbringende Datenanalyse erst möglich, wenn Daten in den Hadoop-Cluster eingespeist sind. Nach Ansicht von Cloudera spielen bei der Bewegung großer Datenmengen Apache Flume und Apache Sqoop eine strategisch bedeutsame Rolle.

Mike Olson, Chief Strategy Officer bei Cloudera
Mike Olson, Chief Strategy Officer bei Cloudera
(Bild: Cloudera)

Apache Sqoop

Apache Sqoop etwa ist federführend für das effiziente Übertragen von Massendaten zwischen Hadoop und strukturierten Datenspeichern wie zum Beispiel SQL-Datenbanken. Dabei kommt es vor allem auf Schnelligkeit und Effizienz an. Möchten Unternehmen zum Beispiel mithilfe von Big Data aussagekräftige Kundenprofile erstellen, müssen sie ihre kompletten Datenbestände für Big Data nutzbar machen, wobei es vor allem auf Echtzeit-Einblicke ankommt, um etwa Kundendialoge dynamisch anpassen zu können.

Apache Flume

Apache Flume dagegen etabliert sich derzeit zunehmend als effiziente Lösung für das Sammeln, Aggregieren oder Bewegen großer Mengen von Streaming-/Event-Daten in einen Hadoop-Cluster. Auch hierbei kommt es im besonderen Maße auf Schnelligkeit an, denn im Kontext von Internet-of-Things-Anwendungen wächst die Menge maschinengenerierter Datenströmen immer weiter an. Nach Ansicht von Cloudera sind daher offene Standards für Datensammlung, Datenfluss und Aggregation von Datenspeichern essenziell.

(ID:43401322)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist