Suchen

Verwalten und Orchestrieren von Pipeline-Prozessen in Hortonworks Data Platfom Apache Falcon wird Top-Level-Projekt der Apache Software Foundation

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Die Apache Software Foundation hat Apache Falcon, eine Software zum Verwalten der umfangreichen Datenbestände eine Hadoop-Umgebung zu einem Top Level Projekt der Stiftung befördert.

Firma zum Thema

Die Architektur von Apache Falcon
Die Architektur von Apache Falcon
(falcon.apache.org)

Apache Falcon (früher unter dem Namen Ivory bekannt), ein Framework zum Vereinfachen der Datenverwaltung mit Apache Hadoop, wurde von der Apache Software Foundation aus dem Inkubator zum Top-Level-Projekt befördert, weil es nach Ansicht der Verantwortlichen die entsprechenden Voraussetzungen in Struktur und Verwaltung erfüllt, und eine agile Community vorweisen kann .

Was ist Falcon?

Apache Falcon ist seit der im April letzten Jahres veröffentlichten Version 2.1 von Hortonworks Data Plattform (HDP) integraler Bestandteil der führenden Hadoop-Distribution und kommt mit seiner ansprechenden Weboberfläche im Hadoop-Ökosystem von Hortonworks zum Verwalten der umfangreichen Datenbestände zum Einsatz. Falcon wird aber auch von anderen Hadoop-Distributionen genutzt. Im Falcon-Webinterface können Anwender beispielsweise einstellen, wie lange Hadoop Datenbestände vorhält. Außerdem kann der Hadoop-Admin mithilfe von Falcon Replikationen verwalten.

Falcon unter der Haube

Das Webinterface ist nur der sichtbare Teil von Falcon. Falcon erweitert Hadoop unter anderem um eine einfache Konfigurierbarkeit der Pipeline-Verarbeitung und erlaubt Hadoop-Admins ein weitreichendes Automatisieren der Bewegung, Verarbeitung und Aufbewahrung von Datensätzen mithilfe von Anwendungsfällen. Falcon vereinfacht das Entwickeln und Verwalten von Datenverarbeitungs-Pipelines mithilfe einer höheren Abstraktionsebene und verbirgt das komplexe Hardkodieren solcher Prozesse hinter der einfach bedienbaren Verwaltungsoberfläche. In der können Nutzer das Konfigurieren und Orchestrieren von Workflows für Datenbewegungen zur Datenaufbewahrung oder für Desaster-Recovery-Szenarien vornehmen.

Die Komponenten von Falcon

Im Rahmen der Komponente Data Replication Handling repliziert Falcon beispielsweise HDFS Dateien oder Hive-Tabellen zwischen verschiedenen Clustern, beispielsweise für Desaster Recovery- oder Multi-Cluster-Data-Discovery-Szenarien.

Darüber hinaus besteht Falcon aus den Komponenten Data Lifecycle Management, Data Lineage and Traceability, Process Coordination and Scheduling und stellt Nutzen im Rahmen von Declarative Data Process Programming eine einfache deklarative Möglichkeit zur Verfügung, beispielsweise Infrastruktur-Endpunkte (Hadoop-Cluster oder Datenbanken), Zugriffsregelungen oder Bearbeitungsregeln festlegen. Falcon bezieht dabei Abhängigkeiten in die Konfiguration ein. Ferner erlaubt Falcon im Rahmen der Komponente Leverages Existing Hadoop Services ein transparentes Koordinieren von Workflows, indem es auf existierende Hadoop Services wie Apache Oozie zurückgreift.

Unter dem Strich lässt sich mit Falcon die Wiederverwendbarkeit der erstellten Pipeline-Verarbeitungslogik verbessern, bzw. gewährleisten , was zu konsistenteren Hadoop-Anwendungen führt.

Weitere Einzelheiten zum neuen Projektstatus von Falcon finden sich auf der Webseite des Projektes, von der die Software auch heruntergeladen werden kann. Die Funktionsweise lässt sich in einer Foliensammlung vom Hadoop-Summit 2014 nachvollziehen.

(ID:43167793)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist