Analyse von Batch- und Streaming-Daten Flink wird Top-Level-Projekt der Apache Software Foundation

Autor / Redakteur: Thomas Drilling / Nico Litzel |

Apache Flink, eine Software zur Analyse und Verarbeitung von Batch- und Streaming-Daten, wurde aus dem Inkubator der Stiftung zu einem Top-Level-Projekt befördert.

Anbieter zum Thema

Die aus einem Forschungsprojekt hervorgegangene Software Apache Flink kombiniert verschiedene Streaming-, Batch- und Pipelining-Verbeitungsprozesse und beinhaltet Programmierschnittstellen für Java und Scala, sowie einige Spezial-APIs, etwa für die Graphenverarbeitung.
Die aus einem Forschungsprojekt hervorgegangene Software Apache Flink kombiniert verschiedene Streaming-, Batch- und Pipelining-Verbeitungsprozesse und beinhaltet Programmierschnittstellen für Java und Scala, sowie einige Spezial-APIs, etwa für die Graphenverarbeitung.
(Bild: Apache Software Foundation)

Apache Flink ist eine Plattform zum Verarbeiten und Analysieren von Batch- und Streaming-Daten. Die Apache Software Foundation hat Flink in der aktuellen Version 0.7 zum Top-Level-Projekt der Stiftung befördert, weil die Software nun alle erforderlichen Voraussetzungen in Struktur und Verwaltung aufweist, wie etwa eine agile und tragfähige Community.

Wie Flink entstanden ist

Die aus einem Forschungsprojekt hervorgegangene Software kombiniert verschiedene Streaming-, Batch- und Pipelining-Verbeitungsprozesse und beinhaltet Programmierschnittstellen für Java und Scala, sowie einige Spezial-APIs, etwa für die Graphenverarbeitung. Flink hat seine Wurzeln im 2009 an der TU Berlin gemeinsam mit Berlin gestarteten und später mit der Humboldt-Universität Berlin, dem Hasso-Plattner-Institut, KTH (Stockholm), ELTE (Budapest) und anderen fortgeführten Stratosphere Research Project.

Was Flink macht

Flink ist vollständig kompatibel mit dem Hadoop-Ökosystem, setzt also auf HDFS oder YARN auf, liest aber auch Daten aus HBase. Flink läuft entweder lokal unter Linux, Mac OS X und Windows oder lässt sich in einem Cluster- oder YARN-Setup betreiben. Einzige Voraussetzung für eine lokale Installation ist Java 1.6.x oder jünger. Zur Installation in einer Windows-Umgebung steht eine separate Dokumentation zur Verfügung.

Alleinstellungsmerkmale

Herausragend ist Flinks Eigenschaft einer hybriden Batch- und Streaming-Umgebung. Da Flink eine breite Palette an Streaming/Pipelining- und Batch-Processing-Technologien nutzt, lässt sich die Software für viele Szenarien im Bereich der Analyse von Batch- und Streaming-Daten einsetzen. Aus diesem Grund bringt Flink von Anfang an seine eigene Speicherverwaltung und eine eigens implementierte Typenserialisierung mit. Hierunter versteht man allgemein den Prozess zum Überführen von Datenstrukturen und Objekten in ein speicherfähiges Format. Ferner enthält Flink verschiedene kostenbasierte Optimierungskomponenten.

Meinungen über Flink

Ijad Madisch, Mitgründer und CEO von ResearchGate, äußert sich z. B. über Flink: „Wir nutzen Flink als Teil unserer Produktionsdaten-Infrastruktur. Flink erhöht eindeutig die Produktivität, insbesondere in Bereich komplexer Datenflüsse. Flink ist aus gutem Grund jetzt ein Top-Level-Projekt.

Alan Gates, Architekt und Mitbegründer vom Hortonworks, ist der Ansicht, dass das Flink-Team den Apache-Weg sehr schnell verinnerlicht habe: hart arbeiten, offene Entscheidungsprozesse pflegen und neue Mitwirkende integrieren.

(ID:43152410)