Mit Apache Zeppelin Daten analysieren

Interaktives Notizbuch für Big Data Mit Apache Zeppelin Daten analysieren

23.04.2019Autor / Redakteur: Thomas Joos / Nico Litzel

Das Apache-Toplevel-Projekt Zeppelin bietet ein Notizbuch für Daten aus anderen Systemen, mit denen Anwender diese effektiv analysieren können. Zeppelin arbeitet dazu eng mit Spark, Flink und Hadoop zusammen.

Anbieter zum Thema

QUNIS GmbH

BigData-Insider

Fivetran Germany GmbH

Mit Apache Zeppelin können Unternehmen verschiedene Datenquellen einer Big-Data-Umgebung anbinden und so an einer zentralen Stelle schnell und einfach analysieren.
(Bild: © Michael Rosskothen - stock.adobe.com)

Mit Apache Zeppelin erhalten Unternehmen ein Framework mit verschiedenen Interpretern. Mit der Lösung lassen sich verschiedene Quellen der Big-Data-Umgebung anbinden und an einer zentralen Stelle schnell und einfach analysieren. Hortonworks etwa hat Apache Zeppelin in HDP integriert.

Apache Zeppelin vereinfacht es Anwendern, Entwicklern und Data Scientists auf Daten in einer Big-Data-Umgebung zuzugreifen. Um die Daten zu analysieren, steht eine Weboberfläche zur Verfügung. Es sind weder Skripte noch Befehle in der Konsole notwendig, um Daten zu nutzen. Das Teilen mit anderen Anwendern ist ebenfalls recht einfach möglich. Zeppelin kann auch zum Lesen von Logdateien in Hadoop genutzt werden.

Zeppelin im Praxiseinsatz

Um Zeppelin im Netzwerk zu nutzen, ist ein Serverpart notwendig. Dieser kann zum Beispiel auf dem gleichen Cluster installiert werden, wie Hadoop und Co. Der Interpreter von Zeppelin dient als Schnittstelle zwischen den Systemen. Insgesamt werden knapp zwei Dutzend Interpreter zur Verfügung gestellt, die eine Verbindung zu den Systemen herstellen. Innerhalb von Zeppelin können Anwender auf alle Interpreter zugreifen. Dadurch ergibt sich eine sehr flexible Zugriffsmöglichkeit auf verschiedene Datensysteme in einer Big-Data-Umgebung.

Teamarbeit ist mit Zeppelin ebenfalls möglich. In einem Notebook (Notizbuch) können nicht nur verschiedene Datenquellen angebunden werden, sondern Anwender können Daten und Bereiche im Notizbuch mit anderen Benutzern teilen. Nach dem Teilen können die verschiedenen Anwender auch gleichzeitig mit einem Notizbuch arbeiten.

Die Verbindungen erfolgen mit Websockets oder per REST. Charts lassen sich ebenfalls in Zeppelin erstellen und mit anderen Anwendern teilen. Durch die verschiedenen Interpreter lassen sich unterschiedlichen Daten und Sprachen auslesen und analysieren. Heterogene Daten sind dadurch sehr effektiv analysierbar, auch für Anwender, die über eine geringe Entwicklerfahrung verfügen. Zeppelin kann große Datenmengen für Anwender nutzbar machen. Das ist für Big-Data-Infrastrukturen natürlich sehr sinnvoll.

Wenn Zeppelin installiert ist, können Anwender über den Menüpunkt „Create new note“ bei „Notebook“ ein neues Notizbuch erstellen. Das funktioniert auch bei Umgebungen, in denen Cloud-Lösungen eingesetzt werden. Apache Zeppelin lässt sich auch problemlos mit Microsoft Azure und Amazon Web Services nutzen. Die Vorgehensweise dazu beschreibt Microsoft in der Dokumentation zu Apache Zeppelin in Microsoft Azure.

Notebook im Detail

Das webbasierte Mehrzweck-Notebook von Apache Zeppelin verfügt über verschiedene Funktionen im Detail. Dazu gehören Data Ingestion, Data Discovery und Data Analytics. Auch Data Visualization ist integriert. Das Notizbuch kann an verschiedenen Stellen mit Kommentaren arbeiten. Das erleichtert auch die Teamarbeit mit Apache Zeppelin.

Neben Apache Spark gehören auch Cassandra, Python, Flink, Solr, Elasticsearch, Hive, Pig, HBase, (Spark)-SQL, (Spark)-R, Markdown und Shell zu den unterstützten Sprachen. Das Frontend lässt sich anpassen. Die Interpreter-Module sind flexibel einsetzbar. Anwender können für die ganze Zeppelin-Installation Interpreter freischalten. Aber auch pro Notizbuch oder pro Benutzer können einzelne Interpreter freigeschaltet werden. Anwender können die Ansicht und viele Einstellungen personalisieren.

Alle Daten, die in Form von Tabellen vorliegen, lasen sich mit Zeppelin visualisieren. Hier stehen verschiedene Optionen zur Verfügung, mit denen Anwender Grafiken und Tabellen optimal darstellen können. Natürlich werden auch verschiedene Diagramme unterstützt. Mit ggplot2 aus R lassen sich weitere Visualisierungen einbinden. Mit Apache Zeppelin lassen sich zudem auch Zeitreihen erstellen und analysieren.

Apache Mahout ist eine Lösung für das Machine Learning. Auch statistische Berechnungen lassen sich dadurch durchführen. Die Lösung arbeitet mit anderen Big- Data-Produkten zusammen, zum Beispiel Apache Spark. Mahout ist in Apache Zeppelin integriert. Visualisierungen aus ggplot und matplotlib lassen sich in Mahout nutzen. Dadurch kann Zeppelin auch in diesem Bereich genutzt werden.

Apache Zeppelin kann auch auf einem PC installiert werden. Die Installationsanleitung ist auf der Seite der Entwickler zu finden. Zeppelin kann auch in einer Container-Umgebung installiert werden. Die Weboberfläche kann zum Beispiel über den Port 8080 geöffnet werden. Generell lässt sich Zeppelin auf Windows-Servern genauso installieren, wie auf Rechnern mit macOS und Linux. Hier werden vor allem Ubuntu und CentOS unterstützt.

Apache Zeppelin und LDAP

Apache Zeppelin unterstützt LdapRealm von Apache Knox zur Anbindung an LDAP. Das heißt, die Benutzerauthentifizierung lässt sich auch mit Active Directory durchführen. Auf diesem Weg kann der Zugriff auf verschiedene Daten besser geschützt werden.

Fazit

Apache Zeppelin ist ein extrem flexibles und umfassendes Werkzeug, wenn es um die Analyse von Big-Data-Umgebungen geht. Da sich verschiedene Sprachen nutzen lassen, ist die Anbindung verschiedener Datenstrukturen möglich. Da der Zugriff über eine Weboberfläche stattfindet, kommen Anwender, die Daten analysieren, sehr schnell in die Umgebung rein, und können produktiv Daten analysieren. Auch das Mischen verschiedener Sprachen und Quellen ist problemlos möglich. Auf der Webseite der Entwickler sind viele Beispiel und Screenshoots der Möglichkeiten von Zeppelin zu sehen.

(ID:45854428)