Datenbanken, Analyse- und Berichts-Tools im Überblick Die besten Open Source Tools für Big Data

Autor / Redakteur: Thomas Joos / Nico Litzel

Bei der Big-Data-Datenanalyse ist dank Hadoop Open Source in vielen Unternehmen ein wichtiges Standbein der IT-Infrastruktur. Es gibt aber noch weitere Perlen aus dem Open-Source-Bereich. Wir zeigen, welche das sind.

Firmen zum Thema

MySQL bietet den Vorteil, dass es zahlreiche Erweiterungen und Anleitung für die Bedienung gibt.
MySQL bietet den Vorteil, dass es zahlreiche Erweiterungen und Anleitung für die Bedienung gibt.
(Bild: T. Joos)

Geht es um die Datenspeicherung in Unternehmen, sind nicht immer Microsoft SQL Server oder Oracle DB notwendig. Das gilt natürlich oder gerade bei der Verarbeitung von Daten mit Big Data. Auch in diesem Bereich gibt es mächtige und zugleich kostenlose Datenbanken. Beispiele dafür sind MySQL, mittlerweile auch in Oracle-Hand, aber auch MariaDB, PostgreSQL und TokuDB.

Alle diese Datenbanken eignen sich hervorragend als Basis-Speicher für die Big-Data-Analyse. MySQL ist den meisten Entwicklern für Datenbank-Lösungen bekannt, da es sich hierbei um die beliebteste Open-Source-Datenbank überhaupt handelt. Es gibt für diese Datenbank zahlreiche Zusatz-Tools und Erweiterungen.

Aber auch PostgreSQL ist recht bekannt. Neben MySQL ist PostgreSQL der zweite Platzhirsch bei den Open-Source-Datenbanken. PostgreSQL ist vor allem durch die Einhaltung von Standards bekannt sowie für die ständige Weiterentwicklung. Allerdings ist PostgreSQL etwas komplexer im Hinblick auf die Installation und die Bedienung. Sollen die Daten aber nicht nur mit der eigenen Datenbank analysiert, sondern auch mit anderen Systemen arbeiten, kann PostgreSQL seine Vorteile gerade durch diese Einhaltung von Standards hier ausspielen.

MariaDB

Bei MariaDB handelt es sich um eine Abspaltung eines der MySQL-Gründer von MySQL. Vorteil von MariaDB ist deren Robustheit bei Stromausfällen oder bei Hardware-Problemen des Servers.

TokuDB ist wiederum eine Storage Engine für MySQL und MariaDB. Der Vorteil dieser Engine liegt vor allem darin, sehr große Datenmengen schnell verarbeiten zu können. Wer Daten mit MySQL oder MariaDB speichert, kommt auch kaum um TokuDB herum. Die Lösung wurde gezielt für Big Data entwickelt und kann sehr schnelle Indizes erzeugen.

Werden die Daten auch noch auf SSDs gespeichert, kann die Engine noch schneller arbeiten, da sie die schnellen Datenzugriffe auf SSDs durch die sogenannte Fractal-Tree-Indexing-Methode umsetzen kann. Dadurch werden vor allem Schreibzugriffe beschleunigt. Neben Fractal Tree Indexing arbeitet TokuDB mit einer Komprimierung der Daten, welche die zu lesende Datenmenge deutlich reduzieren kann und dadurch die Leistung erhöht.

Relationale Datenbanken und Open Source NoSQL

Sollen NoSQL-Datenbanken eingesetzt werden, lohnt sich ein Blick auf MongoDB, Cassandra und HBase. NoSQL-Datenbanken verfolgen keinen relationalen Ansatz bei der Datenverarbeitung und arbeiten daher auch nicht mit Tabellenschemas. Diese Datenbanken sind vor allem bei sehr großen Datenmengen, die auch im Bereich Big Data eine Rolle spielen, von Vorteil. Relationale Datenbanken leiden vor allem bei riesigen Datenmengen unter Leistungsproblemen.

Es lohnt sich für Unternehmen daher durchaus, auch einen Blick über den Tellerrand hinaus zu wagen und auf NoSQL-Datenbanken zu setzen. Was MySQL für relationale Datenbanken ist, das ist MongoDB für NoSQL-Datenbanken. NoSQL-Datenbanken sollten aber in Unternehmen nicht die relationalen Datenbanken ersetzen, sondern diese ergänzen. Vor allem im Bereich Big Data macht das durchaus Sinn.

Neben der Datenspeicherung für Big-Data-Plattformen spielen auch Entwicklungswerkzeuge und Lösungen für die Erstellung und Durchführung von Abfragen eine wesentliche Rolle im Big-Data-Bereich. Mit Cloudera Impala erhalten Unternehmen eine sogenannte Massively-Parallel-Processing-SQL-Abfrage-Engine, die mit Hadoop zusammenarbeitet. Mit dieser Open-Source-Lösung (unter Apache-Lizenz) lassen sich direkte Abfrage für HDFS (Hadoop Distributed File System) und HBase ausführen. Der klare Vorteil der Lösung ist die Möglichkeit, in Echtzeit Abfragen für Hadoop erstellen zu können. Der Vorteil der Lösung liegt in der deutlich höheren Geschwindigkeit im Vergleich zu MapReduce und Hive.

Lingual

In diesem Bereich spielt auch Lingual eine Rolle. Auch mit dieser Open-Source-Lösung entwickeln Unternehmen Analysen für Apache-Hadoop-Umgebungen. Vorteil von Lingual ist die Möglichkeit, BI-Tools mit Hadoop zu verbinden, damit BI-Umgebungen auch mit Big-Data-Analysen arbeiten können. Lingual verbindet die beiden Welten Data Warehouses und Big Data miteinander.

Entwickler sollten sich dazu auch Pattern und Cascading ansehen. Auch hierbei handelt es sich um Erweiterungen für Hadoop und Entwicklungswerkzeuge für Java und Hadoop.

Wer deutsche Software verwenden will, sollte sich Apache Flink ansehen. Hierbei handelt es sich um eine Open-Source-Anwendung zur Analyse von Big Data. Dieses System wurde von Studenten der TU Berlin entwickelt. Das Produkt wird auch innerhalb der TU Berlin und für Forschungsprojekte im Big-Data-Bereich eingesetzt.

Analyse- und Berichts-Werkzeuge

Geht es um Big Data, spielen natürlich auch Werkzeuge zur Analyse der Daten und der Berichtserstellung eine wichtige Rolle. Denn gerade in diesem Bereich erhalten Verantwortliche erst Ergebnisse auf Basis von Big Data.

JasperReports Server ist ein standalone Server, der Berichte zentral zur Verfügung stellen kann. Als Oberfläche stehen webbasierte Oberflächen, aber auch Apps für Smartphones und Tablets zur Verfügung. Berichte lassen sich über den Server automatisiert ausdrucken, aber auch als E-Mail versenden.

Pentaho Community Edition ist in diesem Bereich ebenfalls von Nutzen. Hier stehen ebenfalls verschiedene Tools für die Erstellung von Berichten, zur Analyse, aber auch zur Datenintegration zur Verfügung. Die Berichte lassen sich über ein Webinterface abrufen und anzeigen. Pentaho unterstützt auch die Verwendung von Benutzerrollen und -Rechten. Neben diesen beiden Werkzeugen, setzen viele Unternehmen auch noch auf Lumify.

Fazit

Open Source spielt im Unternehmen eine immer wichtige Rolle. Es gibt im Open-Source-Bereich nicht nur wertvolle und interessante Zusatz-Tools, sondern komplette Lösungen für kleine und große Unternehmen. Diese stehen im Funktionsumfang und den Möglichkeiten selten den kommerziellen Lösungen nach. Unternehmen sollten sich beim Einsatz von Big Data auch mit den hier vorgestellten Tools auseinandersetzen.

(ID:43004139)