Suchen

Datenbanken, Analyse- und Berichts-Tools im Überblick Die besten Open Source Tools für Big Data

| Autor / Redakteur: Thomas Joos / Nico Litzel

Bei der Big-Data-Datenanalyse ist dank Hadoop Open Source in vielen Unternehmen ein wichtiges Standbein der IT-Infrastruktur. Es gibt aber noch weitere Perlen aus dem Open-Source-Bereich. Wir zeigen, welche das sind.

Firmen zum Thema

MySQL bietet den Vorteil, dass es zahlreiche Erweiterungen und Anleitung für die Bedienung gibt.
MySQL bietet den Vorteil, dass es zahlreiche Erweiterungen und Anleitung für die Bedienung gibt.
(Bild: T. Joos)

Geht es um die Datenspeicherung in Unternehmen, sind nicht immer Microsoft SQL Server oder Oracle DB notwendig. Das gilt natürlich oder gerade bei der Verarbeitung von Daten mit Big Data. Auch in diesem Bereich gibt es mächtige und zugleich kostenlose Datenbanken. Beispiele dafür sind MySQL, mittlerweile auch in Oracle-Hand, aber auch MariaDB, PostgreSQL und TokuDB.

Alle diese Datenbanken eignen sich hervorragend als Basis-Speicher für die Big-Data-Analyse. MySQL ist den meisten Entwicklern für Datenbank-Lösungen bekannt, da es sich hierbei um die beliebteste Open-Source-Datenbank überhaupt handelt. Es gibt für diese Datenbank zahlreiche Zusatz-Tools und Erweiterungen.

Aber auch PostgreSQL ist recht bekannt. Neben MySQL ist PostgreSQL der zweite Platzhirsch bei den Open-Source-Datenbanken. PostgreSQL ist vor allem durch die Einhaltung von Standards bekannt sowie für die ständige Weiterentwicklung. Allerdings ist PostgreSQL etwas komplexer im Hinblick auf die Installation und die Bedienung. Sollen die Daten aber nicht nur mit der eigenen Datenbank analysiert, sondern auch mit anderen Systemen arbeiten, kann PostgreSQL seine Vorteile gerade durch diese Einhaltung von Standards hier ausspielen.

MariaDB

Bei MariaDB handelt es sich um eine Abspaltung eines der MySQL-Gründer von MySQL. Vorteil von MariaDB ist deren Robustheit bei Stromausfällen oder bei Hardware-Problemen des Servers.

TokuDB ist wiederum eine Storage Engine für MySQL und MariaDB. Der Vorteil dieser Engine liegt vor allem darin, sehr große Datenmengen schnell verarbeiten zu können. Wer Daten mit MySQL oder MariaDB speichert, kommt auch kaum um TokuDB herum. Die Lösung wurde gezielt für Big Data entwickelt und kann sehr schnelle Indizes erzeugen.

Werden die Daten auch noch auf SSDs gespeichert, kann die Engine noch schneller arbeiten, da sie die schnellen Datenzugriffe auf SSDs durch die sogenannte Fractal-Tree-Indexing-Methode umsetzen kann. Dadurch werden vor allem Schreibzugriffe beschleunigt. Neben Fractal Tree Indexing arbeitet TokuDB mit einer Komprimierung der Daten, welche die zu lesende Datenmenge deutlich reduzieren kann und dadurch die Leistung erhöht.

Relationale Datenbanken und Open Source NoSQL

Sollen NoSQL-Datenbanken eingesetzt werden, lohnt sich ein Blick auf MongoDB, Cassandra und HBase. NoSQL-Datenbanken verfolgen keinen relationalen Ansatz bei der Datenverarbeitung und arbeiten daher auch nicht mit Tabellenschemas. Diese Datenbanken sind vor allem bei sehr großen Datenmengen, die auch im Bereich Big Data eine Rolle spielen, von Vorteil. Relationale Datenbanken leiden vor allem bei riesigen Datenmengen unter Leistungsproblemen.

Es lohnt sich für Unternehmen daher durchaus, auch einen Blick über den Tellerrand hinaus zu wagen und auf NoSQL-Datenbanken zu setzen. Was MySQL für relationale Datenbanken ist, das ist MongoDB für NoSQL-Datenbanken. NoSQL-Datenbanken sollten aber in Unternehmen nicht die relationalen Datenbanken ersetzen, sondern diese ergänzen. Vor allem im Bereich Big Data macht das durchaus Sinn.

(ID:43004139)