Datenanalyse, Fast Data und Datenspeicherung

7 interessante Open Source Tools für Big Data

| Autor / Redakteur: Thomas Joos / Nico Litzel

HPCC Systems kann auch in Amazon Web Services betrieben werden.
HPCC Systems kann auch in Amazon Web Services betrieben werden. (Bild: HPCC Systems)

Bei Big Data spielen Open-Source-Lösungen eine besondere Rolle. Das liegt unter anderem daran, dass große Unternehmen Big-Data-Lösungen entwickeln und dann der Community zur Verfügung stellen, um diese zu verbessern.

HPCC Systems ist eine Plattform für die parallele Verarbeitung von Big-Data-Analysen (Big Data Processing Platform). Die Plattform besteht aus Clusterknoten, die in der Lage sind, sehr große Mengen an strukturierten und unstrukturierten Daten zu verarbeiten. Die Clusterknoten lassen sich auch in verteilten Rechenzentren betreiben. Natürlich kann der Cluster auch in der Cloud betrieben werden, zum Beispiel in Amazon Web Services. Sobald die Lösung eingerichtet ist, lässt sie sich recht schnell nutzen, da keine weiteren Produkte für Analyse und Datenabfrage notwendig sind. Die Plattform benötigt keinerlei Dritthersteller-Produkte, um zu funktionieren. Aber nicht nur für die Analyse von Big Data ist HPCC Systems sinnvoll. Die Lösung kann auch sehr große Mengen von Protokolldateien verarbeiten, zum Beispiel von Firewall-Lösungen. Administratoren können Inhalte der Protokolldateien in Echtzeit abfragen.

Für das Design von Abfragen und Zusatzfunktionen steht eine eigene Programmiersprache mit der Bezeichnung ECL zur Verfügung. Darüber hinaus bietet HPCC Systems eine Weboberfläche, über die Daten abgefragt werden können. Zuvor kann HPCC Systems die Daten filtern, transformieren, verarbeiten und verarbeiten. Dabei können die Abfragen auch auf spezielle Ergebnisse bezogen werden. Die Entwickler vergleichen die Technik mit der Verarbeitung aller Sterne in der Galaxie und der Ausgabe von Informationen für einen einzelnen Stern. Die verschiedenen Möglichkeiten der Umgebung ist in einem YouTube-Video zu sehen (https://youtu.be/uGzHbplx97Q).

SpagoBI

SpagoBI ist nicht nur ein Produkt für Big Data, sondern auch im Bereich Business Intelligence bekannt. SpagoBI hilft dabei, eigene Big-Data-Analysen durchzuführen. SpagoBI unterstützt auch sehr große Mengen an heterogenen Daten mit verschiedenen Formaten. Dabei kann SpagoBI auf zahlreiche verschiedene Datenquellen zugreifen. Neben Teradata, VectorWise, Netezza und anderen Datenbanken lassen sich auch NoSQL-Datenbanken wie Hive, HBase, Cassandra, OrientDB und MongoDB anbinden. Auch Informationen aus dem Hadoop File System (HDFS) können angebunden werden. Als Datenquelle sind also auch Hadoop und erweiterte Hadoop-Plattformen von Cloudera, Hortonworks und Impala möglich.

KNIME – Konstanz Information Miner

KNIME ist eine Open-Source-Lösung für die interaktive Datenanalyse. Die Software bietet eine grafische Oberfläche und dient als Data-Mining-Werkzeug, aber auch zur Analyse und Visualisierung. Entwickelt wurde das Produkt vom Fachbereich für Informatik bei der Universität Konstanz. Die Lösung beherrscht Machine Learning und Data Mining. Vorteil der Umgebung ist die grafische Oberfläche, mit der Anwender schnell zurechtkommen.

Die Einsatzgebiete von KNIME sind vielfältig. Die Lösung wird seit 2006 in der pharmazeutischen Forschung eingesetzt, aber auch im Bereich CRM, Business Intelligence und zur Finanzdatenanalyse. Neben der Open-Source-Lösung bietet das Unternehmen KNIME.com aus Zürich auch professionellen Support für die Lösung an. KNIME wurde in Java entwickelt und steht als Eclipse-Plattform zur Verfügung.

BIRT – Business Intelligence and Reporting Tools

BIRT hilft dabei, Berichte für Big-Data-Umgebungen und Business Intelligence zu erstellen.
BIRT hilft dabei, Berichte für Big-Data-Umgebungen und Business Intelligence zu erstellen. (Bild: The Eclipse Foundation)

BIRT ist ein auf Eclipse basierendes Tool, mit dem sich Berichtsfunktionen in Java- und Java-EE-Anwendungen integrieren lassen. Ein Schwerpunkt von BIRT liegt in der Visualisierung von Daten. Es handelt sich also bei BIRT nicht direkt um ein Produkt für Big Data, sondern vor allem um ein Tool, mit dem sich analysierte Daten besser visualisieren lassen. Schlussendlich sind auch solche Tools im Big-Data-Bereich unerlässlich.

Die Vorteile der Lösung sind deren Betriebssystemunabhängigkeit und die Unterstützung von Java. Unternehmen, die analysierte Daten umfänglich visualisieren wollen, auch im Big-Data-Bereich, sollten BIRT in Betracht ziehen. Anwender können auf Wunsch auch eigene Berichte erstellen. Dazu muss die Datenquelle angebunden werden, was problemlos in der grafischen Oberfläche durchgeführt werden kann. Die Erstellung von Berichten kann über einen Assistenten durchgeführt werden, der auch Drag-&-drop unterstützt. Der Report Designer steht natürlich auch für Windows-Rechner zur Verfügung.

Lumify – Datenanalyse und Visualisierung für Big Data

Auch Lumify ist ein Tool, um Daten zu analysieren und zu visualisieren. Im Fokus der Software stehen vor allem Big-Data-Umgebungen. Lumify ist dabei auch in der Lage, Daten zu aggregieren. Beziehungen zwischen Daten lassen sich visualisieren. Außerdem kann Lumify die Daten auch auf Landkarten projizieren, sodass auch die Analyse von Geodaten möglich ist. Auch Gruppenarbeit ist mit Lumify umsetzbar. Die verschiedenen Workspaces zur Analyse und Visualisierung lassen sich zwischen den Teammitgliedern teilen und in Echtzeit gleichzeitig zugreifbar machen.

Talend – Data Warehouse mit Big Data verbinden

Nach dem Start der Talend-VM können Entwickler bereits erste Schritte mit Big Data unternehmen
Nach dem Start der Talend-VM können Entwickler bereits erste Schritte mit Big Data unternehmen (Bild: Talend)

Mit der Big Data Sandbox von Talend können Unternehmen ihre Data Warehouses oder andere Datenquellen mit einer vorkonfigurierten Big-Data-Umgebung verbinden, inklusive Hadoop. Die Umgebung soll vor allem dabei helfen einen besseren Einstieg in Big Data zu finden. Integrieren lassen sich unter anderem Hadoop, Cloudera oder MapR.

Talend will mit seiner Datenintegrationsplattform dabei helfen, interne Datenspeicher besser an Big-Data-Lösungen anzubinden. Die Lösung soll Unternehmen im Schreiben von Anwendungen entlasten und bei der Integration der Daten helfen. Im Zentrum soll die Integration einer zentralen Plattform stehen, über die Entwickler und andere Projektbeauftragte schnell und einfach Lösungen auf Basis von Apache Hadoop, Apache Spark, Spark Streaming und NoSQL-Datenbanken nutzen können. Bei der Erstellung des notwendigen Codes zur Anbindung vorhandener Datenquellen sollen Assistenten und grafische Oberflächen helfen.

Apache Kafka – Realtime Analytics

Wenn Logdateien in hoher Anzahl analysiert werden sollen, stellt das sehr große Anforderungen an das Backend-System, welches die Daten speichern und bereitstellen soll. Kommt in ein solches Szenario noch der Bedarf auf, diese großen Datenmengen schnell verarbeiten zu müssen, ist Apache Kafka das ideale System dafür.

In Big-Data-Umgebungen fallen dauerhaft große Mengen an Logs an. Diese müssen verwaltet, versendet, und oft auch gespeichert werden. Die ursprünglich von LinkedIn entwickelte Lösung Apache Kafka ist dazu in der Lage. Die Software basiert generell auf Scala. Das verteilte Nachrichtensystem ist mit Java-Anwendungen kompatibel und arbeitet dazu auch innerhalb einer Java Virtual Machine.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44578236 / Infrastruktur)