Big Data mit Talend

So verbinden Sie das Data Warehouse mit Big Data

| Autor / Redakteur: Thomas Joos / Nico Litzel

Nach dem Start der Talend-VM können Entwickler bereits erste Schritte mit Big Data unternehmen.
Nach dem Start der Talend-VM können Entwickler bereits erste Schritte mit Big Data unternehmen. (Bild: Talend)

Mit der „Big Data Sandbox“ von Talend können Unternehmen ihre Data Warehouses oder andere Datenquellen mit einer vorkonfigurierten Big-Data-Umgebung verbinden, inklusive Hadoop. Die Umgebung soll vor allem dabei helfen einen besseren Einstieg in Big Data zu finden. Integrieren lassen sich unter anderem Cloudera oder MapR.

Talend will mit seiner Datenintegrationsplattform dabei helfen, interne Datenspeicher besser an Big-Data-Lösungen anzubinden. Die Lösung soll Unternehmen beim Schreiben von Anwendungen entlasten und bei der Integration der Daten helfen. Im Zentrum soll die Integration einer zentralen Plattform stehen, über die Entwickler und andere Projektbeauftragte schnell und einfach Lösungen auf Basis von Apache Hadoop, Apache Spark, Spark Streaming und NoSQL-Datenbanken nutzen können. Bei der Erstellung des notwendigen Codes zur Anbindung vorhandener Datenquellen sollen Assistenten und grafische Oberflächen helfen.

Zusätzlich bietet Talend noch weitere Produkte für die Datenmodellierung und Datenintegration. Die Produkte verfügen über eine Weboberfläche für die zentrale Verwaltung. Die zusätzlichen Lösungen mit grafischer Oberfläche bieten den Vorteil, dass sie die Verwaltung der Daten sehr einfach machen. Da die Produkte unter Open-Source-Lizenz zur Verfügung stehen, sollten sich Entwickler und Daten-Wissenschaftler die Lösungen ansehen. Da die wichtigsten Big-Data-Lösungen unterstützt werden, profitieren Unternehmen auch von einem recht guten Überblick, was es so alles im Big-Data-Umfeld gibt.

Mit einer Sandbox zur Big-Data-Umgebung

Talend bietet, einfach ausgedrückt, eine Sandbox, also eine virtuelle Maschine (VM), die alle notwendigen Infrastrukturen und Lösungen einer Big-Data-Umgebung bietet. Die VM ist bereits fertig konfiguriert und bietet in wenigen Minuten einen ersten Blick auf die Möglichkeiten. Es besteht die Möglichkeit, die verschiedenen Produkte entweder als VirtualBox-VM herunterzuladen oder als eine OVA-Datei für den Import in VMware-Produkten.

Im Fokus der Anwendungslösung steht also ein erster Überblick zu den Möglichkeiten einer Big-Data-Umgebung sowie die schnelle Integration. So lassen sich ohne großen Einrichtungsaufwand sehr schnell Hadoop-Umgebungen testen. Die Entwickler stellen dazu auch eine Verwaltungsoberfläche zur Verfügung. Die Sandbox verfügt über zahlreiche Connectoren zu verschiedenen Datenbank-Systemen, darunter auch HBase, MongoDB, Cassandra und viele weitere.

Nach der Einrichtung können Unternehmen aus vier vorgefertigten Modellen auswählen:

  • Data Warehouse Optimization
  • Clickstream Analytics
  • Social Media Sentiment Analysis
  • Apache Weblog Analytics

Wer sich etwas mit dem Produkt auseinandergesetzt und in die Big-Data-Thematik eingearbeitet hat, kann aber auch problemlos MapReduce-Vorgänge erstellen und das Data Warehouse mit Hive, Yarn, HBase und anderen Big-Data-Produkten verbinden. In der Umgebung lassen sich Daten in Hadoop laden, transformieren und verwenden, wie bei herkömmlichen Installationen in einem Cluster.

Spark und Spark Streaming bieten eine In-Memory-Datenverarbeitung. Erstellen Sie nach der Installation im Rahmen der Einrichtung Batch-, Echtzeit- und Streaming-Integrationsjobs mit der Drag-and-drop-Oberfläche von Talend Studio. Durch die grafische Oberfläche erreichen Sie recht schnell gute Ergebnisse.

Diese Vorteile bietet Talend Big Data Integration

„Talend Big Data Integration“ soll für kleine und große Unternehmen die Integration von Big Data, aber auch die Verwaltung von BI-Infrastrukturen vereinfachen. Das Unternehmen setzt dabei vor allem auf Open-Source-Anwendungen, die in einer Sandbox zusammengefasst werden. Auch wenn es sich bei dem Unternehmen um kein vollständig deutsches handelt, so gibt es dennoch zahlreiche deutsche Niederlassungen und auch einen deutschsprachigen Support.

Mit Talend Big Data Integration werden die verschiedenen Datenquellen im Unternehmen angebunden. Durch das Data Processing, die Data Integration und das Master Data Management lassen sich verschiedene Daten verarbeiten und in der Big-Data-Lösung integrieren, zum Beispiel Hadoop. Das Tool kann verschiedene Datenqualitäten nutzen und auf Basis verschiedener Programmiersprachen die Daten bündeln, verarbeiten und schließlich verarbeiten.

Für jeden Schritt in der Big-Data-Analyse bietet Talend eine Lösung in Form von Software, Code oder Konnektoren. Durch die Vereinheitlichung können Unternehmen also recht einfach eine sehr effiziente Big-Data-Infrastruktur aufbauen.

Kostenlose Produkte

Neben der bereits erwähnten VM und anderer Lösungen zum Integrieren von Big Data bietet Talend auch einige kostenlose Produkte an. Diese arbeiten mit der VM und den anderen Lösungen zusammen. „Talend Open Studio for Big Data“ wird unter der Apache-Lizenz v2 bereitgestellt. Das Eclipse-basierte Tool bietet Hadoop 2.0- und YARN-Unterstützung. Außerdem lassen sich HDFS-, HBase-, HCatalog-, Hive-, Pig- und Sqoop-Komponenten nutzen sowie der Job-Designer. Mit der umfassenden NoSQL-Unterstützung lassen sich auch die Datenbanken in der Big-Data-Struktur an die Lösung anbinden.

Data Preparation Free Desktop“ bietet wiederum die Möglichkeit, als Desktop-Lösung Daten vorzubereiten. Das Tool steht auch als Mac-Version zur Verfügung. Der Hersteller bietet für das Produkt auch eine umfassende Hilfe an, mit der Anwender das Produkt effizient einsetzen können. Talend Open Studio for Data Integration hilft wiederum bei der Datenintegration. Auch hier stehen wieder zahlreiche Hilfen und Anleitungen zur Verfügung.

Talend Open Studio for Data Quality“ bietet wiederum End-to-End-Data-Profiling sowie Überwachung der Datenqualität. Das Tool arbeitet mit allen anderen Produkten zusammen. „Talend Open Studio for ESB“ unterstützt bei der Integration weiterer Big-Data-Anwendungen oder Datenressourcen. „Talend Master Data Management“ (MDM) hilft bei der Zusammenführung von Kunden-, Produkt- und Lieferantendaten sowie weiterer Daten, die im Zusammenhang stehen.

Fazit

Talend bietet einige Lösungen an, mit denen sich Unternehmen einen schnellen Überblick über verschiedene Big-Data-Produkte verschaffen könne. Der größte Vorteil der Umgebung besteht darin, dass Talend so gut wie alle relevanten Produkte unterstützt. Das heißt, selbst wenn sich Unternehmen nicht für Talend-Produkte entscheiden, ist das erworbene Know-how nicht verloren.

Durch die grafische Oberfläche kommen Entwickler recht schnell ziemlich tief in das Thema rein und können vorhandene Daten schnell integrieren. Ein Blick lohnt sich in jedem Fall, vor allem da die Big-Data-Plattform auch als Testversion zur Verfügung steht.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44063838 / Infrastruktur)