Im Test: Talend Integration Cloud Cloud-basierte Datenintegration mit leistungsfähiger Entwicklungsumgebung

Autor / Redakteur: Dr. Götz Güttich * / Florian Karlstetter

Mit der Talend Integration Cloud stellt Talend eine sichere, Integrationsplattform auf Cloud-Basis zur Verfügung, mit der die Anwender in die Lage versetzt werden, ihre Anwendungen in der Cloud oder on-premise miteinander zu verbinden und Daten zwischen ihnen zu übertragen.

Anbieter zum Thema

Talend Integration Cloud im Test: Cloud-basierte Datenintegrationslösung mit leistungsfähiger Entwicklungsumgebung.
Talend Integration Cloud im Test: Cloud-basierte Datenintegrationslösung mit leistungsfähiger Entwicklungsumgebung.
(Bild: Talend)

Die Lösung bietet im Browser nutzbare grafische Entwicklungswerkzeuge sowie vorgefertigte Integrationsaktionen, Flow Templates, Komponenten und Konnektoren. Diese machen die Integration der Daten einfach. Für anspruchsvollere Entwicklungsaufgaben steht zudem das „Talend Studio for Cloud“ bereit, das lokal auf dem Rechner des Benutzers läuft und direkt mit der Cloud kommuniziert. Wir haben uns im Testlabor angesehen, wie die Arbeit mit der Cloud von Talend abläuft.

Der Test lief bei uns folgendermaßen ab: Nachdem wir von Talend die Zugangsdaten zu unserem Cloud-Account erhalten hatten, machten wir uns mit dem Web-Interface der Lösung vertraut. Danach ging es daran, Daten von einem System in ein anderes zu übertragen. Dabei behielten wir den Entwicklungs- und Arbeitsaufwand sowie die Bedienerführung im laufenden Betrieb im Auge. Zum Schluss setzten wir das Talend Studio for Cloud ein, um eigene Komponenten zu entwickeln, in die Cloud hochzuladen und in unseren Flows zu verwenden.

Der Beginn der Arbeit

Nach dem Login beim Webinterface der Talend Integration Cloud findet sich der Anwender zunächst einmal auf einem Willkommensbildschirm wieder, der Einführungsvideos mit Informationen über die Integrationsumgebung enthält. Aktuelle News, eine Aktivitätsübersicht und ein Hinweis auf Talend Exchange, die Online-Börse zum Austausch der von den Usern entwickelten Komponenten, schließen den Leistungsumfang der Willkommensseite ab.

Besonders interessant ist die zweite Seite des Web-Interfaces. Sie nennt sich „Flows“ und umfasst alle im System vorhandenen Data Flows. Wechseln die Anwender auf einen Flow-Eintrag, so zeigt das System ihnen an, wie oft der Flow abgearbeitet wurde, ob er gerade aktiv ist und ob alles glatt lief oder ob es zu Rejections oder Failures kam. Darüber hinaus haben die Benutzer hier auch die Option, Läufe zu starten und zu stoppen.

Der Flow Builder

Um die Flows zu bearbeiten, steht der so genannte Flow Builder bereit. Dieses Tool ermöglicht es den Anwendern, dem Flow Datenquellen und -senken hinzuzufügen und Funktionen wie Mapper oder auch Daten-Standardisierer und Validier einzubinden. Damit ist es möglich, die Daten an das Format des Zielsystems anzupassen und um Informationen wie beispielsweise Postleitzahlen zu ergänzen.

Da es sich beim Flow Builder um die webbasierte Entwicklungsumgebung der Integration Cloud handelt, ist es sinnvoll, an dieser Stelle etwas genauer auf die Arbeit mit dem Werkzeug einzugehen. Möchte ein Anwender einen neuen Flow erzeugen, so hat er mit dem Tool die Möglichkeit, dem Flow zunächst einmal einen Namen zu geben.

Im Test wollten wir zu diesem Zeitpunkt die Inhalte einer Excel-Tabelle in unseren Salesforce-Account hochladen. Wir nannten den Flow also „Migration from Excel to Salesforce“ und gaben ihm bei der Gelegenheit auch gleich eine kurze Beschreibung mit. Anschließend wählten wir unter „Choose a Source“ unsere Excel-Datei als Datenquelle aus. Da sich diese in einem Dropbox-Konto befand, selektierten wir als Quell-Icon den Eintrag „dopbox_file_download_source“ und gaben unserer Quelle den Pfad zur Datei innerhalb der Dropbox und das passende Dropbox Access-Token an. Danach ging es daran, die Informationen aus der Excel-Datei so umzuwandeln, dass das System sie modifizieren konnte. Dazu kam der Eintrag „xlsx_file_toColumns_process_step“ zum Einsatz. Dieser wandelte, wie der Name schon sagt, die in dem Excel-File vorhandenen Einträge in Spalten um. Zu diesem Zeitpunkt konnten wir unter „Preview Data“ bereits sehen, welche Daten in dem Sheet vorhanden waren. Bei den genannten Spalten handelt es sich um das interne Format der Integration Cloud. In diesem Format werden die Daten im Speicher gehalten und gestreamt.

Bildergalerie
Bildergalerie mit 10 Bildern

Im nächsten Schritt definierten wir unser Ziel, also unseren Salesforce-Account. Hierfür verwendeten wir die Aktion „salesforce_contact_upsertBulk_target“. Diese benötigt neben den Kontoangaben auch noch ein Salesforce-Sicherheitstoken, damit sie richtig funktioniert. Sobald die erforderlichen Einträge vorgenommen worden waren, konnten wir über den Mapper die Schemadaten anlegen, die wir zuvor über den „Preview Data“-Eintrag herausgefunden hatten, also Felder für den Firmennamen, den Namen des Ansprechpartners, die Adresse und ähnliches. Zum Schluss wiesen wir diese Felder den dazugehörigen Salesforce-Datenbankeinträgen zu, damit das System wusste, wo es die Daten hinschreiben sollte.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Damit war die Definition des Flows abgeschlossen und wir konnten einen ersten Testlauf vornehmen. Dabei zeigte uns das System an, wie viele Datensätze es aus der Datei auslas und wie viele Datensätze hochgeladen wurden. Hat sich bei dem Testlauf herausgestellt, dass alles ordnungsgemäß läuft, so haben die Anwender über den Button „Go Live“ die Option, den Flow mit einem Zeitplaner zu versehen, der ihn in regelmäßigen Abständen automatisch startet und so dafür sorgt, dass Änderungen in der Quelle zum Beispiel täglich automatisch zum Ziel übertragen werden.

Im Test ergaben sich mit unserem ersten Flow keine Probleme und wir konnten ihn sofort „Live“ schalten. Dabei richteten wir ihn so ein, dass er täglich ablief und das funktionierte von Anfang an wie erwartet.

Der sonstige Funktionsumfang des Web-Interfaces

Wenden wir uns nun aber wieder dem Funktionsumfang des Web-Interfaces zu. Unter „Activity“ stehen den Anwendern Dashboards zur Verfügung, die Aufschluss über die gerade laufenden und die bereits durchgeführten Aufgaben geben. Unter „Manage“ finden sich im Gegensatz dazu die von dem jeweiligen Benutzer verwendeten Aktionen, also die Quellen, Ziele, Umwandlungsaktionen und ähnliches. Diese lassen sich hier auch zu Talend Exchange exportieren und bei Bedarf besteht auch die Möglichkeit, weitere Aktionseinträge von dieser Plattform zu importieren.

Der letzte Punkt des Web-Interfaces nennt sich „Admin“. Er dient zur Verwaltung des Abonnements. Er umfasst beispielsweise die Benutzer- und die Rechteverwaltung. Im Test traten bei der Arbeit mit unterschiedlichen Benutzerkonten keine Probleme auf.

Talend Studio for Cloud

Auf der nächsten Seite erfahren Sie, welche Funktionen „Talend Studio for Cloud“ beherbergt und wie man mit der Entwicklungsumgebung eigene Datentransformationen durchführen und Datenquellen oder -Ziele definieren kann. Außerdem ein Fazit des Autoren zur Integration Cloud von Talend.

Talend Studio for Cloud

Gehen wir nun noch kurz auf das Talend Studio for Cloud ein. Obwohl Talend bereits viele Aktionen für die Integration Cloud vordefiniert hat und in Talend Exchange noch eine Vielzahl andere Features verfügbar sind, wird es vorkommen, dass die zuständigen Mitarbeiter auch eigene Datentransformationen, Datenquellen oder auch Datenziele definieren müssen. Zu diesem Zweck liefert Talend das eben genannte Studio mit. Die mit dieser Entwicklungsumgebung erstellten Aktionen lassen sich in die Integration Cloud hochladen und können dann innerhalb der Flows zum Einsatz kommen.

Bildergalerie
Bildergalerie mit 10 Bildern

Anders als die meisten anderen Entwicklungsumgebungen arbeitet das Studio for Cloud mit einer Sammlung von Icons, die bestimmte Funktionen repräsentieren. Möchte ein Benutzer mit dem Studio eine Software entwickeln, so muss er lediglich die dazugehörigen Icons in den Arbeitsbereich ziehen, die benötigten Konfigurationsparameter – wie zum Beispiel erforderliche Variablen oder Pfade – angeben und die Icons anschließend so verbinden, dass die Darstellung eines Datenflusses erscheint. Die Verbindungen definieren folglich, in welcher Reihenfolge die einzelnen Funktionen abgearbeitet werden.

In der Praxis läuft die Arbeit mit dem Studio folgendermaßen ab: Nach dem Anlegen oder Öffnen eines Projekts haben die zuständigen Mitarbeiter die Möglichkeit, auf der rechten Seite des Arbeitsfensters auf eine Art „Werkzeugkasten“ zuzugreifen, der alle Icons mit den vordefinierten Funktionen enthält. Dieser lässt sich einfach nach Schlagworten durchsuchen, wurde aber auch in Gruppen wie „Big Data“, „Cloud“, „Datenbanken“, „ELT“ und „System“ aufgeteilt, damit die Verantwortlichen ihre Tools problemlos finden. Kennen sie den Namen der von ihnen gerade benötigten Funktion, so reicht es sogar, diesen Namen in Arbeitsbereich einzutippen, danach bietet das Studio direkt das entsprechende Icon an. Greifen die Mitarbeiter auf den Werkzeugkasten zurück, so können sie die Icons einfach per Drag-and-Drop platzieren.

Wurde die Funktion mit allen Icons und dem Datenfluss definiert, so haben die zuständigen Mitarbeiter die Möglichkeit, sie direkt im Studio zu testen. Läuft der Task ohne Schwierigkeiten durch, so lässt er sich im nächsten Schritt in die Integration Cloud hochladen und dort benutzen. Treten Fehler auf, so bietet das Studio umfassende Optionen zum Debuggen.

Im Test erzeugten wir zu diesem Zeitpunkt ein Eingabeelement, das sehr spezifische Anforderungen erfüllte. Wir hatten zuvor mit Hilfe einer Android-App eine Datenbank mit den bei uns vorhandenen Büchern erstellt und wollten diese Datenbank in ein anderes System importieren. Leider war die Android-App lediglich dazu in der Lage, die Inhalte in Form einer CSV-Datei zu exportieren, die in keiner Hinsicht standardkonform war. Sie ließ sich also nicht mit einer der vorgefertigten Importfunktionen der Integration Cloud importieren. Das lag an dem – wie gesagt sehr seltsamen – Format der Datenquelle, nicht an der Talend-Lösung selbst, machte aber manuelle Entwicklungsarbeiten nötig.

Deswegen passten wir im Studio die Aktion „csv_file_toColumns_process_step“ so an, dass das System die in unserer CSV-Datei enthaltenen Daten richtig erkennen konnte. Dazu mussten wir manuell das Encoding, den Field-Separator und ähnliche Parameter, die in unserer Datei nicht den üblichen Erwartungen entsprachen, an die aktuellen Gegebenheiten anzupassen. Nachdem wir die modifizierte Aktion über einen Rechtsklick auf den Eintrag und die Auswahl des Befehls „Publish to Cloud“ in unseren Workspace in der Cloud hochgeladen hatten, konnten wir sie zu unserem Flow hinzufügen und auch gleich benutzen.

Fazit

Mit der Integration Cloud liefert Talend ein sehr leistungsfähiges Produkt zur Datenintegration aus. Trotz der großen Flexibilität und des großen Funktionsumfangs ist die Lösung relativ einfach zu bedienen und ermöglicht es Unternehmen beispielsweise „Do it yourself“-Datenintegrationsprojekte zu realisieren.

In vielen Fällen kann es dazu erforderlich sein, dass die Entwicklungsabteilung mit dem Studio für Cloud die im jeweiligen Unternehmen benötigten Aktionen vordefiniert. Wurde das einmal erledigt, so können die Datenintegrationsverantwortlichen als eine Art Endbenutzer über das Web-Interface die von ihnen benötigten Flows selbst zusammenstellen und modifizieren. Das spart sowohl Zeit für die Entwicklungsabteilung, die sich nach der erstmaligen Einrichtung der benötigten Aktionen nur noch in Sonderfällen mit der Datenintegration befassen muss, als auch bei den "Endbenutzern", die nur Kenntnisse über die Arbeit mit dem Web-Interface und dem Flow Builder benötigen.

Auch die IT-Administration wird durch die Integration Cloud entlastet, macht die Cloud es doch überflüssig, die Umgebung zum Abarbeiten der Datenintegrationsprojekte mit Hard- und Software, Hochverfügbarkeit und Sicherheit on-premise zu implementieren und zu warten. Das spart vor allem im Big Data-Umfeld viel Geld und Arbeit.

* Der Autor: Dr. Götz Güttich leitet das Testlabor IAIT in Korschenbroich.

Artikelfiles und Artikellinks

(ID:43728350)