Suchen

ETL-Prozesse einfach gestalten Datenintegration in der Hybrid Cloud-Ära

| Autor: Florian Karlstetter

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten.

Firmen zum Thema

Stitch Data Loader von Talend: Self-Service-Datenintegration für Cloud Data Warehouses.
Stitch Data Loader von Talend: Self-Service-Datenintegration für Cloud Data Warehouses.
(Bild: Talend)

In Zeiten in denen Cloud Computing in immer mehr Bereiche der IT-Infrastruktur integriert wird, wird es naheliegenderweise auch immer komplizierter, die einzelnen Services miteinander, teils untereinander zu verbinden, aus immer mehr Datenquellen den jeweils gewünschten Pool zu erstellen und bei all den unterschiedlichen Schnittstellen den Überblick nicht zu verlieren. Früher gab es dafür eigene IT-Abteilungen, in denen Data Scientists die Fachabteilungen mit den jeweils nötigen Informationen versorgten.

Heute ist es aber meist nicht mehr nur eine zentrale Datenbank, über die man - nach Definition und Eingabe der entsprechenden Filter - das gewünschte Resultat erzielen kann. Vielmehr geht es darum, all die Daten, die verstreut von unterschiedlichsten Cloud-Applikationen erzeugt werden, wieder zusammenzuführen, um sie für Auswertungen oder Analysen nutzbar zu machen.

Je mehr Cloud Services eingesetzt werden, desto höher ist der Aufwand der individuellen Anbindung. Da liegt es nahe, den Fachabteilungen die Entscheidung zu überlassen, welche Daten gerade gefragt sind, um sie dann möglichst einfach per Self Service in ein Cloud Data Warehouse oder - neuenglisch - in einen Data Lake zu überführen.

Mit der Übernahme von Stich hat sich Talend im November 2018 einen solchen Lösungsansatz gesichert und mittlerweile ins eigene Portfolio integriert. Stitch ist eine Cloud-first, entwicklerorientierte Plattform, mit der sich schnittstellenbasiert Daten aus beliebigen Cloud-Quellen in eigene Datenbanken zur weiteren Bearbeitung übertragen lassen. All das, dank vorgefertigter Templates intuitiv und selbst für unerfahrene Anwender schnell einsetzbar.

Die notwendigen Mechanismen

Mit dem Stitch Data Loader lassen sich Daten aus über 90 Quellen innerhalb weniger Minuten in eine Data Warehouse-Umgebung übertragen. Unterstützt werden alle großen Plattformen wie Microsoft Azure SQL Data Warehouse, Amazon Redshift und Amazon S3, Google Big Query oder auch Snowflake und PostgreSQL oder data.world DW. Dabei führt der Stitch Data Loader Datentyptransformationen zwischen Quelle und Ziel, Schemaänderungen, Sicherheitsfunktionen und das Laden auch größter Datenmengen transparent durch. Eine integrierte Planungsfunktion unterstützt dabei, die Cloud-Daten kontinuierlich auf dem aktuellen Stand zu halten.

Talend positioniert Stitch auch für unerfahrene Anwender, zumindest was die vorgefertigten Konnektoren und deren Grundfunktionalität angeht.
Talend positioniert Stitch auch für unerfahrene Anwender, zumindest was die vorgefertigten Konnektoren und deren Grundfunktionalität angeht.
(Bild: Talend)

Die Erfassung von Daten und erforderliche Skalierungen erledigt Stitch mit nur wenigen Klicks. Alle Vorgänge durchlaufen einen reibungslosen Prozess. Einige Konnektoren von Stitch bietet Talend auch kostenlos an, zusätzlich gibt es eine kostenlose Trial-Version, 5 Millionen Zeilen pro Monat sind dabei stets kostenlos erhältlich. Das dürfte für eine Evaluation meist völlig ausreichen.

Der Stitch Data Loader verbindet sich mit verschiedensten SaaS-Anwendungen, Datenbanken und Cloud-Datenquellen wie MySQL, Salesforce, Stripe, aber auch Google AdWords, Facebook Ads, Hubspot bis hin zu Zapier. Die komplette Übersicht der unterstützten Datenquellen gibt es auf der Website von Stitchdata.com.

Bildergalerie
Bildergalerie mit 11 Bildern

Mögliche Einsatzszenarien

Neben den klassischen Anwendungsgebieten wie der Datenintegration für Analyse und Reporting lassen sich mit Stitch im Zusammenspiel mit weiteren Talend-Lösungen auch neue Technologien wie Machine Learning evaluieren und für das eigene Unternehmen nutzen. Auch hier reduziert Talend dank Self Service-Komponenten die Komplexität: Developer und Data Scientists müssen sich nicht mit der Entwicklung von geeigneten Modellen vertraut machen, sondern können auf benutzerfreundliche ML-Standardkomponenten zurückgreifen.

Talend bietet hier vorgefertigte „Out-of-the-Box“-Komponenten, die schnell und einfach integriert werden können. Dies erlaubt es Datennutzern, unabhängig von ihrem Kenntnisstand, mit Algorithmen zu arbeiten – ohne dass sie wissen müssen, wie ein Algorithmus funktioniert oder wie er konstruiert ist. Gleichzeitig können Experten diese Algorithmen je nach Bedarf anpassen, da Basis-Komponenten aus dem Talend-Portfolio auch als Open Source zur Verfügung stehen.

Ergänzendes zum Thema
Über Talend

Talend bietet ein breites Portfolio an Lösungen für Cloud- und Datenintegration.
Talend bietet ein breites Portfolio an Lösungen für Cloud- und Datenintegration.
( Bild: Talend )

Talend, führender Anbieter von Lösungen für die Cloud-Integration, hilft Kunden dabei, mit den richtigen Daten die Geschäftsentwicklung schneller voranzutreiben. Talend Cloud ist die zentrale Plattform für die übergreifende Datenintegration aus public, private und hybriden Clouds sowie aus lokalen IT-Infrastrukturen und stärkt die Zusammenarbeit zwischen IT und den Fachbereichen. Mit Self-Service-Lösungen sowie Hunderten von vorgefertigten Adaptern für die Anbindung von SaaS-Applikationen bis zum Cloud-Data-Warehouse können Organisationen mit Talend ihre Anforderungen kosteneffizient erfüllen, die durch die rapide Zunahme von Daten, Nutzern und Anwendungsszenarien entstehen.

Rund 3.000 globale Kunden vertrauen auf Talend und lassen ihre Daten für sich arbeiten, wie zum Beispiel GE, HP Inc. und Domino’s. Talend ist unter führenden Marktanalysten und in Publikationen wie Forbes, InfoWorld und SD Times als Branchenführer anerkannt. Auch ist Talend im Gartner´s 2019 Magic Quadrant für Data Quality Tools erneut als Leader ausgezeichnet worden.

Weitere Informationen finden sich auf der Website von Talend.

Fazit

„Extract, Transform, Load“ (ETL) hat im Multi-Cloud-Zeitalter einen ganz besonderen Stellenwert. Der „Komplexität den Schrecken nehmen“ gehört ein Stück weit mit zur Unternehmensphilosophie von Talend. So lassen sich Datenintegration und Datenmanagement in Hybrid und Multi-Cloud-Szenarien mit Talend komfortabel orchestrieren und um neue Technologien wie Machine Learning anreichern. Zusätzlich adressieren die Lösungen und Plattformen von Talend weitere wichtige Faktoren wie Verlässlichkeit der Daten (Trust), Governance (Rückverfolgbarkeit) und Geschwindigkeit.

(ID:45839935)

Über den Autor

 Florian Karlstetter

Florian Karlstetter

Chefredakteur, CloudComputing-Insider