ETL-Prozesse einfach gestalten Datenintegration in der Hybrid Cloud-Ära
Anbieter zum Thema
Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten.

In Zeiten in denen Cloud Computing in immer mehr Bereiche der IT-Infrastruktur integriert wird, wird es naheliegenderweise auch immer komplizierter, die einzelnen Services miteinander, teils untereinander zu verbinden, aus immer mehr Datenquellen den jeweils gewünschten Pool zu erstellen und bei all den unterschiedlichen Schnittstellen den Überblick nicht zu verlieren. Früher gab es dafür eigene IT-Abteilungen, in denen Data Scientists die Fachabteilungen mit den jeweils nötigen Informationen versorgten.
Heute ist es aber meist nicht mehr nur eine zentrale Datenbank, über die man - nach Definition und Eingabe der entsprechenden Filter - das gewünschte Resultat erzielen kann. Vielmehr geht es darum, all die Daten, die verstreut von unterschiedlichsten Cloud-Applikationen erzeugt werden, wieder zusammenzuführen, um sie für Auswertungen oder Analysen nutzbar zu machen.
Je mehr Cloud Services eingesetzt werden, desto höher ist der Aufwand der individuellen Anbindung. Da liegt es nahe, den Fachabteilungen die Entscheidung zu überlassen, welche Daten gerade gefragt sind, um sie dann möglichst einfach per Self Service in ein Cloud Data Warehouse oder - neuenglisch - in einen Data Lake zu überführen.
Mit der Übernahme von Stitch hat sich Talend im November 2018 einen solchen Lösungsansatz gesichert und mittlerweile ins eigene Portfolio integriert. Stitch ist eine Cloud-first, entwicklerorientierte Plattform, mit der sich schnittstellenbasiert Daten aus beliebigen Cloud-Quellen in eigene Datenbanken zur weiteren Bearbeitung übertragen lassen. All das, dank vorgefertigter Templates intuitiv und selbst für unerfahrene Anwender schnell einsetzbar.
Die notwendigen Mechanismen
Mit dem Stitch Data Loader lassen sich Daten aus über 90 Quellen innerhalb weniger Minuten in eine Data Warehouse-Umgebung übertragen. Unterstützt werden alle großen Plattformen wie Microsoft Azure SQL Data Warehouse, Amazon Redshift und Amazon S3, Google Big Query oder auch Snowflake und PostgreSQL oder data.world DW. Dabei führt der Stitch Data Loader Datentyptransformationen zwischen Quelle und Ziel, Schemaänderungen, Sicherheitsfunktionen und das Laden auch größter Datenmengen transparent durch. Eine integrierte Planungsfunktion unterstützt dabei, die Cloud-Daten kontinuierlich auf dem aktuellen Stand zu halten.
Die Erfassung von Daten und erforderliche Skalierungen erledigt Stitch mit nur wenigen Klicks. Alle Vorgänge durchlaufen einen reibungslosen Prozess. Einige Konnektoren von Stitch bietet Talend auch kostenlos an, zusätzlich gibt es eine kostenlose Trial-Version, 5 Millionen Zeilen pro Monat sind dabei stets kostenlos erhältlich. Das dürfte für eine Evaluation meist völlig ausreichen.
Der Stitch Data Loader verbindet sich mit verschiedensten SaaS-Anwendungen, Datenbanken und Cloud-Datenquellen wie MySQL, Salesforce, Stripe, aber auch Google AdWords, Facebook Ads, Hubspot bis hin zu Zapier. Die komplette Übersicht der unterstützten Datenquellen gibt es auf der Website von Stitchdata.com.
Mögliche Einsatzszenarien
Neben den klassischen Anwendungsgebieten wie der Datenintegration für Analyse und Reporting lassen sich mit Stitch im Zusammenspiel mit weiteren Talend-Lösungen auch neue Technologien wie Machine Learning evaluieren und für das eigene Unternehmen nutzen. Auch hier reduziert Talend dank Self Service-Komponenten die Komplexität: Developer und Data Scientists müssen sich nicht mit der Entwicklung von geeigneten Modellen vertraut machen, sondern können auf benutzerfreundliche ML-Standardkomponenten zurückgreifen.
Talend bietet hier vorgefertigte „Out-of-the-Box“-Komponenten, die schnell und einfach integriert werden können. Dies erlaubt es Datennutzern, unabhängig von ihrem Kenntnisstand, mit Algorithmen zu arbeiten – ohne dass sie wissen müssen, wie ein Algorithmus funktioniert oder wie er konstruiert ist. Gleichzeitig können Experten diese Algorithmen je nach Bedarf anpassen, da Basis-Komponenten aus dem Talend-Portfolio auch als Open Source zur Verfügung stehen.
Fazit
„Extract, Transform, Load“ (ETL) hat im Multi-Cloud-Zeitalter einen ganz besonderen Stellenwert. Der „Komplexität den Schrecken nehmen“ gehört ein Stück weit mit zur Unternehmensphilosophie von Talend. So lassen sich Datenintegration und Datenmanagement in Hybrid und Multi-Cloud-Szenarien mit Talend komfortabel orchestrieren und um neue Technologien wie Machine Learning anreichern. Zusätzlich adressieren die Lösungen und Plattformen von Talend weitere wichtige Faktoren wie Verlässlichkeit der Daten (Trust), Governance (Rückverfolgbarkeit) und Geschwindigkeit.
(ID:45839935)