Datenintegration mit Fivetran und Equalum Lösungen für Data Warehouses, Data Lakes & Lakehouses
Anbieter zum Thema
Datenintegration wird zum Flaschenhals bei Data Warehouses, Data Lakes und sogenannten Lakehouses. Einige Unternehmen versuchen, dieses Problem mit ihren Technologien zu lösen.

Data Warehouses und Data Lakes sind die Orte, wo Daten geballt zusammenfließen. Allerdings ist das oft nicht so einfach, wie man es sich vorstellt. Dabei hat jede der beiden Formen ihre speziellen Vor- und Nachteile. Insbesondere speichern Data Warehouses Daten sehr viel geordneter – unstrukturierte Daten waren darin zunächst nicht vorgesehen, was zur Entwicklung neuer Feldtypen und einer Erhöhung der Komplexität der Datenbanken beitrug. Insgesamt sind die strengen Integritätsmechanismen von Datenbanken für Echtzeitanalysen eher problematisch.
In Data Lakes kann man zwar Daten aller Art relativ einfach integrieren, das Problem ist aber, diese Datenbestände gezielt nach bestimmten Themen oder Fragen zu durchsuchen, um sie analytisch fruchtbar zu machen. Beim Data Lake wird das Datenschema nachträglich, also erst beim Lesen, angewendet. Das ist ein Nachteil, denn: „Daten in konventionellen Data Lakes sind immer inkonsistent“, sagt Fraser Harris, Vice President Product beim Spezialisten für automatisiertes Data Movement Fivetran.
Wichtig für die Datenarchitektur ist auch die Frage, ob Data Warehouses und Lakes on Premises oder in der Cloud gehalten werden. Die Cloud bietet naturgemäß erheblich mehr Flexibilität. Der Preis ist, dass die Daten bei einem – häufig noch immer als unsicher bewerteten – Cloud-Provider liegen statt im eigenen Rechenzentrum.
Data Warehouses und Data Lakes konvergieren
Inzwischen nähern sich die beiden Typen von Groß-Repositories an. Und zwar, indem Data Lakes Datenschemata schon beim Schreiben in den Data Lake unterstützen, was sie zu sogenannten Data Lakehouses macht. Das trifft beispielsweise für Apache Iceberg oder den Delta Lake von Databricks zu.
Durch die Anwendung von Schemata beim Schreiben können konsistente Snapshots zu jedem beliebigen Zeitpunkt gezogen werden. Relevante Datenstatistiken, wie sie Retrieval-Tools brauchen, lassen sich auf dieser Basis erstellen. Bei klassischen Data Lakes ist dies ohne größeren Aufwand schwierig bis unmöglich.
Spezialmarkt Datenintegration
Das Marktvolumen des Markts für Datenintegration, so Harris unter Berufung auf Gartner-Daten, liege bei über vier Milliarden US-Dollar. Dieses Volumen, so Harris, spiegelte aber bei weitem nicht den realen adressierbaren Markt wider. Vielmehr würden viele Integrationsprojekte wegen fehlender Manpower schlicht unterbleiben, weil sie einfach nicht zu bewältigen seien. Mehr Automation würde den Markt für Datenintegration daher quasi von selbst wachsen lassen.
Der Markt der Datenintegrationsspezialisten ist eng: Auf der einen Seite stehen respektive standen „traditionelle“ Player wie etwa Informatica, Qlik oder Talend, auf der anderen Unternehmen wie Fivetran, Stitch, Equalum, GigaSpaces, Streamsets, HVR oder Golden Gate. Die Geschichte einiger dieser Unternehmen zeigt, dass es nicht einfach ist, sich auf dem ETL- und Datenintegrationsmarkt zu behaupten.
So ging GoldenGate in Oracle auf, Stitch wurde von Talend geschluckt, Equalum änderte seinen Firmennamen und passte das Geschäftsmodell an, HVR wurde ein Teil von Fivetran. Letztgenanntes Unternehmen, das jährlich rund 200 Millionen US-Dollar umsetzt, kaufte HVR als Spezialisten für On-Premises-Datenintegration mit rund 150 Mitarbeitern laut Fraser im Jahr 2022 für 565 Millionen US-Dollar.
Fivetran: Neue Funktionen durch HVR-Integration
Jetzt sind bei Fivetran die Ergebnisse der Integration zu bewundern. Bislang konnten Fivetran-Kunden ihre Daten-Repositories nur in der Cloud halten. Mit HVR geht das nun auch on Premises. Über den derzeit noch zwei Nutzerschnittstellen für den Zugang zu on-Premises- und Cloud-Daten liegt eine einheitliche Governance-Schicht. Innerhalb der nächsten sechs Monate sollen auch die Datenzugriffs-Schnittstellen zusammengeführt werden.
Außerdem erweiterte Fivetran, das sich als „Spezialist für Datenbewegung“ sieht, jüngst sein Fähigkeitenspektrum um die schnelle Datenbank-Replikation ausdrücklich auch von SAP on-Premises und in die Cloud. Unterstützt werden nun auch Amazon S3 mit Apache Iceberg und Databricks Delta. Durch die On-Premises-Unterstützung erwartet sich Fivetran mehr Interesse von Industriekunden.
Lite-Konnektoren: Schrittweise Verbesserung.
Weiter legte Fivetran ein Lite-Konnektoren-Konzept vor. Bislang wurden Konnektoren in einem durchaus Monate währenden Verfahren möglichst perfekt erstellt. Lite-Konnektoren dagegen sind schneller fertig, bringen aber nur das nötige Minimum an Fähigkeiten mit, die der jeweilige Kunde will. Sie werden dann mit der Zeit und der Nachfrage nach neuen Funktionen erweitert. Das ähnelt dem Konzept der agilen Programmierung bei Cloud-Native-Software.
Außerdem setzt Fivetran jetzt für das Entwickeln neuer Konnektoren KI ein. Die KI-Software liest die Dokumentation der jeweiligen Schnittstelle, für die der Konnektor geschrieben wird, und liefert sodann Code. Der braucht zwar einen Feinschliff durch einen Entwickler. „Aber der generierte Code läuft“, freut sich Harris. Bislang habe man 300 Konnektoren im Angebot, bald sollen es mehr als tausend sein.
Equalum: Neuer Erfolg durch CDC
Das israelische Start-up Equalum, gegründet 2015 unter einem anderen Namen (der Name, unter dem das Unternehmen bislang aktiv war, ist nicht in Erfahrung zu bringen), sieht sich als Spezialist für CDC (Change Data Capture) und ETL. Das Unternehmen verortet sich am Kreuzungspunkt zwischen Realtime-Replikation, Stream- und Batch-Processing.
Besonders bei der Integration von veränderten Daten (Change Data Capture, CDC) aus klassischen Datenbanken oder anderen Umgebungen in Echtzeit-Streaming-Umgebungen unter Kafka sei man stark. Das liege, so Eyal Perlson, Vice President Marketing, während einer ITPress-Tour vor den anwesenden Journalisten, an den besonders engen Verbindungen zu den Datenbankherstellern: „Wir haben bei Oracle und anderen verbreiteten Datenbanken Direktzugriff auf den Binär-Logfile der geänderten Daten.“ Das sei in diesem Markt bislang einmalig.
Zwar böte Oracle mit dem Logrunner selbst ein Werkzeug für das Auslesen dieser Daten an, jedoch wäre dieses erstens teuer und zweitens erheblich langsamer. „Das API von Oracle verkraftet in derselben Zeit 13.000 Events, in der wir 85.000 verarbeiten“, so Harris.
Keine Code-Integration in die Datenquelle
Weitere Vorteile der Equalum-Lösung: Daten werden nur genau einmal gehalten, die Unterschiede zwischen bestehenden und neuen Daten (Delta) werden noch vor der Einspeicherung festgestellt, was die Kosten von Cloud-Repositories senkt. Die Datenquelle wird durch den Zugriff auf die Binärfiles mit den Änderungen in ihrer Leistung nicht beeinträchtigt (sogenanntes Zero-Code Data Ingestion). Schema-Evolution und Recovery erfolgen automatisch. „Das erspart unseren Kunden viel Pipeline-Aufbau.“
Equalum will in Zukunft vermehrt OEM-Geschäfte mit seinem CDC-Produkt CDC-Connect machen – schließlich sei das, was man am besten könne, für viele Unternehmen eine interessante Komponente. Zwar könne es sein, dass irgendwann Datenbanken mit verbesserten Funktionen externe CDC überflüssig machten, derzeit sei aber nichts Derartiges am Markt.
Großes OEM-Geschäft
Zu den OEM-Kunden, die im Hintergrund die Software des Anbieters verwenden, gehört beispielsweise Hitachi, es steckt in Snap Logic. Auch mit Confluent arbeitet Equalum als Schnittstellen- und Technologielieferant zusammen. Das Unternehmen bietet eine derzeit am Markt recht erfolgreiche, auf Kafka basierende Echtzeit-Streaming-Plattform an.
T-Systems nutzt die Lösung für seine Echtzeit-Analytik. Viele Firmen aus dem Finanzbereich nutzten die Lösungen von Equalum. Insgesamt habe sich die Kundenzahl in den vergangenen zwei Jahren verdoppelt, obwohl viele Echtzeitanalytik-Projekte wegen der wirtschaftlichen Unwägbarkeiten auf Eis lägen.
Nicht unterstützt werden derzeit Web-Anbindungen wie Facebook oder Salesforce. Das heißt aber nicht, dass man kein Geschäft mit dem oder über das Web will. Vielmehr ist die Software von Equalum demnächst auch über die Marktplätze von Azure und Google verfügbar. AWS folgt später.
Artikelfiles und Artikellinks
Link: Fivetran im Web
Link: Equalum im Web
(ID:49423051)