Fivetran Data Warehouse Report 2023 Fünf Cloud Data Warehouses im Test

Von Michael Matzer

Anbieter zum Thema

Ein neuer Data Warehouse Report von Brooklyn Data, der im Auftrag des Herstellers Fivetran erstellt wurde, untersucht die Eignung von fünf Cloud Data Warehouses: Snowflake, Databricks, Azure Synapse, Amazon Redshift und Google BigQuery. Der Report empfiehlt, nicht so sehr auf die Kosten zu achten, sondern auf die Bedienbarkeit, das Kundenerlebnis und das Tuning.

Brooklyn Data hat im Auftrag von Fivetran einen Data Warehouse Report erstellt.
Brooklyn Data hat im Auftrag von Fivetran einen Data Warehouse Report erstellt.
(Bild: © ArtemisDiana - stock.adobe.com)

Fivetran ist eine Daten-Pipeline, die den Datenfluss zwischen Anwendungen, Datenbanken und Dateisystemen und dem Data Warehouse eines Kunden synchronisiert. Diese Integrationsfunktion erweist sich als wesentlich, sobald ein bestimmter Prozess im Data Warehouse, sei es ETL, sei es Analyse oder Report, zu einem exakten Zeitpunkt an einer bestimmten Lokation mit den passenden Daten ausgeführt werden soll.

Wenn das Data Warehouse in der Cloud betrieben wird, kommt dem Aspekt der Latenz und der Datenmenge erhöhte Bedeutung zu. Welches also das beste solcher Data Warehouses ist, versuchte die Studie von Brooklyn Data herauszufinden.

Bildergalerie

Die Prüfmethode

Brooklyn Data testete nicht wild drauflos, sondern nutzte einen standardisierten Industrie-Benchmarktest namens TPC-DS. Die Datenmenge umfasste ein Terabyte. Für die Speicherung wurden 24 Tabellen in einem Schneeflocken-Schema genutzt; die Tabellen repräsentieren Web-Daten, einen Datenkatalog und die Ladenumsätze eines erfundenen Einzelhändlers. Die größte Faktentabelle ist vier Milliarden Zeilen lang, also nicht allzu klein, aber für ein modernes Data Warehouse nicht besonders groß.

Zwischen Mai und Oktober 2022 führten die Tester 99 TPC-DS-Abfragen aus. Diese Abfragen waren komplex, denn sie umfassten viele Joins, Aggregationen und Unterabfragen. Caching durch das jeweilige Data Warehouse wurde unterdrückt, indem jede Abfrage nur einmal ausgeführt wurde. Die Abfragen liefen sequenziell, eine nach der anderen, was sie von üblichen Abfragen in der Realität unterschied. In der Realität feuern viele Nutzer gleichzeitig ihre Abfragen ab. Für jedes Data Warehouse musste die jeweilige Abfrage minimal angepasst werden, so etwa bei den Datentypen.

Jedes Data Warehouse wurde in drei Konfigurationen erstellt, um herauszufinden, wie sich die Kosten zur Leistung verhalten. Bei AWS kann beispielsweise eine andere Anzahl von Instanzen (3 oder 5 oder 10) ein völlig anderes Preis-Leistungs-Verhältnis zur Folge haben. Das gleiche gilt für die anderen Anbieter. Interessanterweise basieren die „Standard“-Preise bei Databricks und Snowflake auf dem AWS-Standard-Preis für die ra3-4xlarge-Instanz. Preise für „Premium“- und „Enterprise“-Level wären dementsprechend höher. Spot- und On-demand-Preisgestaltung sowie Auto-Scaling wurden nicht berücksichtigt, denn das sind Sonderfälle, die den Vergleich verzerren würden.

Tuning

Mit diversen Tricks können Data Warehouses ihre Leistung steigern. Der Index lässt sich beispielsweise dazu nutzen, die Lesegeschwindigkeit zu steigern. Daher haben die Tester solche proprietären Indizes gemieden, aber die Kompression von Daten in Spalten beibehalten. Das reduziert lediglich den Speicherplatz, aber nicht die Lesegeschwindigkeit.

Das Testergebnis bescheinigte allen Warehouses eine ausgezeichnete Ausführungsgeschwindigkeit, die sie für Ad-hoc- und interaktive Abfragen geeignet erscheinen lässt. Um die Kosten zu berechnen, wurde die Laufzeit einer Abfrage mit dem Preis pro Sekunde der jeweiligen Konfiguration multipliziert.

Bewertung

Eine Bewertung kann sich nur durch einen Vergleich der Ergebnisse erzielen lassen. Die Tester verglichen ihre aktuellen Resultate mit denen, die sie 2020 erhalten hatten. Dabei zeigte sich, dass Databricks die größten Fortschritte erzielt hat. Das sei nicht verwunderlich, denn der Hersteller habe seine SQL Execution Engine „Photon“ komplett umgeschrieben (alle Abfragen wurden in SQL geschrieben und ausgeführt). Databricks veröffentlichte im November 2021 einen eigenen Benchmark, um seinen Erfolg zu belegen, doch die Parameter dieses Benchmarktests (u. a. 100 Terabyte Daten) unterscheiden sich erheblich vom Brooklyn-Data-Test.

Auch der GigaOm-Vergleich der Data Warehouses, der im April 2019 ausgeführt und veröffentlicht wurde, wirkt nicht gerade taufrisch. Der von Microsoft gesponserte Test nutzte eine Datenmenge von 30 Terabyte und konfigurierte verschieden große Cluster für unterschiedliche Systeme, was interessanterweise zu längeren Laufzeiten als bei Brooklyn Data führte. Drei weitere Benchmarktests stammen aus dem Jahr 2016, was ihre Relevanz begrenzt. Im Oktober 2016 gab es beispielsweise die Finalversion von BigQuery SQL noch gar nicht.

George Fraser, CEO von Fivetran
George Fraser, CEO von Fivetran
(Bild: Fivetran)

George Fraser, der CEO von Fivetran, formuliert seine Sicht des Wettstreits zwischen Databricks und Snowflake wie folgt: „Databricks hat große Fortschritte erzielt, und wir können jetzt sagen, dass sie mit führenden Anbietern von Data Warehouses in puncto SQL-Performance mithalten können. Snowflake ist in diesem Benchmark weiterhin führend. Was ich jedoch sehe, ist, dass die beiden Unternehmen überwiegend an zwei verschiedene Nutzergruppen verkaufen. Snowflake verkauft überwiegend an Analysten, Databricks mehr an Ingenieure. Vielfach koexistieren diese beiden Gruppen im gleichen Kundenunternehmen.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Schlussfolgerungen

Diese fünf Data Warehouses nutzen im Alltag seit 2005 alle gewohnten Tuningkniffe wie etwa Speicherung in Spalten, kostenorientierte Abfrageplanung, Pipeline-orientierte Ausführung und zeitgerechte (s. o.) Kompilation des Ergebnisses. Als Kunde sollte man jeden Benchmarktest mit Vorsicht genießen, der behauptet, dass ein Data Warehouse „dramatisch“ schneller sei als andere, denn alle Warehouses nutzen ja die oben genannten, altbewährten Tricks.

Es gibt offenbar ein hartnäckiges Gerücht, dass die Anbieter von Cloud-Data Warehouses NICHT ihre Performance steigern wollen, weil dies ihrem eigenen Umsatz schade. George Fraser, CEO von Fivetran, greift diesen „Mythos“ auf und erklärt, dass „die Anbieter ihre (Software-) Leistung dennoch steigern“. Der Grund: „Sie wetten darauf, dass die Kunden bei einer effektiven Senkung der jeweiligen Workload-Kosten mit der Zeit darauf reagieren, indem sie mehr Workloads hinzufügen, und dass dies eine Win-Win-Situation ist.“

Der wichtigste Unterschied zwischen Warehouses liege in der Qualität, die durch die jeweilige Wahl des Designs bedingt sei. Die einen Warehouses legen Wert auf Leistungssteigerung durch Tuning, die anderen auf leichte Bedienbarkeit. Die Tester von Brooklyn Data empfehlen daher bei der Evaluierung von Data Warehouses, sich mehrere Systeme vorführen zu lassen und dasjenige auszuwählen, welches das richtige Verhältnis zwischen Tuning-Funktionen und Bedienbarkeit anbietet, von den spezifischen Vorgaben des Cloud-Betriebs mal ganz abgesehen. Dem schließt sich George Fraser, der CEO von Fivetran, an. „Die beste Methode, die Bedienbarkeit zu beurteilen, besteht darin, jedes System auszuprobieren. Es gibt keinen Ersatz für die direkte, persönliche Erfahrung.”

(ID:49018059)