Ein neuer Data Warehouse Report von Brooklyn Data, der im Auftrag des Herstellers Fivetran erstellt wurde, untersucht die Eignung von fünf Cloud Data Warehouses: Snowflake, Databricks, Azure Synapse, Amazon Redshift und Google BigQuery. Der Report empfiehlt, nicht so sehr auf die Kosten zu achten, sondern auf die Bedienbarkeit, das Kundenerlebnis und das Tuning.
Brooklyn Data hat im Auftrag von Fivetran einen Data Warehouse Report erstellt.
Fivetran ist eine Daten-Pipeline, die den Datenfluss zwischen Anwendungen, Datenbanken und Dateisystemen und dem Data Warehouse eines Kunden synchronisiert. Diese Integrationsfunktion erweist sich als wesentlich, sobald ein bestimmter Prozess im Data Warehouse, sei es ETL, sei es Analyse oder Report, zu einem exakten Zeitpunkt an einer bestimmten Lokation mit den passenden Daten ausgeführt werden soll.
Wenn das Data Warehouse in der Cloud betrieben wird, kommt dem Aspekt der Latenz und der Datenmenge erhöhte Bedeutung zu. Welches also das beste solcher Data Warehouses ist, versuchte die Studie von Brooklyn Data herauszufinden.
Bildergalerie
Die Prüfmethode
Brooklyn Data testete nicht wild drauflos, sondern nutzte einen standardisierten Industrie-Benchmarktest namens TPC-DS. Die Datenmenge umfasste ein Terabyte. Für die Speicherung wurden 24 Tabellen in einem Schneeflocken-Schema genutzt; die Tabellen repräsentieren Web-Daten, einen Datenkatalog und die Ladenumsätze eines erfundenen Einzelhändlers. Die größte Faktentabelle ist vier Milliarden Zeilen lang, also nicht allzu klein, aber für ein modernes Data Warehouse nicht besonders groß.
Zwischen Mai und Oktober 2022 führten die Tester 99 TPC-DS-Abfragen aus. Diese Abfragen waren komplex, denn sie umfassten viele Joins, Aggregationen und Unterabfragen. Caching durch das jeweilige Data Warehouse wurde unterdrückt, indem jede Abfrage nur einmal ausgeführt wurde. Die Abfragen liefen sequenziell, eine nach der anderen, was sie von üblichen Abfragen in der Realität unterschied. In der Realität feuern viele Nutzer gleichzeitig ihre Abfragen ab. Für jedes Data Warehouse musste die jeweilige Abfrage minimal angepasst werden, so etwa bei den Datentypen.
Jedes Data Warehouse wurde in drei Konfigurationen erstellt, um herauszufinden, wie sich die Kosten zur Leistung verhalten. Bei AWS kann beispielsweise eine andere Anzahl von Instanzen (3 oder 5 oder 10) ein völlig anderes Preis-Leistungs-Verhältnis zur Folge haben. Das gleiche gilt für die anderen Anbieter. Interessanterweise basieren die „Standard“-Preise bei Databricks und Snowflake auf dem AWS-Standard-Preis für die ra3-4xlarge-Instanz. Preise für „Premium“- und „Enterprise“-Level wären dementsprechend höher. Spot- und On-demand-Preisgestaltung sowie Auto-Scaling wurden nicht berücksichtigt, denn das sind Sonderfälle, die den Vergleich verzerren würden.
Tuning
Mit diversen Tricks können Data Warehouses ihre Leistung steigern. Der Index lässt sich beispielsweise dazu nutzen, die Lesegeschwindigkeit zu steigern. Daher haben die Tester solche proprietären Indizes gemieden, aber die Kompression von Daten in Spalten beibehalten. Das reduziert lediglich den Speicherplatz, aber nicht die Lesegeschwindigkeit.
Das Testergebnis bescheinigte allen Warehouses eine ausgezeichnete Ausführungsgeschwindigkeit, die sie für Ad-hoc- und interaktive Abfragen geeignet erscheinen lässt. Um die Kosten zu berechnen, wurde die Laufzeit einer Abfrage mit dem Preis pro Sekunde der jeweiligen Konfiguration multipliziert.
Bewertung
Eine Bewertung kann sich nur durch einen Vergleich der Ergebnisse erzielen lassen. Die Tester verglichen ihre aktuellen Resultate mit denen, die sie 2020 erhalten hatten. Dabei zeigte sich, dass Databricks die größten Fortschritte erzielt hat. Das sei nicht verwunderlich, denn der Hersteller habe seine SQL Execution Engine „Photon“ komplett umgeschrieben (alle Abfragen wurden in SQL geschrieben und ausgeführt). Databricks veröffentlichte im November 2021 einen eigenen Benchmark, um seinen Erfolg zu belegen, doch die Parameter dieses Benchmarktests (u. a. 100 Terabyte Daten) unterscheiden sich erheblich vom Brooklyn-Data-Test.
Auch der GigaOm-Vergleich der Data Warehouses, der im April 2019 ausgeführt und veröffentlicht wurde, wirkt nicht gerade taufrisch. Der von Microsoft gesponserte Test nutzte eine Datenmenge von 30 Terabyte und konfigurierte verschieden große Cluster für unterschiedliche Systeme, was interessanterweise zu längeren Laufzeiten als bei Brooklyn Data führte. Drei weitere Benchmarktests stammen aus dem Jahr 2016, was ihre Relevanz begrenzt. Im Oktober 2016 gab es beispielsweise die Finalversion von BigQuery SQL noch gar nicht.
George Fraser, CEO von Fivetran
(Bild: Fivetran)
George Fraser, der CEO von Fivetran, formuliert seine Sicht des Wettstreits zwischen Databricks und Snowflake wie folgt: „Databricks hat große Fortschritte erzielt, und wir können jetzt sagen, dass sie mit führenden Anbietern von Data Warehouses in puncto SQL-Performance mithalten können. Snowflake ist in diesem Benchmark weiterhin führend. Was ich jedoch sehe, ist, dass die beiden Unternehmen überwiegend an zwei verschiedene Nutzergruppen verkaufen. Snowflake verkauft überwiegend an Analysten, Databricks mehr an Ingenieure. Vielfach koexistieren diese beiden Gruppen im gleichen Kundenunternehmen.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Schlussfolgerungen
Diese fünf Data Warehouses nutzen im Alltag seit 2005 alle gewohnten Tuningkniffe wie etwa Speicherung in Spalten, kostenorientierte Abfrageplanung, Pipeline-orientierte Ausführung und zeitgerechte (s. o.) Kompilation des Ergebnisses. Als Kunde sollte man jeden Benchmarktest mit Vorsicht genießen, der behauptet, dass ein Data Warehouse „dramatisch“ schneller sei als andere, denn alle Warehouses nutzen ja die oben genannten, altbewährten Tricks.
Es gibt offenbar ein hartnäckiges Gerücht, dass die Anbieter von Cloud-Data Warehouses NICHT ihre Performance steigern wollen, weil dies ihrem eigenen Umsatz schade. George Fraser, CEO von Fivetran, greift diesen „Mythos“ auf und erklärt, dass „die Anbieter ihre (Software-) Leistung dennoch steigern“. Der Grund: „Sie wetten darauf, dass die Kunden bei einer effektiven Senkung der jeweiligen Workload-Kosten mit der Zeit darauf reagieren, indem sie mehr Workloads hinzufügen, und dass dies eine Win-Win-Situation ist.“
Der wichtigste Unterschied zwischen Warehouses liege in der Qualität, die durch die jeweilige Wahl des Designs bedingt sei. Die einen Warehouses legen Wert auf Leistungssteigerung durch Tuning, die anderen auf leichte Bedienbarkeit. Die Tester von Brooklyn Data empfehlen daher bei der Evaluierung von Data Warehouses, sich mehrere Systeme vorführen zu lassen und dasjenige auszuwählen, welches das richtige Verhältnis zwischen Tuning-Funktionen und Bedienbarkeit anbietet, von den spezifischen Vorgaben des Cloud-Betriebs mal ganz abgesehen. Dem schließt sich George Fraser, der CEO von Fivetran, an. „Die beste Methode, die Bedienbarkeit zu beurteilen, besteht darin, jedes System auszuprobieren. Es gibt keinen Ersatz für die direkte, persönliche Erfahrung.”