Definition Was ist BigLake?

Anbieter zum Thema

BigLake ist eine zentrale Datenplattform und Speicher-Engine aus der Google Cloud. Sie integriert Data Warehouses und Data Lakes und sorgt für eine vereinheitlichte Analytik und Zugriffssteuerung. Es lassen sich strukturierte und unstrukturierte Daten aus verschiedenen Datenquellen Cloud-übergreifend zusammenführen. Für das Speichern von BigLake-Tabellen sind neben Google Cloud Storage auch AWS- oder Azure-Cloud-Speicher nutzbar.

(Bild: © aga7ta - stock.adobe.com)

BigLake ist der Name einer seit 2022 angebotenen Cloud-basierten Speicher-Engine von Google. Sie fungiert als zentrale Datenplattform, mit der sich Data Warehouses und Data Lakes zusammenführen lassen. Strukturierte und unstrukturierte Daten aus verschiedenen Datenquellen sind Cloud-übergreifend integrierbar. Die Analytik der Daten und die Zugriffssteuerung werden vereinheitlicht.

BigLake unterstützt Daten auf Cloud-Plattformen wie Google Cloud Platform (GCP), Amazon Web Services (AWS) oder Microsoft Azure. Es existieren zahlreiche Konnektoren für Open-Source-Lösungen wie Spark, Presto oder Trino. Gespeichert werden die Daten in offenen Formaten wie dem Parquet-Format, dem ORC-Format (Optimized Row Columnar) oder dem CSV-Format. Als Analysewerkzeug ist BigQuery nutzbar.

Die Preise für BigLake sind nutzungsabhängig und basieren auf dem Abfragevolumen der BigLake-Tabellen mit BigQuery, BigQuery Omni oder mit Open-Source-Engines und BigLake-Konnektoren. Abgerechnet wird unter anderem auf Basis der gelesenen Datenmenge und des ausgehenden Verkehrs.

BigLake – Zusammenführung von Data Warehouses und Data Lakes in einem Data Lakehouse

Mit BigLake verfolgt Google den Ansatz des sogenannten Data Lakehouse. Ein Data Lakehouse führt Data Warehouses und Data Lakes in einer offenen Architektur zusammen. Dadurch werden bisher getrennt Datensilos aufgebrochen, die durch eine separierte Speicherung von strukturierten Daten in Data Warehouses und unstrukturierten Daten in Data Lakes entstanden sind. Ein Data Lakehouse schafft eine gemeinsame Datenmanagementarchitektur und vereint die jeweiligen Funktionen und Vorteile von Data Warehouses und Data Lakes in einem offenen Konzept. Große Mengen strukturierter, unstrukturierter und semi-strukturierter Daten verschiedenster Formate können flexibel vorgehalten und effizient analysiert werden. Die Daten werden auf einer gemeinsamen Ebene bereitgestellt und sind für unterschiedliche Prozesse, Anwendungen und Analysen nutzbar. Bei der Zusammenführung der Speicherarten greift BigLake unter anderem auf Analyse- und Datenmangementtechniken der Cloud-Data-Warehouse-Lösung BigQuery von Google zurück.

Funktionen und Merkmale von BigLake

BigLake wird durch die leistungsstarke BigQuery-Infrastruktur unterstützt. Bei BigQuery handelt es sich um ein von Google voll gemanagtes, serverloses Multi-Cloud-Data-Warehouse. Das Konzept von BigQuery der zeilen- und spaltenbasierten Tabellen wird auf Tabellen in datenlokalen Objektspeichern erweitert. BigLake-Tabellen lassen sich im Prinzip wie BigQuery-Tabellen abfragen. Auf die Objektspeichertabellen sind Sicherheitsrichtlinien auf Zeilen-, Spalten- und Tabellenebene anwendbar. Zugriffsrechte auf Dateiebene sind nicht notwendig. Die Kernfunktionen sind unabhängig von den Formaten und den Speicherumgebungen.

Daten können in der Google Cloud, in AWS oder in Microsoft Azure gespeichert sein. Der Zugriff auf Tabellen ist von den zugrundeliegenden Cloud-Speicherdaten entkoppelt. Die Zugriffssteuerung auf Zeilen- und Spaltenebene wird durch BigQuery erzwungen. Über die BigQuery Storage API und Konnektoren sind Zugriffe über Open-Source-Abfrage-Engines wie Spark, Presto oder Trino möglich. Als Datenformate werden offene Formate wie Parquet, Avro, ORC, CSV oder JSON unterstützt.

Vorteile durch den Einsatz von Google BigLake

  • Zusammenführung von Data Warehouses und Data Lakes auf einer vereinheitlichten Datenplattform (Data Lakehouse)
  • für große Mengen unstrukturierter, strukturierter und semi-strukturierter Daten geeignet
  • nutzungsbasierte, transparente Kosten
  • Multi-Cloud-Governance für verteilte Daten – Cloud-übergreifend für die Google Cloud Platform, Amazon Web Services und Microsoft Azure einsetzbar
  • Analysen verteilter Daten unabhängig vom Speicherort
  • basiert auf der bewährten BigQuery-Infrastruktur von Google
  • unterstützt zahlreiche Analysetools
  • verwendet offene Datenformate wie Parquet, Avro, ORC, CSV oder JSON
  • bietet eine detaillierte Zugriffsteuerung auf Zeilen-, Spalten- und Tabellenebene und benötigt keine Freigaben auf Dateiebene
  • Unterstützung von Open-Source-Engines wie Apache Spark, Presto und Trino
  • kann in Dataplex eingebunden werden

(ID:48480359)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung