Definition

Was ist BigTable?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

BigTable ist ein von Google entwickeltes Datenbanksystem. Es eignet sich für die Speicherung von großen Datenmengen bei hohem Durchsatz und geringer Latenz. Google nutzt BigTable für eigene Dienste, bietet es aber auch als Cloud-Service für Dritte an

Bei Google BigTable handelt es sich um ein proprietäres, vom US-Unternehmen Google entwickeltes Datenbanksystem für besonders große Datenmengen. Das extrem skalierbare NoSQL-Datenbanksystem arbeitet auf verteilten Clustersystemen und bietet eine hohe Performance. Es wurde ursprünglich konzipiert, um die durch die Web-Services und die Google-Suche entstehenden riesigen Datenmengen im Petabyte-Bereich und darüber hinaus aufzunehmen.

Google nutzt BigTable für eigene Services wie die Google-Suche, Google Analytics, Google Maps oder Google Mail. Dank der niedrigen Latenz und dem hohen Datendurchsatz eignet sich Google BigTable auch für andere Anwendungen aus dem Big-Data-Umfeld. Die Datenbank verwendet ein bewusst einfaches Datenmodell, das auf Zeilen- und Spalteneinträgen mit Timestamps basiert. Zusätzlich kommen Komprimierungsalgorithmen bei der Speicherung der Daten zum Einsatz.

Entwickelt wurde BigTable im Jahr 2004. Obwohl es sich um eine proprietäre Lösung von Google handelt, hat BigTable einen großen Einfluss auf das Design von Datenbanken für Big-Data-Anwendungen. Auf Basis der von Google veröffentlichten BigTable-Spezifikationen konnten andere Unternehmen und Open-Source-Teams eigene Datenbanksysteme mit ähnlicher Funktionsweise und Struktur entwickeln.

Das Funktionsprinzip von Google BigTable

Die BigTable-Datenbank basiert auf Tabellen, die wiederum aus Zeilen und Spalten bestehen. Zeilen können eine sich unterscheidende Anzahl von Spalten besitzen und sind durch den Zeilenschlüssel indexiert. Jede Zeile kann aus Spalten mit individuellen Werten bestehen. Spalten, die untereinander in Bezug stehen, sind in Spaltenfamilien gruppiert. Da die Einträge in BigTable verschiedene Zeitstempel besitzen, ist es möglich, nachzuvollziehen, wie sich Daten über die Zeit verändert haben. Bleiben Zellen in einer BigTable-Datenbank leer, beanspruchen diese keinen Platz. Um den Speicherplatz weiter zu optimieren kommen intelligente Algorithmen für die Kompression und regelmäßige Verdichtungen sowie Umschreibungen der Daten zum Einsatz.

Die Cluster-Architektur von Google BigTable

Google BigTable basiert auf einer verteilten Clusterstruktur. Anfragen von Clients werden mithilfe eines Front-End-Servers zu einem BigTable-Node geschickt. Mehrere BigTable-Nodes bilden einen BigTable-Cluster. Jeder BigTable-Node in einem Cluster kann eine bestimmte Anzahl von Anfragen bearbeiten. Sollen die maximale Anzahl simultan zu bewältigender Anfragen und der Durchsatz erhöht werden, ist es möglich, ein BigTable-Node dem Cluster dynamisch hinzuzufügen. Die eigentlichen BigTable-Tabellen sind als Tabellenreihen im SSTable-Format des Google-Dateisystems gespeichert.

Google BigTable als Service aus der Cloud

Neben den internen Services von Google können auch externe Anwender Google BigTable nutzen. Google stellt das Datenbanksystem als Service aus der Cloud unter der Bezeichnung „Google Cloud BigTable“ Dritten zur Verfügung. Über das Internet ist Cloud BigTable weltweit erreichbar und kann als Service für das Speichern von großen Datenmengen in der Cloud verwendet werden. Auf Basis von Google Cloud BigTable lassen sich unterschiedlichste Anwendungen aus dem Big-Data-Umfeld bedienen. Es handelt sich um einen gehosteten NoSQL-Datenspeicher, der sich über die API „Apache Hbase“ ansprechen lässt. Über ein Full-Service-Paket bietet Google die Datenreplikation für das Backup und die Verschlüsselung von Daten an.

Einsatzmöglichkeiten von Google Cloud BigTable

Mit Cloud BigTable sind Anwendungen, die auf nicht strukturierten Daten basieren, mit hohem Datendurchsatz realisierbar. Mögliche Anwendungsszenarien sind im Bereich Künstlicher Intelligenz, maschinellem Lernen und Business-Intelligence-Analysen zu finden. Beispielsweise lassen sich folgende Datentypen speichern, abrufen und verarbeiten:

  • Daten aus dem Finanzbereich wie Transaktionen oder Kurse
  • Marketing- und Kundendaten wie Einkaufsverhalten oder Präferenzen
  • Daten aus dem Internet of Things (IoT) wie Verbrauchsdaten oder Standortdaten

Die Vorteile von Google BigTable

Aufgrund seiner speziellen Struktur bietet das Datenbanksystem Google BigTable eine Vielzahl an Vorteilen. Unabhängig von der Größe der Datenbank und der Anwendung hat BigTable eine niedrige Latenz und einen hohen Durchsatz. Dadurch ist Google BigTable sowohl für die Speicherung großer Datenmengen als auch für die Verarbeitung und Analyse mit hohem Durchsatz nutzbar. Mit BigTable skaliert die Datenbank problemlos bis zu Größen von mehreren Hundert Petabyte. Gleichzeitig können mehrere Millionen Vorgänge pro Sekunde verarbeitet werden. Diverse Anwendungen und Workflows sind schnell, zuverlässig und sehr effizient bedienbar.

Wird BigTable im Rahmen des Services Google Cloud BigTable genutzt, sind sämtliche Daten bei der Übertragung und bei der Speicherung verschlüsselt und für Unbefugte nicht einsehbar. Zusätzlich lassen sich alle Zugriffe auf die Daten mit umfangreichen Berechtigungskonzepten individuell konfigurieren und absichern.

Bei Bedarf sind die Cluster, auf denen Google BigTable bereitgestellt wird, flexibel erweiterbar. Sowohl das Hinzufügen als auch das Entfernen von BigTable-Clusterknoten ist dynamisch ohne Serviceunterbrechung möglich.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

So nutzen Sie Apache Fluo mit Accumulo

Inkrementelles Verarbeiten wie im Google-Suchindex

So nutzen Sie Apache Fluo mit Accumulo

Mit Apache Fluo nutzen Anwendungen Daten, die mit der NoSQL-(Key/Value)-Datenbank Accumulo gespeichert wurden. In Zusammenarbeit mit Hadoop und Zookeeper stellt Fluo/Accumulo eine wertvolle Hilfe dar, um Daten schneller zu verarbeiten. lesen

So funktioniert Datenauswertung in Echtzeit

Realtime Analytics

So funktioniert Datenauswertung in Echtzeit

Prozesse, Endgeräte, Sensoren und Maschinen liefern laufend Logfiles, Sensor- und Betriebsdaten, Transaktionsdaten, die sich korrelieren und auswerten lassen – in Echtzeit. Doch „Echtzeit“ muss nicht unbedingt „ohne Verzug“ bedeuten, sondern lediglich in ausreichender Schnelligkeit für den jeweiligen IT-Benutzer, also vielmehr „rechtzeitig“. Daher befasst sich Realtime Analytics nicht nur mit Streaming-Daten, sondern auch mit viel „langsameren“ Datenlieferungen. lesen

So funktioniert Big Data mit der Google Cloud Platform

BigQuery, Cloud Data Flow, Dataproc

So funktioniert Big Data mit der Google Cloud Platform

Big Data erfordert leistungsfähige Server und Anwendungen, die eine große Menge an Daten effizient verarbeiten können. Dafür eignen sich Cloud-Dienste wie die Google Cloud Platform hervorragend. lesen

Eine Datenbank für das Web

Apache CouchDB

Eine Datenbank für das Web

Mit der Open-Source-Datenbank CouchDB speichern Entwickler ihre Daten über JSON-Dokumente. Der Zugriff kann über einen Webbrowser mit HTTP erfolgen. Die gespeicherten Dokumente lassen sich mit JavaScript transformieren. Der Vorteil der Datenbanklösung ist, dass diese auch mit modernen Apps zusammenarbeiten kann und mobil funktioniert. lesen

Neue Lösungen machen Hadoop unternehmensreif

Kommentar von Bernard Doering, Cloudera

Neue Lösungen machen Hadoop unternehmensreif

Mit Big Data lassen sich Daten analysieren, um daraus Neues zu lernen, Theorien mit Fakten zu untermauern oder neue Produkte und vor allem Dienstleistungen zu entwickeln. Analysen versprechen Erkenntnisse für klügere geschäftliche Entscheidungen, Wettbewerbsvorteile, bessere Kundenbeziehungen sowie ganz neue Produkte. Basis für jedes Big-Data-Projekt ist jedoch zuerst einmal das Handling der riesigen Datenmengen. lesen

So funktionieren Datenanalysen mit BigTable und Co.

Big Data mit der Google Cloud Platform

So funktionieren Datenanalysen mit BigTable und Co.

Die Google Cloud Platform ist die professionelle und kommerzielle Cloudlösung von Google, die in direktem Mitbewerb zu den Amazon Web Services und zu Microsoft Azure steht. Ähnlich wie Amazon und Microsoft bietet auch Google verschiedene Dienste an, die separat gebucht werden können. lesen

Echtzeit-Datenanalyse mit Apache Storm

Daten aus sozialen Netzwerken optimal auswerten

Echtzeit-Datenanalyse mit Apache Storm

Apache Storm gehört zu den bekanntesten Big-Data-Lösungen im Open-Source-Bereich und läuft ebenfalls unter dem Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, das neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiterläuft. lesen

Google startet Cloud Bigtable

NoSQL-Datenbank aus der Cloud

Google startet Cloud Bigtable

Google bietet sein NoSQL-Datenbanksystem Bigtable, das auch hinter so populären Diensten wie der Google-Suche, Google Analytics oder Gmail steht, ab sofort als Dienst in der eigenen Cloud an. lesen

Apache Sqoop – SQL-Datenaustausch in Big-Data-Umgebungen

Relationale Datenbanken an Hadoop und Co. anbinden

Apache Sqoop – SQL-Datenaustausch in Big-Data-Umgebungen

Apache Sqoop ist ein Datentransfer-Tool für Big-Data-Umgebungen, vor allem für Hadoop. Einer der größten Vorteile des Tools ist die Möglichkeit, Daten aus SQL-Datenbanken in NoSQL-Infrastrukturen zu übertragen. Ursprünglich war Sqoop als direkte Integration in Hadoop geplant, ist jetzt aber ein eigenständiges Apache-Projekt. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44870292 / Definitionen)