Big Data mit der Google Cloud Platform So funktionieren Datenanalysen mit BigTable und Co.
Anbieter zum Thema
Die Google Cloud Platform ist die professionelle und kommerzielle Cloudlösung von Google, die in direktem Mitbewerb zu den Amazon Web Services und zu Microsoft Azure steht. Ähnlich wie Amazon und Microsoft bietet auch Google verschiedene Dienste an, die separat gebucht werden können.

Unternehmen, die Big Data aus der Cloud nutzen wollen, sollten sich nicht nur mit Microsoft Azure und den Amazon Web Services auseinandersetzen, sondern auch die Google Cloud Platform in ihre Planung mit einbeziehen. Denn Google ist einer der größten Spezialisten, wenn es um die Verwaltung und Verarbeitung großer Datenmengen geht.
Die Google Cloud Platform bietet Zugang zu Werkzeugen, die Google selbst nutzt, um Daten zu verarbeiten. Der Vorteil dabei ist, dass Unternehmen durch die Verwendung dieser Werkzeuge auf ausgereifte Lösungen setzen können, die in der Praxis bereits umfangreich eingesetzt werden. Wie bei Amazon und Microsoft Azure müssen Unternehmen nur die Apps und Daten bezahlen, die auch tatsächlich genutzt werden. Wer sich für die Umgebung interessiert, kann sie einige Zeit kostenlos nutzen. Relativ neu in der Google Cloud Platform ist die Möglichkeit, die Google-Datenbank BigTable als Cloud-Dienst buchen zu können.
Natürlich lassen sich mit Google Cloud Platform auch andere Big-Data-Infrastrukturen aufbauen, Unternehmen können zum Beispiel problemlos Hadoop-Cluster in der Google Cloud Platform nutzen oder Daten mit BigQuery abfragen.
Die Google-Suche-Datenbank und Big Data
Google spielt seine Stärke vor allem dadurch aus, dass die ausgereifte Datenbank, die der Suchmaschinen-Anbieter für seine Google-Suche nutzt, auch für Unternehmen buchbar ist. Dass diese Datenbank vor allem mit großen Datenmengen umgehen kann und diese auch schnell verarbeitet, dürfte klar sein. Google arbeitet seit über einem Jahrzehnt mit dem System. Als Cloud-Dienst ist die Datenbank derzeit als Beta buchbar.
BigTable ist der Name von Googles proprietäres Hochleistungs-Datenbanksystem. Neben der Google-Suche, YouTube, Google Mail und Google Maps wird diese Datenbank auch für Google Analytics seit Jahren in der Praxis eingesetzt. Google gibt die Datenbank jetzt auch für Kunden frei. Der komplette Datenverkehr zu und aus der Datenbank wird verschlüsselt, das gilt auch für die Speicherung der Daten.
Die Datenbank BigTable ist als extrem skalierbare NoSQL-Datenbank optimal geeignet, um auch Big-Data-Berechnungen durchführen zu können. Die Datenbank soll Latenzzeiten im einstelligen Millisekundenbereich bieten und dabei auch sehr große Datenmengen verarbeiten können.
Mit HBase-API und Cloud Dataflow auf die Datenbank zugreifen
Google BigTable unterstützt auch den Zugriff per HBase-API. Das ermöglicht eine schnelle Integration der Datenbank in bereits existierende Big-Data-Umgebungen. Google bietet mit der Programmierschnittstelle Cloud Dataflow auch die Möglichkeit, Datenabfragen mit BigQuery durchzuführen. Diese Abfragen können die Cloud-Datenbank BigTable nutzen. Dataflow soll MapReduce ersetzen und Abfragen zu BigTable schneller durchführen können. Außerdem soll Dataflow einfacher verwendbar sein. Auch intern nutzt Google nicht mehr MapReduce, sondern setzt auf Dataflow.
Virtuelle Server in der Google Cloud Platform
Neben Linux können Unternehmen in der Google Cloud Platform auch Microsoft-Betriebssysteme nutzen. Natürlich lassen sich auch Suse, Red Hat Enterprise und Ubuntu betreiben. Auf Basis dieser Betriebssysteme lassen sich zum Beispiel Hadoop-Cluster aufsetzen. Auch Active-Directory-Umgebungen können so Weg mit Big-Data-Infrastrukturen verbunden werden. Die verschiedenen Dienste lassen sich dabei parallel einsetzen, um cloudbasierte Big-Data-Infrastrukturen zur Verfügung zu stellen.
Google-Komponenten für Big Data
Die Google Cloud Platform bietet verschiedene Big-Data-Lösungen an. Mit Google App Engine können Unternehmen auf Basis eines Platform-as-a-Service-Dienstes (PaaS) eigene Anwendungen bereitstellen. Lastenausgleich und Bereitstellung wird durch Google übernommen. Die Google Computer Engine erlaubt es, virtuelle Server in der Cloud zu betreiben. Auf den Servern können Unternehmen auch Hadoop als Cluster installieren, parallel zu der Möglichkeit, Hadoop als eigenen Cloud-Dienst zu buchen. Hadoop wird in Google übrigens ebenfalls als VM bereitgestellt, das unterscheidet Google von Amazon und Microsoft.
Um Daten zu speichern, wird in der Google Cloud Platform der Dienst Google Cloud Storage verwendet. Dieser Speicher lässt sich für die anderen Dienste in der Cloud Platform nutzen. Zusätzlich steht noch der Google Cloud Datastore zur Verfügung. Dabei handelt es sich um eine NoSQL-Datenbank.
In Big-Data-Umgebungen lassen sich aber auch relationale Datenbanken einbinden. Dazu stellt Google Cloud SQL zur Verfügung. Natürlich lassen sich NoSQL- und relationale Datenbanken parallel betreiben und mit virtuellen Anwendungen auf Basis der App Engine abfragen.
BigQuery bietet die Möglichkeit, Daten aus den verschiedenen Cloud-Diensten für Big-Data-Analysen zu verwenden. Die Abfragen sind ähnlich wie SQL-Abfragen aufgebaut und bieten eine Möglichkeit, schnell und einfach Big Data aus der Cloud zu nutzen.
Hadoop in der Google Cloud Platform
Auch in der Testversion der Google Cloud Platform lassen sich Hadoop-Cluster erstellen. Dabei haben Administratoren zahlreiche Möglichkeiten. Basis von Hadoop ist Compute, der Cloud-Dienst in der Google Cloud Platform, mit dem sich virtuelle Server erstellen lassen
Natürlich lassen sich Hadoop-Installationen auch manuell ausführen, so wie in Microsoft Azure oder Amazon Web Services. Administratoren erstellen dazu virtuelle Linux-Server, fassen diese zu einem virtuellen Netzwerk zusammen und installieren auf den Servern manuell Hadoop. Auch hier können die Daten mit BigQuery analysiert werden, aber auch mit anderen Möglichkeiten, die kompatibel mit Hadoop sind.
Cloud BigTable Cluster testen
Um sich einen Überblick zu Cloud BigTable zu verschaffen, können sich Entwickler derzeit einen Cluster auf Basis der Beta-Version installieren. Die entsprechenden Optionen sind über Storage\Cloud Big Table in der Google-Developers-Konsole zu finden.
Der Cluster ist schnell einsatzbereit und lässt sich jederzeit erweitern. Die entsprechenden Einstellungen sind in der Weboberfläche zu finden. Natürlich lassen sich auch mehrere Cluster erstellen, um verschiedene Daten zu analysieren.
(ID:43625392)