Big Data mit der Google Cloud Platform

So funktionieren Datenanalysen mit BigTable und Co.

| Autor / Redakteur: Thomas Joos / Nico Litzel

Mit der Google Cloud Platform können Unternehmen jetzt auch effizient Big-Data-Infrastrukturen betreiben.
Mit der Google Cloud Platform können Unternehmen jetzt auch effizient Big-Data-Infrastrukturen betreiben. (Bild: Google/T. Joos)

Die Google Cloud Platform ist die professionelle und kommerzielle Cloudlösung von Google, die in direktem Mitbewerb zu den Amazon Web Services und zu Microsoft Azure steht. Ähnlich wie Amazon und Microsoft bietet auch Google verschiedene Dienste an, die separat gebucht werden können.

Unternehmen, die Big Data aus der Cloud nutzen wollen, sollten sich nicht nur mit Microsoft Azure und den Amazon Web Services auseinandersetzen, sondern auch die Google Cloud Platform in ihre Planung mit einbeziehen. Denn Google ist einer der größten Spezialisten, wenn es um die Verwaltung und Verarbeitung großer Datenmengen geht.

Die Google Cloud Platform bietet Zugang zu Werkzeugen, die Google selbst nutzt, um Daten zu verarbeiten. Der Vorteil dabei ist, dass Unternehmen durch die Verwendung dieser Werkzeuge auf ausgereifte Lösungen setzen können, die in der Praxis bereits umfangreich eingesetzt werden. Wie bei Amazon und Microsoft Azure müssen Unternehmen nur die Apps und Daten bezahlen, die auch tatsächlich genutzt werden. Wer sich für die Umgebung interessiert, kann sie einige Zeit kostenlos nutzen. Relativ neu in der Google Cloud Platform ist die Möglichkeit, die Google-Datenbank BigTable als Cloud-Dienst buchen zu können.

Natürlich lassen sich mit Google Cloud Platform auch andere Big-Data-Infrastrukturen aufbauen, Unternehmen können zum Beispiel problemlos Hadoop-Cluster in der Google Cloud Platform nutzen oder Daten mit BigQuery abfragen.

Die Google-Suche-Datenbank und Big Data

Google spielt seine Stärke vor allem dadurch aus, dass die ausgereifte Datenbank, die der Suchmaschinen-Anbieter für seine Google-Suche nutzt, auch für Unternehmen buchbar ist. Dass diese Datenbank vor allem mit großen Datenmengen umgehen kann und diese auch schnell verarbeitet, dürfte klar sein. Google arbeitet seit über einem Jahrzehnt mit dem System. Als Cloud-Dienst ist die Datenbank derzeit als Beta buchbar.

BigTable ist der Name von Googles proprietäres Hochleistungs-Datenbanksystem. Neben der Google-Suche, YouTube, Google Mail und Google Maps wird diese Datenbank auch für Google Analytics seit Jahren in der Praxis eingesetzt. Google gibt die Datenbank jetzt auch für Kunden frei. Der komplette Datenverkehr zu und aus der Datenbank wird verschlüsselt, das gilt auch für die Speicherung der Daten.

Die Datenbank BigTable ist als extrem skalierbare NoSQL-Datenbank optimal geeignet, um auch Big-Data-Berechnungen durchführen zu können. Die Datenbank soll Latenzzeiten im einstelligen Millisekundenbereich bieten und dabei auch sehr große Datenmengen verarbeiten können.

Mit HBase-API und Cloud Dataflow auf die Datenbank zugreifen

Google BigTable unterstützt auch den Zugriff per HBase-API. Das ermöglicht eine schnelle Integration der Datenbank in bereits existierende Big-Data-Umgebungen. Google bietet mit der Programmierschnittstelle Cloud Dataflow auch die Möglichkeit, Datenabfragen mit BigQuery durchzuführen. Diese Abfragen können die Cloud-Datenbank BigTable nutzen. Dataflow soll MapReduce ersetzen und Abfragen zu BigTable schneller durchführen können. Außerdem soll Dataflow einfacher verwendbar sein. Auch intern nutzt Google nicht mehr MapReduce, sondern setzt auf Dataflow.

Virtuelle Server in der Google Cloud Platform

Neben Linux können Unternehmen in der Google Cloud Platform auch Microsoft-Betriebssysteme nutzen. Natürlich lassen sich auch Suse, Red Hat Enterprise und Ubuntu betreiben. Auf Basis dieser Betriebssysteme lassen sich zum Beispiel Hadoop-Cluster aufsetzen. Auch Active-Directory-Umgebungen können so Weg mit Big-Data-Infrastrukturen verbunden werden. Die verschiedenen Dienste lassen sich dabei parallel einsetzen, um cloudbasierte Big-Data-Infrastrukturen zur Verfügung zu stellen.

Google-Komponenten für Big Data

Die Google Cloud Platform bietet verschiedene Big-Data-Lösungen an. Mit Google App Engine können Unternehmen auf Basis eines Platform-as-a-Service-Dienstes (PaaS) eigene Anwendungen bereitstellen. Lastenausgleich und Bereitstellung wird durch Google übernommen. Die Google Computer Engine erlaubt es, virtuelle Server in der Cloud zu betreiben. Auf den Servern können Unternehmen auch Hadoop als Cluster installieren, parallel zu der Möglichkeit, Hadoop als eigenen Cloud-Dienst zu buchen. Hadoop wird in Google übrigens ebenfalls als VM bereitgestellt, das unterscheidet Google von Amazon und Microsoft.

Um Daten zu speichern, wird in der Google Cloud Platform der Dienst Google Cloud Storage verwendet. Dieser Speicher lässt sich für die anderen Dienste in der Cloud Platform nutzen. Zusätzlich steht noch der Google Cloud Datastore zur Verfügung. Dabei handelt es sich um eine NoSQL-Datenbank.

In Big-Data-Umgebungen lassen sich aber auch relationale Datenbanken einbinden. Dazu stellt Google Cloud SQL zur Verfügung. Natürlich lassen sich NoSQL- und relationale Datenbanken parallel betreiben und mit virtuellen Anwendungen auf Basis der App Engine abfragen.

BigQuery bietet die Möglichkeit, Daten aus den verschiedenen Cloud-Diensten für Big-Data-Analysen zu verwenden. Die Abfragen sind ähnlich wie SQL-Abfragen aufgebaut und bieten eine Möglichkeit, schnell und einfach Big Data aus der Cloud zu nutzen.

Hadoop in der Google Cloud Platform

Auch in der Testversion der Google Cloud Platform lassen sich Hadoop-Cluster erstellen. Dabei haben Administratoren zahlreiche Möglichkeiten. Basis von Hadoop ist Compute, der Cloud-Dienst in der Google Cloud Platform, mit dem sich virtuelle Server erstellen lassen

Natürlich lassen sich Hadoop-Installationen auch manuell ausführen, so wie in Microsoft Azure oder Amazon Web Services. Administratoren erstellen dazu virtuelle Linux-Server, fassen diese zu einem virtuellen Netzwerk zusammen und installieren auf den Servern manuell Hadoop. Auch hier können die Daten mit BigQuery analysiert werden, aber auch mit anderen Möglichkeiten, die kompatibel mit Hadoop sind.

Cloud BigTable Cluster testen

Um sich einen Überblick zu Cloud BigTable zu verschaffen, können sich Entwickler derzeit einen Cluster auf Basis der Beta-Version installieren. Die entsprechenden Optionen sind über Storage\Cloud Big Table in der Google-Developers-Konsole zu finden.

Der Cluster ist schnell einsatzbereit und lässt sich jederzeit erweitern. Die entsprechenden Einstellungen sind in der Weboberfläche zu finden. Natürlich lassen sich auch mehrere Cluster erstellen, um verschiedene Daten zu analysieren.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43625392 / Infrastruktur)