BigQuery, Cloud Data Flow, Dataproc So funktioniert Big Data mit der Google Cloud Platform

Autor / Redakteur: Thomas Joos / Nico Litzel |

Big Data erfordert leistungsfähige Server und Anwendungen, die eine große Menge an Daten effizient verarbeiten können. Dafür eignen sich Cloud-Dienste wie die Google Cloud Platform hervorragend.

Anbieter zum Thema

Google bietet in seiner Google Cloud Platform zahlreiche Dienste für die Verarbeitung von Big-Data-Anfragen an.
Google bietet in seiner Google Cloud Platform zahlreiche Dienste für die Verarbeitung von Big-Data-Anfragen an.
(Bild: Google/T. Joos)

Google bietet mit seiner Google Cloud Platform, ebenso wie Amazon mit den Amazon Web Services (AWS) oder Microsoft mit Azure, umfassende Cloud-Dienste an – auch für Big Data. Wie Microsoft und Amazon bietet Google einen kostenlosen Testzeitraum für seine Cloud Platform an . In der Testversion lässt sich die Google Cloud Platform 60 Tage kostenlos nutzen, beziehungsweise bis die 300 Euro kostenloses Volumen aufgebraucht sind.

Die Google Cloud Platform bietet nicht nur Funktionen für Big Data, sondern auch für das Internet of Things (IoT). Vorteil der Google Cloud Platform ist vor allem, dass Google hier die gleiche Infrastruktur nutzt, die auch für seine anderen Dienste genutzt werden, zum Beispiel Google Mail, die Google-Suche oder YouTube. Außerdem stellt Google zahlreiche Entwicklerwerkzeuge zur Verfügung, mit denen sich eigene Apps erstellen lassen, die wiederum die verschiedenen Dienste in der Google Cloud Platform nutzen.

Hadoop, Spark, Pig und Hive in der Google Cloud Platform nutzen

Neben eigenen Big-Data-Diensten, wie zum Beispiel BigQuery, Cloud Dataflow, Datalab und Cloud Pub/Sub, lassen sich auch Dienste wie Spark und Hadoop direkt aus der Google Cloud Platform heraus nutzen. Google Cloud Dataproc bietet die Möglichkeit, bekannte Dienste wie Hadoop, Spark, Pig, Hive und andere anzubinden. Die Erstellung von Clustern zur Nutzung dieser Apache-Dienste erfolgt in der Weboberfläche der Google Cloud Platform. Bei Google Dataproc handelt es sich also um den mächtigsten Bereich der Big Data Tools der Google Cloud Platform.

Der Vorteil dabei ist die sehr flexible Skalierbarkeit der Google Cloud Platform. Außerdem lassen sich als Datenquellen auch Quellen außerhalb der Google Cloud Platform anbinden, das gilt auch für Dienste zur weiteren Verarbeitung von Daten. Die Größe und Leistung der Clusterknoten lässt sich jederzeit anpassen, das gilt auch für das Hinzufügen weiterer Clusterknoten.

Big Query – Enterprise Cloud Data Warehouse

Bei BigQuery handelt es sich um ein Enterprise Data Warehouse, das enorme Datenmengen bis in den Petabyte-Bereich verarbeiten kann. Zur Analyse lassen sich auch SQL-Befehle verwenden. Der Vorteil der Umgebung besteht darin, dass die Lösung keinerlei Infrastruktur zur Verfügung stellt. Das heißt, es sind keine Datenbank-Administratoren notwendig und keine virtuellen Server, die verwaltet werden müssen. Der Fokus der Lösung ist klar auf die Verarbeitung der Daten gelegt. Mit BigQuery lassen sich Big-Data-Analysen erstellen. Davon profitieren auch kleine Unternehmen, nicht nur große Konzerne.

Google gibt an, dass sich Daten im Terabyte-Bereich in wenigen Sekunden analysieren lassen, während Daten im Petabyte-Bereich etwas mehr Zeit erfordern, um analysiert zu werden. Die Daten werden automatisch verschlüsselt. Außerdem lassen sich auch Replikationen durchführen. Für die Verarbeitung der Daten lassen sich auch Berechtigungen vergeben. Dazu stehen verschiedene Rollen zur Verfügung, die Administratoren den Anwendern zuweisen können, um Daten zu verarbeiten. Für die Authentifizierung können Unternehmen hier auch auf das Google Cloud Identity & Access Management System setzen. Außerdem bietet Google auch die Speicherung der Daten in europäischen Rechenzentren an.

Für die Speicherung der Daten können Unternehmen entweder den Datenspeicher in der Google Cloud Platform nutzen oder die Daten zu BigQuery streamen. Auch beim Streamen lassen sich die Daten in Echtzeit verarbeiten. Die Kosten, die bei der Verarbeitung anfallen, lassen sich im Webportal deckeln.

Cloud Dataflow – Batchverarbeitung nutzen

Bei Cloud Dataflow handelt es sich um eine Managed-Service-Lösung in der Google Cloud Platform, die für das Data Processing – inklusive ETL und Batchverarbeitung – geeignet ist. Ressourcen-Management oder die Optimierung der Leistung ist bei diesem Dienst nicht notwendig, da auch hier alle Ressourcen direkt aus der Cloud zur Verfügung gestellt werden. Mit dem Unified Programming Model bei Cloud Dataflow lassen sich umfassend Daten verarbeiten. Für die Programmierung des Dienstes kann zum Beispiel auch auf das Apache Beam SDK gesetzt werden. Cloud Dataflow arbeitet mit Cloud Storage, Cloud Pub/Sub, Cloud Datastore und Cloud Bigtable genauso zusammen, wie mit BigQuery.

Cloud Datalab – Datenvisualisierung

Datalab baut auf Jupyter auf, auch als „IPython“ bekannt. Der Clouddienst Datalab steht aktuell als Beta-Version zur Verfügung. Mit dem Dienst lässt sich Big Data analysieren und visualisieren, zum Beispiel Geodaten auf einer Weltkarte. Auch dieser Dienst arbeitet mit den anderen Produkten in der Google Cloud Platform umfassend zusammen. Die Analyse der Daten aus dem Datenspeicher in Google, lokalen Datenspeichern oder Datenspeicherns aus VMs, die auf Basis von Google Computer Engine zur Verfügung gestellt werden, sind problemlos möglich. Als Abfragemodell stehen Python, SQL und JavaScript zur Verfügung, zum Beispiel um BigQuery-Daten mit einzubeziehen.

Sobald die analysierten Daten optimal transformiert wurden und das Analysemodell zufriedenstellend implementiert wurde, lassen sich die Daten mit einem Mausklick zu BigQuery übertragen und weiternutzen. Auch Machine-Learning-Modelle lassen sich dadurch umsetzen. Zur Visualisierung lassen sich Google Charts oder matplotlib nutzen.

Cloud Pub/Sub – Daten in Echtzeit streamen

Mit Cloud Pub/Sub lassen sich Daten und Nachrichten in Echtzeit direkt aus der Cloud streamen. Mit dem Clouddienst lassen sich diese Informationen hin- und herschicken. Dazu werden natürlich auch zahlreiche Anwendungen unterstützt. Cloud Pub/Sub arbeitet dazu natürlich nicht nur mit Produkten in der Google Cloud Platform zusammen, sondern auch mit anderen Clouddiensten oder Anwendungen, die Unternehmen im eigenen Netzwerk zur Verfügung stellen. Cloud Pub/Sub setzt dabei auf die gleichen Techniken, die auch die Google-Suchmaschine einsetzt, aber auch Google Mail oder Google Ads. Google gibt den maximalen Verarbeitungsumfang mit einer Million Nachrichten pro Sekunden an. Die Daten lassen sich zur Übertragung natürlich auch verschlüsseln. Außerdem bietet Cloud Pub/Sub auch eine Replikation des Datenspeichers an. Google Cloud Dataflow verarbeitet die Daten in Echtzeit, die Cloud Pub/Sub streamt.

Zusammenarbeit mit Compute und Storage

Die verschiedenen Big-Data-Produkte arbeiten allesamt mit den anderen Produkten der Google Cloud Platform zusammen. So lassen sich die Daten, die verarbeitet werden sollen, nicht nur direkt im Google-Datenspeicher ablegen, zum Beispiel Cloud Storage, Cloud SQL oder Cloud Big Table, sondern auch in Datenbanken, die zum Beispiel auf virtuellen Servern installiert werden, die wiederum mit Compute in der Google Cloud Platform erstellt wurden.

(ID:44686736)