Machine Learning und Datenanalyse aus verschiedenen Quellen Qubole – Big Data Cloud für KI und ML

Autor / Redakteur: Thomas Joos / Nico Litzel |

Die Big-Data-Cloud-Lösung Qubole ist in der Lage, sehr effektiv große und auch unstrukturierte Datenströme von verschiedenen Quellen zusammenzufassen und zu analysieren. Der Dienst steht auch Azure, Google Cloud und AWS zur Verfügung.

Anbieter zum Thema

Qubole aggregriert Datenströme und erlaubt deren Analyse über Cloud-Infrastrukturen.
Qubole aggregriert Datenströme und erlaubt deren Analyse über Cloud-Infrastrukturen.
(Bild: ©your123 - stock.adobe.com)

Qubole hat seinen Schwerpunkt in der Verarbeitung von sehr großen Datenmengen, auch aus verschiedenen Quellen. Dabei wird keine eigene Infrastruktur benötigt, sondern komplett auf die Cloud gesetzt. Die Lösung kann mit Daten im Exabyte-Bereich arbeiten. Wer sich die Möglichkeiten von Qubole anschauen möchte, kann das Tool bis zu 30 Tage kostenlos nutzen.

Die Lösung gibt es seit 2011, ist mittlerweile also ausgereift und vor allem flexibel, was die Anbindung an Cloud-Lösungen wie Microsoft Azure, AWS, Oracle Cloud und Google Cloud betrifft. Beim Einsatz in einer vorhandenen Cloud-Infrastruktur, zum Beispiel in Microsoft Azure, lassen sich natürlich auch die anderen Funktionen in der Cloud mit Qubole verbinden, oder analysierte Daten in Qubole in der Cloud nutzen. Am Beispiel von Microsoft Azure lassen sich zum Beispiel noch folgende Ressourcen zusammen mit Qubole nutzen:

  • Azure Storage (Blob and Azure Data Lake Store)
  • Azure DW, Azure SQL DB, Azure Cosmos DB
  • Event Hub/Streaming
  • Power BI
  • R Studio and Jupyter/ Notebooks

Qubole arbeitet auch mit Hadoop und bietet eine grafische Oberfläche für Hive und die anderen Funktionen in Qubole. Mit Qubole lassen sich Workloads aus Spark, Hive, Pig und Presto abbilden und zum Beispiel an AWS oder Azure anbinden. In diesem Zusammenhang kann auch der Datenspeicher S3 in AWS oder Azure Storage dazu genutzt werden, um die zu analysierenden Daten zu speichern. Auch Azure Data Lake wird unterstützt.

Für KI und ML sowie andere Bereiche, in denen große Datenmengen analysiert werden sollen, spielt der angebundene Datenspeicher natürlich eine wichtige Rolle. Der Speicher muss schnell sein, skalierbar, und natürlich entsprechend flexibel, was die Anbindung weiterer Funktionen zur Analyse betrifft. Im Fall von Azure lassen sich in der Weboberfläche von Qubole neben Blob Storage auch Azure Data Lake und Azure Data Lake Gen 2 nutzen. Zur Anbindung müssen lediglich der Name des Speichers sowie die Anmeldedaten angegeben werden. Der Hadoop-Cluster, den Qubole anlegt, greift auf den angebundenen Datenspeicher zu und kann in der Weboberfläche gesteuert werden. Dazu steht der Bereich „Cluster“ in der Weboberfläche zur Verfügung.

Schneller Einstieg und einfache Verwaltung

Die Testumgebung von Qubole ist in wenigen Sekunden einsatzbereit. Dadurch können Anwender sehr schnell einen Überblick darüber gewinnen, welche Möglichkeiten Qubole bietet. Die komplette Verwaltung erfolgt im Webbrowser, es ist auch für die Testumgebung keine Installation notwendig. Für die Testumgebung ist zunächst kein Konto bei Azure, AWS oder der Google Cloud notwendig ,es hilft aber bei der Anbindung des Datenspeichers.

Wer produktiv mit Qubole arbeitet, sollte sich allerdings idealerweise für eine der Cloud-Lösungen entscheiden, da auf diesem Weg auch Storage-Funktionen und weitere Analyse-Werkzeuge in Qubole implementiert werden können. Qubole bietet nach dem Start sofort eine einsatzbereite Workbench und Notebooks für Datenwissenschaftler, Dateningenieure, Datenanalysten und Administratoren. Die Verwaltung dieser Komponenten findet in der Weboberfläche statt. Mit der Lösung können auch Open-Source-Frameworks eingebunden werden. Dazu gehören unter anderem auch Apache Spark, Presto, Hive/Hadoop, TensorFlow und Airflow.

Qubole ist extrem gut skalierbar und bietet durch seinen schnellen Einstieg auch viele Ansätze für Start-ups oder Unternehmen, die in Big-Data-Datenanalysen einsteigen wollen, aber kein riesiges Team dafür zur Verfügung haben. Durch die Anbindung an verschiedene Clouds kann sehr schnell eine Analyse-Plattform aufgebaut werden, die auch im Machine-Learning-Bereich und für die Analyse von KI-Daten genutzt werden kann.

Daten mit Qubole analysieren

Nach der Anmeldung an der Oberfläche können über das Control Panel alle Bereiche der Lösung gesteuert werden. Hier zeigt Qubole auch Beispiele an, auf denen Datenwissenschaftler aufsetzen können. Notebooks können in der Weboberfläche entweder neu erstellt oder hochgeladen werden. Auch ein Import über eine URL ist möglich. Notebooks können Spark oder Presto nutzen. Als Sprachen für Notebooks unterstützt Qubole unter anderem Scala, Python, PySpark, SQL und SparkR.

Über den Menüpunkt „Explore“ lassen sich die angebundenen Datenquellen auch untersuchen. Hier können auch verschiedene Datenquellen angebunden werden, die mit den Funktionen in Qubole verbunden werden können. In Azure stehen über diesen Weg zum Beispiel auch Azure SQL Database und Azure SQL Data Warehouse zur Verfügung. Darüber hinaus lassen sich auch zahlreiche andere Datenbanken anbinden, zum Beispiel Mongo DB, MySQL, Oracle, Postgres, Redshift, Snowflake, SQL Server, Vertica und weitere.

Qubole bietet auch eine Benutzerverwaltung, über die gesteuert werden kann, wer Zugriff auf die Lösung hat und Daten analysieren kann. Die Benutzer können von Administratoren über ihre E-Mail-Adresse eingeladen werden. Benutzer können Gruppen zugewiesen werden und über Rollen werden die Berechtigungen innerhalb von Qubole verteilt. Qubole arbeitet in diesem Zusammenhang auch mit verschiedenen Kommunikationswerkzeugen zusammen. So lassen sich zum Beispiel Notification Channels erstellen, über die Anwender und Administratoren Daten und Nachrichten austauschen können. Hier unterstützt Qubole unter anderem auch Slack.

(ID:46724788)