Stream Analytics, Data Catalog und Event Hubs Diese Big-Data- und BI-Dienste bietet Microsoft Azure
Anbieter zum Thema
In Microsoft Azure gibt es neben HDInsight noch einige weitere interessante Big-Data- und BI-Dienste, die sich in die eigene Infrastruktur einbinden lassen: Stream Analytics, Data Factory, Data Catalog und Event Hubs. Diese Dienste erlauben umfangreiche Datenanalysen und arbeiten mit HDInsight und anderen Azure-Diensten optimal zusammen.

Vorteil der verschiedenen Big-Data- und BI-Dienste in Microsoft Azure ist, neben der enormen Skalierbarkeit, leichten Bedienung und Flexibilität, auch die Zusammenarbeit untereinander. Sie können zum Beispiel Daten mit Stream Analytics von Sensoren oder Geräten auslesen und mit HDInsight weiterverarbeiten oder in Azure Data Lake speichern, damit andere Anwendungen auf die Dienste zugreifen dürfen.
Geht es um das Bearbeiten von Daten für Big Data, spielen vor allem die Bereich Sammeln, Analysieren, Speichern und die Weiterverarbeiten eine wesentliche Rolle. Sammeln lassen sich Daten von den verschiedenen Diensten wie Data Catalog, analysiert werden die Daten mit HDInsight und speichern lassen sich alle notwendigen Daten in BLOBs oder SQL DB.
Echtzeitdaten-Analyse mit Stream Analytics
Unternehmen, die vor allem Daten analysieren wollen, die ihren Ursprung im Internet of Things (IoT) haben, erhalten hierfür mit Microsoft Azure Stream Analytics einen mächtigen Dienst. Sie können eine Vielzahl an Sensoren, Geräte und Anwendungen anbinden und deren Daten analysieren. Neben IoT-Szenarien lassen sich mit Stream Analytics natürlich auch soziale Netzwerke wie Facebook oder Twitter analysieren.
Der Input für Stream Analytics kann direkt aus den Sensoren selbst kommen, aber auch aus Azure Blob Storage oder von Azure Event Hubs. Nach der Abfrage lässt sich das Ergebnis in Azure SQL DB speichern, aber auch wieder im Blob Storage. Die Daten lassen sich darüber hinaus mit Event Hubs weiterverarbeiten.
Mit Stream Analytics können Unternehmen mehrere Millionen Ereignisse in der Sekunde streamen und vorhersagbare Ergebnisse erstellen und verarbeiten. Die Umgebung bietet auch die Möglichkeit, Dashboards zu erstellen und mehrere Streams parallel zu untersuchen. Zwischen den Streams lassen sich Zusammenhänge erkennen, messen und visualisieren. Auslesen lassen sich die Daten mit einer SQL-basierten Sprache. Wie bei allen Azure-Diensten, lassen sich auch Stream Analytics-Funktionen nahezu uneingeschränkt kostenlos testen. Microsoft bietet Tutorials für den Einsatz an.
Erfassen, protokollieren und analysieren
Mit Stream Analytics lassen sich, zusammen mit Azure Event Hubs, Millionen von Ereignissen zahlreicher Geräte und Apps in jeder Sekunde erfassen, protokollieren und auch analysieren. Auch Daten aus der Vergangenheit und ungewöhnliche Muster können so erkannt werden. Beispielsweise können Unternehmen mit diesen beiden Diensten SIM-Fälschungen oder Kreditkartenbetrug erkennen und verhindern. Für den Betrieb ist keinerlei eigene Hardware oder Software notwendig, alle Daten sind in Microsoft Azure verfügbar.
Durch die sehr effizienten und belastbaren Daten, die Stream Analytics liefert, lassen sich auch Echtzeit-Aktienhandel, Analyse von Finanzinformationen, Betrugserkennungen im Online-Bereich, Webklicks, Messen der Kundenzufriedenheit und Vieles mehr analysieren. Microsoft bietet für interessierte Entwickler auch Beispiele an, mit denen sich eigene Szenarien aufbauen lassen. Das Erstellen eigener Abfragen ist relativ simpel, sobald Entwickler einen Überblick zu den Möglichkeiten von Stream Analytics haben.
Telemetrie auf Cloudebene
Microsoft Azure Event Hubs arbeitet eng mit Azure Stream Analytics zusammen. Auch hier lassen sich Millionen Ereignisse in Echtzeit erfassen und dokumentieren. So lassen sich Sensordaten oder Informationen von Webseiten mit Event Hub gesteuert erfassen, an Stream Analytics weitergeben, und auf Basis von SQL-Abfragen auslesen und von Anwendern konsumieren.
Unternehmen können zum Beispiel von nahezu beliebigen IoT-Geräten Informationen für Big-Data-Analysen abfragen. Das können komplexe Geräte sein, aber auch einfache Smartphone-Apps, die Daten zur Analyse versenden. Dadurch lassen sich Telemetriedaten von Benutzern erfassen.
Dazu kommt, dass sich die Geräte auch auf Basis von Autorisierung anbinden lassen und auch Drosselungen möglich sind, wenn zu viele Daten eingehen. Hinzu kommt die Möglichkeit, zeitbasierte Ereignisbuffer zu erstellen. Die erfassten Daten lassen sich in Echtzeit an ein Analysesystem weitergeben oder in Microsoft Azure für die spätere Analyse speichern. Durch die Unterstützung von AMQP und HTTP kann Event Hubs recht flexibel eingesetzt werden. Dazu kommen verschiedene native Client-Bibliotheken, welche die Anbindung sehr flexibel gestalten können.
Data Factory – skalierte Datendienste in Microsoft Azure
Mit Data Factory lassen sich wiederum Datendienste erstellen, planen und überwachen. Das ermöglicht das Verwenden von Pipelines, über die von verschiedenen Quellen Daten in Microsoft Azure eingehen und entsprechend analysiert werden. Data Factory kann den Status der Datenpipeline überwachen und visualisieren. Das ist vor allem daher sinnvoll, da Entwickler Quellen aus der Cloud und von lokalen Servern anbinden können. Vor allem beim Einsatz sehr vieler verschiedener Datenquellen ist es sinnvoll, diese erst in eine Art Ordnung zu bringen, für die Analyse vorzubereiten, gegebenenfalls zu transformieren und zu analysieren und danach für die weitere Analyse zu verwenden.
Data Factory bindet, einfach ausgedrückt, zahlreiche Quellen an und kann auf Wunsch bestimmte Daten auch gleich an beliebige Speicherorte für die Weiterbearbeitung verschieben (Data Movement-as-a-Service). Im Rahmen der Vorgänge lassen sich die Daten auch gleich transformieren und analysieren.
Die Daten lassen sich in HDInsight integrieren oder in Machine Learning anbinden. Dadurch lassen sich zahlreiche verschiedene Datenquellen effizient orchestrieren und in einer Pipeline einbinden. Die gesammelten Rohdaten werden über Pipelines an beliebige BI-Tools weitergegeben.
Alle Daten werden in einem zentralen Instrument visualisiert und sind auf diesem Weg auch überwachbar. Außerdem lassen sich zahlreiche Automatismen einbinden, welche die Verarbeitung der Daten noch verbessern.
Microsoft Azure Data Catalog
Azure Data Catalog hat ebenfalls die Aufgabe, verschiedene Datenquellen im Unternehmen oder der Cloud anzubinden und zur Analyse zur Verfügung zu stellen. Außerdem lässt sich festlegen, welche Anwender das Recht erhalten sollen, die verschiedenen Quellen zu analysieren. Auf die angebundenen Datenquellen können nicht nur Serverdienste zur Analyse zugreifen, sondern auch Anwender mit Excel und anderen Tools.
Auch Azure Data Catalog zeichnet sich dadurch aus, dass der Dienst mit anderen Diensten in Microsoft Azure zusammen funktioniert, aber auch Daten nach extern liefern kann, zum Beispiel zu PowerBI. Entwickler können die Daten jederzeit filtern lassen und mehrere Datenquellen zusammenfassen, mit Data Factory in Pipelines zusammenfassen und danach Anwendern zur Verfügung stellen. Data Factory bietet die Unterstützung für zahlreiche Quellen und kann dabei auch sehr detailliert vorgehen. Anwender müssen nicht unbedingt Zugriff auf eine komplette Datenbank erhalten oder alle Tabellen, Zeilen, Spalten oder Sichten. Administratoren können festlegen, welche Daten durch Anwender gelesen werden dürfen.
Im Gegensatz zu Data Factory kann Data Catalog aber keine Daten verschieben. Alle Daten bleiben in den Quellen, die an Data Catalog angebunden sind, nur die Konfiguration zur Anbindung der Datenquellen wird in der Cloud gespeichert. Anwender verbinden sich aber wiederum mit der Schnittstelle von Data Catalog in der Cloud. Im Hintergrund findet dann die authentifizierte und abgesicherte Verbindung zum entsprechenden Dienst statt, der die Daten tatsächlich speichert.
SQL Database Elastic Pool
Datenbanken im SQL Database Elastic Pool werden automatisch gesichert und bei der Wiederherstellung im gleichen Pool integriert. Die Elastic Pools in SQL Azure bieten die Möglichkeit, die Speichergrößen und Leistung für einen Pool an Datenbanken festzulegen. Administratoren können im laufenden Betrieb Datenbanken zu den Pools hinzufügen oder aus diesen entfernen. Entwickler und Administratoren können Datenbanken und deren Inhalt in Microsoft Azure verschlüsseln, wie Datenbanken auf lokalen SQL-Servern mit SQL Server 2014.
Die Verschlüsselung wird jetzt auch in Azure Storage unterstützt. Bei Azure SQL Data Warehouse handelt es sich um einen Data-Warehouse-as-a-Service-Dienst. Azure SQL Data Warehouse stellt seine Daten auch anderen Diensten zur Verfügung, kann aber auch aus den anderen Diensten Daten erhalten. Sinnvolle Beispiele dafür sind neben PowerBI in Office 365 auch HDInsight, Azure Machine Learning und Azure Data Factory.
Fazit
In Microsoft Azure gibt es zahlreiche Dienste, welche die Verarbeitung von Big Data deutlich effizienter gestalten, ohne auf eigene Hardware setzen zu müssen. Da die Dienste getrennt buchbar sind, können Unternehmen sehr flexibel darauf reagieren, welche Dienste sie einsetzen wollen. Um effizient Daten mit Microsoft Azure zu analysieren, sind also nicht alle Dienste auf einmal notwendig. Außerdem müssen die Daten weder in der Cloud gespeichert, noch in die Cloud übertragen werden. Alle Dienste arbeiten auch mit lokalen Serverdiensten zusammen, auch von anderen Herstellern.
(ID:43707264)