Microsoft Azure Data Lake

Neuer Hochleistungsspeicher für Big Data

| Autor / Redakteur: Thomas Joos / Nico Litzel

Data Lakes spielen eine zunehmend wichtige Rolle bei der Datenspeicherung in Unternehmen. Mit Azure Data Lake bietet Microsoft Unternehmen eine Cloud-Alternative zu im Haus betriebenen eigenen Data Lakes.
Data Lakes spielen eine zunehmend wichtige Rolle bei der Datenspeicherung in Unternehmen. Mit Azure Data Lake bietet Microsoft Unternehmen eine Cloud-Alternative zu im Haus betriebenen eigenen Data Lakes. (Bild: T. Joos)

Microsoft bietet in Azure neue Speicherungsmöglichkeiten für sehr große Datenmengen: Azure Data Lake. Damit lassen sich beliebige Daten in sehr hoher Menge direkt in der Cloud speichern – eine perfekte Ausgangsbasis für zahlreiche Big-Data-Szenarien.

Data Lakes sind im Big-Data-Bereich ein relativ junger Trend. Zwar gibt es den Bereich seit langem, aber erst durch die ständig wachsenden Datenmengen spielen Data Lakes eine wichtige Rolle bei der Datenspeicherung in Unternehmen. Data Lakes sind dabei, einfach ausgedrückt, eine unternehmensinterne Speichermöglichkeit für alle Daten und Datenquellen.

Anwender im Unternehmen können auf Basis ihrer Berechtigungen auf die Daten zugreifen und diese analysieren. Für gewöhnlich liegen die Daten im Data Lake in unveränderter Form vor, sie werden also nicht transformiert. Der Zugriff auf den Data Lake erfolgt mit verschiedenen Analyse-Werkzeugen, welche die Daten erst für den eigenen Gebrauch umwandeln.

Viele Unternehmen betreiben eigene Data Lakes. Diese haben aber den Nachteil, dass eigene, sehr teure Speicherhardware zur Verfügung gestellt muss. Administratoren müssen die Hardware und dazu gehörige Software installieren, verwalten und überwachen. Unternehmen dagegen müssen den Speicher lizenzieren, für eine Hochverfügbarkeit sorgen, Sicherungen einplanen und ständig bereit sein, die Hardware zu skalieren. Aus diesem Grund ist das Speichern von Daten in der Cloud wesentlich besser. Denn hier lässt sich Speicher schneller skalieren, quasi auf Knopfdruck bereitstellen, und von überall nutzen.

Der Data Lake in Microsoft Azure

Mit Azure Data Lake bietet Microsoft eine weitere Speichermöglichkeit in Microsoft Azure. Der Dienst steht, wie Azure Storage auch, für verschiedene weitere Dienste zur Verfügung. Speicher in Azure Data Lake kann dabei auch sehr gut mit gestreamten Daten umgehen, also Daten die normalerweise über eine schlechte Latenz verfügen, dafür eine große Datenmenge verursachen und ständig aktualisiert werden.

Microsoft bietet mit Azure Data Lake die Möglichkeit, Daten zu speichern, die vollständig unverändert in ihrem ursprünglichen Format vorliegen. Das heißt, es muss keinerlei Transformation erfolgen. Die Analyse der gespeicherten Daten ist mit zahlreichen Analyse-Werkzeugen möglich, auch außerhalb von Azure. Der Vorteil bei der Verwendung des Data Lake in Microsoft Azure ist dessen Verknüpfung mit anderen Serverdiensten in der Cloud.

Unternehmen speichern ihre Daten also im Data Lake. Der HDInsight-Dienst kann auf die Daten zugreifen und auch SQL Data Warehouse kann sich aus diesen Daten bedienen. Da Azure Data Lake auch parallele Zugriffe ermöglicht, können diese unterschiedlichen Datendienste auch gleichzeitig auf die Daten im Data Lake zugreifen. Das gilt auch für weitere Zugriffe von Microsoft Revolution-R Enterprise oder Machine Learning. Daher ist einer der Vorteile des neuen Dienstes, dass alle Arten von Daten gespeichert werden können, also strukturierte Daten, aber auch unstrukturierte Daten.

Kompatibel zum Hadoop File System

Azure Data Lake ist kompatibel zum Hadoop File System (HDFS) und lässt sich daher optimal mit Hadoop und der Microsoft-Lösung HDInsight nutzen. Auch beim Betrieb eigener Hadoop-Cluster können Unternehmen auf Azure Data Lake als Datenspeicher zugreifen. Neben den großen Speichermöglichkeiten soll auch der Datendurchsatz entsprechend hoch sein. Microsoft verspricht niedrige Latenzen, bei einem gleichzeitig hohen Durchsatz.

Das ist auch der Vorteil gegenüber den aktuellen Speichermöglichkeiten in Microsoft Azure, denn hier liegen die Begrenzungen im Terabyte-Bereich. Azure Data Lake kann dagegen Datenmengen speichern, die mehrere hundert Mal größer sind.

Große Speichermenge, hoher Datendurchsatz

Azure Data Lake vermag Petabytes an Daten zu speichern und auch entsprechend zur Verfügung zu stellen, darunter auch große Einzeldateien. Die Daten in Azure Data Lake sollen darüber hinaus auch parallel verwend- und nutzbar sein, ohne dass sich die Abfragen gegenseitig beeinträchtigen und die Leistung in den Keller geht.

Die Daten in Azure Data Lake lassen sich in weiteren Azure-Diensten nutzen, auch von Dritt-Anbietern, die Lösungen im Azure Marketplace anbieten. Unternehmen können also auch Hadoop- und Big-Data-Distributionen von Hortonworks, Cloudera und Revolution Analytics verwenden. Auch selbst installierte Cluster lassen sich anbinden. Um die Sicherheit der Daten sicherzustellen, unterstützt Azure Data Lake auch die Anbindung an Azure Active Directory. Zusätzlich zu Hadoop unterstützt Azure Data Lake auch Spark, Storm, Flume, Sqoop, Kafka und andere Lösungen für Big Data, die mit Hadoop zusammenarbeiten.

Replizierung, Hochverfügbarkeit und Internet of Things

Durch die hohe Kompatibilität mit den verschiedenen Big-Data- und Internet-of-Things-Lösungen lassen sich in Azure Data Lake relationale, aber auch nicht-relationale Daten speichern. Die Daten lassen sich natürlich auch replizieren. Das hat den Vorteil, dass Unternehmen große Datenmengen hochverfügbar zur Verfügung stellen können. Laut ersten Informationen hält Azure Data Lake mindestens drei Kopien in einer gemeinsamen Region vor. Natürlich lassen sich weitere Replizierungen einrichten, auf Wunsch auch weltweit verteilt. Alle Daten lassen sich dabei bequem über Azure Active Directory absichern.

Darüber hinaus haben Administratoren die Möglichkeit, umfassende Berechtigungen zu verteilen und die Verwendung der Daten zu überwachen. Benachrichtigungs-Tasks lassen sich ebenfalls hinterlegen, wenn Aktionen im Dienst notwendig sind.

Fazit

Microsoft Azure Data Lake bietet eine effiziente Lösung, riesige Datenmengen vollkommen unstrukturiert zu speichern. Da die Daten in der Cloud gespeichert sind, lassen sie sich weltweit nutzen, verarbeiten und analysieren. Auch dann, wenn die Daten unstrukturiert gespeichert werden können, sollten Unternehmen dennoch eine gewisse Ordnung im Data Lake einhalten.

Ansonsten besteht die Gefahr, dass die Leistung weniger gut ist als erwartet. Natürlich bietet Microsoft mit Azure Data Lake eine leistungsstarke Plattform, dennoch ist es sinnvoll den Speicher nicht komplett unstrukturiert zu nutzen, sondern in geordneter Form.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43517975 / Infrastruktur)