Nachbericht DataWorks Summit Berlin 2018

Hortonworks baut DataPlane Services weiter aus

| Autor / Redakteur: Michael Matzer / Nico Litzel

Die Hauptkomponenten der Hortonworks Data Platform (HDP)
Die Hauptkomponenten der Hortonworks Data Platform (HDP) (Bild: Hortonworks)

Hortonworks hat mit dem Data Steward Studio (DSS) einen weiteren Service in seiner DataPlane-Service-Ebene angekündigt. Die DataPlane Services bilden eine Ebene plattformübergreifender Dienste, die auf der Hortonworks Data Platform (HDP) und auf der Hortonworks Data Flow Platform (HDF) aufsetzen. Auch Partnerprodukte können so in der Cloud bereitgestellt und genutzt werden.

Die Global-Data-Management-Plattform, die Hortonworks in der mittlerweile dritten Version seiner Hadoop-Distribution anbietet, besteht vor allem aus der Hortonworks Data Platform (HDP) und der Hortonworks Data Flow Platform (HDF). Die HDP verwaltet ruhende Daten und die HDF Daten, die bewegt werden (Streaming). Die darauf aufsetzenden DataPlane Services (DPS) nutzen gemeinsam folgende Plattformdienste:

  • Data Services Catalog: Ein Katalog der verfügbaren Dienste, der aber auch über Funktionen verfügt, um neue Dienste erstellen zu können und so die DPS-Ebene zu erweitern. Der erste DataPlane Service ist der Data Lifecycle Manager, aber auch Partnerlösungen wie die Data Science Experience (DSX) von IBM gehören zum Katalog. Alle diese Dienste gibt es nur in der Cloud.
  • Security Controls: ein rollenbasierter Kontrollmechanismus, der jedem – vom Hadoop-Admin bis zum Data Scientist – den richtigen Zugriff zur richtigen Datenquelle gewährt.
  • Data Source Integration: Damit versteht DPS die Daten in externen Quellen. Dafür sorgen Apache Atlas und Apache Ranger mit ihren Sicherheitsfunktionen, sodass bei jedem Zugriff auch Befugnisse geprüft werden können. Da der Trend dazu geht, die Daten dort zu lassen, wo sie erzeugt werden (Edge Computing etc.), kommt der Datenintegration eine eminent hohe Bedeutung zu.

Data Lifecycle Manager

Der Data Lifecycle Manager DLM ist seit Herbst 2017 verfügbar. Damit lassen sich Daten bewegen, replizieren, sichern, wiederherstellen und dergestalt in Storage-Schichten verteilen, dass die kosteneffizienteste Nutzung sichergestellt ist (Storage Tiering). Der DLM ist nach Angaben von Regional Manager Daniel Metzger bereits bei einer Bank im Einsatz, die ihren aber Namen nicht genannt wissen möchte. „Weitere Proof of Concepts von DSP Services laufen ebenfalls“, so Metzger. Zu den Partnern gehören IBM, Teradata, Dell EMC sowie Splunk.

Im zweiten Quartal 2018 will Hortonworks das nächste Release bereitstellen. In einer Hybrid Cloud sollen sich Daten kapseln und nahtlos zwischen einem physischen und privaten Speicher sowie den diversen Public-Cloud-Umgebungen (vor allem S3) kopieren lassen. Damit ist dann volle Datenmobilität gewährleistet, die nötig ist, um die richtige Workload in der passenden Umgebung für den passenden Anwendungsfall bereitstellen zu können. Die Unterstützung von AWS S3 erfordert allerdings Hadoop 3.1 – diese Version wird von Hortonworks bereits unterstützt.

Das Zusammenspiel seitens S3 wurde hinsichtlich Fehlerbehandlung und -meldung verbessert und Hadoop 3.1 kann nun S3Guard sowie Server-seitige Verschlüsselung in S3 nutzen. Für Storage-Zwecke ist auch die Block-Replizierung durch ein externes Storage-System (wie etwa S3) von großer Bedeutung.

Hadoops Verwaltungswerkzeug YARN nutzt nun nicht nur GPUs, sondern auch die noch performanteren FPGAs (Field Programmable Gate Arrays). Damit dürfen Nutzer von Hortonworks eine erheblich beschleunigte Analysefunktion mit Machine Learning erwarten, denn mit GPUs wird die Nutzung von Google TensorFlow möglich. „Dies wollen wir auf der Basis von HDP 3.0 unterstützen“, sagte Nadeem Asghar, der Global Field CTO.

Data Steward Studio

Auf einer Kundenveranstaltung in Berlin, dem DataWorks Summit, hat Hortonworks den zweiten Service angekündigt. Das Data Steward Studio (DSS) erlaubt es Unternehmen, Information in großen Big-Data-Repositorien, wie etwa Data Lakes, mit konsistenten Sicherheitsvorgaben und einheitlicher Governance zu verwalten. Das ist besonders dann hilfreich, wenn man mit dem DLM bereits verteilte Storage-Tiers zu verwalten hat, beispielsweise im Object Storage, der global verteilt sein kann.

Besonders im Hinblick auf die demnächst gültig werdende EU-Datenschutzgrundverordnung (DSGVO) ist es hilfreich, Vertraulichkeitsgrade von Daten festzustellen, zu bewerten und sicherzustellen. Außerdem sollen sich Herkunft und Nutzung von Daten feststellen lassen, was für die Umsetzung der DSGVO wesentlich ist. Nutzer können auf sichere Weise mit derart gesicherten Daten kollaborativ umgehen, ohne Mssbrauch fürchten zu müssen. Entscheider sollen gesicherte, validierte Erkenntnisse aus ihren Data Lake Daten erhalten können, gleichgültig, ob diese Daten im eigenen Haus on-premise vorliegen oder in der Cloud bei einem Dienstleister. Die DPS-Dienste unterstützen also Multi-Cloud- und Hybrid-Cloud Modelle.

Ausblick

Kommende DataPlane Services sind: CloudBreak, mit dem die Infrastruktur Cloud-unabhängig verwaltet werden kann; ein Data Analytics Studio, das auf Hadoop Hive aufsetzt; weitere ISV Services. IBM DSX ist bereits verfügbar, um Spark Analytics für die Hadoop-Plattform HDP / HDF bereitzustellen.

Wie Nadeem Asghar sagte, wird das in DSX enthaltene Apache Spark häufig genutzt, um ETL-Prozesse schnell und mehrschichtig im verfügbaren Hauptspeicher auszuführen. Das Ergebnis wird dann wieder an Hadoop zurückgeliefert, etwa an Hive oder Hbase. Mit den gleichermaßen quelloffenen Tools Apache Atlas, einer gemeinsamen Metadatenschicht und Atlas Ranger lassen sich solchen Kollaborationen und Datentransfers Sicherheitsfunktionen hinzufügen. Asghar sagte auch, dass sich HDP 3.0 bereits in einem Docker-Container befinde, dass die externe Unterstützung con Containern mit Microservices von der Hadoop-Entwicklung abhänge.

Packaged Solutions

Hortonworks möchte die beschleunigte Nutzung seiner Dienste erleichtern und stellt seit 2017 zusammen mit Partnern Einsatz-spezifische Softwarepakete bereit. Dazu gehören die Optimierung eines Enterprise Data Warehouse (EDW), Data Science (mit IBM DSX) und Cyber-Security (auf der Basis von Apache Metron). Des Weiteren gehören dazu Advanced Analytics (auf HDP), IoT/Streaming Analytics (auf dem Streaming Analytics Manager in HDF) und die Lösungen des Partner-Ökosystems dazu. Hortonworks sieht hier laut Asghar eine Marktchance, seine Professional Services zusammen mit Partnern bei den Kunden einzusetzen.

Anwenderbeispiel

Die weltweit tätige Rückversicherung Munich Re hat für ihren umfangreichen Data Lake, der auf Hortonworks HDP aufsetzt, eine Self-service-Analytics-Anwendung entwickelt. Deren bislang rund 60 bis 80 Nutzer pro Tag sollen selbstständig Content aus dem Datenpool erzeugen, der täglich durch weitere Datenquellen erweitert wird – schließlich gilt es, Risiken in allen versicherbaren Bereichen der Realität abzudecken.

„Wir bilden systematisch Kollegen aus den Fachabteilung in Data Science & Data Engineering aus“, berichtet Andreas Kohlmaier, Head of Data Engineering bei Munich Re, „um mit ihnen gemeinsam neue Services & Produkte zu entwickeln“, so etwa im Bereich Predictive Maintenance, um Schäden durch Leitungswasser zu vermeiden. „Das ist ein IoT Use Case, den wir mit Hortonworks realisieren können.“

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45273209 / Infrastruktur)