So erschließt ein Data Lake unstrukturierte Daten

Kommentar von Benjamin Krebs, Dell EMC So erschließt ein Data Lake unstrukturierte Daten

20.09.2017Autor / Redakteur: Benjamin Krebs / Nico Litzel

Das schnelle Wachstum unstrukturierter Datenbestände ist für Unternehmen Herausforderung und Chance zugleich. Mit einem Data Lake als Herzstück können Fach- und IT-Abteilungen alle Big-Data-Anforderungen bei der Analyse und Aufbereitung unstrukturierter Datenbestände erfolgreich meistern.

Anbieter zum Thema

QUNIS GmbH

BigData-Insider

Fivetran Germany GmbH

Der Autor: Benjamin Krebs ist Area Manager Germany – Unstructured Data and Analytics bei Dell EMC
(Bild: Dell EMC)

Ein Data Lake ist ein Speicherort, der eine nahezu beliebige Menge an Rohdaten in ihrem ursprünglichen Format aufnimmt und für eine Nutzung zu jeder Zeit bereithält. Damit ist er der ideale Ausgangspunkt für leistungsstarke Big-Data-Analysen unstrukturierter Datenbestände. Der Data Lake wird fortlaufend aus unterschiedlichen Quellen mit aktuellen Daten gespeist und steht stets für die vielfältigsten Anwendungsszenarien bereit.

Ein Data Lake sollte vier Funktionen bieten, um zentrale Anforderungen zu erfüllen:

Konsolidierung: Durch die Zusammenfassung aller unstrukturierten Daten an einem Ort lassen sich verteilte Datensilos beseitigen und die Verwaltung wird einfacher. Vorteile bietet dabei ein einheitliches Dateisystem mit einem einzigen Speicher-Volume.

Datensicherheit und Datenschutz: Hohe Governance- und Compliance-Anforderungen müssen durch Funktionen wie eine rollenbasierte Zugriffskontrolle, Dateisystem-Auditing, Verschlüsselung und Snapshots zur schnellen Sicherung und Wiederherstellung erfüllt werden.

Gemeinsame Nutzung: Um eine hohe Flexibilität und Interoperabilität zu erzielen, wird die Unterstützung von traditionellen Standardprotokollen wie FTP, NFS und SMB, aber auch von neueren Protokollen wir HTTP, Hadoop Distributed File System (HDFS), Amazon S3 und OpenStack Swift benö-tigt. Zudem muss die Speicherarchitektur in der Lage sein, unterschiedliche Arbeitslasten in verschiedenen Phasen ihres Lebenszyklus, beispielsweise bezüglich Performance und Kapazität, effizient zu verwalten.

Direkte Big-Data-Analysen: Einer der wichtigsten Vorteile eines Data Lakes besteht darin, dass Unternehmen damit alle unstrukturierten Daten zentral analysieren können. Lassen sich Hadoop-Daten gleichzeitig mit anderen Geschäftsanwendungen verwenden, müssen Unternehmen keine Daten mehr aus Analysegründen manuell transferieren oder in andere Applikationen oder Infrastrukturen importieren. Sehr nützlich ist in diesem Zusammenhang die Unterstützung von mehreren Hadoop-Distributionen wie HortonWorks, Cloudera und Apache Hadoop.

Data Lake im eigenen Rechenzentrum mit der Cloud verbinden

Ein Data Lake, in diesem Fall mit den Speicherlösungen Isilon, Elastic Cloud Storage (ESC) und Virtustream Storage Cloud (VSC) von Dell EMC, bildet das Zentrum von Big-Data-Analysen und -Handlungsempfehlungen.
(Bild: Dell EMC)

Nahezu alle Unternehmen haben Erfahrungen mit der sogenannten Schatten-IT, bei der Speicherkapazitäten verwendet werden, die von der IT-Abteilung aus Kosten- oder Ressourcengründen nicht aufgebaut und unterstützt werden. Fachabteilungen bedienen sich in der Praxis oft bei den Angeboten aus der Public Cloud – hier kommt vor allem Hadoop Analytics zum Einsatz.

An dieser Stelle kann ein nativ mit Hadoop integrierter Data Lake seine Stärken ausspielen. Werden zusätzlich zum HDFS auch Objekt- und File-Formate unterstützt, ist eine zentrale Speicherung und Nutzung von Hadoop-Daten möglich. Dadurch lassen sich Hadoop-Daten direkt auswerten, ohne dass Unternehmen zusätzliche Hardware benötigen oder Kopien der zu analysierenden Daten anfertigen müssen. Darüber hinaus kann die IT-Abteilung damit auch als interner Service-Provider tätig werden, der diese Dienste in einer sicheren Umgebung bedarfsorientiert anbietet und abrechnet.

Bei Arbeitslasten, die rigide Governance- und Compliance-Anforderungen erfüllen müssen und die eine hohe Geschwindigkeit sowie kurze Latenzzeiten erfordern, sind Data Lakes im eigenen Rechenzentrum gefordert. Ein Cloud-basierter Data Lake eignet sich für Anwendungsszenarien, bei denen von mehreren geografischen Orten aus Analysen und deren Ergebnisse angefordert werden oder auch für die Speicherung von Sensordaten im Umfeld von IoT-Anwendungen.

Oft ergänzt sich ein Data Lake im eigenen Rechenzentrum mit dem in der Cloud. So lassen sich beispielsweise inaktive Daten aus dem Rechenzentrum nahtlos in die Cloud verschieben, etwa zu Microsoft Azure, Amazon AWS S3, Dell EMC Elastic Cloud Storage (ESC) oder Dell EMC Virtustream.

Anwendungsszenarien in der Automobilindustrie

Beispielhafte Big-Data-Anwendungsszenarien in der Automobilbranche.
(Bild: Dell EMC)

In der Automobilindustrie – egal, ob bei Automobilherstellern oder den Zulieferern – kommen Data Lakes für vielfältige Anwendungsszenarien zum Einsatz. Eher traditionelle Use Cases sind Big-Data-Analysen in der Wertschöpfungskette, um Prozesse wie das Flottenmanagement und die Logistik zu beschleunigen oder den Wartungsaufwand und die -kosten mit Predictive Maintenance zu reduzieren.

Eines der am schnellsten wachsenden Big-Data-Segmente in der Automobilbranche sind Fahrerassistenzsysteme (Advanced Driver Assistance Systems oder ADAS), bei denen es um die Steigerung des Fahrkomforts, aber auch um eine erhöhte Sicherheit geht. Fast alle Automobilhersteller und alle bedeutenden Zulieferer arbeiten an ADAS-Systemen. Ihr Ziel ist es, ein Auto zu bauen, das völlig autonom fahren kann. Die Entwicklung dieser Systeme erfordert Millionen von simulierten Fahrkilometern in unterschiedlichen Verkehrssituationen, Wetter- und Lichtverhältnissen sowie Geschwindigkeiten. Dabei entstehen riesige Datenmengen, die nur mit Big-Data-Werkzeugen und -Analysen sinnvoll auszuwerten sind.

Anwendungsszenarien in der Medien- und Unterhaltungsbranche

Auch in der Medien- und Unterhaltungsbranche gibt es einen beachtlichen Bedarf an Big-Data-Analysen, nicht zuletzt bedingt durch die Geschwindigkeit, das Volumen und die Komplexität des Datenwachstums. Ein Data Lake unterstützt das Speichern, Verwalten und Aus-liefern der Medieninhalte und -formate on demand und in Echtzeit, etwa bei großen Sportereignissen oder Konzerten.

So hat beispielsweise die zuverlässige Bereitstellung qualitativ hochwertiger Videostreams eine direkte Auswirkung auf die Kundenzufriedenheit. Parallele Streams in höchster 4k-Auflösung und Qualität liefern dabei einen wichtigen Beitrag. Weitere Anwendungsszenarien in der Medien- und Unterhaltungsbranche sind Videobearbeitung, Schnitt, die Erstellung von Special Effects sowie Grafik und Design.

Eine wichtige Rolle spielt in diesem Umfeld eine leistungsstarke Scale-Out-NAS-Architektur auf Basis einer 10-Gigabit-Ethernet-Infrastruktur, die nativ ein breites Spektrum von Betriebssystemen, Anwendungsszenarien und Protokollen unterstützt. Dazu zählen beispielsweise NFS, CIFS, HTTP, FTP, HDFS für Hadoop und Data Analytics sowie REST, um die Anforderungen der Medien- und Unterhaltungsbranche in den Bereichen Objektspeicherung und Cloud Computing abzudecken. Der Vorteil für Anwender: Sie gewinnen damit eine höhere Interoperabilität für ihre geschäftskritischen Applikationen und ihre Data-Analytics-Aktivitäten. Ein durchgängiges Dateisystem wie beispielsweise Isilon OneFS ermöglicht eine einfache Verwaltung und zwar unabhängig von der Anzahl der Knoten in einem Storage-Cluster. Damit sind Unternehmen aus der Medien- und Unterhaltungsbranche in der Lage, eine hohe Skalierbarkeit und Leistung bei ihren Data Lakes in den unterschiedlichsten Anwendungsszenarien zu erzielen.

(ID:44805018)