Suchen

Kommentar von Werner Vogels, Amazon Data Lakes lösen Big-Data-Herausforderungen bei Amazon

| Autor / Redakteur: Werner Vogels * / Nico Litzel

Unternehmen benötigen geeignete Lösungen, um heterogene Daten schnell zu erfassen und analysieren zu können. Viele Gründe sprechen dabei für einen Data Lake, der sich relativ einfach einrichten lässt und für die Anforderungen an die Zukunft ein einheitliches, gemeinsames Datenreservoir für große Unternehmen darstellt.

Firmen zum Thema

Der Amazon-Versandhandel nutzt einen Data Lake: Die zunächst intern Galaxy genannte Big-Data-Plattform basiert nun auf einem Data Lake als zentraler Komponente, die AWS-Dienste nutzt.
Der Amazon-Versandhandel nutzt einen Data Lake: Die zunächst intern Galaxy genannte Big-Data-Plattform basiert nun auf einem Data Lake als zentraler Komponente, die AWS-Dienste nutzt.
(Bild: AWS )

Als Jeff Bezos noch selbst in seiner Garage Bestellungsformulare ausfüllte und Pakete zur Post fuhr, war es für ihn relativ einfach, seine Kosten zu ermitteln, den Bestand zu verfolgen und die zukünftige Nachfrage zu prognostizieren. Dazu brauchte er nur wenige Daten und seine Erfahrung. 25 Jahre später baut die Retail-Logistik von Amazon auf 175 Amazon Fullfillment-Zentren (FCs) weltweit auf. Über 250.000 Vollzeitmitarbeiter versenden dort täglich Millionen von Artikeln und generieren damit zugleich Unmengen an Daten.

Angesichts einer solchen Informationsmenge steht das weltweite Amazon-Financial-Operations-Team heute vor der gewaltigen Aufgabe, alle im Rahmen sämtlicher Geschäftsabläufe entstehenden Daten nachzuverfolgen und zu analysieren. Dabei geht es um eine Informationsmenge im Petabyte-Bereich. In einer solchen Größenordnung wie bei Amazon hat die falsche Kalkulation einer Metrik, wie etwa die Kosten pro Einheit, oder ein verspätetes Bereitstellen von Daten, große Auswirkungen. Dafür entstehen schnell hohe Kosten. Deshalb suchen die Mitarbeiter des Financial-Operations-Teams ständig nach Möglichkeiten, Daten schneller und in korrekter Form zusammenzustellen.

2019 entschied sich die Abteilung daher, einen Data Lake aufzubauen, um alle Daten zu bündeln, und das weltweite Amazon-Netzwerk zu unterstützen. Noch im selben Jahr war der Data Lake, intern Galaxy genannt, aufgebaut.

Ein Data Lake ist ein zentralisiertes, sicheres Repository, um strukturierte sowie unstrukturierte Daten zu speichern, zu verwalten, zu finden und zu teilen. Data Lakes verlangen für das Speichern dabei kein im Voraus festgelegtes Schema. Rohdaten lassen sich also auf eine Art speichern, ohne dass Unternehmen festlegen müssen, welche Analysen sie in Zukunft durchführen wollen. Die folgende Illustration zeigt die Schlüsselkomponenten eines Data Lakes:

Schlüsselkomponenten eines Data Lakes
Schlüsselkomponenten eines Data Lakes
(Bild: AWS )

Data Lakes eignen sich durch die flexible und damit schnelle Verarbeitung von rohen Daten zugleich für die besonderen Herausforderungen von Big Data. Amazon stand bei diesen Datenmengen nämlich vor ähnlichen Herausforderungen wie viele andere Unternehmen: Datensilos, Probleme bei der Analyse verschiedener Datensätze, mangelnde Kontrolle über Informationen, Fragen der Sicherheit und Probleme beim maschinellen Lernen (ML). Ein Data Lake hilft in all diesen Bereichen.

Datensilos einreißen

Viele Unternehmen nutzen Data Lakes vor allem, um Datensilos zu beseitigen. Wenn Daten in Silos an verschiedenen Orten gespeichert sind und von verschiedenen Anwendergruppen kontrolliert werden, lassen sie sich immer schwieriger finden und analysieren. Dazu kommt es häufig, wenn ein Unternehmen schnell wächst oder andere Anbieter kauft. Bei Amazon war beides der Fall.

Um international expandieren zu können und neue Versanddienste (wie FREE Same-Day Delivery oder Amazon Fresh) einzurichten, haben nämlich viele operationale Teams bei Amazon die Kontrolle über ihre eigenen Daten und Technologien. Dadurch sind Daten unterschiedlich und an verschiedenen Orten gespeichert. Einerseits können die einzelnen Teams dadurch direkt Probleme lösen, auf Kundeneinforderungen eingehen oder schneller Neuerungen einführen. Andererseits erschwert das die sinnvolle Verarbeitung der Informationen auf unternehmensweiter Ebene. Schließlich müssen die Daten erst manuell aus den verschiedenen Quellen zusammengesucht werden. Wenn viele Teams unabhängig voneinander arbeiten, ist das oft ineffizient, denn allgemeine Probleme lassen sich so nicht auf einmal für alle Daten lösen.

Außerdem ist es schwieriger, granulare Einsichten in die Daten zu erhalten. Schließlich hat nicht jeder Anwender Zugriff auf die verschiedenen Datenrepositorien. Für kleinere Abfragen lassen sich Teilmengen der Daten in ein Spreadsheet kopieren. Es kommt jedoch zu Problemen, wenn die Datenmenge die Kapazität eines Sheets übersteigt, was in größeren Unternehmen häufiger vorkommt.

Ein Data Lake löst diese Probleme, weil er alle Daten an einem zentralen Ort zusammenführt. Teams können nun weiterhin als flexible Einheiten arbeiten. Aber jede Analyse basiert auf einem gemeinsamen Datenpool. Silos gehören der Vergangenheit an.

Unterschiedliche Datensätze analysieren

Verschiedene Systeme und Ansätze der Datenverwaltung führen noch zu einem weiteren Problem: Die Strukturen und Informationen von Dateien unterscheiden sich. So hält Amazon Prime etwa Daten über Fullfilment-Zentren und verpackte Waren vor, Amazon Fresh wiederum über Lebensmittelgeschäfte und Nahrungsmittel. Selbst Programme für den Versand unterscheiden sich auf internationaler Ebene. So haben Verpackungen in verschiedenen Ländern eine unterschiedliche Größe und Form. Zusätzlich generiert die Hardware des Internet of Things (IoT), wie etwa Sensoren an Geräten im Fulfillment-Zentrum, eine wachsende Menge unstrukturierter Daten.

Um die Informationsgemengelage noch zu steigern, sichern verschiedene Systeme die gleiche Art von Informationen, benennen sie aber jeweils anders. Was in Europa zum Beispiel als „Kosten pro Einheit“ (costs per unit) bezeichnet wird, heißt in den USA „Kosten pro Verpackung“ (costs per package). Hinter beiden Bezeichnungen stehen unterschiedliche Datenformate. In einem solchen Fall müssen beide Bezeichnungen miteinander verknüpft werden. Denn nur so wissen die mit der Datenanalyse beschäftigten Mitarbeiter, dass die verschieden gelabelten Informationen sich auf die gleichen Sachverhalte beziehen.

All diese verschiedenen Daten in einem herkömmlichem Data Warehouse ohne Data Lake zu kombinieren, ist sehr aufwendig. Die Daten sind beim Warehouse nach dem Extraktion/Transformation/Laden-(ETL)-Integrationsansatz aufzubereiten, also zu extrahieren, umzuwandeln und zu laden. Die Verantwortlichen haben dabei abzuwägen, welche Informationen sie sichern und welche sie aufgeben wollen. Sie müssten außerdem ständig die Strukturen eines an sich starren Systems ändern.

Ein Data Lake dagegen erlaubt es, Informationen in jeder beliebigen Menge und in jedem beliebigen Format zu importieren. Der Data Lake kennt nämlich kein vor-definiertes Datenschema. Daten können sogar in Echtzeit eingebaut werden. Sie lassen sich aus verschiedenen Quellen sammeln und in ihrem Ursprungsformat abspeichern. Ein Data Lake ergänzt dabei die Möglichkeiten eines herkömmliches Data Warehouse: Unternehmen können flexibel hochstrukturierte Daten, die häufig abgerufen werden, auch in einem Data Warehouse sichern. Gleichzeitig lassen sich aber auch strukturierte, teil-strukturierte und ganz unstrukturierte Informationen in einem Data Lake gespeichert werden.

Datenzugang verwalten

Wenn Datenbestände an verschiedenen Orten gespeichert sind, gestaltet sich der Zugang und das Verknüpfen mit externen Analyse-Tools schwierig. Die Daten des Amazon Operations Finance Team sind auf über 25 Datenbanken verteilt, wobei jedes Team in einer Region seine eigene Variante der Datensätze verwendet. Konkret bedeutet das, alleine über 25 verschiedene Zugangsdaten zu verwalten. Viele dieser Datenbanken verlangen daher Hilfe beim Zugangsmanagement, um Profile zu verändern oder auch um Passwörter zurückzusetzen. Darüber hinaus müssen Audits und Kontrollen für jede einzelne Datenbank durchgeführt werden. Nur so lässt sich sicherstellen, dass niemand unerlaubt auf sie zugreifen kann.

Ein Data Lake hilft auch in diesem Fall. Durch ihn erhalten die richtigen Leute leichter die relevanten Informationen, wenn sie gebraucht werden. Anstatt den Zugang für jeden einzelnen Speicherort aufwendig einzeln zu verwalten, ist dies jetzt nur noch für einen Satz von Anmeldedaten nötig. Data Lakes verfügen über Kontrollmechanismen, die es berechtigten Anwendern erlauben, spezifische Assets zu sehen, auf sie zuzugreifen, sie zu verarbeiten und/oder sie zu modifizieren. Data Lakes helfen außerdem dabei, unautorisierte Nutzer zu blocken. So können diese die Vertraulichkeit und Sicherheit der Daten nicht beeinträchtigen.

Auch die Datenanalyse profitiert vom erleichterten Zugang in Data Lakes. Im offenen Format gespeicherte Informationen erleichtern die Arbeit mit verschiedenen analytischen Diensten. Das offene Format erhöht dabei auch für die Zukunft die Wahrscheinlichkeit, dass auch die Daten mit Tools kompatibel sind, die erst noch entwickelt werden. Zahlreiche Anwender wie Data Scientists, Data Engineers, Anwendungsentwickler oder Analysten von Geschäftsprozessen können Datensätze mit den analytischen Werkzeugen und Plattformen ihrer Wahl untersuchen.

Anwender sind also nicht auf wenige Tools beschränkt, um Daten zu analysieren. Zudem können sie durch den zentralen, einfachen Zugriff auf Informationen in einem Data Lake eine größere Menge von Nutzer-Daten sinnvoll verwenden.

Maschinelles Lernen beschleunigen

Ein Data Lake schafft eine ideale Grundlage für das maschinelle Lernen und Künstliche Intelligenz. Denn diese Technologien benötigen für das Entwickeln ihrer Entscheidungshilfen große Mengen unterschiedlicher Daten. Maschinelles Lernen nutzt statistische Algorithmen, um von vorhandenen Daten zu lernen ¬– das sogenannte Training – und um über neue Daten Entscheidungen zu treffen – die sogenannte Interferenz. So erlauben es diese Verfahren, intelligente Entscheidungen auch bei immer neuer Datenlage zu treffen. Je größer die Datenmenge, umso besser lassen sich Modelle für das maschinelle Lernen trainieren. In der Folge steigen die Qualität der Prognosen sowie die Möglichkeit, die richtigen Entscheidungen zu treffen.

Eine der größten Aufgaben des Amazon Operations Finance Teams ist das Planen und Vorausberechnen von Betriebskosten und notwendigen Investitionsaufgaben für die gesamte Amazon-Lieferkette. Dazu gehören das gesamte Transportnetzwerk, Hunderte von Fulfillment- und Sortier-Zentren, Auslieferungsstationen, aber auch Niederlassungen von Amazon Whole Food sowie Abholpunkte von Amazon Fresh. In diesem System hilft maschinelles Lernen, hochanspruchsvolle, unternehmenskritische Fragen zu beantworten. Etwa nach der Menge der im nächsten Jahr versandten Sendungen oder nach den damit einhergehenden Lohnkosten. Aber auch spezielle Prognosen wie zur Anzahl der in den verschiedenen Größen benötigten Versandpakete im nächsten Monat sind möglich.

Je genauer die Vorhersagen sind, umso besser. Zu hohe und zu niedrige Schätzungen haben negative Auswirkungen das finanzielle Ergebnis. Wenn Amazon die Nachfrage zu gering einschätzt, haben die Lagerarbeiter unter Umständen nicht genug Betriebsmittel wie etwa Verpackungen. Eventuell fehlt es auch an Fahrern. Das verzögert die Zustellung, mehr Kunden rufen im Kundendienst an. Bestellungen werden storniert und das Vertrauen des Kunden geht verloren. Wenn Amazon allerdings die Nachfrage zu hoch einschätzt, belegen Warenbestände und Verpackungen wertvolle Lagerflächen. Für stärker nachgefragte Produkte fehlt jedoch der Platz.

Amazon und auch viele andere Unternehmen betreiben daher einen großen Aufwand, um zukünftige Szenarien zu untersuchen. Maschinelles Lernen kann dabei die Qualität der Prognosen verbessern. Im letzten Jahr überprüfte die Finanzabteilung von Amazon genau diesen Sachverhalt: Sie verglich die Ergebnisse ihrer herkömmlichen manuellen Vorhersagemethode mit Amazon Forecast. Dabei handelt es sich um einen voll verwalteten Dienst für das maschinelle Lernen, um zutreffende Vorhersagen zu liefern. Die von Amazon Forecasts gelieferten Hochrechnungen waren dabei im Durchschnitt um 67 Prozent genauer als die manuell erstellten.

Durch das Überführen aller Daten in einen Data Lake kann das Amazon-Operations-Finance-Team verschiedene Datensätze kombinieren, um akkuratere Vorhersagemodelle zu trainieren und anzuwenden. Das Training der Modelle für das maschinelle Lernen mit einer größeren Menge relevanter Daten erhöht die Genauigkeit der Prognosen. Gleichzeitig werden die Mitarbeiter, die bisher hier manuell tätig waren, für strategischere Projekte frei. So können sie die Vorausberechnungen analysieren, um die Abläufe vor Ort zu verbessern.

Galaxy für Amazon – das richtige Werkzeug

Der Amazon-Versandhandel nutzt aktuell bewährte Technologien, die bereits vor der Gründung von Amazon Web Services im Jahr 2006 entwickelt wurden. Viele Amazon-Workloads haben sich aber in den letzten zehn Jahren auf AWS verlagert, weil Skalierbarkeit, Effizienz, Leistung und Sicherheit dafür sprachen. Der nächste Schritt war dann der Aufbau eines Data Lake: Die zunächst intern Galaxy genannte Big-Data-Plattform basiert nun auf einem Data Lake als zentraler Komponente, die AWS-Dienste nutzt. (siehe dazu Diagramm 2).

Nutzung von Amazon-Web-Services-Diensten durch den Galaxy Data Lake
Nutzung von Amazon-Web-Services-Diensten durch den Galaxy Data Lake
(Bild: AWS )

Bildunterschrift:.

Der Galaxy Data Lake baut auf Amazon Simple Storage Service (Amazon S3) auf. Das erhöht die dauerhafte Verfügbarkeit und Skalierbarkeit der Daten. Manche Informationen befinden sich außerdem in den proprietären, File-basierten Data Stores von Amazon Andes und Elastic Data eXchange. Beide Stores sind Amazon-S3-Service-Layer. Weitere Datenquellen sind das Data Warehouse Amazon Redshift, die relationale Datenbank Amazon Relational Database Service (Amazon RDS) und andere Enterprise-Anwendungen.

AWS Glue, ein vollständig verwalteter ETL-Dienst, erleichtert das Vorbereiten und Hochladen der Daten für eine Analyse. AWS Database Migration Service (AWS DMS) importiert die verschiedenen Datensätze zu Amazon S3. Galaxy kombiniert Metadata-Informationen aus mehreren Diensten wie Amazon Redshift, Amazon RDS und dem AWS-Glue-Datenkatalog und überführt sie in die Katalog-Ebene von Amazon DynamoDB, einer Schlüssel-Werte- und Dokumenten-Datenbank. Mit Amazon Elasticsearch Service (Amazon ES) lassen sich Katalog-Abfragen schneller durchführen.

Nach der Katalogisierung der Daten, dem Onboarding, arbeiten verschiedene Dienste auf dem Client-Layer. So zum Beispiel Amazon Athena, ein interaktiver Ablagedienst, um schnell exploratorische Abfragen auf Standard-SQL-Basis durchzuführen oder Amazon Redshift für strukturiertere Dienste. Des Weiteren unterstützt Amazon SageMaker das maschinelle Lernen.

Die Galaxy-Data-Lake-Architektur wurde von Grund auf neu aufgebaut. Das zuständige Team entwickelte in diesem Rahmen viele Komponenten manuell über mehrere Monate hinweg. Im August 2019 stellte dann Amazon Web Services den neuen Dienst AWS Lake Formation vor. Er ermöglicht es, Data Lakes effizient und sicher innerhalb von Tagen statt Monaten anzulegen. AWS Lake Formation hilft beim Suchen und Katalogisieren der Daten aus Datenbanken und gespeicherten Objekten. Es unterstützt Unternehmen, Informationen in einen neuen Amazon-S3-Lake zu überführen, zu bereinigen und mit Algorithmen für das maschinelle Lernen zu klassifizieren. Außerdem sichert der Dienst den Zugriff auf die sensitiven Daten im Data Lake.

Fazit

Das Speichern von Daten in einem Data Lake mit offenen Standard-basierten Datenformaten, bietet viele Vorteile. Mit ihm gehören Datensilos der Vergangenheit an. Er erlaubt außerdem das Verwenden unterschiedlicher analytischer Dienste, um mehr Erkenntnisse aus den Daten zu ziehen. So lassen sich mit der Zeit immer höhere Anforderungen, Daten zu speichern oder zu verarbeiten, kosteneffizient erfüllen.

Das Amazon Financial-Operations-Team erhält nun mit dem Data Lake Galaxy eine integrierte unternehmensweite Lösung für seine Anwender. Die Infrastruktur steht dabei seit 2019. Nun werden sukzessive verschiedene Datenbanksysteme in den Data Lake migriert. Anwender sehen aber bereits jetzt die daraus sich ergebenden Vorteile: Keine manuellen Prozesse, keine unhandlichen Spreadsheets, ein Wachstum der Produktivität und zusätzliche Zeit für Mehrwert-Analysen.

* Werner Vogels ist CTO bei Amazon.com

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 46528081)