Aufbau automatisierter Prognose-Fähigkeiten mit AWS Lake Formation und Amazon Forecast, Teil 1

Kommentar von Constantin Gonzalez, Amazon Web Services Aufbau automatisierter Prognose-Fähigkeiten mit AWS Lake Formation und Amazon Forecast, Teil 1

30.09.2020 Von Constantin Gonzalez

Anbieter zum Thema

Amazon Forecast erzeugt mithilfe von Machine Learning (ML) hochgradig präzise Prognosen – ohne dass Anwender über ML-Erfahrung verfügen müssen. In unserem zweiteiligen Artikel zeigen wir, wie Sie automatisierte Prognosen entwickeln. Der erste Teil behandelt die Implementierung eines Date Lake unter Berücksichtigung notwendiger Sicherheitsrichtlinien mit dem Dienst AWS Lake Formation. Im zweiten Teil geht es um das automatisierte Importieren von Daten in Ihren Data Lake und deren Transformation mit einem AWS Glue-Workflow.

Der Autor: Constantin Gonzalez ist Principal Solutions Architect bei Amazon Web Services(Bild: blende11_Fotografen) — Der Autor: Constantin Gonzalez ist Principal Solutions Architect bei Amazon Web Services
(Bild: blende11_Fotografen)

Mit AWS-Diensten lassen sich ohne ML-Erfahrungen Prognosen durchführen. Die Abbildung zeigt die End-to-End-Systemarchitektur einer dafür geeigneten Lösung aus den Diensten Amazon Forecast, AWS Lake Formation, AWS Glue und Amazon QuickSight.(Bild: AWS) — Mit AWS-Diensten lassen sich ohne ML-Erfahrungen Prognosen durchführen. Die Abbildung zeigt die End-to-End-Systemarchitektur einer dafür geeigneten Lösung aus den Diensten Amazon Forecast, AWS Lake Formation, AWS Glue und Amazon QuickSight.
(Bild: AWS)

Hinweis: Die nachfolgende Anleitung für ein Beispiel-Setup nimmt Konfigurationsänderungen vor, die sich auf den gesamten AWS-Account auswirken könnten. Wir empfehlen daher grundsätzlich, die nachfolgenden Schritte in einem eigenen, nicht für die Produktion vorgesehenen AWS-Account durchzuführen. So können Sie dieses Beispiel in Ruhe studieren und Experimente ausprobieren, ohne andere Anwendungen zu beeinflussen.

Bildergalerie

Die nachfolgenden Schritte setzen die AWS-Region Frankfurt (eu-central-1) voraus und verwenden (sofern vorhanden) Begriffe aus der deutschen AWS-Dokumentation.

Aufsetzen der benötigten IAM-Richtlinien

AWS Lake Formation, AWS Glue und Amazon Forecast benötigen verschiedene Berechtigungen, um auf Ihre Daten zuzugreifen und untereinander Vorgänge zu starten. Dafür legen Sie zunächst die benötigten IAM-Richtlinien fest:

1. Melden Sie sich mit einem IAM-Benutzer, der über die Berechtigung AdministratorAccess verfügt, bei der AWS-Managementkonsole an

2. Sobald Sie angemeldet sind, wechseln Sie in den IAM-Service:
1. Klick auf Services in der Kopfleiste → IAM in die Suchmaske eingeben und IAM auswählen

3. Im IAM-Service legen Sie eine neue IAM-Rolle an, die von AWS Glue-Aufträgen (Jobs), Crawler und Workflows für die korrekte Ausführung benötigt wird:
1. Klicken Sie auf Rollen in der linken Menüleiste → Rolle erstellen → Typ der vertrauenswürdigen Entität auswählen: AWS-Service → Wählen Sie Glue in der weiter unten aufgeführten AWS-Serviceliste aus → Weiter: Berechtigungen
2. AWSGlueServiceRole in die Suchmaske eingeben → Checkbox auswählen → Weiter: Tags → Weiter: Prüfen
3. Verwenden Sie GLUE_WORKFLOW_ROLE als Rollenname → Rolle erstellen

4. Nachdem die Rolle erfolgreich erstellt wurde, suchen Sie nach dem Rollenamen GLUE_WORKFLOW_ROLE über die Suchmaske und wählen diese aus
1. Wählen Sie den Reiter Vertrauenseinstellungen aus → Klick auf Vertrauensbeziehung bearbeiten
2. Ändern Sie das Richtliniendokument folgendermaßen, um Amazon Forecast zu erlauben, die Rolle zu verwenden:

3. Klicken Sie auf Vertrauensrichtlinie aktualisieren

5. Zurück auf der GLUE_WORFKLOW_ROLE Übersichtsseite wechseln Sie in den Reiter Berechtigungen → Auf der rechten Seite Klick auf Eingebundene Richtlinie hinzufügen
1. Wählen sie den JSON-Reiter aus
2. Fügen Sie folgende Richtlinie hinzu und ersetzen Sie die gekennzeichneten Stellen [your aws account id] mit der ID des aktuell verwendeten AWS Accounts, sowie your-prefix mit einem kurzen, individuellen Präfix, den Sie später beim Anlegen von Amazon S3 Buckets und Glue Datenbanken verwenden wollen.

3. Klick auf Richtlinie überprüfen
4. Verwenden Sie als Name für die Richtlinie INLINE_GLUE_FORECAST → Klick auf Richtlinie erstellen

Einrichten Ihres Data-Lake-Speichers

Als nächstes brauchen Sie einen Data Lake zur Verwendung für diesen Automatismus. Zum Speichern der Daten wird ein Amazon S3 Bucket angelegt, dabei kommen die geeigneten Sicherheits- und Governance-Regeln zur Anwendung. Bei einem vorhandenen Data Lake auf Amazon S3 können Sie dessen S3 Buckets mit Amazon Lake Formation weiterverwenden.

Amazon S3 Bucket-Namen sind weltweit einzigartig, d. h., es können keine zwei Buckets mit dem gleichen Namen angelegt werden. Um Namens-Kollisionen zu vermeiden, schlagen wir vor, dass Sie im Folgenden eine eigene S3-Namenskonvention verwenden und die unten verwendeten Namen lediglich als Beispiel verstehen. Am einfachsten geht das, wenn Sie das zuvor von Ihnen gewählte your-prefix-Kürzel dem benutzen Namen voranstellen.

Die für den Data Lake notwendigen Amazon S3 Buckets werden nachfolgend konfiguriert:

your-prefix-forecast-blog-landing (für die Aufnahme von Rohdaten)

your-prefix-forecast-blog-processed (für transformierte Daten)

your-prefix-forecast-blog-published (für den Zugriff anderer Anwender im Unternehmen auf die Ergebnisse)

Amazon S3 speichert Buckets innerhalb einer bestimmten AWS Region die bei der Bucket-Anlage ausgewählt wird. In diesem Artikel wird die AWS Region Europa (Frankfurt) eu-central-1 verwendet.

1. Klicken Sie zunächst in der Kopfleiste der AWS-Managementkonsole auf Services → Geben Sie in der Suchmaske S3 ein und wählen S3 aus

2. Nachdem Sie in die Amazon-S3-Konsole gewechselt sind klicken Sie auf Bucket erstellen

3. Starten Sie mit dem your-prefix-forecast-blog-landing Bucket und ersetzen Sie your-prefix mit dem vorher von Ihnen gewählten Präfix als Bucket-Name

4. Wählen Sie die AWS-Region EU (Frankfurt) aus → Klick auf Weiter → Weiter → Weiter → Bucket erstellen

5. Wiederholen Sie die Schritte 2 - 4 für die Buckets:

your-prefix-forecast-blog-processed

your-prefix-forecast-blog-published

Die folgende Anleitung für den your-prefix-forecast-blog-landing Bucket kann auch für your-prefix-forecast-blog-processed und your-prefix-forecast-blog-published verwendet werden:

Aktivieren der zentralen Zugriffskontrolle für den Data Lake

Bevor Sie die nachfolgenden Schritte durchführen, empfehlen wir Ihnen, sich die einführenden Abschnitte in der AWS-Dokumentation zu Lake Formation anzusehen, um einen Überblick über die Arbeitsweise dieses Dienstes zu bekommen.

Über die zentralisierte Zugriffskontrolle von Amazon Lake Formation aktivieren Sie die Regeln über den Zugriff auf die zugrundeliegenden S3 Buckets für Anwender und Rollen.

1. Es wird empfohlen, für die Konfiguration von Amazon Lake Formation einen IAM-Benutzer mit dedizierten Data Lake Administratorrechten anzulegen. Der folgende Artikel beschreibt die Anlage eines solchen IAM-Benutzers, verwenden Sie dabei als Benutzername data_lake_administrator: https://docs.aws.amazon.com/de_de/lake-formation/latest/dg/getting-started-setup.html#create-data-lake-admin

2. Wechseln Sie nach Anlage des IAM-Benutzers in den Service Amazon Lake Formation indem Sie auf Services in der Kopfleiste der AWS-Managementkonsole klicken → Geben Sie in der Suchmaske Lake Formation ein und wählen Sie den Service aus:
• Bei der initialen Nutzung von Lake Formation werden Sie aufgefordert, einen Lake Formation Administrator zu definieren, klicken Sie Add administrators
• Wählen Sie unter IAM users and roles den im Punkt 1 angelegten IAM-Benutzer aus → Klick auf Save

3. Für die Verwaltung der zentralen Zugriffskontrolle mit Amazon Lake Formation registrieren Sie die zuvor angelegten S3 Buckets im Data Lake:
• Klicken sie dazu im Service Amazon Lake Formation in der linken Menüleiste auf Dashboard → Stage 1 Register Location
• Als Amazon S3 path geben Sie Ihren S3 Bucket Pfad ein:
s3://your-prefix-forecast-blog-landing
• Klick auf Register location

Register location(Bild: AWS) — Register location
(Bild: AWS)

Wiederholen Sie den Schritt 3 für die Buckets:
• s3://your-prefix-forecast-blog-processed
• s3://your-prefix-forecast-blog-published

Aufsetzen des Lake Formation Data Catalog für Ihren Data Lake

In Ihrem Lake Formation Data Catalog legen Sie drei Datenbanken an – eine für jeden vorher angelegten S3-Bucket. Alle AWS Glue-Datentransformationen werden auf diesen Datenbanken ausgeführt.

1. Um die folgende Konfiguration vornehmen zu können, melden Sie sich zunächst von der AWS-Managementkonsole ab und mit dem zuvor erstellten IAM-Benutzer data_lake_administrator wieder an.

2. Wechseln Sie nach Anmeldung in den Amazon Lake Formation Service, indem Sie in der Kopfleiste der AWS-Managementkonsole auf Services klicken → Geben Sie in der Suchmaske Lake Formation ein und wählen Sie den Service aus:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

1. Wählen Sie im Amazon Lake Formation Service in der linken Menüleiste Databases aus und klicken Sie auf Create database

2. Name: your-prefix-forecast-blog-landing-db

3. Location: s3://your-prefix-forecast-blog-landing

4. Deaktivieren Sie die Checkbox Use only IAM access control for new tables in this database

5. Klicken Sie auf Create database

Create database(Bild: AWS) — Create database
(Bild: AWS)

Wiederholen Sie die Schritte 2.1. – 2.5. für:

• your-prefix-forecast-blog-processed

• your-prefix-forecast-blog-published

3. Wählen Sie im Service Amazon Lake Formation in der linken Menüleiste Databases aus:

1. Auswahl Radiobutton your-prefix-forecast-blog-landing-db → Actions → Grant

Databases(Bild: AWS) — Databases
(Bild: AWS)

2. Wählen Sie unter IAM users and roles die GLUE_WORFKLOW_ROLE aus

3. Wählen Sie die Checkbox Create table aus

4. Klick auf Grant

Grant permissions(Bild: AWS) — Grant permissions
(Bild: AWS)

Nun haben Sie Ihren Data Lake mit den unten abgebildeten Ressourcen mit AWS Lake Formation aufgesetzt. Das Verschieben der Informationen in den Data Lake ist Thema des zweiten Teils dieses Artikels.

Lake Formation Security(Bild: AWS) — Lake Formation Security
(Bild: AWS)

Artikelfiles und Artikellinks

Link: Hier geht es zum zweiten Teil

(ID:46868108)