Langzeitanalysen

Moderne Architekturen zur Datenanalyse – Teil 3 Langzeitanalysen

20.03.2020 Von Steffen Hausmann

Anbieter zum Thema

Amazon Web Services Germany GmbH

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

In den ersten beiden Teilen des Artikels ging es um die optimale Analyse von Echtzeitdaten mithilfe der Cloud. Dabei wurden in Echtzeit einlaufende Geoinformationen und Bezahldaten eines Taxiunternehmens in New York untersucht. Neben solchen Dashboard-Betrachtungen sind oftmals zusätzlich Langzeitanalysen von historischen Daten sinnvoll und gewünscht.

Durch Speicherung der Daten in einem Langzeitarchiv werden diese Anwendungen zugänglich gemacht, die nicht direkt auf die Daten in einem Datenstrom zugreifen können.(Bild: AWS) — Durch Speicherung der Daten in einem Langzeitarchiv werden diese Anwendungen zugänglich gemacht, die nicht direkt auf die Daten in einem Datenstrom zugreifen können.
(Bild: AWS)

Ein Datenstrom, wie er im ersten Teil des Artikels genutzt wurde, speichert Daten in der Regel aber nur für eine gewisse Dauer, im Fall von Kinesis Data Streams maximal sieben Tage. Um eine Analyse von historischen Daten zu ermöglichen, müssen die Daten daher zusätzlich in einem Langzeitarchiv abgelegt werden. Durch die Speicherung der Daten in einem Langzeitarchiv, wie etwa Amazon S3, werden sie zusätzlich Anwendungen zugänglich gemacht, die nicht direkt auf die Daten in einem Datenstrom zugreifen können.

Der Autor: Steffen Hausmann ist Specialist Solutions Architect Analytics bei AWS (Bild: AWS)

Zum Ablegen der Daten in S3 verwenden wir Amazon Kinesis Data Firehose. Amazon Kinesis Data Firehose bietet eine einfache Methode zum zuverlässigen Laden von Streaming-Daten in Datenspeicher und Analyse-Tools. Es können damit Streaming-Daten aufgezeichnet, umgewandelt und in Amazon S3, Amazon Redshift, Amazon Elasticsearch Service und Splunk geladen werden, sodass Analysen mit vorhandenen Business Intelligence Tools und -Dashboards oder auch direkt mit SQL-Anfragen über Amazon Athena möglich werden.

Bildergalerie

Beim Speichern der Daten in S3 können die Daten außerdem komprimiert und in spaltenorientierte Formate wie Apache Parquet und Apache ORC umgewandelt werden. Insbesondere spaltenorientierte Formate sind für eine kosteneffiziente Speicherung und für Analysen mit Services wie Amazon Athena, Amazon Redshift Spectrum, Amazon EMR, und anderen Hadoop-basierten Tools optimiert.

Ein weiterer Vorteil von spaltenorientierten Formaten ist, dass durch die Strukturierung der Daten in Zeilen statt in Spalten, Komprimierungsalgorithmen wesentlich effektiver arbeiten können. Das spart nicht nur Kosten bei der Speicherung der Daten, sondern beschleunigt auch Anfragen, da weniger Daten über das Netzwerk geladen werden müssen. Des Weiteren ermöglichen spaltenorientierte Formate das selektive Lesen einzelner Spalten und sogar das selektive Lesen von den Teilbereichen einer Datei, die für die Beantwortung der Anfrage relevant sind. Dadurch müssen weniger Daten zum Beantworten von Anfragen gelesen werden, woraus sich auch hier wieder Einsparungen bei den Kosten und schnellere Antwortzeiten ergeben.

Analyse historischer Daten mithilfe von SQL

Nachdem die Daten in Amazon S3 abgelegt wurden, möchten wir sie mit SQL-Anfragen auswerten, um langfristige Trends über die Anzahl der Fahrten und des Umsatzes zu erhalten. Da die Daten jedoch in ihrer Rohform vorliegen, muss zunächst ein Schema für die Daten definiert werden, um sie dann über SQL-Anfragen analysieren zu können. Dabei bietet es sich an, den Speicherort der Daten und das entsprechende Schema in einem zentralen Datenkatalog zu hinterlegen, damit alle berechtigten Nutzer innerhalb des Unternehmens die Daten leicht finden und verwenden können.

Ausreißer identifizieren: In der Darstellung zeigt sich auch schön, dass der Algorithmus zunächst die Muster des Datenstroms lernt und der ausgegebene Anomaliewert daher in dieser Initialisierungsphase null ist (im Diagramm zum Zeitpunkt 7:47 bis ca. 7:51). (Bild: Bild: AWS)

Für unser Beispiel verwenden wir AWS Glue. Dabei handelt es sich um einen vollständig verwalteten Service zum Extrahieren, Umwandeln und Laden (Extract, Transform and Load, kurz ETL) von Daten. Sie können ihn verwenden, um Ihre Daten zu katalogisieren, zu bereinigen, anzureichern und zuverlässig zwischen Datenspeichern zu bewegen. Darüber hinaus bietet der Dienst auch einen HIVE-kompatiblen Meta-Store. Er ist dafür ausgelegt, Informationen zentral zu speichern und anderen Diensten, wie etwa Amazon Athena, zur Verfügung zu stellen.

Dadurch müssen die Meta-Informationen, wie etwa das Datenschema und der genaue Speicherort der Daten nur einmal hinterlegt werden und können von allen berechtigten Anwendern leicht abgefragt werden, was Zeit spart und Fehler vermeidet.

Zum Anfragen der Daten verwenden wir Amazon Athena, einen interaktiver Abfrageservice, der die Analyse von Daten in Amazon S3 mit Standard-SQL erleichtert. Athena kommt ohne Server aus, deshalb gibt es auch keine Infrastruktur zu verwalten und Sie zahlen nur für die Abfragen, die Sie auch ausführen. Amazon Athena ist mit dem AWS Glue Data Catalog integriert, sodass wir die bereits hinterlegten Metadaten nutzen können, um direkt mit der Anfrage der Daten zu starten, ohne uns um das Erstellen des Schemas oder dem Auffinden der Daten erneut kümmern zu müssen.

Die SQL-Anfragen werden von Athena ausgewertet, das die Daten direkt aus Amazon S3 lädt. Amazon Athena stellt dabei im Hintergrund die benötigte Infrastruktur zur Verfügung, sodass wir uns vollständig das Auswerten und Analysieren der Daten konzentrieren können.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Grafik 1(Bild: AWS) — Grafik 1
(Bild: AWS)

Neben dieser ersten einfachen Anfrage lassen sich auch deutlich kompliziertere Anfragen auswerten.(Bild: Bild: AWS) — Neben dieser ersten einfachen Anfrage lassen sich auch deutlich kompliziertere Anfragen auswerten.
(Bild: Bild: AWS)

Neben dieser ersten einfachen Anfrage lassen sich auch deutlich kompliziertere Anfragen auswerten. So ist es mit folgender Anfrage möglich, einen Einblick in die langfristige Entwicklung der täglichen Anzahl der Taxifahrten und des täglichen Umsatzes zu erhalten.

Wenn Sie das Szenario in Ihrem Account durch das CloudFormation Template nachgestellt haben, und eigene SQL-Anfragen formulieren möchten, gehen Sie zum Dienst Amazon Athena in der AWS-Konsole und wählen Sie unter Database die Datenbank bigdata_insider aus. Zunächst müssen die Metadaten, insbesondere der genauer Speicherort der neu hinzugefügten Objekte in S3 aktualisiert werden. Um das zu erreichen, genügt es auf die drei Punkte neben der Tabelle cleaned_trips zu drücken und dann Load partitions auszuwählen.

Mit modernen Daten-Architekturen zur eigenen Datenplattform

In diesem Artikel haben wir die grundsätzlichen Komponenten einer vollständig verwalteten, skalierbaren und hoch verfügbaren Architektur zum Aufnehmen, Verarbeiten, und Speichern von Echtzeitdaten diskutiert. Dabei haben wir zwei unterschiedliche Aspekte, die Überwachung des Umsatzes des Unternehmens in Echtzeit und die langfristige Analyse der Daten zum Erkennen von Trends, in einer flexiblen Architektur kombiniert. Mithilfe der Beispielanwendung haben Sie gesehen, wie einfach sich in der Cloud moderne Architekturen erstellen lassen, die auf einer einheitlichen Datenbankgrundlage eine Vielzahl unterschiedlicher Analysen erlauben.

Dabei diente die Verarbeitung und Anfrage der Daten mit Kinesis Data Analytics auf Amazon Athena nur als Beispiel, denn die Architektur ist flexibel gestaltet und erlaubt es nun eine Vielzahl von verschiedenen Tools zu verwenden, um die Daten weiterzuverarbeiten und zu analysieren. Alternativ können die Daten beispielsweise mit AWS Glue aggregiert und dann in Amazon Redshift geladen werden. Oder es wird mithilfe von Amazon SageMaker oder Amazon Forecaset ein Modell trainiert, um bessere Vorhersagen über die Entwicklung des Umsatzes und besonders lukrativer Regionen zu erstellen.

Des Weiteren basiert die Architektur auf vollständig verwalteten Diensten, sodass Sie sich auf die Analyse der Daten und das Lösen Ihrer Business-Probleme konzentrieren können, ohne sich um die Beschaffung und den Betrieb der Infrastruktur kümmern zu müssen.

(ID:46361463)