Anomalie-Erkennung für Echtzeit-Datenströme

Kommentar von Constantin Gonzalez und Florian Mair, AWS Anomalie-Erkennung für Echtzeit-Datenströme

22.01.2021 Von Constantin Gonzalez, Florian Mair *

Anbieter zum Thema

Heutzutage sind Daten in Unternehmen allgegenwärtig, doch nur mit ihrer schnellen Analyse können sie Prozesse beschleunigen. Bei datengetriebenen Entscheidungen muss eine hohe Datenqualität gewährleistet sein. Gleichzeitig gilt es zu verhindern, dass Ausreißer Einfluss auf wichtige Entscheidungen nehmen. Doch wie können solche Anomalien in Sensordaten von Produktionsmaschinen erkannt und verarbeitet werden?

Anomalien in Sensordaten von Produktionsmaschinen: Wie lässt sich verhindern, dass Ausreißer Einfluss auf wichtige Entscheidungen nehmen?(Bild: © spainter_vfx - stock.adobe.com) — Anomalien in Sensordaten von Produktionsmaschinen: Wie lässt sich verhindern, dass Ausreißer Einfluss auf wichtige Entscheidungen nehmen?
(Bild: © spainter_vfx - stock.adobe.com)

Streaming-Daten stammen aus einer Vielzahl von Quellen, die Datensätze kontinuierlich und gleichzeitig in kleinen Paketen übertragen. Daten-Streaming kommt für viele Anwendungsfälle in Frage – etwa im Internet of Things (IoT), bei Clickstream-Analysen, der Ortung von Geräten, der Datenverarbeitung in sozialen Medien sowie im Finanzhandel. Ausreißer oder Anomalien treten oft aufgrund von Änderungen im Systemverhalten, fehlenden Daten oder menschlichen Fehlern auf. Sie lassen sich leicht mithilfe menschlicher Intuition erkennen, die traditioneller Software jedoch fehlt.

Anwendungen der Echtzeit-Anomalie-Erkennung

Echtzeit-Analyse wird im Allgemeinen für High-Velocity-Daten verwendet, die in kurzer Zeit erfasst, gespeichert, verarbeitet und analysiert werden müssen. Aufgrund ihrer schnellen und häufigen Generierung sind sie anfällig für Zuverlässigkeits- und Qualitätsprobleme. Hier ermöglicht es die Anomalie-Erkennung, Extremwerte herauszufiltern und so die Verlässlichkeit der Daten zu verbessern. Aufgrund der daraufhin erhöhten Qualität ermöglichen solche Daten besonders fundierte Geschäftsentscheidungen – beispielsweise in der Produktion: Bei einer Maschine, die ihre Drehzahl anhand von Temperatursensordaten bestimmt und dabei einen gewissen Schwellenwert überschreitet, wird der Ausstoß verringert, um die Hardware zu schonen. Damit sinkt allerdings auch die Produktivität. Die Erkennung von Anomalien in Echtzeit kann Fehlentscheidungen verhindern, die sich negativ auf das Geschäft auswirken. Ein weiteres Anwendungsbeispiel ist die Analyse von Clickstream-Daten: Hier wird die Klickrate (CTR) beim Kauf von Produkten auf Anomalien analysiert, um Online-Betrügereien auf die Spur zu kommen.

Datenaufnahme

Die Echtzeit-Analyse basiert auf der Datenaufnahme eines Daten-Streams, den ein Daten-Generator erzeugt. Das kann ein Sensor oder ein Webbrowser sein. Wenn eine Organisation nur auf den Datenstrom selbst, nicht aber auf die Datenquelle zugreifen kann, sollte ein Proxy zum Einsatz kommen. Damit lässt sich verhindern, dass Dritte Zugriff auf den Stream erhalten. Die dabei unterstützten Authentifizierungsmethoden hängen von der verwendeten Streaming-Plattform ab. Bei Verwendung eines HTTP-Proxies, für die Erfassung von Stream-Daten, sollten auch Geräte mit niedrigem Energieverbrauch wie IoT-Sensoren berücksichtigt werden, denn sie sind oft nicht in der Lage, anspruchsvolle Software Development Kits (SDKs) auszuführen oder REST-APIs aufzurufen.

Datenanalyse

In der Big-Data-Analyse kommt häufig die Stapelverarbeitung zum Einsatz. Hier werden Daten über einen gewissen Zeitraum hinweg gesammelt und anschließend gemeinsam verarbeitet. Diese Methode eignet sich allerdings nicht für zeitkritische Analysen wie die Erkennung von Echtzeit-Anomalien. Hier sind Methoden gefragt, bei denen Datenströme kontinuierlich analysiert werden. Das ermöglicht nahezu sofortige Ergebnisse, während die Daten noch in Bewegung sind. Es gibt verschiedene Algorithmen für die Anomalie-Erkennung – etwa den Welford-Algorithmus, den Z-Score und den Random-Cut-Forest-Algorithmus (RCF). Im folgenden Beispiel wird RCF, ein autonomer maschineller Lern-Algorithmus für die Anomalie-Erkennung verwendet. RCF ordnet jedem Datensatz einen Anomalie-Wert zu. Anomalie-Werte, die größer als drei Standardabweichungen vom Mittelwert sind, werden in der Regel als ungewöhnlich betrachtet. Für die ersten Datensätze können keine Anomalie-Werte berechnet werden, da es nicht genügend Referenzwerte gibt. Diese erste Sammel-Phase wird als Stream-Priming bezeichnet.

Datenspeicherung und -verarbeitung

Streaming-Datensätze sind klein und sollten zu größeren Dateien aggregiert werden, bevor sie dauerhaft gespeichert werden. Das spart Kosten und verbessert die Leistung. Parallel dazu werden Datensätze mit erkannten Anomalien weiterverarbeitet. Hier bietet sich das sogenannte Event-based Computing an: Wenn ein Datensatz die vorher festgelegte Anomalie-Score-Schwelle überschreitet, wird ein Ereignis (Event) ausgelöst, das einen passenden Programmcode ausführt. Alternativ können Mitarbeiter benachrichtigt werden, die dann eine manuelle Operation ausführen – beispielsweise die Wartung einer überhitzten Maschine planen oder direkt den Techniker für eine sofortige Überprüfung rufen.

Echtzeit-Erkennung von Anomalien bei AWS

Dieses Beispiel gibt einen Überblick darüber, wie ein Echtzeit-Anomalie-Erkennungssystem auf AWS aufgebaut werden kann. Der Code ist auf GitHub verfügbar und kann in der AWS-Cloud ausgeführt werden. Die dazu nötigen Schritte stehen im Abschnitt „Einrichten einer Anomalie-Erkennung“.

Architektur auf AWS(Bild: AWS) — Architektur auf AWS
(Bild: AWS)

Für die Datenerzeugung ist die „Maschine“ eine Amazon Elastic-Compute-Cloud-Instanz (EC2), die ein Python-Skript ausführt, um Daten in den Datenstrom zu schicken. Amazon Kinesis Data Streams (KDS) ist ein skalierbarer und beständiger Streaming-Service für Echtzeitdaten, der kontinuierlich pro Sekunde Datenvolumen im Gigabyte-Bereich aus Hunderttausenden von Quellen aufnehmen kann. Die Rohdaten werden über einen Amazon Kinesis Firehose Delivery Stream in einem Amazon S3 Bucket gespeichert. Firehose unterstützt auch Ziele wie Splunk, ElasticSearch, MongoDB und viele mehr.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Die Erkennung von Anomalien auf den Streaming-Daten erfolgt mit Amazon Kinesis Data Analytics (KDA). KDA ist ein vollständig verwalteter Service zur Analyse von Daten in Echtzeit – entweder mit Apache Flink oder SQL. Für dieses Projekt wird KDA für SQL verwendet. Damit ist es möglich, einen Random-Cut-Forest-Algorithmus zur Anomalie-Erkennung mit wenigen SQL-Code-Zeilen zu implementieren. Datensätze, die einen hohen Anomalie-Score aufweisen, werden über eine AWS-Lambda-Funktion dem Amazon Simple Notification Service (SNS) weiter gegeben. Abonnenten des SNS-Topics erhalten dann automatisch alle nicht normalen Datensätze und können sie weiterverarbeiten oder Mitarbeiter entsprechend benachrichtigen.

Einrichtung einer Anomalie-Erkennung

Voraussetzungen

Für die folgenden Schritte ist ein AWS-Konto notwendig.

Diese Implementation einer Anomalie-Erkennung besteht aus folgenden Schritten:

1. Bereitstellung des CloudFormation Templates

2. Starten der Anwendung

3. Monitoring des Datenstroms und der Anwendungen

4. Aufräumen nicht mehr benötigter Ressourcen

Bereitstellung des CloudFormation Templates

Das folgende Template beinhaltet den Aufbau der o.a. Architektur und kann durch Klick auf „Launch Stack“ gestartet werden.

Dieses Template ist für die AWS Region eu-central-1 (Frankfurt) ausgelegt.

Alternativ kann das CloudFormation Template auch hier heruntergeladen und manuell genutzt werden.

Start der Anwendung

Bevor Daten in den Datenstrom fließen, muss die Analyseanwendung gestartet werden. Dazu wählt man in der Amazon Kinesis Console auf der linken Seite den Punkt „Data Analytics“ aus. Hier nutzt man die Analyseanwendung mit dem Namen „anomalieDetection“ und bestätigt dies mit einem Klick auf „Run“.

Die Amazon Kinesis Console: Zunächst den Punkt „Data Analytics“ auswählen. Hier nutzt man die Analyseanwendung mit dem Namen „anomalieDetection“ und bestätigt das mit einem Klick auf „Run“.(Bild: AWS) — Die Amazon Kinesis Console: Zunächst den Punkt „Data Analytics“ auswählen. Hier nutzt man die Analyseanwendung mit dem Namen „anomalieDetection“ und bestätigt das mit einem Klick auf „Run“.
(Bild: AWS)

Der nächste Schritt erfolgt in der EC2-Konsole. Hier wählt man im Menüpunkt „Instances“ die Instanz „anomaly-detection-data-streams/producerInstance“. Mit einem Klick auf „Verbinden“ oben rechts bestätigt man die Wahl.

Die EC2-Konsole: Im Menüpunkt „Instances“ die Instanz “anomaly-detection-data-streams/producerInstance” wählen. Mit einem Klick auf „Verbinden“ oben rechts bestätigt man die Wahl.(Bild: AWS) — Die EC2-Konsole: Im Menüpunkt „Instances“ die Instanz “anomaly-detection-data-streams/producerInstance” wählen. Mit einem Klick auf „Verbinden“ oben rechts bestätigt man die Wahl.
(Bild: AWS)

Nun wechselt man zum „Session Manager“-Tab und klickt auf „Verbinden“.

Session Manager Tab: Auf „Verbinden“ klicken.(Bild: AWS) — Session Manager Tab: Auf „Verbinden“ klicken.
(Bild: AWS)

Um mit der Aufnahme von Datensätzen zu beginnen, ist folgender Befehl im neu geöffneten Fenster mit der Befehlszeile nötig:

sudo python3 /tmp/producer.py

Überwachung des Datenstroms und der Anwendungen

Der Producer schickt nun Daten mit einer Rate von vier bis fünf Datensätzen pro Sekunde in den Datenstrom. Um die Anzahl der eingehenden Datensätze zu überwachen, kann die IncomingRecord-Metrik des Streams in Amazon CloudWatch Metrics überprüft werden. Die Anzahl der Anomalien in den Daten wird mit der benutzerdefinierten Metrik „Successfully Processed Anomalies“ überwacht.

Freigabe nicht mehr benötigter Ressourcen

Um zusätzliche Kosten zu vermeiden, sollten nach der Nutzung die EC2-Instanz gestoppt und bereitgestellte Ressourcen frei gegeben werden. Hierzu wird der CloudFormation-Stack und der S3 Output Basket manuell in der AWS-Konsole gelöscht. Gegebenenfalls sollten auch zusätzliche Ressourcen, die im Rahmen dieses Tutorials erstellt wurden, entfernt werden.

* Constantin Gonzalez ist Principal Solutions Architect und Florian Mair ist Associate Solutions Architect bei Amazon Web Services.

(ID:47070603)