Kommentar von Jay Clifford, InfluxData So lässt sich das IoT-Datenmanagement in Echtzeit beherrschen

Von Jay Clifford 4 min Lesedauer

Anbieter zum Thema

Wenn ein einzelner IoT-Sensor im Durchschnitt einen Datenpunkt pro Sekunde sendet, sind das insgesamt über 80.000 Datenpunkte an einem einzigen Tag. Branchenanalysten gehen davon aus, dass die Zahl der weltweit vernetzten Geräte bis 2025 auf 30,9 Milliarden steigen wird. Wie genau können Unternehmen also all diese Daten effektiv handhaben?

Der Autor: Jay Clifford ist Developer Advocate bei InfluxData(Bild:  InfluxData)
Der Autor: Jay Clifford ist Developer Advocate bei InfluxData
(Bild: InfluxData)

IoT-Daten haben eine besondere Eigenschaft: ihr Volumen. Unternehmen müssen planen, wie sie zu speichern und zu verwalten sind. Eine falsche Wahl bei Faktoren wie der Speicherung kann die Datenanalyse erschweren und die Kosten in die Höhe treiben. Selbst bei kleineren IoT-Projekten können an einem einzigen Tag Millionen von Datenpunkten analysiert werden, was bedeutet, dass sichergestellt werden muss, dass das System Zeitserien-Workloads in erheblichem Umfang bewältigen kann. Unzureichende Speichertechniken bedeuten, dass man mehr in Speicherkapazität investieren muss.

Beim Umgang mit IoT-Daten, bei denen es sich überwiegend um Zeitreihendaten handelt, ist es ratsam, eine Zeitreihendatenbank (TSDB) zu verwenden. Denn TSDBs sind speziell darauf ausgelegt, optimale Leistung für zeitgebundene Daten zu bieten. Eine TSDB ist darauf ausgelegt, eine Vielzahl von Datenwerten zu speichern, einschließlich Metriken, Ereignisse, Protokolle und Traces, und ihr primärer Abfragemodus basiert auf der Zeit. Dies steht im Gegensatz zu Datenbanken, die keine Zeitreihen enthalten, bei denen sich Abfragen um eine ID, einen Datentyp oder eine Mischung aus beidem drehen können. Bei einer TSDB konzentriert sich die Datenabfrage auf zeitliche Parameter, sodass Daten innerhalb bestimmter Zeiträume analysiert werden können, sei es die letzte Stunde, der letzte Tag oder sogar bis auf Mikro- und Nanosekunden genau.

Selbst wenn Daten in Echtzeit nicht mehr relevant sind, ist ihre Aufbewahrung für die Analyse historischer Daten weiterhin wertvoll. Es kann auch notwendig sein, ältere Daten, ob in ihrer Rohform oder heruntergerechnet, in einem kosteneffizienteren Cold Storage oder einem Data Lake zu speichern. Eine Zeitreihendatenbank eignet sich zwar hervorragend für die Aufnahme und Verwaltung von Echtzeitdaten, sollte aber auch als effektive Lösung für die langfristige Datenspeicherung dienen.

Zeitreihendaten sind in der Regel groß, schnell und verzeihen nicht. Das bedeutet, dass es eine effiziente Methode braucht, um Daten in eine Datenbank zu übertragen. Viele gängige Ingestion Agents sind Open Source, und die besten Tools bieten spezielle Plug-ins, die bei der Aufnahme von Zeitreihendaten aus verschiedenen Quellen helfen. Dabei werden gängige IoT-Protokolle wie MQTT oder OPC UA sowie allgemeinere Protokolle wie Rest, Kafka oder Prometheus verwendet.

Die gewählte Datenbank bietet möglicherweise verschiedene Optionen für die Dateneingabe, einschließlich Client-Bibliotheken, die das Schreiben von Daten in einer Programmiersprache der Wahl ermöglichen, wie z. B. Python, das für diesen Zweck häufig verwendet wird. Es ist von entscheidender Bedeutung, dass diese Client-Bibliotheken von der Datenbankquelle stammen, da das sicherstellt, dass man Dateningest-Stream effektiv verwalten kann.

Die Daten müssen sauber sein

Wie bei jedem Analysevorgang ist es entscheidend, dass IoT-Daten sauber sind, bevor sie in eine Analyseplattform eingespeist werden. Es gibt drei Hauptstrategien für die Datenbereinigung: die Bereinigung vor der Speicherung, die Bereinigung in der Datenbank und die Bereinigung innerhalb des Analysewerkzeugs. Die Bereinigung von Daten vor der Speicherung kann die Umwandlung oder Modifizierung mit Erfassungsagenten oder das völlige Weglassen irrelevanter Date beinhalten. Gelegentlich sind die empfangenen Daten urheberrechtlich geschützt, was die Kontrolle über die empfangenen Werte einschränkt. In solchen Fällen erweist sich die Verwendung einer Datenbank für den Bereinigungsprozess als vorteilhaft. Ein praktischer Ansatz ist die Speicherung von Rohdaten in einem Segment, die Durchführung von Bereinigungsvorgängen und die Speicherung der bereinigten Daten in einem separaten Segment. Die Datenbereinigung direkt in den Analysetools ist ebenfalls eine Option, kann aber bei großen Datenmengen ressourcenintensiv sein.

Entgegen einem weit verbreiteten Missverständnis ist Downsampling nicht einfach eine weitere Form der Datenbereinigung. Während die Datenbereinigung Maßnahmen wie das Weglassen von Gerätemetadaten oder das Herausfiltern unregelmäßiger Messwerte aus der Tabelle umfasst, beinhaltet das Downsampling die zeitliche Aggregation von Daten, z. B. die Berechnung des Durchschnittswerts der letzten fünf Minuten. Downsampling ist besonders wertvoll, da es, ähnlich wie die Datenbereinigung, die Speicherkosten senken und eine effizientere und schnellere Datenverarbeitung ermöglichen kann.

In bestimmten Szenarien können die Daten vor der Speicherung in der permanenten Datenbank verkleinert werden. Wenn zum Beispiel feingranulare Daten von IoT-Sensoren nicht erforderlich sind, können sie während der Aufnahme heruntergerechnet werden. Downsampling kann auch genutzt werden, um Datenmuster einander gegenüberzustellen, z. B. um die durchschnittliche Temperatur über verschiedene Stunden und Tage oder zwischen verschiedenen Geräten zu ermitteln. Die häufigste Anwendung des Downsamplings ist die Aggregation älterer Daten.

Bei der Echtzeitüberwachung von IoT-Geräten werden Date mit hoher Granularität durch Anwendung von Mittelwerten, Durchschnittswerten und anderen Operationen in eine weniger granulare Form umgewandelt. Dadurch wird nicht nur die strukturelle Integrität historischer Daten erhalten, was historische Vergleiche und die Erkennung von Anomalien ermöglicht, sondern auch der Speicherbedarf gesenkt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Überwachung in Echtzeit

Im Bereich der IoT-Analytik ist die Nutzung von Echtzeitanalysen von größter Bedeutung. Durch die Analyse von Daten, sobald sie eintreffen, lassen sich schnelle Entscheidungen treffen und sofortige Maßnahmen ergreifen. Die wichtigsten Methoden für die Echtzeitüberwachung umfassen die Nutzung inhärenter Funktionen in der Datenbank, den Einsatz von Echtzeit- Überwachungstools oder eine Kombination aus beidem. Unabhängig davon, für welchen Weg man sich entscheidet, ist es wichtig, dass die Abfragen schnell und nur mit vernachlässigbarer Verzögerung ausgeführt werden. Je länger der Weg der Daten zu den Tools ist, desto weiter ist man von Echtzeit entfernt.

Die Quintessenz

IoT-Implementierungen erzeugen riesige Datenmengen, die bei effektiver Analyse eine Fülle von Informationen liefern können. Da die Zahl der angeschlossenen Geräte immer weiter ansteigt, wird der Bedarf an effektiven und skalierbaren Lösungen immer wichtiger. Zeitreihendatenbanken haben sich als die optimale Wahl für die effiziente Speicherung und Abfrage zeitbasierter Daten erwiesen, um sicherzustellen, dass Erkenntnisse schnell und präzise gewonnen werden können, wenn sie am wertvollsten sind.

Artikelfiles und Artikellinks

(ID:49742288)