Suchen

DataStax nennt Trends Vier wichtige Technologien für das IoT-Datenmanagement

| Autor / Redakteur: Karsten Stöhr / Nico Litzel

Moderne Technologien bieten leistungsfähige Möglichkeiten, um IoT-Daten skalierbar zu nutzen und zu verwalten. Karsten Stöhr, Data Architect von Data Stax, hat vier zentrale Technologien näher untersucht.

Firmen zum Thema

Karsten Stöhr, Data Architect von DataStax
Karsten Stöhr, Data Architect von DataStax
(Bild: DataStax)

Zeitreihen-Datenbanken

Zeitreihendaten machen in IoT-Projekten einen großen Teil der anfallenden Daten aus. Betrachtet man Produktionsergebnisse im Laufe der Zeit, lassen sich Aussagen über den Einfluss bestimmter Parameter treffen, Trends bewerten oder Muster in den Daten identifizieren. So könnten beispielsweise Temperaturschwankungen eines Brennofens die Qualität des Endprodukts beeinflussen. Die Einsichten entstehen hier aus der Analyse von Zeitreihendaten, also dem Abgleich von Werten über einen bestimmten Zeitraum hinweg. Datenbanken für das Management solcher Daten müssen meist eine große Menge an Schreibvorgängen unterstützen und eine hohe Zahl an Datensätzen bewältigen.

Die Unterschiede zu klassischen relationalen Datenbanken sind groß: In einem Zeitreihen-Datenmodell speichert der Anwender Daten in Spalten und nicht in einem traditionellen zeilenbasierten Modell. Daten lassen sich somit effizient auf den Speicher schreiben und für Analysezwecke einlesen. Zudem wird die Zeit bis zur Rückgabe einer Anfrage verkürzt. Weitere Vorteile von Zeitreihen-Datenbanken sind Nutzerfreundlichkeit und Skalierbarkeit sowie Features wie Komprimierung, Data-Lifecycle-Management und Datenverdichtung.

Echtzeit-Analyse dank Stream-Architektur

IoT-basierte Anwendungen verarbeiten in der Regel Millionen oder sogar Milliarden Datenpunkte am Tag. Einige davon erfordern eine umgehende Reaktion. Ein System zur Datenstromverarbeitung ist dazu nötig – denn Lösungen wie beispielsweise Apache Kafka leiten Daten ab dem Zeitpunkt ihres Entstehens direkt in das Analysesystem. Im Gegensatz zu einer Batch-Verarbeitung, bei der Informationen über einen längeren Zeitraum gesammelt und dann gemeinsam analysiert werden, stehen die Einsichten aus den generierten Daten in Stream-basierten Architekturen in Echtzeit zur Verfügung. Dabei kann eine solche Architektur große Datenmengen nicht nur aus einer, sondern aus mehreren Quellen verarbeiten.

Das macht sie beispielsweise sehr effektiv für die Verwaltung von Clickstream-Analysen, also dem Sammeln von Besucherdaten auf Websites und deren Auswertung. Ein E-Commerce-Shop kann anhand dieser Einsichten Angebote oder Produktempfehlungen für den Kunden im Handumdrehen personalisieren. Daher ist Echtzeit-Streaming ein leistungsfähiges Werkzeug zur IoT-Datenverwaltung auf Unternehmensebene.

Data Tiering

Je nach Anwendungsfall bieten sich für die Ablage von Daten verschiedene Speicherstufen wie Flash-Speicher, traditionelle SAN-/NAS-Speicher-Arrays, Objektspeicher oder die Cloud an. Data Tiering verschiebt die Daten zwischen den Speicherstufen, ohne dass wichtige Informationen verloren gehen oder sich die Kosten erhöhen. So werden immer die richtigen Anforderungen in Bezug auf Speicherplatz, Geschwindigkeit und Kosten erfüllt.

In IoT-Projekten haben es Unternehmen häufig mit unstrukturierten Daten zu tun. Um hier ein ausgewogenes Data Tiering zu erreichen, eignen sich besonders Hybrid-Cloud-Strukturen. Denn sie kombinieren die Vorteile von traditionellem Cloud- und Edge-Computing: Schnelle, aber sicherere Datenverarbeitung, die zudem näher an der Quelle und bei Bedarf auch in einem zentralen Repository stattfindet. Dies ermöglicht mehr Flexibilität beim Verschieben von Daten, beispielsweise in Public Clouds - die Kontrolle über die Daten bleibt jedoch beim Unternehmen. Zudem werden so Nachteile der alleinigen Nutzung der Public Cloud umgangen, wie hohe Bandbreitenkosten, Sicherheitsrisiken, Zugriffsmuster oder Performance-Probleme.

Erweiterte Replikation

Wird das Skalieren einer Datenbank nötig, ermöglicht Replikation den Aufbau einer verteilten Datenbank. Indem Daten aus einer Datenbank auf einem Computer oder Server in eine Datenbank auf einem anderen Rechner kopiert werden, lässt sich von zwei oder mehr Standorten simultan auf die gleichen Daten zugreifen. Das Wichtige: Der Informationsstand ist für alle Benutzer identisch. Er kann zudem beliebig oft kopiert werden, um neue Analysemodelle aufzusetzen. Anwendungen zur Datenreplikation werden daher für Analysen von IoT-Daten immer wichtiger. Denn sie erlauben die Analyse großer Datenmengen in komplexen, verteilten Umgebungen. Unternehmen können mit diesen Analyseergebnissen Nutzungsmuster leichter erkennen oder Schwachstellen in angeschlossenen Geräten identifizieren – was letztlich zur Entwicklung verbesserter vernetzter Produkte beiträgt.

Erweiterte Replikationsstrategien umgehen sogar weite räumliche Distanzen. In einem Hub-and-Spoke-Modell beispielsweise können Daten von entfernten Standorten zu einem zentralen Hub repliziert werden. So werden im zentralen Hub alle entfernten Standorte nachgebildet. Jeder Standort muss sich aber nur um seine eigenen Daten kümmern und keine Gedanken über die Übertragung machen. Gerade mit der Weiterentwicklung von Edge- und Near-Edge-Computing gewinnt dieses Modell stark an Bedeutung. Auch in IoT-Umgebungen wird diese erweiterte Datenreplikation künftig eine wichtige Rolle spielen. Denn so lässt sich eine konsistente Kopie der Daten über alle Knoten hinweg bereitstellen, was die Datenverfügbarkeit erhöht und die Verfügbarkeit sicherstellt.

(ID:46360039)