Kommentar von Gregor Bauer, Couchbase Die richtige Datenbank für Data Analytics und Visualization in Echtzeit
Anbieter zum Thema
Viele Unternehmen wissen nur zu gut, dass sie auf einem ungehobenen Datenschatz sitzen – aber nur die wenigsten, wie man ihn hebt. Dabei wird die schnelle Analyse und Visualisierung von multiplen Datenströmen und Echtzeit-Daten für Unternehmen immer wichtiger. Zentraler Ort dafür ist die Datenbank, die für die Datenanalyse und -visualisierung besondere Anforderungen erfüllen muss.

Es klingt so einfach: Wir analysieren unsere operativen Daten, visualisieren diese Analysen in hübschen, aussagekräftigen Grafiken und nutzen die Ergebnisse zur Optimierung unserer Entscheidungsfindung. Punkt! Aber wir alle wissen ja, wo der Teufel liegt: im Detail. Die erste Hürde ist die Heterogenität und Volatilität der Datenströme. Interne Daten treffen auf externe Informationen, historische Daten aus Archiven treffen auf Echtzeit-Daten aus aktuellen Transaktionen mit Kunden oder von Sensoren aus dem Internet of Things. Aber das ist nicht die einzige, die wir noch sehen werden.
Die Generierung von Echtzeitentscheidungen auf Basis der Analyse und Visualisierung von multiplen Datenströmen wird häufig auch als Continuous Intelligence bezeichnet. Sie gilt als ein wichtiger – wenn nicht sogar als der Megatrend – im Umfeld von Data- und Analytics-Technologien wie Augmented Analytics, Event Stream Processing oder Machine Learning und daher als unverzichtbarer Erfolgsfaktor für viele Unternehmen. Auf Datenbanken kommt daher eine höchst anspruchsvolle Aufgabe zu. Sie müssen Data Analytics und Data Visualization unterstützen, sprich, unterschiedlichste Datenströme zusammenführen, konsolidieren und bereitstellen.
Von Business Intelligence zu Echtzeit-Analysen
Damit kommen wir zur zweiten Hürde: Im Gegensatz zur früheren Hype-Technologie Business Intelligence muss der Prozess sehr viel schneller und effizienter ablaufen. Bei BI müssen zuerst die zu analysierenden Daten von den ETL-Tools (Extract – Transform – Load) aus verschiedenen Quellen zusammengestellt, die zu analysierenden Daten dann in das Data Warehouse eingespeist und anschließend per Data Mining analysiert werden.
Diese Funktionskette ist für viele Anwendungen viel zu lang. Für mittel- und langfristige Prognosen mag das angemessen sein, nicht jedoch für die Analyse aktueller Transaktionen und die rasche, zielführende Reaktion darauf. Wenn etwa plötzlich eine außergewöhnlich hohe Nachfrage nach einem bestimmten Angebot auf der Webseite registriert wird, muss innerhalb von Sekunden entschieden werden, ob beispielsweise der Preis dafür erhöht wird oder zusätzliche ähnliche Angebote prominent platziert werden. Je größer das Angebots-Portfolio und je mehr Traffic auf einer Webseite ist, desto geringer wird die Reaktionszeit auf das aktuelle Kundenverhalten.
Die Rolle der Datenbank
Das wirft die Frage nach der Rolle der Datenbank(en) auf und den besonderen Qualitäten, die sie für Data Analytics und Data Visualization mitbringen muss. Bei Data Analytics geht es Datenbank-technisch darum, Online Analytics Processing (OLAP) auf die gerade laufenden Read- und Write-Prozesse, also das Online Transaction Processing (OLTP) der Datenbank, aufzusetzen. Für diese OLAP-Analyse können in bestimmten dafür geeigneten Datenbanken dedizierte Analytics-Nodes benutzt werden. Sie arbeiten vollständig Workload-isoliert parallel zu der „normalen“ OLTP-Datenprozessierung. Dem OLTP-Hauptprozess und dessen Ressourcen werden so keine zusätzlichen Arbeitslasten aufgebürdet.
Dabei sind Database-Plattformen im Vorteil, die die Fähigkeiten von SQL-, NoSQL- und Cloud-Datenbanken unter einem Dach vereinen und in der die Analysefunktionen nahtlos integriert sind. Das minimiert Schnittstellen, Latenzen und mögliche Übergabefehler.
Die Analytics Services solcher Datenbanken haben direkten Zugriff auf die verschiedenen Datenquellen. Die Datenströme können dabei aus einer relationalen SQL-, einer JSON-Document-basierten NoSQL- oder der Cloud-Datenbank eines Hyperscalers wie AWS, Azure oder Google kommen, sofern die Datenbank über entsprechende Konnektoren verfügt. Sie werden dann in die Analyse-Datenbank eingespeist, um anschließend in BI-Tools oder Big-Data-Plattformen wie Tableau, MicroStrategy oder Splunk weiterverarbeitet zu werden.
Select Statements statt Data Warehouse-Abfragen
Im Gegensatz zu der Methodik von Business-Intelligence-Lösungen werden die im jeweiligen Tool generierten SQL-Abfragen nicht mehr in einem Data Warehouse abgearbeitet, sondern als Select-Statements direkt auf die Analytics Database geleitet und dort ausgeführt. Bei der Konfiguration der Verbindung zwischen der Datenbank und dem BI-Tool ist es essenziell, dass das BI-Programm die Schnittstellen der Datenbank richtig versteht. Die so selektierten Echtzeitdaten werden von den Tools dann analysiert und grafisch aufbereitet.
Das vereinfacht und beschleunigt den Prozess der Analyse und deren Umsetzung in entscheidungsunterstützende Informationen enorm. So wird die Analyse historischer Daten durch die aktueller Datenströme erweitert, wodurch sowohl kritische interne als auch externe Größen rascher und umfassender identifiziert und sichtbar gemacht werden können. Der Einsatz von KI-Tools macht es zudem möglich, auf Basis dieser Datenstrom-Analysen Muster zu erkennen und so zutreffendere Prognosen zu erstellen.
Medizin für gestresste Kliniken
Ein im wahrsten Sinne des Wortes hochbrisantes Anwendungsbeispiel für den Einsatz von Echtzeit-Analytics ist die Optimierung des Gesundheitswesens, in dem viele Kliniken ihren Betrieb aktuell an der Belastungsgrenze fahren. Sie stehen vor der Herausforderung, mehr Transparenz über Art und Umfang der Behandlungen, Zahl der Arzttermine und Auslastung des Personals zu gewinnen. Für sie kommt erschwerend hinzu, dass nicht nur die eigenen Daten analysiert werden müssen, sondern auch externe Daten von Patienten, Dienstleistern und Krankenversicherungen.
Optisch übersichtlich aufbereitete Datenanalysen geben einen schnellen Überblick über latente Schwachstellen, benötigte Ressourcen sowie mögliche Optimierungspotenziale und helfen so, den Betrieb zu optimieren.
Ähnlich wichtig ist aus gegebenem Anlass die Nutzung von Data Analytics und Visualization zur Sicherung der Energieversorgung. Bei der Öl- und Gasförderung fallen naturgemäß große Datenmengen an. Dabei geht es oft um Echtzeitdaten von wichtigen Parametern wie Druck, Temperatur, Durchflussmenge und -geschwindigkeit. Per Datenanalyse und -visualisierung können sie konsolidiert werden, um daraus wertvolle Erkenntnisse für die Optimierung der Förderquoten und die Einhaltung von Umweltschutzvorgaben zu gewinnen. Die übersichtliche optische Aufbereitung steigert die Fördermengen, die Effizienz der Energieförderung und die Genauigkeit von Prognosen.
Die Analyse und Visualisierung von multiplen Datenströmen, inklusive der von Echtzeit-Daten, ermöglicht eine raschere und bessere Entscheidungsunterstützung, schnellere operative Reaktionen und treffsicherere Prognosen. Sie ist nur möglich, wenn die Datenbank mit Datenquellen-Agnostik, direkten Datenzugriff und mit einem Analytics Service die entsprechenden Voraussetzungen dafür bietet.
(ID:48565913)