Kommentar von Thomas Heuer, WhereScape Zukunftsfähige Dateninfrastrukturen durch Automatisierung

Autor / Redakteur: Thomas Heuer / Nico Litzel

Daten gelten als das neue Gold. Wer maximalen Nutzen aus ihnen ziehen will, kommt heutzutage an Data Warehouses (Datenlager) und Data Lakes (Datenseen) nicht vorbei. Während Data Warehouses eine bewährte Methode sind, bereits strukturierte große Datenmengen zu speichern und zu verwalten, bilden Data Lakes das Auffangbecken für alle Daten unabhängig von ihrer Relevanz, Struktur und Zweck.

Firmen zum Thema

Der Autor: Thomas Heuer ist Senior Account Director DACH bei WhereScape
Der Autor: Thomas Heuer ist Senior Account Director DACH bei WhereScape
(Bild: WhereScape)

Data Lakes und Data Warehouses sind eigentlich nur zwei Seiten einer Medaille. Beide dienen als Lagerort für die Speicherung großer Datenmengen, die zu Analysezwecken abgefragt werden. Doch jede Technologie verfügt über eine andere Struktur, unterstützt unterschiedliche Formate und wurde für verschiedene Zwecke optimiert. Allerdings meinen viele Anwender, dass sie sich beim Betreiben von Data Lakes und Data Warehouses für den einen oder anderen Ansatz entscheiden müssten. Dabei liegt gerade in der gemeinsamen Anwendung ihre große Chance.

In Zeiten exponentiellen Datenwachstums sind neue, innovative Dateninfrastrukturen notwendiger denn je. Die gemeinsame Nutzung konventioneller sowie Big-Data-Daten ermöglicht neue Erkenntnisse, die zu einem noch tieferen Verständnis des gigantischen Daten-Potenzials führen. Zeitaufwendige, wiederholbare Prozesse lassen sich zudem mittels neuer Softwaretools so automatisieren, dass sich Daten-Ökosysteme viel effizienter als bisher gestalten lassen.

Tieftauchen im Datensee

Große Datenmengen bilden heutzutage den Motor erfolgreicher Unternehmen. Zukunftsorientierte Firmen sammeln Big Data zu Analysezwecken, um ein präziseres Verständnis für ihre Kunden zu erhalten. Ziel ist es, nicht nur Informationen über ein einzelnes Teil, sondern über den gesamten Pool an Daten-Puzzleteilen zu erhalten, die alle Aktionen umfassen, welche bestehende und potenzielle Kunden ausführen.

Gelagert werden die Daten in den Data Lakes, also Speicherbereichen, die Daten aus verschiedenen Quellen aufnehmen können und sie in ihrem ursprünglichen Format abspeichern, ohne sie sofort zu verarbeiten. Auf diese Weise lassen sich sehr große Datenmengen auch bei minimalem Ressourceneinsatz speichern. Anders als bei einem Data Warehouse, das alle eingehenden Daten mittels Extract-Transform-and-Load (ETL) oder Extract-Load-Transform (ELT) sofort verarbeitet, werden die Daten hier nur verarbeitet, wenn sie auch genutzt werden.

Strukturiertes Datensammeln im Data Warehouse

Spätestens wenn die in den Data Lakes gespeicherten Datenmassen zur Anwendung kommen, müssen sie in eine strukturierte Form umgewandelt werden. Im Data Warehouse gibt es dafür vordefinierte Formate und Felder, wie zum Beispiel Telefonnummern, Transaktionspreise oder Zeitstempel.

Lange Zeit waren Data Warehouses nichts anderes als eine gigantische Datenbank zum Speichern und Organisieren von Daten aus unterschiedlichen Quellen, die mit einem aufwendigen ETL-Prozess hier zusammengeführt und in das erforderliche Schema und Format gebracht wurden. Bei den Analyseprozessen wurden die Daten in der Regel mittels umständlichen Batchloadings auf eine andere Plattform ausgelagert, wobei die Scripts häufig manuell extrahiert wurden.

Inzwischen sind Data Warehouses längst vom Zuspieler zum Spielmacher gereift. Statt einfach nur Daten zu speichern, unterstützen sie Geschäftsprozesse und steuern sie sogar maßgeblich. Denn dank effizienter, neuer Technologien ist es mittlerweile möglich, Prototypen innerhalb von Minuten zu entwerfen und die Infrastruktur innerhalb von Tagen einsatzbereit machen. Mit Cloud-Plattformen wie Snowflake oder Microsoft Azure Synapse lassen sich Abfragen sekundenschnell ausführen und abgerechnet wird nur die Menge an Rechen- und Verarbeitungsleistung, die tatsächlich benötigt wird. Auch die Wahl der Datenbank ist keine Zehn-Jahres-Entscheidung mehr, da die Migration dank metadatengesteuerter Tools erheblich vereinfacht wurde.

Agilen Infrastrukturen gehört die Zukunft

Unternehmen und Anwender, die das gesamte Potenzial der rasant anwachsenden Datenmenge nutzen möchten, werden um eine gemeinsame, kombinierte Anwendung von Data Lake und Data Warehouse nicht herumkommen. Aber um zukunftsfähige Erkenntnisse auf Basis von konventionellen und Big-Data-Daten zu erhalten, muss auch die Infrastruktur an die neuen Anforderungen angepasst werden. Starr und unflexibel war gestern. Die Infrastruktur der Zukunft wird agil sein. Sie sollte sich kontinuierlich an neue Anforderungen anpassen und Datenquellen in regelmäßigen Abständen weiterentwickeln.

Natürlich wäre es möglich, diese Aufgaben einem großen Team von teuren Daten-Assistenten zuzuweisen. Effizienter und kostengünstiger ist es aber, alle zeitaufwendigen, wiederholbaren Prozesse zu automatisieren und sie mittels einer Automatisierungstechnologie in eine Orchestrierungsschicht zu verlagern, in der IT-Teams die volle Kontrolle über ihre Anwendungen erhalten, ohne dass sie einfache Aufgaben wie früher manuell ausführen müssen.

Data-Warehouse-Automatisierung

Automatisierung-Softwares, wie zum Beispiel WhereScape, fertigen dabei ein vereinfachtes Modell eines bestehenden Datenökosystems an, auf dessen Basis sich Anwender schnell, einfach und kostengünstig ein eigenes, komplexes und leistungsstarkes Data Warehouse generieren können. Mittels Drag-and-drop erstellen sie ihre eigene grafische Benutzeroberfläche und entwickeln Prototypen auf der Grundlage von echten Unternehmensdaten. Sobald die Anforderungen freigegeben sind, wird das Modell von der Software in Code umgesetzt und physisch dargestellt. Für einen Programmierer hätte das vermutlich mehrere Wochen Arbeit bedeutet. Die Software benötigt dafür nur wenige Sekunden. Auf diese Weise kann sich ein Team heute seine Infrastruktur innerhalb weniger Tage passgenau erstellen, eine Arbeit die früher mehrere Monaten in Anspruch genommen hätte.

Damit Anwender jederzeit die vollständige Übersicht haben, sollten alle Prozesse und Vorgänge, welche die Automatisierungssoftware ausführt, in Metadaten aufgezeichnet und in einem Repository gespeichert werden. Eine Automatisierungssoftware erstellt eine vollständige Dokumentation auf Knopfdruck, mit kompletter Historie und zusätzlichen Track-back- und Track-forward-Funktionen.

Data-Lake-Automatisierung

Flexible Data-Lake-Plattformen wie Qubole sind in der Lage, sehr effektiv große und auch unstrukturierte Datenströme von verschiedenen Quellen zusammenzufassen und zu analysieren. Sie bieten End-to-end-Services, die den Zeit-, Arbeits- und Kostenaufwand für die Ausführung von Datenpipelines, Streaming Analytics und Machine Learning Workloads in jeder Cloud reduzieren. Auf diesen Plattformen werden die Aufgaben, die im Tagesgeschäft anfallen, automatisiert ausgeführt, so dass so gut wie kein Verwaltungsaufwand entsteht. Plattformen wie Qubole lassen sich an verschiedene Clouds anbinden. Analyse-Plattformen, die auch im Machine-Learning-Bereich und für die Analyse von KI-Daten genutzt werden, können so sehr schnell aufgebaut werden. Vor allem für Start-ups oder Unternehmen, die in die Big-Data-Datenanalyse einsteigen wollen, aber kein großes Team zur Verfügung haben, ist das ein idealer Einstieg.

Fazit

Wer heute große Datenmengen speichern und analysieren will, muss nicht mehr – wie noch vor wenigen Jahren – eine Entweder-oder-Entscheidung treffen. Ein Data Lake sollte als Ergänzung zum Data Warehouse betrachtet werden, der in der Big-Data-Umgebung auch scheinbar unwichtige Daten sammelt, deren Zusammenhang mit den gerade verwendeten nicht sofort erkennbar ist. Es ist auch möglich, Data Warehouses als eigenständige Quelle für Data Lakes zu sehen, die genau wie alle anderen Analyseergebnisse in Verbindung mit anderen Daten neue, wertvolle Erkenntnisse liefern.

(ID:47507434)