Kommentar von Christian Thiel, QUNIS Massive Parallelität – vom Bibliothekar zum zentralen Register
Anbieter zum Thema
Historisch gesehen sind Daten typischerweise in einer Datenbank auf einem Rechner mit einer Festplatte gespeichert. Steigt allerdings die Zahl derer, die diese Daten nutzen wollen, und steigt zugleich auch noch die Menge der gespeicherten Daten, stößt das System an seine Grenzen. Genau an dieser Stelle kommen massiv parallele Datenarchitekturen ins Spiel.

Man stelle sich eine Bibliothek vor, in der Besucher nicht selbst an ein Regal gehen und ein Buch entnehmen können, sondern allein der Bibliothekar für jeden einzeln das gewünschte Buch herausgeben muss. Letztlich nichts anderes ist vom Prinzip her die Datenabfrage von einer einzelnen Datenbank – schließlich hat man auch hier nicht die Möglichkeit, direkt auf die Festplatte zuzugreifen. Stattdessen schickt man über sein Programm eine Anfrage an die Datenbank, dort wird diese ausgeführt und danach werden die gewünschten Daten zurückgeschickt.
Allerdings ist ein solches Setup auch mit Schwierigkeiten verbunden. Ein Problem liegt etwa in der Skalierbarkeit. So muss ein Datenbanksystem in den seltensten Fällen nur eine Abfrage ausführen, viel eher sind es zehn, hundert oder tausend zur gleichen Zeit. Damit aber die Maschine so viele Abfragen bewältigen kann, muss sie zu hohen Kosten hochskaliert, größer und leistungsfähiger gemacht werden – und dies rein für die potenzielle Möglichkeit, dass mehr Abfragen erfolgen. Denn obwohl deren Zahl nicht planbar ist, fallen die Kosten in jedem Fall an. Problematisch gestaltet sich außerdem die Datenübertragung: Kommen viele Abfragen simultan, ist auch eine besonders leistungsstarke Netzwerkanbindung erforderlich, die nicht immer garantiert werden kann.
Auftritt massiv parallele Architektur
Hinter einer massiv parallelen Architektur steckt die Idee, dass Daten nicht mehr nur auf einer Maschine liegen, sondern auf beliebig vielen. Die Idee dahinter: Wollen nun mehr Klienten auf die Daten zugreifen, werden die Daten entsprechend repliziert. Eine aktuelle massiv parallele Architektur ist das Lakehouse. Es verteilt – wie beschrieben – die Daten nicht nur auf mehreren Maschinen, sondern erlaubt auch den direkten Zugriff auf die Daten. Voraussetzung dafür ist aber, dass die Klienten ihre eigene Rechenleistung beitragen. In diesem System gibt es nämlich statt einer Datenbank, über die die gesamte Arbeit komplett mit teurer Rechenleistung abgewickelt wird, nur noch einen Data Lake als reinen und äußerst kostengünstigen Speicherplatz.
Um im Bibliotheksbild zu bleiben: Man braucht keinen Bibliothekar mehr, zu dem alle mit ihren Anliegen kommen und der deswegen immer schneller werden muss. In dieser neuen Architektur kann jeder Klient selbst in einem zentralen Register nach seinen Daten suchen und bringt die jeweils für die Abfrage notwendige Rechenleitung einfach mit. Daher verkraftet es das System sogar, wenn mehrere hundert Data Scientists gleichzeitig darauf zugreifen.
In einem solchen Lakehouse können zudem problemlos polystrukturierte Daten gespeichert werden. Es stellt darüber hinaus mithilfe von analytischen Tabellenformaten wie beispielsweise Apache Iceberg durchgängig sicher, dass diese stets konsistent sind. Auch wenn mehrere Klienten gleichzeitig auf dieselben Daten zugreifen, sie lesen oder ändern, besteht somit keine Gefahr eines korrupten Datenbestands. Zum Vergleich: Das konnte der Bibliothekar nur garantieren, indem er darauf achtete, dass erst der eine liest und danach erst der andere eine Änderung vornimmt.
Für den Fall, dass ein Anwender nicht in der Lage ist, eigene Rechenleistung mitzubringen, oder Unterstützung für die Datenabfrage braucht, gibt es Dienste wie der von QUNIS-Partner Dremio. Sie stellen sozusagen als helfender Bibliothekar über eine Data Lake Engine bereits fertige Cluster zur Verfügung. Darüber kann beispielsweise ein Controller in seiner gewohnten Umgebung und auf einer anwenderfreundlichen Oberfläche so arbeiten, als würde er direkt auf die Datenbank zugreifen. Da diese Struktur ebenfalls massiv parallel aufgebaut ist, sind auch hier mehrere Zugriffe gleichzeitig möglich, ohne dass es zu Konflikten kommen kann.
Aus homogen wird heterogen
Die massive Parallelität geht unbestritten mit einer gewissen Komplexität einher. Vorher war die Welt homogen und dadurch relativ einfach: Es gab eine Lösung, eine Technologie, eine Datenbank und darüber ließen sich alle Probleme lösen. In massiv parallelen Strukturen hingegen muss sich jeder selbst um den Data Lake kümmern und zudem jedes Mal eigene Rechenleistung beisteuern. Das kann man natürlich grundsätzlich als Nachteil ansehen.
Heterogenität und Offenheit für unterschiedliche Technologien bieten aber auch Vorteile, wenn etwa mehrere Anwender im Zugriff auf dieselbe Datenbank problemlos völlig verschiedene Programmiersprachen nutzen können. In modernen datengetriebenen Unternehmen, in denen möglichst jeder Mitarbeiter mit Daten arbeiten soll, die in großer Zahl vorliegen, kommt man an einer solch hochskalierbaren Architektur ohnehin kaum mehr vorbei.
Schon länger bekanntes Prinzip
Massiv parallele Datenarchitekturen und Datenbanken gibt es übrigens schon seit den 1990er-Jahren. Allerdings handelte es sich damals noch um rein proprietäre und dadurch sehr teure Technologien. Als Gamechanger zeigte sich die Mitte der 2010er-Jahre die Entwicklung nichtproprietärer Technologien mit offeneren Architekturen. Jedoch waren diese für die meisten Unternehmen damals noch nicht so wichtig, weil häufig nur eine kleine Abteilung überhaupt mit Daten gearbeitet hat und auch die Datenmenge noch nicht annähernd so hoch war wie heute.
In den vergangenen Jahren hat sich das enorm gewandelt: Mittlerweile will nahezu jeder Unternehmensbereich permanent Zugriff auf alle Daten haben sowie eigene Datenprodukte erstellen, selbstständig veröffentlichen und mit anderen teilen. Durch den stetig steigenden Bedarf waren die alten Architekturen daher ab einem gewissen Punkt nicht mehr tragfähig. Mit der Ablösung der teuren proprietären Systeme durch moderne Cloud-Architekturen ist die Einstiegshürde naturgemäß deutlich niedriger. So kann man zum Beispiel über ein Cloud-basiertes Pay-as-you-go-Modell sehr komfortabel und dazu kostengünstig mächtige Technologien nutzen und muss nicht erst Millionen-Euro-Beträge in technologisch aufgerüstete Serverschränke investieren. Stattdessen greifen die Anwender einfach on-demand auf die Daten zu, wenn sie sie brauchen, fahren dann entsprechend die Rechenleistung hoch und zahlen auch nur genau dafür.
Mag die massive Parallelität als Konzept relativ statisch sein, ist doch der Markt überaus dynamisch. Das Konzept wird in allen Bereichen kontinuierlich weiterentwickelt – so entstehen immer wieder neue Angebote und damit spannende Möglichkeiten, die es bislang nicht gab und die die Unternehmen in Zeiten von Big Data Gewinn bringend nutzen können.
(ID:49586123)