Containerisierung Big Data in Docker-Containern

Von Filipe Martins und Anna Kobylinska |

Anbieter zum Thema

Der Kostendruck auf die Unternehmens-IT spitzt sich in vielen Branchen zu, nicht zuletzt durch die Turbo-Digitalisierung infolge der Corona-Krise. Big Data Workloads sind dagegen natürlich nicht ganz immun. Die Containerisierung von Big-Data-Anwendungen soll Abhilfe schaffen – doch wie?

Inmitten der Corona-Krise suchen Unternehmen verstärkt nach Möglichkeiten zur Steigerung der Kosteneffizienz ihrer IT. Big Data Workloads sind da keine Ausnahme und Container können ein hierfür probates Mittel sein.
Inmitten der Corona-Krise suchen Unternehmen verstärkt nach Möglichkeiten zur Steigerung der Kosteneffizienz ihrer IT. Big Data Workloads sind da keine Ausnahme und Container können ein hierfür probates Mittel sein.
(Bild: gemeinfrei / Pixabay)

Große Unternehmen fürchten die Datenintelligenz ihrer Mitbewerber. Diese Erkenntnis bestätigt die achte Edition der Studie „Big Data and AI Executive Survey“ des Beratungsunternehmens NewVantage Partners LLC. An der Umfrage haben Anfang des Jahres die Chefetagen rund 70 führender Großunternehmen teilgenommen. Knapp vier von fünf der Befragten (79,4 Prozent) sollen bereits im Jahr zuvor zugestanden haben: Die Angst vor disruptiven Kräften der Marktwirtschaft und ihren flinken, agilen, datengetriebenen Mitbewerbern gebe ihnen den Ansporn, verstärkt in Big Data zu investieren.

Wenn die Großen vor der Datenintelligenz ihrer Mitbewerber schon Angst haben, was sollen die Kleinen sagen? Darin liegt gerade die neueste IT-Herausforderung des Mittelstands: Die Kosten von Big-Data-Arbeitslasten laufen leicht aus dem Ruder.

Die Flucht zu mehr Effizienz

„Wann immer eine Rezession [wie die Corona-Krise] ausbricht, flüchten die Unternehmen hin zu mehr Effizienz“, beobachtet Ashish Thusoo, Mitbegründer und CEO bei Qubole, einem Anbieter von Big-Data-as-a-Service-Lösungen (BDaaS). So auch inmitten der Corona-Krise suchen Unternehmen verstärkt nach Möglichkeiten zur Steigerung der Kosteneffizienz ihrer IT. Big Data Workloads sind da keine Ausnahme, ganz im Gegenteil. Die datengetriebene Entscheidungsfindung braucht massiv skalierbare Rechenleistung. Multipliziert über eine hohe Anzahl laufender Instanzen kommen da schnell ansehnliche Summen zusammen.

Die Containerisierung von Big-Data-Anwendungen soll die Kostenspirale unter Kontrolle bekommen. Denn im Wettbewerb zwischen On-premises- und reinen Cloud-Bereitstellungen haben die Letzteren die Nase vorne.

Bereits 3,5 Millionen Anwendungen laufen in Docker-Containern. In nahezu jeder zweiten Container-Umgebung (45 Prozent) zeichnet für die Orchestrierung Googles quelloffene Plattform Kubernetes verantwortlich, fand der Analytics-Anbieter Datadog heraus.

Der Daten-Boom noch größer nach COVID-19

Big-Data-Anwendungen waren im Unternehmensumfeld bereits vor dem Ausbruch der COVID-19-Pandemie in aller Munde. Seit dem globalen Lockdown sind sich Chefetagen des Potenzials der Datenanalyse umso stärker bewusst. In einigen Industrien wurden Big Data Workloads zur Säule der Betriebsbereitschaft.

Im COVID-19-Lockdown mussten viele Organisationen insbesondere im Gesundheitssektor, in der Logistik und in der Grundversorgung ihre IT bis an die Kapazitätsgrenzen auslasten. Inmitten des COVID-19-Lockdowns hatten diese Unternehmen natürlich keinerlei sinnvolle Möglichkeiten, um ihre eigene IT-Infrastruktur aufzurüsten. Diese Firmen mussten einige Workloads verstärkt „externalisieren“ und ihre Storage-Anforderungen ebenfalls extern decken, sei es bei Colocation-Anbietern oder in der Public Cloud.

Der neueste Siegeszug öffentlicher Cloud-Dienste ist die Fortsetzung eines langanhaltenden Aufwärtstrends, der sich auch in den neuesten Quartalsergebnissen reflektierte.

Der Umsatz von Amazon AWS stieg im ersten Quartal (also bis zum 31. März 2020) um 32,46 Prozent gegenüber dem Vorjahr (von 7,7 Milliarden US-Dollar auf 10,2 Milliarden US-Dollar). Google konnte im gleichen Zeitraum einen Umsatzsprung um satte 55 Prozent verzeichnen (von 1,8 Milliarden US-Dollar auf 2,8 Milliarden US-Dollar). Microsoft Azure hat gegenüber dem Vorjahr sogar um 59 Prozent zugelegt (über konkrete Umsatzzahlen der Sparte schweigt sich Microsoft aber aus).

Doch der bloße Umzug in die Cloud ist nicht ausreichend, um den Anforderungen von Big Data Workloads an elastische Skalierbarkeit zu genügen. „Um der beispiellosen Nachfrage gerecht zu werden, ist es notwendig, Anwendungen (...) zu containerisieren“, so Sameer Karmarkar, Mitbegründer und CTO des Container-Spezialisten CloudHedge Technologies.

Mit KI anpacken

Im Vorjahr (2019) waren laut der Studie von NewVantage Partners LLC 54,4 Prozent der befragten Entscheidungsträger der Ansicht, dass die Unfähigkeit, flink zu sein und auf der Basis von Datenintelligenz zu konkurrieren, die größte Bedrohung ihrer Wettbewerbsfähigkeit darstellte. 98,8 Prozent der befragten Führungskräfte in der aktuellen Umfrage (2020) gaben gegenüber NewVantage Partners an, dank ihrer Big-Data- und KI-Initiativen „ein flexibles, datengesteuertes Unternehmen“ werden zu wollen (ein Jahr zuvor hatten diese Zielsetzung immerhin 97,2 Prozent zugestanden). Dies gestaltet sich aber offenbar alles andere als einfach.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Für knapp drei von vier der Teilnehmer stellen Big-Data- und KI-Initiativen nach wie vor eine kontinuierliche Herausforderung dar (73,4 Prozent im Jahre 2020 gegenüber 77 Prozent im Vorjahr).

Big Data und kognitives Computing sind untrennbar ineinander verwebt. Doch erst 14,6 Prozent der befragten Firmen konnten Künstliche Intelligenzen auf ihre Daten folgenschwer loslassen; KI-Workloads haben in den Unternehmen vorerst höchstens eine experimentelle Reichweite.

Die Hauptursachen für die Probleme der Implementierung von Big-Data-Lösungen sehen die Betroffenen in ihren Mitarbeitern und ihren internen Prozessen. Die Umsetzung von Big Data Workloads ist in der Praxis offenbar zu schwierig, erst recht in Containern. Unternehmen, die zur Bereitstellung containerisierter Workloads einen Orchestrierer verwenden, durchlaufen den Lebenszyklus ihrer Instanzen in der Regel bis zu zwei Mal so schnell wie Unternehmen, die ihre Container ohne Orchestrierung ausführen, beobachten die Analysten von Datadog.

Etablierte Softwareanbieter wie HPE haben die Zeichen der Zeit erkannt und wollen den Unternehmen bei ihren Big-Data-Workloads mit containerisierten, orchestrierten Gesamtlösungen unter die Arme greifen.

Elastizität: Unternehmen mit containerisierten Arbeitslasten nutzen Node.js und Go viel öfter als Organisationen, die keine Container einsetzen
Elastizität: Unternehmen mit containerisierten Arbeitslasten nutzen Node.js und Go viel öfter als Organisationen, die keine Container einsetzen
(Bild: Datadog)

Mit Vollgas auf Bare-Metal

HPEs Container Platform, ein Erbe aus HPEs Übernahme von BlueData Software, Inc., orchestriert in der aktuellen Edition Big-Data-Anwendungen in Cloud-nativen Docker-Containern (GA-Version vom 20. März 2020). Das Besondere an dieser Lösung ist die Fähigkeit, containerisierte Anwendungen direkt auf Bare-Metal auszuführen, also ohne den Systemunterbau einer voll ausgefleischten VM. Der Verzicht auf virtuelle Maschinen fördert nicht nur eine wesentlich verbesserte Performance, sondern auch eine höhere Systemdichte zu Tage.

HPEs Container Platform versteht sich auch auf den Umgang mit dem MapR-Dateisystem, eine wichtige Voraussetzung zur Unterstützung von Hadoop-, Spark- und Kafka-Anwendungen. Zur Gewährleistung von QoS-Isolation und zur Wahrung von root-Zugangsbeschränkungen macht sich die HPE-Plattform cgroup-Scheduling des Linux-Betriebssystems zunutze.

Die MapR-Unterstützung verdankt HPEs Container Platform der strategischen Übernahme von MapR Technologies, Inc. durch HPE im Sommer des vergangenen Jahres. Mit diesem Schachzug hat sich HPE nebenbei so renommierte Kunden wie American Express, Boehringer Ingelheim, Cisco, Novartis, Samsung und TransUnion Petroleum ins Haus geholt und möchte diese mit niedrigeren Betriebskosten und einer höheren Elastizität im Vergleich zu alternativen Big Data Deployments „bei der Stange halten“.

Bisher kann HPEs Plattform nur reine Docker-Container ausführen; Support für andere OCI-konforme Formate dürfte in Kürze folgen. Bis Jahresende soll die Lösung im Rahmen von HPEs privater Cloud namens Green Lake enthalten sein und eine Bereitstellung nach einem OpEx-basierten (statt wie bisher CapEx-basiertem) Preisschema ermöglichen.

Big Data mit Docker: Die Architektur der HPE Container Platform nutzt Kubernetes zur Orchestrierung von Docker-Containern
Big Data mit Docker: Die Architektur der HPE Container Platform nutzt Kubernetes zur Orchestrierung von Docker-Containern
(Bild: HPE)

Containerisierte Big Data Workloads mit Azure Arc verwalten

Auch Microsoft, Google, IBM und der Platzhirsch AWS schlafen nicht und Karten regelmäßig mit neuen Diensten zur Container-Bereitstellung nach. Mit Docker-Containern allein können die Anbieter schon lange nicht mehr den sprichwörtlichen Blumentopf gewinnen. Da muss schon mehr Flexibilität, sprich ausgereifte Orchestrierung, her.

Microsoft trägt gerade den letzten Feinschliff auf Azure Arc auf. Der Dienst erweitert die Fähigkeiten zur Verwaltung von Azure-Bereitstellungen auf Server und Kubernetes-Cluster außerhalb Microsofts Cloud und kann so unter anderem Daten- und Datenbankdienste für externe Big-Data-Arbeitslasten verfügbar machen sowie die Einhaltung von Compliance-Richtlinien auch im Sinne der DSGVO durchsetzen. Azure Arc bietet hierbei eine zentrale Verwaltungssteuerungsebene mit Sicherheits- und Governance-Features für Arbeitslasten, die zum Beispiel auf Edge-Bereitstellungen oder in anderen Clouds außerhalb Azure gehostet werden.

Während Google und Amazon die Unternehmen per Vendor-Lock-in in ihre Plattformen einschließen wollen, zeigt sich der Latecomer Microsoft mit Diensten wie Azure Arc überraschend offener.

Die Steuerebene von Azure Arc wird in Redmond als Azure Fabric Controller bezeichnet. Jedes Mal, wenn eine Ressource bereitgestellt, skaliert, gestoppt oder beendet wird, durchläuft der Vorgang den Fabric Controller, der über den Status jeder Ressource war. Zwischen dem Fabric-Controller und den Azure-Ressourcen befindet sich eine weitere Ebene, der Azure Resource Manager (ARM), welcher den Ressourcenlebenszyklus über den jeweiligen Ressourcenanbieter – die verschiedenen Azure-Dienste – automatisiert. So fungiert zum Beispiel Azure Kubernetes als Ressourcenanbieter von Containern. Azure-Nutzer können die Konfiguration dieser Ressourcen über eine ARM-Vorlage deklarieren – eine schlichte Textdatei, die den gewünschten Status einer Ressource definiert.

Mit Azure Arc hat Microsoft die Unterstützung für Azure Resource Manager (kurz: ARM) auf Ressourcen erweitert, die außerhalb von Azure bereitgestellt werden. Dies bedeutet, dass ein physischer Server, der in einem Rechenzentrum ausgeführt wird, in den Augen des Fabric Controllers wie eine Rechenressource aussieht. Selbst VMs, die auf VMware vSphere, Amazon EC2 und Google Compute Engine ausgeführt werden, können beim Azure Resource Manager registriert werden. Jeder Windows- oder Linux-Server – auch diejenigen, die hinter einer Firewall oder einem Proxy laufen – können bei ARM registriert werden, sofern sie die benötigte Software ausführen.

Neben VMs und Containern kann Azure ARC auch Kubernetes-Cluster registrieren. Einmal an Bord lässt sich jedes externe Kubernetes-Cluster wie der Azure-eigene Kubernetes-Dienst AKS verwalten. Dies bedeutet, dass beispielsweise ein Pivotal Kubernetes Service-Cluster, der auf vSphere im unternehmenseigenen Rechenzentrum ausgeführt wird, oder auch verwaltete Kubernetes-Dienste in den Clouds konkurrierender Anbieter, also beispielsweise Amazon EKS, Google Kubernetes Engine und IBM Kubernetes Service, lassen sich bei Azure Arc registrieren und verwalten.

Im Rahmen von Azure Arc können Unternehmen moderne, Cloud-native Big-Data-Anwendungen als Microservices zum Beispiel in Containern in Kubernetes-Clustern bereitstellen.

Fazit

Wenn es darum geht, Big-Data-Arbeitslasten in den Griff zu bekommen, greifen Unternehmen zunehmend auf Kubernetes als den bevorzugten Orchestrierer von Docker-Containern zurück. Da Kubernetes im Alleingang aber zu kurz kommt, wachsen die Komplexitäten einer agilen hybriden Bereitstellung von Containern den Ops-Teams schnell über den Kopf. Führende Anbieter von Compute-Leistung haben zum Glück bereits erste Lösungen im Köcher.

(ID:46673127)