Ein ML-Entwicklungssystem und: Künstliche Intelligenzen lernen voneinander KI-System und Swarm Learning mit HPE

Von Ulrike Ostler

Hewlett Packard Enterprise bringt mit „HPE Swarm Learning“ eine Software für das dezentrale KI-Training auf den Markt. Damit können verschiedene Standorte und Organisationen KI-Trainingsergebnisse teilen, ohne Rohdaten auszutauschen. Um das Training von KI-Modellen zu beschleunigen oder erst einmal zu ermöglichen, bietet HPE ein Komplettsystem an: eine Softwareplattform für Maschinelles Lernen, HPC-Systeme, Beschleuniger, Netzwerke und System-Management.

Anbieter zum Thema

Hewlett-Packard Enterprise bringt mit „HPE Swarm Learning“ eine Software für das dezentrale KI-Training auf den Markt und stellt mit „HPE Machine Learning Development System“ ein Komplettsystem für KI und ML vor.
Hewlett-Packard Enterprise bringt mit „HPE Swarm Learning“ eine Software für das dezentrale KI-Training auf den Markt und stellt mit „HPE Machine Learning Development System“ ein Komplettsystem für KI und ML vor.
(Bild: gemeinfrei: joakant / Pixabay )

Das „HPE Machine Learning Development System“ ist eine integrierte und vorkonfigurierte KI-Infrastruktur, die sofort einsetzbar ist. Als Teil des Angebots bietet „Pointnext Services“ eine Vor-Ort-Installation und ein Software-Setup. Das System ist sofort als Basismodul mit Erweiterungsoptionen verfügbar. Die kleine Konfiguration enthält:

  • Das „HPE Machine Learning Development Environment“, womit Unternehmen Modelle schnell entwickeln, iterieren und skalieren können – von der Testphase bis zur Produktionsreife. Die ML-Software stammt aus der Übernahme von Determined AI und wurde inzwischen umbenannt.
  • Das „HPE Apollo 6500 Gen10 Plus“- System, das Rechenkapazität zum Trainieren und Optimieren von KI-Modellen bietet und mit 8 „Tensor-Core“-GPUS von Nvidia mit 80 Gigabyte (GB) Arbeitsspeicher bestückt ist
  • System-Management mit der Software „HPE Performance Cluster Management“, dem Server „Proliant DL325“ und 1Gb-Ethernet-Switches des Typs „Aruba CX 6300“.
  • Hochgeschwindigkeitsübertragung mit „Nvidia Quantum Infiniband“

Das HPE-System trägt unter anderem dazu bei, die Genauigkeit der Modelle durch verteiltes Training, automatische Hyperparameter-Optimierung und Neural Architecture Search zu verbessern. Zu den Pilotanwendern des HPE Machine Learning Development System gehört das deutsche Startup Aleph Alpha.

Das „HPE Machine Learning Development System“ soll die Komplexität von KI-Projekten reduzieren und die Zeit bis zum Produktiveinsatz merklich verkürzen.
Das „HPE Machine Learning Development System“ soll die Komplexität von KI-Projekten reduzieren und die Zeit bis zum Produktiveinsatz merklich verkürzen.
(Bild: HPE)

Das Unternehmen trainiert mit dem HPE-System sein multimodales KI-Modell, das Natural Language Processing (NLP) und Computervision verbindet. Das Modell kombiniert damit Bild- und Texterkennung für fünf Sprachen mit einem menschenähnlichen Kontextverständnis. Nach der Bereitstellung des HPE Machine Learning Development System konnte Aleph Alpha in Rekordzeit mit dem Training beginnen. Zum Einsatz kommen dabei Hunderte von GPUs.

Jonas Andrulis, Gründer und CEO von Aleph Alpha, erläutert: „Das HPE Machine Learning Development System gibt uns eine erstaunliche Effizienz und eine Leistung von mehr als 150 TeraFlops. Das System wurde schnell aufgesetzt, und wir konnten mit dem Modell-Training innerhalb von Stunden anstatt erst nach Wochen beginnen.“ Er setzt hinzu: „Angesichts unserer gewaltigen Workloads und unserer laufenden Forschungstätigkeit ist es ein großer Vorteil, sich auf eine integrierte Lösung für Deployment und Monitoring verlassen zu können.“

Notwendig: Nutzerfreundlichkeit erhöhen und Komplexität senken

Laut IDC haben Unternehmen in Bezug auf KI-Infrastruktur im Schnitt einen niedrigen Reifegrad. Das sei oft der Grund für das Scheitern von KI-Projekten (siehe: Kasten). In der Regel erfordere die Einführung einer KI-Infrastruktur einen komplexen, mehrstufigen Prozess, der den Kauf, die Einrichtung und Verwaltung eines hochgradig parallelen Software-Ökosystems und einer maßgeschneiderten Infrastruktur umfasst.

Ergänzendes zum Thema
IDC zu den Ursachen, die KI-Projekte scheitern lassen

Die International Data Corporation (IDC) hat mit „AI Infrastructure View“ kürzlich eine tiefgehende Benchmarking-Studie zu Trends bei der Einführung von Infrastruktur und Infrastruktur als Service für Anwendungsfälle von Künstlicher Intelligenz und Maschinellem Lernen (AI/ML) vorgestellt. Die Studie, die als jährliche globale Umfrage unter 2.000 IT-Entscheidungsträgern, Geschäftsbereichsleitern und IT-Fachleuten durchgeführt wird, von denen die meisten Einfluss auf den Kauf von KI-Infrastruktur, -Services, -Systemen, -Plattformen und -Technologien haben, bietet Einblicke in die Infrastrukturanforderungen von Unternehmen, die in KI-Initiativen investieren.

Die Umfrageergebnisse zeigen, dass KI/ML-Initiativen zwar stetig an Fahrt gewinnen: 31 Prozent der Befragten gaben an, dass sie KI bereits in der Produktion einsetzen, die meisten Unternehmen befinden sich jedoch noch in der Experimentier-, Evaluierungs-/Test- oder Prototyping-Phase.

Von den 31 Prozent die KI in der Produktion einsetzen, gibt nur ein Drittel an, einen ausgereiften Zustand erreicht zu haben, in dem die gesamte Organisation von einer unternehmensweiten KI-Strategie profitiert. Für Unternehmen, die in KI investieren, sind die Verbesserung der Kundenzufriedenheit, die Automatisierung der Entscheidungsfindung und die Automatisierung sich wiederholender Aufgaben die drei am häufigsten genannten unternehmensweiten Vorteile.

Peter Rutten, Research Vice President und Global Research Lead on Performance Intensive Computing Solutions, wird auf der Spurensuche fündig: „IDC-Untersuchungen zeigen immer wieder, dass häufig unzureichende oder fehlende zweckmäßige Infrastrukturkapazitäten die Ursache für das Scheitern von KI-Projekten sind.“

Zu den wichtigsten Ergebnissen der Studie gehören:

  • Die KI-Infrastruktur ist nach wie vor eine der folgenreichsten, aber am wenigsten ausgereiften Infrastrukturentscheidungen, die Unternehmen im Rahmen ihres zukünftigen Unternehmens treffen. Unternehmen haben noch immer keinen Reifegrad ihrer KI-Infrastruktur erreicht - dazu gehören Anfangsinvestitionen, die Realisierung der Vorteile und der Investitionsrendite sowie die Sicherstellung der Skalierbarkeit der Infrastruktur, um den Anforderungen des Unternehmens gerecht zu werden.
    Hohe Kosten sind nach wie vor das größte Investitionshindernis, was viele dazu veranlasst, ihre KI-Projekte in gemeinsam genutzten öffentlichen Cloud-Umgebungen durchzuführen. Die hohen Vorlaufkosten verleiten viele dazu, an der falschen Stelle zu sparen und damit das Problem zu verschärfen.
    Menschen, Prozesse und Technologie sind nach wie vor die drei Schlüsselbereiche, in denen die Herausforderungen liegen und auf die Unternehmen ihre Investitionen konzentrieren müssen, um größere Chancen zu haben.
  • Der Umgang mit Daten ist jdoch die größte Hürde für Unternehmen, wenn sie in eine KI-Infrastruktur investieren. Den Unternehmen fehlt die Zeit, um KI-Modelle zu entwickeln, zu trainieren und einzusetzen. Sie geben an, dass sie einen Großteil ihrer KI-Entwicklungszeit allein für die Datenaufbereitung aufwenden.
    Vielen fehlt auch das Fachwissen oder die Fähigkeit, Daten aufzubereiten. Dies führt zu einem neuen Markt für vortrainierte KI-Modelle.
    Doch wie alles, was es von der Stange gibt, haben auch die vorgefertigten Modelle ihre Grenzen. Dazu gehören die Verfügbarkeit und Anpassungsfähigkeit des Modells, Einschränkungen der Infrastruktur für die Ausführung des Modells und unzureichende interne Fachkenntnisse. Außerdem werden die Modelle immer größer, was es schwierig macht, sie auf einer universellen Infrastruktur auszuführen. Die Unternehmen gehen davon aus, dass sie, sobald sie diese Hürde überwunden haben, ihre Bemühungen auf die KI-Inferenzierung verlagern werden.
  • Die Investitionen in die KI-Infrastruktur folgen bekannten Mustern in Bezug auf Rechen- und Speichertechnologien vor Ort, in der öffentlichen Cloud und an der Edge. Unternehmen investieren zunehmend in öffentliche Cloud-Infrastrukturdienste, aber für viele ist und bleibt der Standort vor Ort der bevorzugte.
    Für KI-Training und Inferencing wird heute zu gleichen Teilen in die Cloud, vor Ort und am Edge investiert. Viele Unternehmen gehen jedoch zu KI-Datenpipelines über, die sich zwischen ihrem Rechenzentrum, der Cloud und/oder dem Edge erstrecken. Edge bietet Betriebskontinuität, wenn keine oder nur eine begrenzte Netzwerkkonnektivität vorhanden ist.
    Sicherheit/Compliance und Kosten spielen ebenfalls eine Rolle.
    GPU-beschleunigte Rechenleistung, Host-Prozessoren mit KI-unterstützender Software und Cluster mit hoher Dichte sind die wichtigsten Anforderungen an eine On-Premises/Edge- und Cloud-basierte Recheninfrastruktur für KI-Training und Inferencing. FPGA-beschleunigte Rechenleistung, Host-Prozessoren mit KI-verstärkender Software oder GPUs vor Ort und HPC-ähnliche Scale-up-Systeme sind die drei wichtigsten Prioritäten für eine standort-/edge-basierte Recheninfrastruktur für KI-Inferencing. In der Cloud stehen GPU-Beschleunigung und ein Host-Prozessor mit KI-Boost ganz oben auf der Prioritätenliste, gefolgt von hochdichten Clustern. Derzeit nutzen mehr KI-Workloads Block- und/oder Datei- als Objektdaten.

Eric Burgener, Research Vice President, Storage and Converged System Infrastructure bei IDC, stellt heraus: „Es wird immer deutlicher, dass Investitionen in eine zweckmäßige und richtig dimensionierte Infrastruktur erforderlich sind, um konsistente, zuverlässige und verkürzte Zeiten für Erkenntnisse und Geschäftsergebnisse zu erzielen.“

Künstliche Intelligenzen lernen voneinander

Zunächst setzt Justin Hotard, Executive Vice President und General Manager, HPC & AI, HPE, für alle Unbedarften auseinander, was Swarm Learning überhaupt sein soll: „Schwarmlernen ist ein neuer, leistungsstarker KI-Ansatz, mit dem bereits Fortschritte bei der Bewältigung globaler Herausforderungen erzielt wurden – etwa bei der Verbesserung der Gesundheitsversorgung und beim Erkennen von Anomalien in der Betrugsaufdeckung und bei der vorausschauenden Wartung.“

Der Clou dabei: Die Daten, die von KI-Systemen interpretiert werden, können aus verschiedenen Quellen kommen und müssen trotzdem nicht verschoben, dupliziert oder ausgetauscht werden (siehe Video: „What is Swarm Learning?“). „HPE trägt auf bedeutende Weise zur Verbreitung des Schwarmlernens bei, indem es eine für größere Organisationen geeignete Lösung bereitstellt, mit der diese zusammenarbeiten, Innovationen voranbringen und die Leistung ihrer KI-Modelle steigern können – während sie zugleich ihre ethischen, datenschutzrechtlichen und regulatorischen Standards einhalten“, so Hotard.

HPE Swarm Learning löst Probleme des zentralisierten KI-Trainings

Das Problem bisher: KI-Modell-Training findet üblicherweise an einem zentralen Standort mit zentralisierten Datensätzen statt. Dieser Ansatz kann jedoch ineffizient und kostspielig sein, wenn große Datenmengen an einen Ort geschickt werden müssen. Oft verhindern zudem Datenschutz oder Bedenken hinsichtlich der Datensouveränität eine Zentralisierung der Daten. Die Folge kann sein, dass zu wenige Daten für das KI-Training zur Verfügung stehen.

HPE Swarm Learning versetzt Organisationen in die Lage, verteilte Datenquellen für das KI-Training zu nutzen, ohne dass die Quelldaten transferiert werden. Stattdessen teilen sie KI-Trainingsergebnisse in Form von Modellparametern.

Mit der HPE-Software „Swarm Learning“ können Standorte oder Organisationen KI-Lernergebnisse austauschen, ohne den Datenschutz zu verletzen.
Mit der HPE-Software „Swarm Learning“ können Standorte oder Organisationen KI-Lernergebnisse austauschen, ohne den Datenschutz zu verletzen.
(Bild: HPE)

Dieses Verfahren wird über eine Blockchain organisiert. Sie steuert beispielsweise die Aufnahme von Schwarm-Mitgliedern und die wiederkehrende Wahl eines Mitglieds, das im jeweiligen Trainingszyklus die Modellparameter zusammenführt. Das gibt dem Schwarmnetzwerk Stabilität und Sicherheit. Zudem können große Datenmengen für das KI-Training erschlossen werden, ohne den Datenschutz oder die Datensouveränität zu beeinträchtigen.

Zu den möglichen Einsatzgebieten von HPE Swarm Learning gehören beispielsweise die folgenden:

  • Krankenhäuser können KI-Trainingsergebnisse etwa aus CT- und MRT-Scans oder aus Genexpressionsdaten mit anderen Krankenhäusern teilen, um die Diagnose von Krankheiten zu verbessern und gleichzeitig die Patientendaten zu schützen.
  • Banken und Finanzdienstleister können Kreditkartenbetrug bekämpfen, indem sie betrugsrelevante Modellparameter mit mit anderen Finanzinstituten austauschen.
  • Fertigungsstandorte können mit Schwarmlernen ihre vorausschauende Wartung verbessern, indem sie Trainingsergebnisse aus Sensordaten aus mehreren Produktionsstandorten sammeln.

Erfolge in der Krebsforschung und in der Betrugserkennung

Zu den ersten Anwendern von HPE Swarm Learning gehört ein Team von Krebsforschern am Universitätsklinikum der RWTH Aachen. Dieses hat eine Studie durchgeführt, um die Diagnose von Darmkrebs zu verbessern, indem es KI auf die Bildverarbeitung anwendet. Damit will man genetische Veränderungen vorhersagen, die dazu führen können, dass Zellen krebsartig werden.

Die Forscher haben KI-Modelle mithilfe von HPE Swarm Learning mit Patientendaten aus Irland, Deutschland und den USA trainiert und die Vorhersageleistung mit zwei unabhängigen Datensätzen aus Großbritannien verglichen. Die Ergebnisse haben gezeigt, dass Schwarmlernen die KI-Modelle übertroffen hat, die nur auf lokalen Daten trainiert wurden.

Tigergraph, ein auf Betrugserkennung spezialisierter Anbieter von Graph-Analyse-Lösungen, kombiniert HPE Swarm Learning mit seinen eigenen Analysewerkzeugen, um ungewöhnliche Vorgänge bei Kreditkartentransaktionen möglichst schnell zu erkennen. Die Kombination erhöht die Genauigkeit beim Trainieren von ML-Modellen aus riesigen Mengen von Finanzdaten, die von mehreren Banken und Filialen an verschiedenen Standorten stammen.

Artikelfiles und Artikellinks

(ID:48265041)