Künstliche Intelligenz im Eigenbau

Übersicht KI- und ML-Stacks, Teil 2 Künstliche Intelligenz im Eigenbau

16.09.2019Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska / Nico Litzel

Eine kaum noch überschaubare Vielzahl an KI/ML-Frameworks, -Bibliotheken und -Diensten buhlt um die Gunst innovativer Unternehmen. So wird Big Data zur Goldgrube.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Fivetran Germany GmbH

15,7 Billionen US-Dollar – diese Summe können KI-Lösungen Schätzungen zufolge bis 2030 zur Weltwirtschaft beitragen.
(Bild: gemeinfrei / Pixabay )

KI-Lösungen könnten bis 2030 einen Beitrag zur Weltwirtschaft in Höhe von satten 15,7 Billionen US-Dollar leisten, schätzt das Beratungshaus PwC. Zum einen ließe sich diese zusätzliche Wertschöpfung auf Produktivitätsgewinne, zum anderen auf die gestiegene Verbrauchernachfrage zurückführen. Wie dem auch sei: Für KI-basierte Wertschöpfung müssen die betroffenen Unternehmen selbst den Grundstein legen.

Den Grundstein für KI/ML legen

Bei einem KI-Stack handelt es sich um den geballten technologischen Unterbau einer KI-Anwendung zur Datenanalyse, der sich aus einzelnen voneinander klar abgegrenzten Bestandteilen zusammensetzt. (Der Begriff Stack bezeichnete in der Informatik ursprünglich eine Datenstruktur, die eine Sammlung von Objekten speichern sollte.) Dem konzeptionellen Aufbau eines KI-Stacks widmete sich der Beitrag „Voll bestückt: KI-Engines im Bündel mit Hardware“. In dem vorliegenden Bericht geht es um praktische Herausforderungen.

Die Notwendigkeit zur Echtzeit-Auswertung massiver Datenströme stoß in den vergangenen Jahren auf sinkende Kosten der Rechenleistung und beachtliche Fortschritte in massiver Parallelisierung, nicht zuletzt dank der Cloud. Die eifrigen Versuche, komplexe mathematische Berechnungen mithilfe von KI/ML-Frameworks in moderne, skalierbare Lösungen zu gießen, können so endlich Früchte tragen.

Die Vielfalt von KI/ML-Frameworks und Bibliotheken ist beinahe erdrückend. Die leistungsstärksten dieser Lösungen sind in der Regel quelloffen, was das Vertrauen in ihren Unterbau stärken und deren Weiterentwicklung fördern soll.

TensorFlow: Dieses quelloffene ML-Framework wurde von Google zur Durchführung komplexer numerischer Berechnungen an Big Data entwickelt und ist heute unter anderem bei AMD, SAP, Google, Intel und Nvidia im Einsatz

Torch: Dieses quelloffene GPU-optimierte KI-Framework für wissenschaftliches Computing in LuaJIT (einem Just-In-Time Compiler für Lua, die führende Skriptsprache der Computerspielindustrie); zu der Nutzung dieses Frameworks bekennen sich unter anderem Google, Facebook und Twitter.

Caffe: Dieses quelloffene ML-Framework der UC Berkeley für Deep Learning richtet besonderes Augenmerk auf Computer-Vision

Theano: Bei dieser Lösung handelt es sich um eine Python-Bibliothek, mit der sich mathematische Ausdrücke mit mehrdimensionalen Arrays definieren, optimieren und auswerten lassen.

Apache Mahout: Dieses verteilte lineare Algebra-Framework verfügt über eine mathematisch ausgeprägte Scala-DSL (Domain-Specific Language), die Mathematikern, Statistikern und Datenwissenschaftlern die Implementierung eigener Algorithmen erleichtern soll. Das empfohlene Back-End ist das standardmäßig verteilte Apache Spark, aber auch andere Lösungen lassen sich mit Mahout integrieren.

PyTorch: Dieses beliebte quelloffene Framework für Deep Learning unter Verwendung von dynamischen neuronalen Netzen ermöglicht die Entwicklung von KI/ML-Algorithmen für Anwendungen wie Computer-Vision oder die Verarbeitung natürlicher Sprache in Python.

Keras: Bei dieser Lösung handelt es sich um ein in Python geschriebenes High-Level-API für künstliche neuronale Netzwerke auf der Basis von TensorFlow, CNTK oder Theano; sie ermöglicht die schnelle Umsetzung von Experimenten.

Die leistungsstärksten KI/ML-Frameworks sind in der Regel quelloffen.

Die Programmierumgebung von TensorFlow setzt sich aus mehreren API-Schichten zusammen.
(Bild: Tensorflow.org)

Mithilfe zusätzlicher Bibliotheken können Entwickler den KI-Frameworks erweiterte Features wie maschinelles Sehen (OpenCV) verleihen. Das sprichwörtliche Tüpfelchen auf dem i in einem KI-Stack bilden Visualisierungswerkzeuge wie MATLAB, Seaborn oder Facets. Mithilfe dieser Tools können Datenwissenschaftler die aus Big Data gewonnenen Erkenntnisse knackig auf den Punkt bringen. Kollaborative Anwendungen und Dienste zur Workflow-Automatisierung wie Jupyter, Anaconda oder GitHub runden einen KI/ML-Stack ab.

Viele der beliebtesten quelloffenen KI/ML-Frameworks sind als vollständig gemanagte Dienste bei den großen Cloud-Anbietern im Pay-as-you-go-Bereitstellungsmodell verfügbar. So lässt sich zum Beispiel Googles TensorFlow nicht nur in Googles eigener Cloud, sondern auch u. a. auf AWS und Microsoft Azure nutzen. Apache Spark werkelt unter anderem im Inneren von Azure Databricks, einem Big-Data-Dienst von Microsoft.

Die verschiedenen Cloud-Anbieter zeigen sich bemüht, durch Alleinstellungsmarkmale wie KI-optimierte Hardwarebeschleuniger oder die verbesserte Integration mit anderen Big-Data-Diensten zu trumpfen. Googles Cloud-Implementierung von TensorFlow läuft beispielsweise auf einer speziell hierzu entwickelten Chip-Architektur, der sogenannten TPU (Tensor Processing Unit), einem leistungsstarken KI-Beschleuniger in ASIC-Architektur.

Die Qual der Wahl

Beim Entwurf ihrer eigenen KI/ML-Stacks betreten Unternehmen Neuland — und haben dabei die Qual der Wahl. Wer sich auf industriespezifische Lösungen wie die DRIVE-Plattform von NVIDIA nicht verlassen möchte, dem steht es frei, die gewünschte KI/ML-Plattform samt der benötigten Entwicklungsumgebung auf der Basis quelloffener Frameworks zusammenzustellen, sei es in Eigenregie oder mit der tatkräftigen Unterstützung eines kompetenten Partners. Die Aufgabe erfordert ein breit gefächertes Spektrum an Kompetenzen, die sich dem einen oder anderen Mittelständler nicht so ohne Weiteres erschließen.

Viele Unternehmen vertrauen daher lieber auf schlüsselfertige Integrationen wie beispielsweise MindSphere Predictive Learning, die IoT-Plattform von Siemens. Lösungen wie MindSphere reduzieren den administrativen Overhead und gewähren ihren Nutzern dennoch einen beachtlichen Spielraum für bedarfsgerechte Anpassungen.

Die Architektur von MindSphere auf einen Blick
(Bild: Siemens)

Mit dem Modul Predictive Learning Data Science Workbench erhalten die Nutzer von MindSphere Zugriff auf ein Apache Zeppelin Notebook für die Entwicklung von Datenmodellen für eine interaktive Datenanalyse. Siemens bietet hierzu verwaltete Zeppelin-Instanzen mit vorkonfigurierten Deep-Learning-Integrationen. Diese umfassen Lösungen wie TensorFlow, Keras und Theano sowie Bibliotheken des maschinellen Lernens wie MLlib von Apache Spark an. Die Nutzer dieser Dienste reservieren die benötigte Rechenleistung und schon können sie ihre Big-Data-Bestände mithilfe eigener Datenmodelle erforschen.

Eingespielt: quelloffene Orchestrierungs-Tools für KI/ML-Workloads

Als die führende Lösung zur Orchestrierung von KI/ML-Workloads gilt mit Abstand Googles quelloffene Orchestrierungsframework Kubernetes. Zur Verwaltung dieser Software setzen viele Entwicklungsschmieden wiederum ein anderes Framework namens Kubeflow ein.

KI/ML-Algorithmen wie neuronale Netze lassen zumindest in der Training-Phase massive Datenmengen über sich „ergehen“; KI/ML-Stacks müssen daher sowohl die horizontale Skalierbarkeit beherrschen als auch die Übergabe von Daten in diese verteilten Architekturen meisten. Cloud-Anbieter können hier mit eigens für diese Zwecke entwickelten Datendiensten auftrumpfen.

So kann beispielsweise Kinesis von Amazon Big-Data-Ströme aus mobilen Anwendungen und anderen IoT-Endpunkten zur Auswertung durch KI in Apache Spark auf EMR einfließen. Ob das allerdings so gut ist, wenn personenbezogene Daten oder andere sensible Informationen in öffentlichen Clouds „die Runde machen“, mag bezweifelt werden. Denn der Einsatz von Cloud-Diensten für die Verarbeitung sensibler Daten geht trotz ausgeklügelter Schutzmaßnahmen mit erheblichen Risiken einher.

Ein KI-Stack auf AWS: Architektur einer Beispiellösung zum Auswerten von Telefongesprächen eines Contact Centers durch einen Transkriptionsservice mithilfe von KI (mit Unterstützung für Deutsch).
(Bild: AWS)

Missbrauchspotenzial

Tesla, der kalifornische Pionier autonomer Fahrzeuge, fiel in der Cloud einer Cryptomining-Attacke zum Opfer. Eine unsichere Konsole des Container-Orchestrators Kubernetes habe es Angreifern im Februar 2018 ermöglicht, die Rechenressourcen von AWS für eigene Zwecke zu entwenden. Als ein Nebeneffekt erlangten die Eindringlinge Zugang zu einem S3-Bucket mit proprietären Daten von Tesla. Die Täter sollen hierbei den legitimen Dienst CloudFlare als einen Proxy missbraucht haben, um die wahre Natur ihrer Absichten zu verschleiern. Den Vorfall haben Sicherheitsexperten von RedLock, eines Anbieters von Lösungen zur Cloud-Verteidigung, nur rein zufällig aufgedeckt. Die Eindringlinge machten sich mit ca. drei Millionen US-Dollar an geschürfter Kryptowährung Monero auf und davon. Tesla blieb auf der AWS-Rechnung sitzen.

Der Vorfall illustriert das enorme Potenzial für den Missbrauch von Orchestrierungslösungen wie Kubernetes in der Public-Cloud. „Die Public-Cloud-Umgebung eines Unternehmens eignet sich hervorragend [für solche Attacken]“, kommentierte seiner Zeit Gaurav Kumar, der CTO bei RedLock.

Praktisch alle relevanten KI-Frameworks sind zum Glück quelloffen und so steht es den Nutzern frei, ihre KI/ML-Algorithmen anhand der eigenen Datenbestände in einer isolierten Umgebung unternehmenseigener On-Premise-Infrastrukturen zu trainieren. Diese Vorgehensweise fordert von den Unternehmen natürlich entsprechende Kompetenzen, um ein reibungsloses Zusammenspiel der benötigten Softwarebestandteile eines KI/ML-Stacks zu gewährleisten.

Zu viel geballte Eigeninitiative: KI/ML-Systemen Grenzen setzen

Das Analystenhaus PwC warnt vor Risiken wie der Voreingenommenheit von Algorithmen und deren ethischen Implikationen. Unbeaufsichtigtes Lernen (unsupervised learning) durch KI/ML-Systeme mag unvermeidlich sein, doch auch solchen Lösungen müssen ihre Schöpfer gewisse Grenzen setzen. Eben diese Lektion musste unter anderem Microsoft lernen — zum Leidwesen der Verantwortlichen sogar noch vor den Augen der Öffentlichkeit: mit seinem KI-gestützten Twitter-Chatbot Tay.

Tay hatte die Aufgabe, PR-wirksame Twitter-Diskussionen mit interessierten Nutzern zu führen und sich im Laufe dieser Interaktionen mittels KI weiter zu entwickeln. Das klappte anfangs ja auch recht gut — ein paar Stunden lange. In dieser kurzen Zeit hat sich Tay von dem schelmischen Benehmen einiger Provokateure die widerlichsten Unsitten angeeignet und begann, in öffentlichen Diskussionen auf Twitter üble Eigenkreationen zum Besten zu geben — ein klassisches Beispiel von kontradiktorischem Lernen (engl. adversarial learning). Innerhalb von weniger als 24 Stunden musste Microsoft seiner amokgelaufenen KI den sprichwörtlichen Stecker ziehen.

Auch Facebook musste lernen, KI-Systemen Grenzen zu setzen. Das Unternehmen hatte zwei KI-Chatbots entwickelt, die sich menschenähnliches Verhandlungsgeschick aneignen sollten. Im Zuge ihres unbeaufsichtigten Lernens haben „Bob“ und „Alice“ stattdessen eine eigene, für Menschen völlig unverständliche Sprache entwickelt und so die „Effizienz“ ihrer Interaktionen „verbessert“. Facebook hat das Projekt eingestellt.

Nicht uneigennützig

In seiner Kritik von ungebändigter KI ist PwC natürlich nicht selbstlos. Das Analystenhaus möchte für das Problem ja auch eine Lösung gefunden haben. Mit dem Responsible AI Toolkit hat PwC eine Sammlung von anpassbaren Frameworks, Werkzeugen und Prozessen vorgestellt, mit der sich das Potenzial von KI „auf eine ethische und verantwortungsbewusste Art und Weise“ nutzen lasse.

Dank des Responsible AI Toolkits von PwC sollen Unternehmen in der Lage sein, die Früchte ihrer KI-Stacks im Hinblick auf regulatorische wie auch ethische Gesichtspunkte in den Griff zu bekommen.

Fazit

KI-gestützte Wertschöpfung aus Big Data braucht grundsoliden Unterbau eines robusten KI-Stacks. Beim Entwurf einer Big-Data-Analysesoftware mit KI-Fähigkeiten betreten die Unternehmen leider immer noch Neuland. An Tücken und Stolperfallen mangelt es nicht.

Wer es dennoch schafft, die Elemente eines KI-Stacks gut aufeinander abzustimmen und der Aufgabe gerecht zu gestalten, kann aus dem enormen Potenzial, der in Big Data schlummert, mit beiden Händen schöpfen. Innovative Marktteilnehmer haben es vorgemacht: Die gewünschten Resultate lassen nicht lange auf sich warten.

Feuer und Flamme: Sind die Komponenten eines KI/ML-Stacks gut aufeinander abgestimmt, geht einem ein Licht auf. (April Pethybridge/Unsplash und Autoren)

(ID:46131223)