Datenanalyse-as-a-Service

Algorithmen-Marktplätze zur Auswertung von Big Data

| Autor / Redakteur: Filipe Martins und Anna Kobylinska / Nico Litzel

Die Auswertung von Big Data erfordert Kow-how. Unternehmen können sich dieses mithilfe von offenen Algorithmen-Marktplätzen leichter aneignen.
Die Auswertung von Big Data erfordert Kow-how. Unternehmen können sich dieses mithilfe von offenen Algorithmen-Marktplätzen leichter aneignen. (Bild: © Lagarto Film - stock.adobe.com)

Wer aus Big Data konkret umsetzbare Erkenntnisse gewinnen möchte, kommt um leistungsstarke Algorithmen nicht umhin. Auf einschlägigen AaaS-Marktplätzen – kurz für Algorithmen as a Service – werden Unternehmen schnell fündig.

Die Auswertung von Big Data in konkreten Anwendungsszenarien verlangt den betroffenen Unternehmen hoch spezialisiertes Know-how ab. Auf der einen Seite gilt es, eine Menge Sachverstand auf dem Forschungsgebiet der Datenwissenschaft aufzubringen und auf der anderen Seite ein umfassendes Grundlagenwissen aus verschiedenen anderen Disziplinen unter einen Hut zu bekommen.

In vielen Fällen genügt es nicht, wenn die hauseigenen KI-Entwickler das eine oder andere Big Data Framework in die Pflicht nehmen, um eigene ML-Modelle ins Leben zu rufen. Benötigt wird oft auch fachliche Expertise über den Ablauf der zu überwachenden Prozesse und dergleichen andere praktische Einzelheiten. Darüber hinaus müssen die resultierenden Modelle ja erst noch anhand von geeigneten Daten trainiert werden.

Für das betroffene Unternehmen stellt sich die Frage, wo sich die eigenen Kompetenzen am besten einsetzen lassen: in die Entwicklung eigener Algorithmen oder in das Trainieren bereits bewährter Lösungen anderer Anbieter von einem der offenen Algorithmen-Marktplätze.

Lösungsansätze zur Wertschöpfung aus Big Data

Lösungsansätze zur Auswertung von Big Data fallen grundsätzlich in eine von zwei Kategorien:

  • 1. Algorithmen für generische Problemstellungen lassen sich anhand konkreter Daten mit einer hinreichend großen Genauigkeit für konkrete praktische Anwendungsszenarien trainieren und so von Anwendungsfall zu Anwendungsfall übertragen;
  • 2. Algorithmen für anwendungsspezifische Problemstellungen entstehen maßgeschneidert für das jeweils avisierte Nutzungsszenario.

Beide diese Szenarien erfordern bei der Umsetzung eine diametral unterschiedliche Vorgehensweise.

Existenzberechtigt: Verschiedene Algorithmen kommen zu sehr unterschiedlichen Resultaten; wer auf Algorithmen-Marktplätze zurückgreift, kann sich die besten Lösungen kosteneffizient aussuchen.
Existenzberechtigt: Verschiedene Algorithmen kommen zu sehr unterschiedlichen Resultaten; wer auf Algorithmen-Marktplätze zurückgreift, kann sich die besten Lösungen kosteneffizient aussuchen. (Bild: Algorithmia)

Im ersteren der beiden Fälle können Unternehmen schlüsselfertige Algorithmen auf einem Marktplatz wie Algorithmia erwerben. Algorithmia stellt Unternehmen schlüsselfertigen Code mit bemerkenswerten Leistungsmerkmalen per API-Aufruf zur Nutzung an ihren eigenen vertraulichen Daten zur Verfügung.

Im zweiten dieser Falle können Unternehmen eine maßgeschneiderte Lösung im Zuge einer Preisausschreibung des Dateninhabers für die beste Lösung eines konkreten Big-Data-Problems auf einer Plattform wie Googles Kaggle oder CrowdAI beschaffen. In diesem Fall können Unternehmen auf der Geheimhaltung der resultierenden Algorithmen bestehen, müssen jedoch repräsentative Trainingsdaten gegenüber den Teilnehmern des Wettbewerbs offenlegen.

Algorithmia

Algorithmia gilt als der führende offene Marktplatz für Code zum Auswerten von Big Data. Der Dienst lässt sich auf eine von zwei Arten nutzen. Zum einen können Unternehmen die schlüsselfertige Algorithmen via eine REST-API aufrufen, um eigene Datenbestände zu verarbeiten. Zum anderen können sie eigene Algorithmen über ein volumenabhängiges Abrechnungssystem monetarisieren, indem sie ihren (ob proprietären oder quelloffenen) Code anderen zur Verfügung stellen. Um den Unternehmen den Einsatz rechenzeitintensiver Algorithmen mit großen Datenmengen schmackhaft zu machen, bietet Algorithmia als Option leistungsstarke GPU-Beschleuniger an.

Unterstützt: Das CRAN-Paket liefert die volle Entwicklungsunterstützung für R on Algorithmia.
Unterstützt: Das CRAN-Paket liefert die volle Entwicklungsunterstützung für R on Algorithmia. (Bild: Algorithmia)

Jeder Algorithmus verfügt über eine eigene Konsole, die es den Nutzern erlaubt, die Funktionsweise des Code direkt im Webbrowser zu überprüfen. Anwender finden die Resultate ihrer Konsole-Experimente im Abschnitt „Data > My Hosted Data“ (eine Schaltfläche mit dieser Bezeichnung befindet sich in der horizontalen Navigation). Hier besteht die Möglichkeit, zusätzliche Datenquellen einzurichten. Zurzeit stehen nur AWS S3 und Dropbox zur Verfügung; weitere Dienste sollen in Kürze folgen.

Jeder Algorithmus muss eine Antwort in JSON und darin zusätzlich zu den eigentlichen Resultaten der Anfrage auch die zugehörigen Metadaten zurückgeben. Diese Metadaten beinhalten unter anderem Informationen wie die Dauer der Verarbeitung des API-Aufrufs. Es handelt sich dabei um die Zeit in Sekunden zwischen dem Start der Ausführung des Code und der Bereitstellung der Antwort; auf dieser Basis rechnet Algorithmia die Nutzungsentgelte ab. Anwendungsentwickler können die Kosten verschiedener Implementierungen anhand dieses Messwertes miteinander vergleichen, um sich für die beste Lösung zu entscheiden.

Die zahlreichen Integrationen illustrieren die vielseitigen praktischen Möglichkeiten der Einbindung der Algorithmia-Dienste in bestehende Lösungen:

  • intelligente Chat-Bots und Messenger-Dienste umsetzen: Durch die Anbindung von Algorithmia an Dexter oder Telegram (via die Bot-API) können Chatbots aus Big Data ihrer Backend-Systeme Wissen extrahieren und aus den eigenen Interaktionen mit dem Nutzer „lernen“;
  • AWS-Integration: Algorithmia erlaubt es, die Ausführung von Code durch AWS-Lambda-gesteuerte Ereignisse zu kontrollieren;
  • Daten zentralisiert verwalten: Aus den betreffenden Algorithmen heraus lassen sich Data.World-Datensätze herausgeben und so die benötigten Informationen maschinell verwalten und organisiert bereitstellen;
  • externe KI-Algorithmen hinzuschalten: Benutzer von Algorithmia können u.a. H2O.ai-Modelle integrieren; der Web-Dienst H2O.ai hat sich Anfang dieses Jahres im Gartners Magic Quadrant für Plattformen rund um Maschinelles Lernen als einer der Marktführer positioniert,
  • Microservices integrieren: Algorithmia lässt sich via Stamplay (https://stamplay.com) in externe Microservices einbinden;
  • CloudFlare: Durch die Integration mit CloudFlare Workers können Unternehmen u. a. die Website-Performance verbessern;
  • Tiefes Lernen aus Echtzeit-Datenströmen: Die Integration von Algorithmia mit Apache Spark erlaubt die Analyse von Big-Data-Datenströmen unter Verwendung von tiefen neuronalen Netzen in Echtzeit

Bei Algorithmia ist die Integration mit externen Diensten offenbar große geschrieben.

Kaggle.com

Kaggle ist ein AaaS-Marktplatz von Google und gilt als eine der umfangreichsten und fortschrittlichsten Plattformen ihrer Art. Mittlerweile rühmt sich der Dienst, über eine Million aktive Nutzer zu haben.

Kaggles Spezialität sind Preisausschreibungen rund um die Entwicklung von Algorithmen zur prädiktiven Modellierung und zur Analyse von Big Data. Kaggle bietet Unternehmen die Möglichkeit, ihre Big-Data-Datenbestände zu veröffentlichen, damit sich Experten aus dem Fachgebiet der Datenanalyse mit ihren eigenen Computermodellen daran versuchen. Derjenige Algorithmus, welcher die exaktesten Vorhersagen über die Rohdaten treffen kann, wird zum Gewinner des jeweiligen Wettbewerbs gekrönt. Entwickler können hierbei nicht nur wertvolle Preise gewinnen, ihre Lebensläufe weiter aufpolieren und Erfahrungen sammeln, sondern auch Kontakte knüpfen. Auf der Basis erfolgreicher Einreichungen füllen viele Unternehmen schon mal gerne offene Stellen.

Der Crowdsourcing-Ansatz von Kaggle basiert auf der praktischen Erfahrung, dass es vorab sehr schwer sein kann, vorauszusagen, welche der zahlreichen Methoden der prädiktiven Modellierung und Datenanalyse am effektivsten ins Ziel führen, es ist aber vergleichsweise einfach, den Gewinner im Nachhinein zu ermitteln.

Mit den sogenannten Kernels bietet Kaggle – kostenfrei – eine Compute-Plattform, um Skripte in Python, R und RMarkdown sowie Jupyter-Notebooks an großen Datenbeständen mit Compute-Leistung aus der Kaggle-Cloud direkt im Webbrowser auszuführen. Praktische Big-Data-Anwendungen umfassen die Datenbereinigung und -transformation, statistische Modellierung, Datenvisualisierung, numerische Simulation, maschinelles Lernen (ML) und vieles mehr. Ein Kaggle-Kernel verfügt über vier CPUs, 16 Gigabyte RAM, ein Gigabyte Datenspeicher und eine maximale Ausführungszeit von 60 Minuten.

Unter den aktuellen Ausschreibungen gibt es etwa 70.000 US-Dollar für ein Modell zum Berechnen des Kreditausfallrisikos bei Heimdarlehen oder einen Filter für „toxische“ Online-Kommentar zu gewinnen (Toxic Comment Classification Challenge). Für einen Algorithmus zum Vorhersagen des Wertes von Transaktionen mit neuen Kunden stellt die Bankengruppe Santander interessierten Entwicklern eine Vergütung in Höhe von 60.000 US-Dollar in Aussicht.

Zu den deutschen Nutzern von Kaggle zählen unter anderem Mercedes-Benz und die die deutsche Drogeriekette Rossmann.

CrowdAI

Quereinsteiger: Zwischen den etablierten Giganten der AaaS-Szene keimen hoffnungsvoll Neuzugänge wie Crowd.ai auf.
Quereinsteiger: Zwischen den etablierten Giganten der AaaS-Szene keimen hoffnungsvoll Neuzugänge wie Crowd.ai auf. (Bild: Crowd.ai)

CrowdAI ist ein vielversprechender Schweizer Neuzugang in der boomenden Szene der Big-Data-Datenanalyse. Hinter CrowdAI steckt die École Polytechnique Fédérale de Lausanne in der Schweiz.

Die CrowdAI-Plattform kann bereits auf so namhafte Partner verweisen wie die Universitäten Stanford, Berkeley und Cornell sowie Microsoft. Bereits 23 Wettbewerbe sind hier erfolgreich abgeschlossen, zehn weitere Ausschreibungen laufen gerade noch.

Der gelungene Start lässt auf eine strahlende Zukunft hoffen.

Fazit

Immer mehr Unternehmen entdecken das wahre Potenzial von Big Data als einen Wettbewerbsvorteil und suchen händeringend nach leistungsstarken Algorithmen, um ihre Datenbestände und -Ströme als eine neue Quelle der Wertschöpfung einzuspannen. AaaS-Plattformen schaffen hierzu die geeigneten Voraussetzungen, indem sie einige der besten Lösungen zur Auswertung von Big Data, viele spannende Herausforderungen und einige der besten Köpfe – wenn auch „nur“ virtuell – an einen Tisch bringen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45584455 / Analytics)