DATA Storage & Analytics Technology Conference 2020 – Keynote Ushan Ganeshananthan Machine Learning verringert Unternehmensrisiken
Anbieter zum Thema
Wenn die DATA Storage & Analytics Technology Conference 2020 im April und Mai dieses Jahres in vier deutschen Städten Halt macht, locken nicht zuletzt die „Keynotes“ die Teilnehmer in die Veranstaltungsräume. BigData-Insider hat als Mitveranstalter und Medienpartner die Keynote-Speaker im Vorfeld um eine Preview gebeten. Hier: Ushan Ganeshananthan, Head of Lighthouse Germany, KPMG.

Die Welt ist klein! Und sie wird gefühlt kleiner und kleiner, wenn man bedenkt, wie schnell es mittlerweile möglich ist, um die Welt zu fliegen. Noch schneller als wir Menschen reisen Nachrichten um die Welt. Folglich ist mittlerweile der Begriff der „lokalen Nachrichten“ nicht mehr sinnvoll. Mittels Internet kann man sich die Lokalzeitung seiner Heimatstadt überall auf der Welt durchlesen.
Für globale Organisationen hat dies zur Konsequenz, dass sie immer mehr Nachrichtenquellen im Blick haben müssen und darüber in Kenntnis sein sollten, wie die Presse bzw. die Öffentlichkeit über ihre Produkte und Dienstleistungen oder gar Geschäftspraktiken denkt.
Dabei kann die Berichterstattung durchaus auch negativ sein. Ob zurecht oder zu Unrecht, über etwaig „negative Presse“ sollte die Hauptzentrale schnellstmöglich informiert sein, um darauf angemessen zu reagieren, beispielsweise durch das Schalten interner Maßnahmen.
Den globalen Nachrichtenfluss bewältigen
Bei der Entwicklung unserer Lösung 360° Stakeholder Insights haben wir uns dazu entschlossen, dieses Problem sowohl für uns selbst als auch mit und für unsere Kunden zu lösen. Wie können wir den globalen Nachrichtenfluss bewältigen und die Nachrichten „herausfiltern“, auf die sich Organisationen konzentrieren müssen?
Zunächst müssen wir uns dazu über Dimensionen Gedanken machen: Weltweit müssen wir mit einer Nachrichtenmenge in der Größenordnung von circa einer Millionen Nachrichtenartikeln in verschiedenen Sprachen rechnen – eine manuelle Verarbeitung dieser Datenmengen ist ausgeschlossen und eine automatisierte Bewertung von Artikeln ist essenziell. Gleichzeitig mag diese Menge stark variieren, zum Beispiel unter Berücksichtigung verschiedener Sprachen oder dank Vorfiltermechanismen. Insofern ist es von höchster Bedeutung, eine skalierbare Architektur zur automatisierten Verarbeitung von Nachrichten zu entwickeln.
Um Aufwand für die Implementierung eines Crawlers sowie urheberrechtliche Fragestellungen diesbezüglich zu vermeiden, werden die Nachrichtenartikel über einen kommerziellen Anbieter von Nachrichtenströmen bezogen. Dieser Anbieter offeriert eine Streaming API, über die Nachrichten in einer Message Queue zwischengespeichert und regelmäßig abgerufen werden kann.
Automatisierte Analyse mithilfe von Machine Learning
Nach Abruf der Nachrichten müssen diese automatisiert analysiert werden können. Da wir dazu eine Lösung auf Basis maschinellen Lernens verwenden wollten, die gleichzeitig eine einfache Skalierung ermöglicht, haben wir uns für Azure Databricks entschieden. Azure Databricks erlaubt es, dank des zugrundeliegenden Spark Clusters, nativ Machine-Learning-Bibliotheken auf einer Infrastruktur anzuwenden, die leicht nach Bedarf in ihrer Größe angepasst und schnell aktiviert und wieder gestoppt werden kann.
Gleichzeitig müssen die Ergebnisse, eine Kombination nicht-strukturierter textueller Informationen sowie strukturierter numerischer Informationen, sinnvoll abgespeichert werden. Dazu nutzen wir eine SQL-Server-Instanz, in der alle Ergebnisse abgelegt werden. Eine daran gekoppelte Azure-Search-Komponente erlaubt es den Entwicklern, auch komplexere Queries, zum Beispiel zum Auffinden inhaltlich ähnlicher Texte, zu implementieren und performant zu verarbeiten.
Die strukturierten Daten können ferner via eines webbasierten User Interfaces, in unserem Falle auf .NET-Basis, dargestellt und angereichert werden. Normale Anwender müssen hierbei nur auf das UI zugreifen. Die eigentlichen Analytics Services in Databricks als auch die Rohdaten können dadurch nach außen vollständig abgeschirmt werden und erhöhen so Zugriffsschutz und Sicherheit der Applikation.
200.000 Nachrichtenmeldungen pro Tag
Die so entwickelte Solution verarbeitet seit mehreren Monaten erfolgreich für KPMG im Durchschnitt täglich circa 200.000 Nachrichtenmeldungen aus aller Welt. Ein Nearshore Service Center prüft anschließend, unter Nutzung des UI die Nachrichten, denn die Komplexität von Unternehmensrisiken ist zu groß, um eine komplette Dunkelfeldverarbeitung zu ermöglichen. Dank des Scoring-Algorithmus sind jedoch die Mitarbeiter des Service Centers in der Position, nur die relevantesten Nachrichten prüfen zu müssen, wodurch bislang eine vollständige Abdeckung aller relevanten Risikofälle erreicht wurde. Darüber hinaus konnte das global scannende Tool auch Fälle auf regionaler Ebene identifizieren, die selbst den Experten vor Ort noch nicht bekannt waren.
Insofern zeigt sich an diesem Beispiel, wie eine enge Verzahnung von Unternehmensprozessen, skalierbaren IT-Architekturen und Machine Learning zu einer signifikanten und nachvollziehbaren Reduktion von Unternehmens- und somit kommerziellen Risiken führen kann.
BigData-Insider ist Mitveranstalter und Medienpartner der DATA Storage & Analytics Technology Conference 2020. Wenn Sie Ushan Ganeshananthan und viele weitere interessante Speaker live erleben wollen, dann bewerben Sie sich hier als VIP-Gast und Sie nehmen kostenlos teil.
(ID:46395468)