Suchen

Gesponsert

Herausforderung: variety in Big Data Wenn die Daten sprechen

Er hat die höchste Dichte an Selfmade-Millionären, mehr als fünf Tennisplätze Grünfläche pro Einwohner und kostenlosen Nahverkehr. Was Sie schon immer mal über den besten Ort der Welt wissen wollten und nicht zu fragen wagten – so könnte der Untertitel für das Projekt „Paradise Found“ heißen.

Gesponsert von

Maschinelles Lernen ist keine Hexerei, passiert aber auch nicht von selbst.
Maschinelles Lernen ist keine Hexerei, passiert aber auch nicht von selbst.
(Bild: Sergey Nivens, AdobeStock.com)

Beim seinem jüngsten Projekt ist SAS nicht – wie bei Städte-Rankings üblich – nach einem Fragenkatalog vorgegangen. Stattdessen wurden mittels Machine Learning die entscheidenden Kriterien aus den Daten selbst heraus entwickelt, man hat sie also für sich sprechen lassen. And the Winner is: West Perth in Australien.

Artificial Intelligence und Machine Learning

Bei allem Hype um beide Themen wird ein wesentlicher Kern von erfolgreichen Anwendungsfällen verschwiegen: die möglichst umfassende und sprechende Datenbasis. Mit dem Projekt „Paradise Found" wollten wir anhand einer einfach nachzuvollziehenden Aufgabe zeigen, dass Machine Learning keine Hexerei ist und nicht von selbst durch eine magische, selbstlernende Maschine passiert. Es handelt sich dabei um eine Menge an Algorithmen, die aus möglichst vielen Daten lernt. Das funktioniert aber nur, wenn Datenmanagement und Analytik optimal zusammenspielen.

Das heißt im Klartext: Mehr als 5 Millionen Datenpunkte zu 148.233 Orten weltweit aus 1.124 Datenquellen flossen in die Analyse ein. Strukturierte ebenso wie unstrukturierte Daten aus unterschiedlichsten Open-Source- und Open-Data-Quellen: Städtestudien, soziale Netzwerke (wie TripAdvisor und Twitter), Online-Geodaten-Services (OpenStreetMap, Google Places, OpenWeatherMap) oder internationale Datenbanken. Darunter stellten auch prominente öffentliche Stellen wie die Weltbank, die UNESCO, WTOI, Numbeo oder die EU ihre Daten zur Verfügung.

Die Herausforderung lag hier nicht in der Menge der Daten, sondern in der Vielfalt der Quellsysteme und der Zugriffswege sowie in der maximalen Unterschiedlichkeit der Datenstrukturen bzw. der nicht vorhandenen Strukturen. Hier hat sich wieder einmal bestätigt, wie wichtig eine Plattform wie SAS Viya ist, die auf nahezu alle Datenquellen transparent zugreifen und diese Daten problemlos akquirieren kann.

Die hohe Kunst der Datenqualität

Die vielfältigen Datenquellen und die heterogenen Datenstrukturen forderten alle Disziplinen moderner Datenqualitätskunst. Die Normierung und Zusammenführung von Städtenamen aus weltweit unterschiedlichsten Formaten – sowohl sprachlich als auch bzgl. des Zeichensatzes – waren dabei noch die leichteste Übung. Neben Standard-Datenqualitätsmethoden wie Profiling, Parsing, Cleansing etc. ist die analytische Datenanreicherung in solchen Projekten erfolgskritisch. Statt fehlende oder falsche Datenpunkte aus der Analyse auszuschließen, erlauben analytische Verfahren wie Machine Learning, die Daten weiter in ihrer Aussage zu verbessern.

Neben der großen Bedeutung der richtigen Datenmanagementwerkzeuge hat dieses Projekt wieder gezeigt, wie wichtig eine enge Verzahnung zwischen Datenmanagement und Analytik ist. Nur durch ein iteratives und integriertes Vorgehen ist es möglich, schnelle Fortschritte zu erzielen und die Analysen mit weiteren Daten anzureichern, um daraus neue Erkenntnisse zu gewinnen. Die traditionelle Arbeitsteilung zwischen Data Scientist und Data-Architekt bzw. zwischen Analyst in der Fachabteilung und IT ist vorbei. Nur das Verschmelzen dieser Prozesse zu einem iterativen Vorgehen schafft Innovationen. Nur eine offene Engine wie SAS Viya, die diese iterativen Schritte in einem durchgängigen Prozess abbildet, ermöglicht die Umsetzung eines solchen Projekts in wenigen Wochen.

Jetzt haben Ihre Daten das Wort

Wesentliche Aspekte sind hierbei die durchgängige Nutzung von Analytics und Machine-Learning-Algorithmen bereits bei der Datenvorverarbeitung sowie die permanente Transparenz der vorhandenen Daten, der Datenqualität und der bereits aus den Daten generierten Erkenntnisse in Form von Modellen. Kombiniert mit einem intuitiven Front End können hierdurch in „Self-Service"-Manier sehr schnell unterschiedlichste Benutzer Daten sprechen lassen.

Paradise Found beweist vor allem, dass Big-Data-Management weder eine leichte Fingerübung ist noch eine unliebsame Aufgabe sein sollte. Denn nur dann lassen sich mit einem unverstellten Blick auf die Daten Muster finden – und damit steht und fällt jedes Analyseergebnis. Ohne gutes Datenmanagement also kein – analytisch fundiertes – Paradies. Im Fall von „Paradise Found“ mögen valide und aussagekräftige Analyseergebnisse ein „Nice to Have“ sein. Entscheidend werden sie in der Wirtschaft, wo sich mittels Machine Learning ganz neue Potenziale ergeben werden.

Mehr zum Thema gibt es auch während der Analytics Experience 2017 in Amsterdam. Hier stehen Machine Learning, Datenanalyse und Datenschutz im Zeichen der digitalisierten Wirtschaft im Vordergrund. Informieren Sie sich oder melden Sie sich an: SAS Analytics Experience 2017 vom 17. und 18. Oktober 2017 in Amsterdam.

Autor dieses Artikels ist Andreas Gödde, Director Business Analytics bei SAS DACH

Artikelfiles und Artikellinks

Advertorial - Was ist das?

Über Advertorials bieten wir Unternehmen die Möglichkeit relevante Informationen für unsere Nutzer zu publizieren. Gemeinsam mit dem Unternehmen erarbeiten wir die Inhalte des Advertorials und legen dabei großen Wert auf die thematische Relevanz für unsere Zielgruppe. Die Inhalte des Advertorials spiegeln dabei aber nicht unbedingt die Meinung der Redaktion wider.

(ID:44883888)