Interview mit Dr. Gerhard Svolba, SAS DACH KI + Machine Learning = neue Chancen für das Datenmanagement

Von Anja Klauck |

Anbieter zum Thema

BigData-Insider sprach mit Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH, wie Big Data und Digitalisierung die Ansprüche an die Datenverarbeitung verändert haben – Agilität, Elastizität und Integrationsfähigkeit sind nur einige Stichpunkte. Moderne Technologien wie Künstliche Intelligenz (KI) und Machine Learning können dabei helfen, wichtige Aufgaben zu automatisieren und Daten dadurch schneller in genau der benötigten Form zur Verfügung zu stellen.

Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH
Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH
(Bild: © Peter Vogel 2015)

BigData-Insider: Herr Dr. Svolba, vor welchen Herausforderungen stehen Unternehmen heute in Sachen Datenmanagement?

Svolba: Heute hat so ziemlich jedes Unternehmen moderne Datenmanagement-Werkzeuge im Einsatz, doch die angewandten Praktiken und Strategien stammen vielfach noch aus den 1990er-Jahren und orientieren sich an den damals aufkommenden Data Warehouses. Durch die Digitalisierung, Big Data und Cloud Computing stehen wir nun allerdings wieder vor komplett neuen Herausforderungen. Diese betreffen zudem nicht allein die Datenverarbeitungskette selbst – Volume, Variety, Velocity – sondern mittlerweile auch das Betriebs- und Implementierungsmodell dahinterm also IaaS, PaaS, Serverless beziehungsweise CI/CD. Alle Bausteine müssen den höchsten Ansprüchen an Agilität, Elastizität und vor allem Integrationsfähigkeit genügen.

Wie verändern KI und Machine Learning die Datenaufbereitung?

Svolba: Klassische Datenbanken und Data Warehouses werden in jedem Fall weiterhin ihre Daseinsberechtigung haben – gerade für strukturierte, relationale Daten. Trotzdem müssen einige entscheidende, derzeit vielfach manuelle Tätigkeiten wie Kategorisierung oder Cleansing in Zukunft schneller absolviert werden. Dabei kann Machine Learning helfen, um sich wiederholende Tätigkeiten einfach zu automatisieren.

Die Anwender, die sich mit der Datenaufbereitung beschäftigen, werden entlastet, wenn das System beispielsweise selbst zwischen einer Postleitzahl und einer Telefonnummer unterscheiden kann. Der Effekt einer solchen Funktionalität ist immens, wenn man bedenkt, dass dadurch beispielsweise automatisch Vornamen, Nachnamen, Geschlecht- oder Adressdaten aus Fließtext extrahiert werden können. Aufgaben wie diese sind meist sehr zeitaufwendig und gehen mit vielen Code-Zeilen einher. Sie können aber mittlerweile zuverlässig von einer Maschine übernommen werden.

Welche Vorteile bringt das konkret?

Svolba: Einen weiteren riesigen Mehrwert schafft Machine Learning momentan beim Data Profiling. Hier erlaubt die Technologie das proaktive und frühzeitige Erkennen von Fehlmustern oder Anomalien.

Idealerweise wird das Datenmanagementsystem zum selbstlernenden System und signalisiert, wenn eine neuartige Situation vorliegt, die es nicht einordnen kann. Dann ist der Mensch gefragt, um entsprechende Regeln dafür zu entwickeln.

Machine Learning kann darüber hinaus dabei unterstützen, Datenströme in den Griff zu bekommen. Bei Sensordaten ist es oft nicht praktikabel, sie erst an ein zentrales System zu schicken und dort auszuwerten. Die Analyse muss so früh wie möglich in der Datenkette beginnen – am besten „on edge“, also ganz nah am Datenursprung. Voraussetzung dafür ist, dass man die entsprechende Logik zentral definieren, verteilen und monitoren kann. Unabdingbar sind dafür auch analytische Methoden, die autark Muster erkennen, Fehlwerte filtern und automatisch glätten, bevor die Daten an die nächste Verarbeitungsstufe weitergeleitet werden.

Wie sind die Rollen im modernen Datenmanagement verteilt?

Svolba: Im gleichen Zuge, wie der Data Engineer statistisches Know-how aufbauen muss, benötigt der Data Scientist immer mehr ETL-Datenintegrationskenntnisse. Machine Learning kann hier als Mittelsmann agieren – mit intelligentem Tagging und Suggestions, also der Kennzeichnung gleichartiger Daten und dem Unterbreiten von Vorschlägen wie „Empfohlene Aktion: Groß-/Kleinschreibung anpassen“ oder „Andere User verwendeten auch …“. Self-Service sorgt dafür, dass der Fachanwender per Point and Click die Informationen zusammensuchen kann, die er benötigt – ohne Programmierkenntnisse oder Unterstützung durch die IT. Auf diese Weise ist es möglich, Projekte wirklich abteilungsübergreifend und Business-Case-gesteuert umzusetzen.

Worauf müssen sich Unternehmen in den kommenden Jahren einstellen?

Svolba: Für eine Datenmanagement-Plattform werden Performance und Agilität die wichtigsten Kriterien bleiben. Datenverarbeitung muss möglichst stabil, schnell und flexibel sein. Die Zeiten der starren Datenstrategien und der alleinigen Batch-Verarbeitung über Nacht sind allerdings vorüber. Viele Applikationen werden verstärkt in die Cloud wandern. Integration ist ein weiteres Schlüsselwort – und zwar auf allen Ebenen: Systeme, Methoden, Mitarbeiter. Letztlich ist das die Grundvoraussetzung, um bessere Erkenntnisse aus den Daten zu gewinnen

Sieben Ansätze, um die Datenqualität wirksam zu verbessern

KI kann das Datenmanagement in vielen Bereichen vereinfachen. Eine solide Basis für die folgende Auswertung ist nach wie vor die hohe Qualität der Daten.

1. Identifikation von Ausreißern: Statistische Methoden wie Standardabweichung oder Quantilen erlauben eine univariate Profilerstellung für Ausreißer. Ebenso können Clusteranalysen und Distanzmetriken eingesetzt werden, um abweichende Werte schnell zu erkennen. Vorhersage- und Zeitreihenmodelle sind wiederum die Voraussetzung, um Validierungsgrenzen und optimale Korrekturwerte individuell für einzelne Ausreißer zu berechnen.

2. Ergänzung fehlender Werte: Analytische Methoden wie Entscheidungsbäume und Spline-Interpolationen für Zeitreihen liefern Imputationswerte für fehlende Informationen in Querschnittsdaten und Zeitreihendaten. Das ermöglicht die Nutzung unvollständiger Daten in der Analyse.

3. Datenstandardisierung und Deduplizierung:Für die Identifizierung und Entfernung von Dubletten in den Datenbanken können statistische Methoden herangezogen werden, die die Ähnlichkeit zwischen Datensätzen beschreiben.

4. Umgang mit unterschiedlichen Datenmengen: Analytics hilft dabei, die optimale Anzahl an Beobachtungen für ein kontrolliertes Experiment mit Methoden zur Berechnung der Sample-Größe und -Leistung zu planen. Für eine geringe Anzahl von Samples oder Events in Vorhersagemodellen gibt es spezielle Verfahren zur Modellierung seltener Events.

5. Analytische Transformation von Input-Variablen: Analytische Methoden werden eingesetzt, um Variablen zu transformieren, damit sie zur gewählten Analysemethode passen. Mit Text Mining lässt sich Freitext in strukturierte Information übertragen, die dann wiederum mit analytischen Verfahren weiterverarbeitet werden kann.

6. Auswahl von Variablen für Vorhersagemodelle: Neben den üblichen Verfahren, um ein Subset von Variablen zu identifizieren, die eine hohe Vorhersagekraft für die Zielvariable haben, existieren zahlreiche analytische Methoden, die verschiedene Optionen für die Variablenwahl innerhalb des analytischen Modells selbst zulassen. Ein Beispiel dafür sind Vorwärts-, Rückwärts- und schrittweise Modellwahl bei Regressionsanalysen.

7. Bewertung von Modellgüte und What-if-Analysen: Analytics unterstützt auch bei der Modellentwicklung und -validierung. Sie gibt in der prädiktiven Modellierung einen schnellen ersten Eindruck von der Vorhersagekraft der verfügbaren Daten. Analytische Tools bieten darüber hinaus auch Möglichkeiten für eine schnelle Bewertung der Modellgüte in Form von What-if-Analysen, die besonders nützlich für die Festlegung der Relevanz von Variablen oder Gruppen von Variablen sind.

Weitere Informationen dazu im Buch Data Quality for Analytics Using SAS.

(ID:46378929)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung