BigData-Insider sprach mit Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH, wie Big Data und Digitalisierung die Ansprüche an die Datenverarbeitung verändert haben – Agilität, Elastizität und Integrationsfähigkeit sind nur einige Stichpunkte. Moderne Technologien wie Künstliche Intelligenz (KI) und Machine Learning können dabei helfen, wichtige Aufgaben zu automatisieren und Daten dadurch schneller in genau der benötigten Form zur Verfügung zu stellen.
Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH
BigData-Insider: Herr Dr. Svolba, vor welchen Herausforderungen stehen Unternehmen heute in Sachen Datenmanagement?
Svolba: Heute hat so ziemlich jedes Unternehmen moderne Datenmanagement-Werkzeuge im Einsatz, doch die angewandten Praktiken und Strategien stammen vielfach noch aus den 1990er-Jahren und orientieren sich an den damals aufkommenden Data Warehouses. Durch die Digitalisierung, Big Data und Cloud Computing stehen wir nun allerdings wieder vor komplett neuen Herausforderungen. Diese betreffen zudem nicht allein die Datenverarbeitungskette selbst – Volume, Variety, Velocity – sondern mittlerweile auch das Betriebs- und Implementierungsmodell dahinterm also IaaS, PaaS, Serverless beziehungsweise CI/CD. Alle Bausteine müssen den höchsten Ansprüchen an Agilität, Elastizität und vor allem Integrationsfähigkeit genügen.
Wie verändern KI und Machine Learning die Datenaufbereitung?
Svolba: Klassische Datenbanken und Data Warehouses werden in jedem Fall weiterhin ihre Daseinsberechtigung haben – gerade für strukturierte, relationale Daten. Trotzdem müssen einige entscheidende, derzeit vielfach manuelle Tätigkeiten wie Kategorisierung oder Cleansing in Zukunft schneller absolviert werden. Dabei kann Machine Learning helfen, um sich wiederholende Tätigkeiten einfach zu automatisieren.
Die Anwender, die sich mit der Datenaufbereitung beschäftigen, werden entlastet, wenn das System beispielsweise selbst zwischen einer Postleitzahl und einer Telefonnummer unterscheiden kann. Der Effekt einer solchen Funktionalität ist immens, wenn man bedenkt, dass dadurch beispielsweise automatisch Vornamen, Nachnamen, Geschlecht- oder Adressdaten aus Fließtext extrahiert werden können. Aufgaben wie diese sind meist sehr zeitaufwendig und gehen mit vielen Code-Zeilen einher. Sie können aber mittlerweile zuverlässig von einer Maschine übernommen werden.
Welche Vorteile bringt das konkret?
Svolba: Einen weiteren riesigen Mehrwert schafft Machine Learning momentan beim Data Profiling. Hier erlaubt die Technologie das proaktive und frühzeitige Erkennen von Fehlmustern oder Anomalien.
Idealerweise wird das Datenmanagementsystem zum selbstlernenden System und signalisiert, wenn eine neuartige Situation vorliegt, die es nicht einordnen kann. Dann ist der Mensch gefragt, um entsprechende Regeln dafür zu entwickeln.
Machine Learning kann darüber hinaus dabei unterstützen, Datenströme in den Griff zu bekommen. Bei Sensordaten ist es oft nicht praktikabel, sie erst an ein zentrales System zu schicken und dort auszuwerten. Die Analyse muss so früh wie möglich in der Datenkette beginnen – am besten „on edge“, also ganz nah am Datenursprung. Voraussetzung dafür ist, dass man die entsprechende Logik zentral definieren, verteilen und monitoren kann. Unabdingbar sind dafür auch analytische Methoden, die autark Muster erkennen, Fehlwerte filtern und automatisch glätten, bevor die Daten an die nächste Verarbeitungsstufe weitergeleitet werden.
Wie sind die Rollen im modernen Datenmanagement verteilt?
Svolba: Im gleichen Zuge, wie der Data Engineer statistisches Know-how aufbauen muss, benötigt der Data Scientist immer mehr ETL-Datenintegrationskenntnisse. Machine Learning kann hier als Mittelsmann agieren – mit intelligentem Tagging und Suggestions, also der Kennzeichnung gleichartiger Daten und dem Unterbreiten von Vorschlägen wie „Empfohlene Aktion: Groß-/Kleinschreibung anpassen“ oder „Andere User verwendeten auch …“. Self-Service sorgt dafür, dass der Fachanwender per Point and Click die Informationen zusammensuchen kann, die er benötigt – ohne Programmierkenntnisse oder Unterstützung durch die IT. Auf diese Weise ist es möglich, Projekte wirklich abteilungsübergreifend und Business-Case-gesteuert umzusetzen.
Worauf müssen sich Unternehmen in den kommenden Jahren einstellen?
Svolba: Für eine Datenmanagement-Plattform werden Performance und Agilität die wichtigsten Kriterien bleiben. Datenverarbeitung muss möglichst stabil, schnell und flexibel sein. Die Zeiten der starren Datenstrategien und der alleinigen Batch-Verarbeitung über Nacht sind allerdings vorüber. Viele Applikationen werden verstärkt in die Cloud wandern. Integration ist ein weiteres Schlüsselwort – und zwar auf allen Ebenen: Systeme, Methoden, Mitarbeiter. Letztlich ist das die Grundvoraussetzung, um bessere Erkenntnisse aus den Daten zu gewinnen
Sieben Ansätze, um die Datenqualität wirksam zu verbessern
KI kann das Datenmanagement in vielen Bereichen vereinfachen. Eine solide Basis für die folgende Auswertung ist nach wie vor die hohe Qualität der Daten.
1. Identifikation von Ausreißern: Statistische Methoden wie Standardabweichung oder Quantilen erlauben eine univariate Profilerstellung für Ausreißer. Ebenso können Clusteranalysen und Distanzmetriken eingesetzt werden, um abweichende Werte schnell zu erkennen. Vorhersage- und Zeitreihenmodelle sind wiederum die Voraussetzung, um Validierungsgrenzen und optimale Korrekturwerte individuell für einzelne Ausreißer zu berechnen.
2. Ergänzung fehlender Werte: Analytische Methoden wie Entscheidungsbäume und Spline-Interpolationen für Zeitreihen liefern Imputationswerte für fehlende Informationen in Querschnittsdaten und Zeitreihendaten. Das ermöglicht die Nutzung unvollständiger Daten in der Analyse.
3. Datenstandardisierung und Deduplizierung:Für die Identifizierung und Entfernung von Dubletten in den Datenbanken können statistische Methoden herangezogen werden, die die Ähnlichkeit zwischen Datensätzen beschreiben.
4. Umgang mit unterschiedlichen Datenmengen: Analytics hilft dabei, die optimale Anzahl an Beobachtungen für ein kontrolliertes Experiment mit Methoden zur Berechnung der Sample-Größe und -Leistung zu planen. Für eine geringe Anzahl von Samples oder Events in Vorhersagemodellen gibt es spezielle Verfahren zur Modellierung seltener Events.
5. Analytische Transformation von Input-Variablen: Analytische Methoden werden eingesetzt, um Variablen zu transformieren, damit sie zur gewählten Analysemethode passen. Mit Text Mining lässt sich Freitext in strukturierte Information übertragen, die dann wiederum mit analytischen Verfahren weiterverarbeitet werden kann.
6. Auswahl von Variablen für Vorhersagemodelle: Neben den üblichen Verfahren, um ein Subset von Variablen zu identifizieren, die eine hohe Vorhersagekraft für die Zielvariable haben, existieren zahlreiche analytische Methoden, die verschiedene Optionen für die Variablenwahl innerhalb des analytischen Modells selbst zulassen. Ein Beispiel dafür sind Vorwärts-, Rückwärts- und schrittweise Modellwahl bei Regressionsanalysen.
7. Bewertung von Modellgüte und What-if-Analysen: Analytics unterstützt auch bei der Modellentwicklung und -validierung. Sie gibt in der prädiktiven Modellierung einen schnellen ersten Eindruck von der Vorhersagekraft der verfügbaren Daten. Analytische Tools bieten darüber hinaus auch Möglichkeiten für eine schnelle Bewertung der Modellgüte in Form von What-if-Analysen, die besonders nützlich für die Festlegung der Relevanz von Variablen oder Gruppen von Variablen sind.
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.