Kommentar von Prof. Dr. Christine Legner, CC CDQ Datenqualität – Herausforderungen und Best Practices

Von Prof. Dr. Christine Legner Lesedauer: 6 min |

Anbieter zum Thema

Mit dem explosionsartigen Wachstum von Daten werden auch die Herausforderungen im Bereich Datenqualität immer größer. Einmal jährlich würdigt das Competence Center Corporate Data Quality (CC CDQ) gemeinsam mit der European Foundation for Quality Management (EFQM) herausragende Datenmanagement-Initiativen, die den Weg für digitale und datengetriebene Unternehmen ebnen.

Die Autorin: Prof. Dr. Christine Legner ist akademische Leiterin CC CDQ und Professorin für Informationssysteme an der HEC Lausanne.
Die Autorin: Prof. Dr. Christine Legner ist akademische Leiterin CC CDQ und Professorin für Informationssysteme an der HEC Lausanne.
(Bild: _www.peterruggle.ch)

Die Gewinner und Finalisten des CDQ Good Practice Awards zeigen, wie sich zentrale Herausforderungen im Bereich Datenqualität mit innovativen Ansätzen bewältigen lassen.

Merck – mit aussagekräftigen Data Quality Scores kritische Fehler identifizieren

Der Grundsatz „Was man nicht messen kann, kann man auch nicht lenken und verbessern“ gilt auch für Datenqualität. Allerdings führt auch die Messung von Datenqualitätskennzahlen nicht automatisch zu Verbesserungen.

Das Pharmaunternehmen Merck (MSD) zeigt, wie Datenqualität so gemessen werden kann, dass kritische Fehler identifiziert und die richtigen Prioritäten bei Datenqualitätsverbesserungen gesetzt werden.

Das Datenqualitäts-Dashboard
Das Datenqualitäts-Dashboard
(Bild: CC CDQ)

Für Merck ist die Qualität ihrer Produktstammdaten geschäftskritisch für die digitale Transformation im Supply Chain Management. Als im Rahmen des Stammdatenprogramms ein Datenqualitäts-Dashboard eingeführt wurde, blieb die Anzahl der Datenfehler allerdings zunächst konstant. Und dies, obwohl einige der Fehler hohe Kosten in der Supply Chain verursachten und die sogenannte Pass Rate (Quotient aus den bestandenen Datensätze und der Gesamtzahl der Datensätze) immer den Zielwert übertraf.

Im Juni 2021 führte Merck daher eine neue Messmethode ein, die Fehler nach ihrer individuellen Relevanz bewertet und gewichtet. Für jeden Fehler wird ein Data Quality Score berechnet, in den vier verschiedene Faktoren einfließen. Das sind einerseits die Geschäftsrelevanz des Fehlers (Kritikalität für den Geschäftsprozess und die Bedeutung des Geschäftssegments) und andererseits dynamische Aspekte (die Leadtime und das Alter des Fehlers).

Ein Vorteil des Scores ist es, dass er sich entlang der relevanten Dimensionen – beispielsweise pro Region, Geschäftsbereich oder Produkt – aggregieren lässt. Damit können Datenqualitätskennzahlen in benutzerzentrierten Dashboards für verschiedene Stakeholder dargestellt werden.

Für jeden Fehler wird ein Data Quality Score berechnet, in den vier verschiedene Faktoren einfließen.
Für jeden Fehler wird ein Data Quality Score berechnet, in den vier verschiedene Faktoren einfließen.
(Bild: CC CDQ)

Im Vergleich zur Pass Rate, bietet der Data Quality Score damit aussagekräftige Informationen und KPIs. Dadurch wird deutlich, was in Bezug auf die durch Datenfehler verursachten geschäftlichen Auswirkungen wirklich wichtig ist und wo die Prioritäten bei der Fehlerbeseitigung zu setzen sind. Bemerkenswert ist auch die End-to-End-Architektur. Diese baut auf einem Data Lake mit einer Datenqualitäts-Engine für die Datenqualitätsmessungen und einem Data Mart für die Dashboards und gleichzeitiger Integration mit dem Datenkatalog auf.

Nestlé – mit automatisierten Geschäftsregeln zu „First time right“

Wichtige (Stamm)daten korrekt zu erfassen, ist oft zeitaufwendig und erfordert den Input verschiedener Fachexperten. Schleichen sich dann doch Fehler ein, sind Korrekturen sehr aufwendig und verursachen viele Folgeprobleme in den Geschäftsprozessen.

Ein wichtiger Hebel, um die Datenqualität im Stammdatenmanagement von Nestlé zu verbessern, ist die möglichst fehlerfreie Anlage von neuen Datensätzen – auch als „First time right“ bezeichnet. Die Good Practice von Nestlé zeigt, wie sich die Neuanlage von Materialdaten sowie deren nachfolgende Lokalisierung für verschiedene Länder bzw. Werke durch bestimmte Geschäftsregeln weitestgehend automatisieren lässt. Gleichzeitig wird die Datenqualität deutlich erhöht.

Für Nestlé als Konsumgüterproduzenten gehören direkte Materialien zu den kritischsten Daten im Unternehmen, da sie die Roh- und Verpackungsmaterialien sowie Halbfertig- und Fertigprodukte repräsentieren. Qualität und Aktualität der Materialdaten sind der Schlüssel für effektive Geschäftsprozesse in der Produktentwicklung (Idea-to-Product), Beschaffung (Procure-to-Pay), Produktion (Plan-to-Execute), Auftragsabwicklung (Order-to-Cash) und Buchhaltung (Record-to-Report).

Die Erstellung von Materialdaten ist ein komplexer, arbeitsintensiver Prozess, der zwischen 15 bis 30 Tage dauert und für jedes Werk, in dem das Material verwendet wird, wiederholt werden muss. Daraus resultieren global mehrere hunderttausend Requests für Materialanlagen pro Jahr. Die Erstellung ist nicht nur langwierig, sondern erfordert auch den Input zahlreicher Fachleute, die die Details der verschiedenen Materialfelder verstehen müssen, um den richtigen Wert für einen bestimmten Kontext einzugeben. Die Folge davon sind häufig Datenqualitätsprobleme, die sich negativ auf die Prozesseffizienz auswirken.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Idee von Nestlé war es, die Eingabe von Materialfeldern mithilfe von vordefinierten Geschäftsregeln so weit wie möglich zu automatisieren, um einen konsistenten, schnellen und transparenten Materialaktivierungsprozess zu gewährleisten – auch in Zeiten organisatorischer Veränderungen. In einem globalen Projekt wurden zunächst die Gemeinsamkeiten, Muster und Verbesserungspotenziale bei der Materialanlage analysiert und anschließend die Geschäftsregeln gemeinsam mit 600 Experten weltweit definiert. Umgesetzt wurden diese dann mit einem Standard-Tool, dem SAP Business Rule Framework.

Durch die Automatisierung erreicht Nestle qualitativ hochwertige Daten, die mit den Geschäftsregeln übereinstimmen. Das Aktivieren neuer Materialien erfolgt in Sekunden bzw. in Tagen statt wie bisher in Wochen oder Monaten. Gleichzeitig werden die Fachleute von administrativen Aufwänden entlastet und können sich auf ihre Hauptaufgaben konzentrieren. Hervorzuheben sind die Skalierung der Lösung und die bereits erreichten 80 Prozent in der weltweiten Abdeckung.

SAP – maschinelles Lernen zur Extraktion von Stammdaten aus Freitextangaben

In Online-Kampagnen sind Formulare sehr beliebt, um Informationen von Interessenten und Kunden zu sammeln. Nicht alle Informationen lassen sich dabei direkt strukturiert erfassen, sondern sind Freitexteingaben. Um diese Daten anschließend automatisiert zu nutzen, ist es oft notwendig, die Eingaben manuell nachzuarbeiten und in CRM- und anderen Systemen zu erfassen.

Die Good Practice von SAP zeigt, wie man Verfahren des maschinellen Lernens zu Extraktion strukturierter Stammdaten direkt aus Freitextangaben nutzen kann. Ausgangspunkt war ein Backlog von mehr als zwei Millionen Kontaktinformationen aus verschiedenen Formularen, in denen Job-Titel und Abteilungsnamen von Ansprechpartnern als Freifeld erfasst waren. Mit den bestehenden Mapping-Tabellen ließen sich nur ca. 50 Prozent der erfassten Informationen direkt ins CRM-System übernehmen, sodass Mitarbeiter diese manuell nachbearbeiten mussten. Der hohe Aufwand durch unterschiedliche Kontexte, Sprachen und Millionen verschiedene Jobtitel verursachte einen Backlog, der nicht mehr zu bewältigen war.

Durch den Einsatz von maschinellem Lernen hat SAP einen skalierbaren Data-Mapping-Prozess implementiert. Die vom Kunden erfassten Freitextangaben werden mit einem Klassifikationsverfahren in standardisierte Codes mit Informationen zu Position und Abteilung umgewandelt, die für Marketing- und Vertriebszwecke genutzt werden können. Mit dem Ansatz werden nicht nur der Automatisierungsgrad auf 80 Prozent gesteigert und die sehr hohen Aufwände für das manuelle Mapping eingespart, sondern die Formulare werden auch sehr viel schneller bearbeitet. Da Kontaktinformationen erfahrungsgemäß schnell altern, steigert das Verfahren damit auch den Erfolg bei der individuellen Kundenansprache in Marketingkampagnen und Vertriebsaktivitäten.

Durch einen schrittweisen Ansatz war SAP in der Lage, den Geschäftswert in den verschiedenen Phasen des Projekts zu erfassen, die Akzeptanz der Endbenutzer sicherzustellen und die Integration in das bestehende Tool und die Architektur zu gewährleisten. Aufgrund der überzeugenden Erfahrungen bei der Extraktion strukturierter Informationen aus Freitextfeldern plant SAP den Einsatz von maschinellem Lernen im Datenmanagement auszubauen.

Fazit

Datenqualität ist eine grundlegende Voraussetzung für unternehmerischen Erfolg, aber mit hohem Aufwand und Kosten verbunden. Die Gewinner des CDQ Good Practice Award zeigen drei innovative Verfahren, mit denen sich Datenqualität signifikant erhöhen lässt:

  • 1. geschäftsbezogene, adressatengerechte Messmethoden ermöglichen die zielgerichtete Fehlerbeseitigung,
  • 2. Geschäftsregeln automatisieren die Stammdatenanlage („First Time Right“),
  • 3. der Einsatz maschineller Lernverfahren erlaubt die Extraktion qualitativ hochwertiger Stammdaten aus Freitext.

Wem es gelingt, das Niveau seiner Datenqualität durch intelligente Verfahren zu verbessern, legt die Basis dafür, den Wert von Daten auszuschöpfen – sei es in operativen Geschäftsprozessen, datenbasierten Entscheidungen oder neuen Geschäftsmodellen.

Das Competence Center Corporate Data Quality (CC CDQ)

Das Competence Center Corporate Data Quality (CC CDQ) ist ein Forschungskonsortium und Europas führende Expertencommunity für Datenmanagement. Die Mitglieder des CC CDQ profitieren von einem branchenübergreifenden Netzwerk, Wissensaustausch sowie Forschung und Co-Innovationen. Das CC CDQ bringt Datenmanagement-Experten aus Praxis und Wissenschaft zusammen und besteht aus 20 renommierten Firmen verschiedener Branchen. Das Forschungsteam befindet sich an der Fakultät für Wirtschaftswissenschaften (HEC – Universität Lausanne) und wird von Prof. Dr. Christine Legner geleitet. Das CC CDQ wurde im Jahr 2006 am Institut für Informationsmanagement (IWI – Universität St. Gallen) gegründet. Heute wird es von der CDQ AG betrieben.

Artikelfiles und Artikellinks

(ID:49331320)