Kommentar von Dr. Bernd Wiech und Dr. David Bauder, Cellent – a Wipro Company

Data Science für den Mittelstand am Beispiel einer Umsatzprognose

| Autor / Redakteur: Dr. Bernd Wiech und Dr. David Bauder / Nico Litzel

Die Autoren: Dr. David Bauder (links) ist Data Science Consultant und Dr. Bernd Wiech Senior Analytics Consultant bei Cellent
Die Autoren: Dr. David Bauder (links) ist Data Science Consultant und Dr. Bernd Wiech Senior Analytics Consultant bei Cellent (Bild: Cellent)

Daten stehen nicht erst seit gestern im Fokus unternehmerischer Analysen. Wie entwickelt sich der Umsatz? Wo liegt das größte Optimierungspotenzial? Das sind nur einige der Frage, denen mit Zahlen und Fakten zu Leibe gerückt wird. Wie sich auch Mittelständler mit relativ einfachen Mitteln aussagekräftige Data Science zunutze machen können, zeigt das folgende Beispiel.

In der klassischen IT wurden Data Warehouses aufgebaut und BI-Tools (Business Intelligence) eingesetzt. Selbst in kleinen mittelständischen Unternehmen zählen solche Lösungen zum Standard-Repertoire. Allerdings hat die Sache einen Haken: BI betrachtet rückwärtsgewandt historische Daten, um auf dieser Grundlage zukunftsgerichtete Entscheidungen zu treffen.

Für eine datenbasierte Vorausschau wie Simulationen oder Prognosen, welche idealerweise zusätzliche Variablen, wie Wetterdaten oder Social-Media-Sentiments enthalten, bedarf es dagegen moderner Data Science. Um einen praktischen Nutzen zu erbringen, sollten die Ergebnisse von Data Science jedoch interpretierbar sein. Dies umso mehr, da die zugrunde liegenden Modelle auf komplexer Mathematik beruhen.

Umsatzprognosen bei Rossmann

Im Normalfall sind Unternehmen mit der Veröffentlichung von Umsatzzahlen oder ähnlichen KPIs, auf die solche Modelle angewendet werden können, sehr zurückhaltend. Die Drogeriekette Rossmann hat hier eine Ausnahme gemacht und im Rahmen eines offenen Wettbewerbs einen Datensatz veröffentlicht, auf dessen Basis tägliche Umsatzprognosen für 1.115 Filialen erstellt werden sollten. Das Data-Science-Team der Wipro-Tochter Cellent hat auf Grundlage dieser Daten eine Umsatzprognose entwickelt.

Im Grunde genommen war die Ausgangslage relativ simpel: Der Umsatz errechnet sich aus der abgesetzten Menge multipliziert mit den jeweiligen Preisen. Auch das Geschäftsmodell von Rossmann wirft keine großen Fragen auf: Es geht um den Verkauf von Drogerieartikeln sowie weiterer Produkte des täglichen Lebens. Von einer genauen Umsatzprognose durch ein Modell würde Rossmann auf verschiedenen Ebenen profitieren:

  • 1. Durch Kosteneinsparungen: Rechnet man pro Filiale und Monat nur eine Arbeitsstunde eines Planers für die Erstellung einer Prognose für den Folgemonat, würden allein an Arbeitszeit ca. 60.000 Euro pro Monat eingespart.
  • 2. Durch die Berechnung eines Best-Case- und Worst-Case-Szenarios ließe sich ein relativ genauer Korridor angeben, wie sich der Umsatz entwickeln wird.
  • 3. Die Wahrscheinlichkeit eines Verlustes ließe sich im Voraus berechnen.
  • 4. Das Modell könnte Begründungen für zukünftige Umsatzveränderungen mitliefern.
  • 5. Das Modell könnte die Grundlage für bessere, daten- und damit faktenbasierte Entscheidungen liefern, wo bisher noch häufig das Bauchgefühl der Filialleitung entschied.

Im Fall Rossmann waren die bereitgestellten Daten gut aufbereitet und aussagekräftig und ermöglichte die Entwicklung eines Vorhersagemodells innerhalb von einer Woche. Das entwickelte Modell lag am Ende bei einer Genauigkeit im Schnitt über alle Filialen von 89,1 Prozent und zählte damit zu den treffsichersten Ergebnissen.

Praktische Herangehensweise

Die gelieferten Daten bilden naturgemäß die Vergangenheit ab und entsprechen also der „alten” BI-Welt. Eine aggregierte Prognose aufgrund historischer Zahlen wäre relativ einfach zu berechnen. Ziel war es aber, 1.115 Filialen separat zu betrachten und gleichzeitig Abhängigkeiten zwischen den Filialen für eine Prognose zu nutzen. Um eine hohe Prognosegüte und einen möglichst guten Erklärungsgehalt des Modells zu garantieren, müssen zusätzliche weitere Einflussgrößen identifiziert und in das Modell integriert werden, wie etwa der Wochentag (einige Filialen in Bahnhöfen haben bspw. auch sonntags geöffnet), Werbeaktionen, Wetterdaten oder Ferien. Selbstverständlich ist auch die Lage der Filiale und ihre Erreichbarkeit ein wichtiger Faktor. Von besonderem Interesse kann auch die Wettbewerbssituation der Filiale sein: Wie weit ist beispielsweise der nächste Drogeriemarkt entfernt?

Unterschieden wird für das Modell in interne und externe Daten sowie Feature Engineering.

  • Interne Daten sind die Daten, die bereits im System bzw. im Data Warehouse vorliegen, z. B. Wochentag, Monat, kurzfristige und langfristige Werbeaktionen oder die Art der Filiale.
  • Externe Daten können etwa Kalenderdaten sein, die noch nicht im Data Warehouse sind, von Systemexperten aber relativ einfach über APIs zu integrieren sind. Deutlich komplexer wird es bei Fragen wie der Distanz zum nächsten Wettbewerber (wie weit ist der nächste DM-Markt entfernt?) oder der Frage, wie lange der lokale Konkurrent schon am Markt ist (handelt es sich um eine Neueröffnung oder um einen etablierten Laden?). Möglich wäre hier beispielsweise auch die Einbeziehung von Sentiment-Analysen auf Basis von Social-Media-Daten.
  • Beim Feature Engineering geht es darum, Abhängigkeiten mathematisch abzubilden. Dies ermöglicht Data Scientists den größten Einfluss auf die Vorhersagekraft zu nehmen.

Für den Umsatz pro Filiale wurden verschiedene mathematische Modelle durchgerechnet. Im ersten Schritt wurden die historischen Umsatzdaten über einen ARIMA-Ansatz modelliert (Bild 1, Modell A). ARIMA ist ein relativ komplexes Modell, das häufig für Umsatzprognosen eingesetzt wird und erfahrungsgemäß bessere Ergebnisse als eine reine Mittelwertbetrachtung erzielt. Die Genauigkeit der Modelle wurde an den realen Ergebnissen des Zeitraums getestet und das ARIMA-Modell für eine zufällig ausgewählte Filiale erzielte hier eine Fehlerquote von 25 Prozent (bzw. Genauigkeit von 75 Prozent). Hinzu kam, dass wichtige qualitative Charakteristika der Daten, wie zyklisches Verhalten, nicht hinreichend abgebildet wurden; beides Anzeichen für eine insgesamt aussageschwache Prognose.

In Schritt 2 wurden Daten zur Werbung mit einbezogen und ein X-ARIMA-Modell geschätzt (Bild 1, Modell B), das die Prognose um den Einfluss der Werbeaktionen ergänzt. Allein dadurch konnte die Fehlerquote der Beispielfiliale bereits nahezu halbiert werden (auf 13,2 Prozent) und die Prognose zeigt mehr Charakteristika.

In Schritt 3 wurden zusätzliche interne Daten mit integriert. Als Rechenmodell wurde „Random Forest” genutzt (Bild 1, Modell C), ein State-of-the-Art-Modell aus der Welt des Machine Learnings. Die Fehlerquote konnte gegenüber dem Schritt davor zwar nur marginal verbessert werden (von 13,2 auf 13,1 Prozent), aber das Modell prognostiziert deutlich differenzierter: Erfasst werden wesentliche Eigenschaften, die wichtige Strukturen der Daten abbilden. Vor allem aber ist das Modell besser interpretierbar, da mehr Variablen für die Prognose berücksichtigt wurden und sich dadurch nicht nur die Genauigkeit erhöht, sondern auch weitere Schlüsse aus den Daten ziehen lässt. Es erhöht sich damit allerdings auch die Komplexität des Modells.

In Schritt 4 (Bild 2, Modell D) wurden zusätzlich Wetterdaten aus externen Quellen integriert. Die Fehlerquote sank dadurch für die Beispielfiliale auf 8,3 Prozent. Mit Ausnahme von extremen Umsatzänderungen folgt die Prognose den zu prognostizierenden Werten nahezu ideal. Hinzu kommt, dass sich aus der Prognose auch Variablen interpretieren lassen. Ein Beispiel: An einem bestimmten Tag mit der Umsatzprognose X wird Werbung geschaltet und eine für den Tag „normale” Temperatur und Niederschlagsmenge erwartet. Zur Berechnung kam ein „Quantile Random Forest”-Modell (QF) zum Einsatz, das zudem Abweichungen nach oben und unten als Prognose-Korridor modelliert. Dieser Prognosekorridor lässt schließlich eine Bewertung der Prognose vor Beobachtung der Daten zu: Je enger der Korridor, desto stabiler ist die Prognose. In zehn Prozent aller Fälle liegt der tatsächliche Umsatz über der grünen Linie, in zehn Prozent aller Fälle dagegen unterhalb der roten Linie. In zwei Fällen wurde die grüne Linie überschritten.

Der Prognosekorridor kann verschieden interpretiert werden und auch an Fragestellungen angepasst werden: So beantwortet der Korridor beispielsweise die Frage, was ein besonders gutes oder ein besonders schlechtes Ergebnis sein könnte. Besonders nützlich kann der Korridor aber sein, um die Wahrscheinlichkeit eines Verlustes zu modellieren und gleichzeitig auch die Höhe des erwarteten Verlusts zu bestimmen.

Bild 1: Prognose der unterlegenen Modelle und tatsächlicher Umsatz im Überblick
Bild 1: Prognose der unterlegenen Modelle und tatsächlicher Umsatz im Überblick (Bild: Cellent)

Nutzen der Prognosemodelle

Mit einer Fehlerquote von 8,3 Prozent pro Tag und Filiale zeigt sich das binnen einer Woche entwickelte Modell bereits relativ treffsicher – stellt aber noch nicht das Ende der Fahnenstange dar. Weitere Variablen und „Feintuning” am Modell könnten die Zielgenauigkeit durchaus noch erhöhen. Bereits mit dem vorliegenden Modell wären die Planer aber in der Lage, nicht nur Umsatzzahlen vorherzusagen, sondern auch den Einfluss von Variablen abzulesen und auch Simulationen durchzuführen, um herauszufinden, wann bspw. der Einsatz von Werbung am sinnvollsten wäre.

Bild 2: Endgültige Prognose und Prognosekorridor: In 10 % aller Fälle liegt der tatsächliche Umsatz über der grünen Linie, in 10 % der Fälle unterhalb der roten Linie.
Bild 2: Endgültige Prognose und Prognosekorridor: In 10 % aller Fälle liegt der tatsächliche Umsatz über der grünen Linie, in 10 % der Fälle unterhalb der roten Linie. (Bild: Cellent)

Abgesehen von der Prognose an sich, besteht ein weiterer Nutzen in der Möglichkeit datenbasierter Entscheidungen als sinnvolle Ergänzung zu klassischen BI-Fragestellungen. Ein Beispiel hierfür ist die Frage, wo eine neue Filiale errichtet werden sollte. Ein Betriebswirt würde hier argumentieren: So nah wie möglich an einem Wettbewerber, weil dort in der Regel die Infrastruktur besser und die Fußwege kürzer sind. Ein Volkswirt dagegen würde eine monopolartige Situation anstreben und möglichst weit von der nächsten Filiale eines Wettbewerbers entfernt bauen. Wer hat recht?

Aus den Daten ergibt sich, dass 50 Prozent der Wettbewerber aktuell weniger als 2,3 Kilometer von einer Rossmann-Filiale entfernt sind. Erfasst man den Umsatz einer Filiale und die Entfernung zum nächsten Wettbewerber in einer Grafik (Bild 3), zeigt sich eine diffuse Punktwolke, die keinerlei Struktur mit bloßem Auge erkennen lässt. Damit wäre praktisch keine Abhängigkeit der Variablen gegeben.

Wendet man aber adäquate Methoden zur Analyse an, wie hier ein nichtparametrisches Verfahren, zeigt sich eine „Badewannen-Kurve”: In einem Umkreis von 1.000 Metern sinkt der Umsatz, je größer die Entfernung zum nächsten Konkurrenten ist – der Betriebswirt hat also Recht. Zwischen 1.000 und 3.500 Metern zeigt sich allerdings tatsächlich keine Abhängigkeit. Aber ab 3.500 Metern wächst der Umsatz mit zunehmender Entfernung – hier hat also der Volkswirt recht!

Daraus ergeben sich zwei vermeintlich gegenläufige Effekte, die aber in die Standortwahl miteinbezogen werden können. Und selbstverständlich ist die Wahl des Filialstandorts auch noch von anderen Erwägungen abhängig und nicht nur von den hier beschriebenen Effekten. Aber angenommen beide Filialen wären bis auf die Distanz identisch: Dann ist es bezogen auf den Umsatz egal, ob die Filiale in 1000 Metern Entfernung zum Konkurrenten steht oder 3000 Meter entfernt ist. Diese Frage wird wichtig, wenn die Filiale in 1.000 Metern Entfernung zum Konkurrenten teurer als die Filiale in 3.000 Metern Entfernung wäre: Dieser Aufpreis wäre nach Datenlage also nicht gerechtfertigt.

Bild 3: In welcher Distanz zur Konkurrenzfiliale soll eine neue Filiale errichtet werden?
Bild 3: In welcher Distanz zur Konkurrenzfiliale soll eine neue Filiale errichtet werden? (Bild: Cellent)

Fazit

Data-Science-Anwendungen, wie z. B. Umsatzprognosen, lassen sich durchaus in bestehende IT-Landschaften integrieren, ohne dass Kosten für weitere Tools oder Lizenzen entstehen. Dies gilt z. B. bei der Verwendung von SAP BW on HANA oder Qlik. Alternativ ist jedoch der Aufbau von Cloud-Data-Lakes zu empfehlen, um verschiedene Datenquellen sowie externe Datenquellen integrieren zu können.

Aktuell ist Data Science noch ein eher exklusiver Club: Die Mitgliedschaft ist relativ teuer und steht nicht jedem offen. Wenn qualifizierte Berater auf vorhandene Lösungen und offene Schnittstellen setzen, eröffnet sich aber auch dem Mittelstand das enorme Potenzial der Datenwissenschaft.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46174243 / Analytics)