Grundlagen Statistik & Algorithmen, Teil 10

Mit einfacher Regressionsanalyse Mittelwerte in Prognosen ermitteln

| Autor / Redakteur: Michael Matzer / Nico Litzel

Bestmögliche Gerade durch die „Punktwolke“ einer Messung
Bestmögliche Gerade durch die „Punktwolke“ einer Messung (Bild: gemeinfrei / CC0)

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).

Bei Regressionsanalysen werden Beziehungen zwischen einer abhängigen und mehreren unabhängigen Variablen modelliert. Damit lassen sich Zusammenhänge quantitativ beschreiben oder Werte der abhängigen Variablen vorhersagen. Eine weitere Anwendung besteht in der für jede moderne Kommunikation essenziellen Trennung zwischen Signal (Funktion) und Rauschen (Fehler) sowie der Abschätzung des dabei gemachten Fehlers.

Geschichte

Um 1760 erfunden, diente die Regression der Ermittlung eines Mittelwerts oder Medians, beispielsweise bei der Ermittlung Körpergrößen in einer Gruppe oder von Einkommen in einer Belegschaft. Diese Median-Regression wurde 1809 und 1821 von Friedrich Gauß um die Methode der kleinsten Quadrate ergänzt. Er und Legendre verwendeten die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Nach Gauß ist auch die typische Glockenform einer Normalverteilung benannt.

Der Begriff Regression im Sinne von „Rückschritt“ wurde von Francis Galton eingeführt, um zu beschreiben, dass die Nachfahren großgewachsener Großeltern dazu tendieren, nur durchschnittlich groß zu werden. Seit Arbeit wurde später in einen allgemeineren statistischen Kontext gesetzt. In deren Arbeiten wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist.

Anwendungsfälle

Regressionsverfahren haben viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der folgenden beiden Kategorien:

  • Wenn das Ziel die Prognose oder Vorhersage ist, dann kann der durch das Regressionsverfahren ermittelte funktionale Zusammenhang verwendet werden, um ein Vorhersagemodell zu erstellen. Wenn nun zusätzliche Werte x ohne zugehörigen Wert y vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.
  • Wenn eine Variable y und eine Anzahl von Variablen x 1, ... x p vorliegen, die mit y in Verbindung gebracht werden können, dann lassen sich Regressionsverfahren anwenden, um die Stärke des Zusammenhangs zu quantifizieren. So können diejenigen x j ermittelt werden, die gar keinen Zusammenhang mit y haben; oder diejenigen Teilmengen x i ... x j, , die redundante Information über y enthalten. (Dies betrifft u. a. die Relation zwischen Signal und Rauschen, Funktion und Fehler.)

Es gibt eine Reihe von unausgesprochenen Annahmen für Regressionsanalysen. Sie werden in der englischen Wikipedia detailliert beschrieben und erläutert, was aber nur für mathematisch geschulte Statistiker verständlich ist. Die wichtigste Annahme ist sicherlich die, dass die herangezogene Datenprobe repräsentativ für die Datenmenge steht, die per Regressionsanalyse vorhergesagt, inter- bzw. extrapoliert oder herausgefiltert werden soll. Dies zeigt sich sogleich im folgenden Ablauf.

Schema einer Regressionsanalyse

a) Datenaufbereitung

Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten, insbesondere

  • die Plausibilisierung. Hierbei wird geprüft, ob die Daten nachvollziehbar sind. Dies kann manuell oder automatisch anhand von Gültigkeitsregeln erfolgen. Algorithmisch können beispielsweise Ausreißer gefunden und eliminiert werden.
  • Der Umgang mit fehlenden Daten. Häufig werden unvollständige Datensätze weggelassen, mitunter werden die fehlenden Daten auch nach bestimmten Verfahren aufgefüllt.
  • Die Transformation der Daten. Sie kann beispielsweise zu einer besseren Interpretierbarkeit oder Visualisierbarkeit der Daten führen. Sie kann auch dazu dienen, die Daten in eine Form zu bringen, in der die Annahmen des Regressionsverfahrens erfüllt sind. Im Falle der linearen Regression (siehe unten) werden etwa ein linearer Zusammenhang zwischen den unabhängigen und der abhängigen Variable vorausgesetzt. Es gibt mathematische Hilfsmittel zum Finden einer geeigneten Transformation, im Beispiel der Linearisierung des Zusammenhanges etwa die Box-Cox-Transformation.
  • die Berücksichtigung von Interaktionen (bei linearer Regression). Hierbei wird neben dem Einfluss der unabhängigen Variablen auch der Einfluss mehrerer Variablen gleichzeitig berücksichtigt.

b) Modellanpassung

Mittels mathematischer Verfahren wird nun eine Funktion ermittelt, sodass die Residuen e minimal werden. Dabei kann die Form der Funktion bereits durch das verwendete Regressionsverfahren festgelegt sein. Die Lineare Regression etwa betrachtet nur lineare Funktionen f, logistische Regression betrachtet nur logistische Funktionen. Was genau unter „minimal“ zu verstehen ist, hängt ebenfalls vom verwendeten Verfahren ab. Wendet man etwa die Methode der kleinsten Quadrate (s.o.) an, dann wird die Residuenquadratsumme Σ i = 1 n e i ^2 minimiert, es gibt jedoch auch sogenannte „robuste Verfahren“, die den Betrag der Abweichungen minimieren.

c) Modellvalidierung

Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung. Schließlich will man ja herausfinden, ob das Modell überhaupt eine gute Beschreibung des Zusammenhangs ist. Das ist genau wie beim Machine Learning. Die Modellvalidierung umfasst vier Phasen.

  • Die Residuenanalyse. Viele Regressionsverfahren treffen Annahmen über die Störwerte bzw. Residuen e i ^ des Modells. So wird etwa eine bestimmte Verteilung, konstante Varianz oder fehlende Autokorrelation unterstellt. Da die Störwerte jedoch das Ergebnis des Verfahrens sind, kann die Prüfung der Annahmen erst im Nachhinein erfolgen. Ein typisches Hilfsmittel zur Überprüfung der Verteilung ist der Quantile-Quantile-Plot.
  • Überanpassung. Sie tritt auf, wenn zu viele unabhängige Variablen im Modell berücksichtigt werden. Ein Verfahren zum Testen auf Überanpassung ist das Kreuzvalidierungsverfahren.
  • Untersuchung der Daten auf Ausreißer und einflussreiche Datenpunkte. Hierbei wird überprüft, welche Datensätze nicht zur ermittelten Funktion f passen (Ausreißer) und welche Daten die ermittelte Funktion stark beeinflussen. Mathematische Hilfsmittel zur Ermittlung von Ausreißern und einflussreichen Punkten sind Cooks- und Mahalanobis-Distanz.
  • Multikollinearität der unabhängigen Variablen (bei linearen Modellen). Wenn es einen linearen Zusammenhang zwischen den unabhängigen Variablen x gibt, dann kann das zum einen die numerische Stabilität des Verfahrens beeinträchtigen und zum anderen die Interpretation des Modells bzw. der angepassten Funktion erschweren. Doch dem lässt sich entgegenwirken. Hilfsmittel zum Quantifizieren der Kollinearität sind der Varianz-Inflation-Faktor und die https://de.wikipedia.org/wiki/Korrelationsmatrix.

d) Prognose

Das nunmehr geprüfte und für gültig erklärte Modell lässt sich zur Vorhersage von Werten von y bei gegebenen Werten von x heranziehen. Häufig wird neben dem prognostizierten Wert von y auch ein Prognoseintervall angegeben, um so die Unsicherheit der Prognose abzuschätzen. So etwas würde beispielsweise IBM Watson tun.

Bei Vorhersagen innerhalb des Wertebereichs der zur Modellanpassung verwendeten Daten spricht man von Interpolation. Vorhersagen außerhalb dieses Datenbereichs nennt man Extrapolation. Dies ist keine Maßnahme, die man mal nebenher vornimmt. Vor der Durchführung von Extrapolationen sollte man sich gründlich mit den dabei implizierten Annahmen befassen.

e) Variablenauswahl und Modellvergleich

Ist das Ziel der Analyse die Ermittlung derjenigen unabhängigen Variablen, die besonders stark in Zusammenhang mit der abhängigen Variablen y stehen, werden häufig mehrere Modelle mit jeweils unterschiedlichen unabhängigen Variablen erstellt und diese Modelle miteinander verglichen. Um zwei Modelle zu vergleichen, werden in der Regel Kennzahlen wie das Bestimmtheitsmaß oder das Informationskriterium benutzt.

Es gibt automatisierte Verfahren wie die sogenannte Schrittweise Regression, die sukzessive dasjenige Modell zu ermitteln versuchen, welches den gesuchten Zusammenhang am besten erklärt. Des Weiteren gibt es in der Bayes'schen Statistik Verfahren, die aus mehreren Modellen ein neues Modell ableiten (durch sogenanntes averaging) und so versuchen, die aus der Modellwahl entstehende Unsicherheit zu reduzieren.

Beispielverfahren 1: Lineare Einfachregression

Die lineare Einfachregression, oder auch einfache lineare Regression, kurz: ELR (selten auch „univariate lineare Regression“ genannt), ist ein Verfahren der statistischen Regressionsanalyse und ein Spezialfall der linearen Regression. Bei der ELR wird eine abhängige Variable durch eine lineare Funktion einer einzigen unabhängigen Variablen erklärt. Ziel ist die Schätzung von Y-Achsenabschnitt und Steigung der Regressionsgeraden sowie die Schätzung der Varianz der Störgrößen.

Streudiagramm Preis vs. Absatz für das Beispiel einer Einfachen Linearen Regression (ELR).
Streudiagramm Preis vs. Absatz für das Beispiel einer Einfachen Linearen Regression (ELR). (Bild: Streudiagramm für Regression: Absatz von Sektflaschen nach Preis / Philipendula / CC BY-SA 3.0)

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in n = 6 Geschäften ein Testverkauf durchgeführt und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche x (in Euro) sowie der Zahl der jeweils verkauften Flaschen y.

Auf die Vermutung, dass es sich um einen linearen Zusammenhang handelt, kommt der Statistiker, wenn er das obige Streudiagramm betrachtet. Dort erkennt er, dass die eingetragenen Datenpunkte nahezu auf einer Linie liegen. Im Weiteren sind der Preis als unabhängige und die Zahl der verkauften Flaschen als abhängige Variable definiert, und es gibt sechs Beobachtungen. Die Anzahl der verkauften Flaschen könnte aber unter Umständen nicht nur vom Preis abhängen, beispielsweise könnte in der Verkaufsstelle 3 eine große Werbetafel gehangen haben, sodass dort mehr Flaschen als erwartet verkauft wurden (zufälliger Einfluss). Damit scheint das Einfache Lineare Regressionsmodell (ELR) zu passen.

Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).
Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum). (Bild: gemeinfrei / CC0)

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, schätzt der Statistiker zunächst die Regressionsgerade mit der Methode der kleinsten Quadrate und es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.

Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.
Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden. (Bild: illustration of coefficient of determination / Debenben / CC BY-SA 4.0)

Für unser Zahlenbeispiel ergeben sich für die abhängige und unabhängige Variable jeweils ein Mittelwert zu x ¯ = 15 und y ¯ = 5. Somit erhält man die Schätzwerte β ^ 0 für β 0 und β 1 für durch einfaches Einsetzen in die Formeln. Zwischenwerte (z. B. ) in diesen Formeln sind in einer Tabelle dargestellt, die einen Mittelwert ausgibt.

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt; es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.
Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt; es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter. (Bild: gemeinfrei / CC0)

Die geschätzte Regressionsgerade lautet somit

y ^1 = 19 , 73 - 0 , 98 x i

sodass man vermuten kann, dass bei jedem Euro mehr im Flaschenpreis der Absatz im Mittel um ungefähr eine Flasche sinken dürfte.

Die ELR erlaubt es, für einen konkreten Preis x die zu erwartende Absatzmenge auszurechnen. Aus beispielsweise x = 11 ergibt sich eine geschätzte Absatzmenge von y ^= 19 , 73 - 0 , 98 x 11 = 8 93 = 19. Für jeden Beobachtungswert x i kann eine geschätzte Absatzmenge angegeben werden, z. B. x 3 = 15 für ergibt sich y ^3 = 19 , 73 -0 , 98 x 15 = 5. Die geschätzte Störgröße, genannt Residuum, ist dann ε ^3 = y 3 - y ^3 = 7 - 5 = 2 , 00 . Naja, eine Störgröße von 40 Prozent (2 von 5) ist wohl nicht ganz vernachlässigbar. Daher nutzt man am besten weitere Regressionsmethoden und die oben geschilderten Schritte zur Kontrolle und Korrektur des Modells. Zudem ist die Datenprobe sehr klein.

Das Problem des Handlungsreisenden und seine praktischen Anwendungen

Grundlagen Statistik & Algorithmen, Teil 1

Das Problem des Handlungsreisenden und seine praktischen Anwendungen

18.06.18 - Ob beim Design von künstlichen Neuronalen Netzwerken fürs Deep Learning, in der Logistik oder beim Layout von Leiterplatten – überall stößt man auf das mathematisch lösbare Problem des Handlungsreisenden: Wie lässt sich eine Tour mit mehreren Stationen auf dem kürzesten Weg und mit dem geringsten Aufwand bewältigen? lesen

So verfeinert das Bayes-Theorem Spam-Filter – und mehr

Grundlagen Statistik & Algorithmen, Teil 2

So verfeinert das Bayes-Theorem Spam-Filter – und mehr

25.06.18 - Mithilfe des Satzes von Bayes lassen sich Parameter schätzen und Hypothesen induktiv testen. In einem Spamfilter können so wahrscheinliche Spam-Mails ermittelt werden. Und aus den Symptomen, die bei einem bekannten Test auftreten, lassen sich wahrscheinliche Krankheitsursachen aufspüren. Der Satz von Bayes, der bedingte Wahrscheinlichkeiten beschreibt, ist also ein nahezu universell nutzbares Werkzeug der Statistik. lesen

Speed für Mustererkennung mit dem Rete-Algorithmus

Grundlagen Statistik & Algorithmen, Teil 3

Speed für Mustererkennung mit dem Rete-Algorithmus

02.07.18 - Geschäftsregeln halten zahlreiche Unternehmensprozesse am Laufen, deshalb können sie mitunter sehr umfangreich werden. Der Umfang macht ihre Ausführung zeitaufwendig, weshalb jede Methode, sie zu beschleunigen, willkommen ist. Der Rete-Algorithmus beschleunigte 1979 die damals bestehenden Systeme für die Verarbeitung von Business Rules um den Faktor 3.000. Er ist bis heute die Grundlage zahlreicher Expertensysteme, etwa in der Mustererkennung. lesen

Der Monte-Carlo-Algorithmus und -Simulationen

Grundlagen Statistik & Algorithmen, Teil 4

Der Monte-Carlo-Algorithmus und -Simulationen

10.09.18 - Eine Reihe von Algorithmen dient der Suche von Lösungen, ohne vorher die Antwort zu kennen, und von Entscheidungen, die nach „wahrscheinlich richtig oder falsch“ beurteilt werden. Das ist sinnvoll für das Risiko-Management, aber auch für die Nutzung von Supercomputern. Ein solcher Algorithmus ist der Monte-Carlo-Algorithmus und die darauf basierenden Simulationen lesen

Optimale Clusteranalyse und Segmentierung mit dem k-Means-Algorithmus

Grundlagen Statistik & Algorithmen, Teil 5

Optimale Clusteranalyse und Segmentierung mit dem k-Means-Algorithmus

19.11.18 - Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind, so etwa in der Bildverarbeitung und in der Kundensegmentierung. lesen

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

Grundlagen Statistik & Algorithmen, Teil 6

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

04.02.19 - Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen. Bei dem Ereignis kann es sich um etwas so Endgültiges wie den Tod handeln, aber auch um den Verlust einer Arbeitsstelle, eine Scheidung oder einen Beginn, etwa um eine Geburt oder einen Heilungseintritt. lesen

So deckt der Local Outlier Factor Anomalien auf

Grundlagen Statistik & Algorithmen, Teil 7

So deckt der Local Outlier Factor Anomalien auf

29.04.19 - Um Trends zu erkennen, wird oft die Clusteranalyse herangezogen. Der k-Means-Algorithmus etwa zeigt an, wo sich Analyseergebnisse in einer Normalverteilung ballen. Für manche Zwecke ist es aber aufschlussreicher, Ausreißer zu untersuchen, denn sie bilden die Antithese zum „Normalen“, etwa im Betrugswesen. Der Local-Outlier-Factor-Algorithmus (LOF) ist in der Lage, den Abstand von Ausreißern zu ihren Nachbarn zu berechnen und deckt so Anomalien auf. lesen

Der Approximationsalgorithmus

Grundlagen Statistik & Algorithmen, Teil 8

Der Approximationsalgorithmus

03.06.19 - Für verschiedene Probleme lassen sich nur durch Annäherung bzw. Approximation optimale Lösungen finden. Durch einen geeigneten Approximationsalgorithmus versuchen Informatiker, sich dem optimalen Ergebnis anzunähern, so etwa in der Graphentheorie, die Beziehungen in Netzwerken darstellt. lesen

Der Greedy-Algorithmus

Grundlagen Statistik & Algorithmen, Teil 9

Der Greedy-Algorithmus

05.08.19 - Greedy-Algorithmen, oder gierige Algorithmen, bilden eine spezielle Klasse von Optimierungsalgorithmen, die in der Informatik auftreten. Sie zeichnen sich dadurch aus, dass sie schrittweise den Folgezustand auswählen, der zum Zeitpunkt der Wahl den größten Gewinn bzw. das beste Ergebnis (berechnet durch eine Bewertungsfunktion) verspricht z. B. Gradientenverfahren, so etwa die Berechnung von Wechselgeld oder des kürzesten Wegs. Greedy-Algorithmen sind oft schnell, lösen viele Probleme aber nicht optimal. lesen

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46375371 / Analytics)