Suchen

Grundlagen Statistik & Algorithmen, Teil 10 Mit einfacher Regressionsanalyse Mittelwerte in Prognosen ermitteln

| Autor / Redakteur: Michael Matzer / Nico Litzel

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).

Firmen zum Thema

Bestmögliche Gerade durch die „Punktwolke“ einer Messung
Bestmögliche Gerade durch die „Punktwolke“ einer Messung
(Bild: gemeinfrei / CC0 )

Bei Regressionsanalysen werden Beziehungen zwischen einerabhängigenund mehrerenunabhängigen Variablenmodelliert. Damit lassen sich Zusammenhängequantitativbeschreiben oder Werte der abhängigen Variablen vorhersagen. Eine weitere Anwendung besteht in der für jede moderne Kommunikation essenziellen Trennung zwischen Signal (Funktion) und Rauschen (Fehler) sowie der Abschätzung des dabei gemachten Fehlers.

Geschichte

Um 1760 erfunden, diente die Regression der Ermittlung eines Mittelwerts oder Medians, beispielsweise bei der Ermittlung Körpergrößen in einer Gruppe oder von Einkommen in einer Belegschaft. DieseMedian-Regressionwurde 1809 und 1821 vonFriedrich Gaußum die Methode derkleinsten Quadrateergänzt. Er undLegendreverwendeten die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Nach Gauß ist auch die typische Glockenform einerNormalverteilungbenannt.

Der Begriff Regression im Sinne von „Rückschritt“ wurde von Francis Galton eingeführt, um zu beschreiben, dass die Nachfahren großgewachsener Großeltern dazu tendieren, nur durchschnittlich groß zu werden. Seit Arbeit wurde später in einen allgemeineren statistischen Kontext gesetzt. In deren Arbeiten wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist.

Anwendungsfälle

Regressionsverfahren haben viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der folgenden beiden Kategorien:

  • Wenn das Ziel diePrognoseoder Vorhersage ist, dann kann der durch das Regressionsverfahren ermittelte funktionale Zusammenhang verwendet werden, um ein Vorhersagemodell zu erstellen. Wenn nun zusätzliche Werte x ohne zugehörigen Wert y vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.
  • Wenn eine Variable y und eine Anzahl von Variablen x 1, ... x p vorliegen, die mit y in Verbindung gebracht werden können, dann lassen sich Regressionsverfahren anwenden, um dieStärke des Zusammenhangs zu quantifizieren. So können diejenigen x j ermittelt werden, die gar keinen Zusammenhang mit y haben; oder diejenigen Teilmengen x i ... x j, , die redundante Information über y enthalten. (Dies betrifft u. a. die Relation zwischen Signal und Rauschen, Funktion und Fehler.)

Es gibt eine Reihe vonunausgesprochenen Annahmenfür Regressionsanalysen. Sie werden in der englischen Wikipedia detailliert beschrieben und erläutert, was aber nur für mathematisch geschulte Statistiker verständlich ist. Die wichtigste Annahme ist sicherlich die, dass die herangezogene Datenprobe repräsentativ für die Datenmenge steht, die per Regressionsanalyse vorhergesagt, inter- bzw. extrapoliert oder herausgefiltert werden soll. Dies zeigt sich sogleich im folgenden Ablauf.

Schema einer Regressionsanalyse

a) Datenaufbereitung

Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten, insbesondere

  • diePlausibilisierung. Hierbei wird geprüft, ob die Daten nachvollziehbar sind. Dies kann manuell oder automatisch anhand von Gültigkeitsregeln erfolgen. Algorithmisch können beispielsweise Ausreißer gefunden und eliminiert werden.
  • Die Transformation der Daten. Sie kann beispielsweise zu einer besseren Interpretierbarkeit oder Visualisierbarkeit der Daten führen. Sie kann auch dazu dienen, die Daten in eine Form zu bringen, in der die Annahmen des Regressionsverfahrens erfüllt sind. Im Falle derlinearen Regression(siehe unten) werden etwa ein linearer Zusammenhang zwischen den unabhängigen und der abhängigen Variable vorausgesetzt. Es gibt mathematische Hilfsmittel zum Finden einer geeigneten Transformation, im Beispiel der Linearisierung des Zusammenhanges etwa dieBox-Cox-Transformation.
  • die Berücksichtigung vonInteraktionen(bei linearer Regression). Hierbei wird neben dem Einfluss der unabhängigen Variablen auch der Einfluss mehrerer Variablen gleichzeitig berücksichtigt.

b) Modellanpassung

Mittels mathematischer Verfahren wird nun eine Funktion ermittelt, sodass die Residuen e minimal werden. Dabei kann die Form der Funktion bereits durch das verwendete Regressionsverfahren festgelegt sein. Die Lineare Regression etwa betrachtet nur lineare Funktionen f, logistische Regression betrachtet nurlogistische Funktionen. Was genau unter „minimal“ zu verstehen ist, hängt ebenfalls vom verwendeten Verfahren ab. Wendet man etwa die Methode der kleinsten Quadrate (s.o.) an, dann wird dieResiduenquadratsummeS i = 1 n e i ^2 minimiert, es gibt jedoch auch sogenannte „robuste Verfahren“, die den Betrag der Abweichungen minimieren.

c) Modellvalidierung

Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung. Schließlich will man ja herausfinden, ob das Modell überhaupt eine gute Beschreibung des Zusammenhangs ist. Das ist genau wie beim Machine Learning. Die Modellvalidierung umfasst vier Phasen.

  • Die Residuenanalyse. Viele Regressionsverfahren treffen Annahmen über die Störwerte bzw. Residuen e i ^ des Modells. So wird etwa eine bestimmte Verteilung,konstante Varianzoderfehlende Autokorrelationunterstellt. Da die Störwerte jedoch das Ergebnis des Verfahrens sind, kann die Prüfung der Annahmen erst im Nachhinein erfolgen. Ein typisches Hilfsmittel zur Überprüfung der Verteilung ist derQuantile-Quantile-Plot.
  • Untersuchung der Daten aufAusreißerund einflussreiche Datenpunkte. Hierbei wird überprüft, welche Datensätze nicht zur ermittelten Funktion f passen (Ausreißer) und welche Daten die ermittelte Funktion stark beeinflussen. Mathematische Hilfsmittel zur Ermittlung von Ausreißern und einflussreichen Punkten sindCooks- undMahalanobis-Distanz.
  • Multikollinearitätder unabhängigen Variablen (beilinearen Modellen). Wenn es einen linearen Zusammenhang zwischen den unabhängigen Variablen x gibt, dann kann das zum einen dienumerische Stabilitätdes Verfahrens beeinträchtigen und zum anderen die Interpretation des Modells bzw. der angepassten Funktion erschweren. Doch dem lässt sich entgegenwirken. Hilfsmittel zum Quantifizieren der Kollinearität sind derVarianz-Inflation-Faktorund die https://de.wikipedia.org/wiki/Korrelationsmatrix.

d) Prognose

Das nunmehr geprüfte und für gültig erklärte Modell lässt sich zur Vorhersage von Werten von y bei gegebenen Werten von x heranziehen. Häufig wird neben dem prognostizierten Wert von y auch einPrognoseintervallangegeben, um so die Unsicherheit der Prognose abzuschätzen. So etwas würde beispielsweise IBM Watson tun.

Bei Vorhersagen innerhalb des Wertebereichs der zur Modellanpassung verwendeten Daten spricht man vonInterpolation. Vorhersagen außerhalb dieses Datenbereichs nennt manExtrapolation. Dies ist keine Maßnahme, die man mal nebenher vornimmt. Vor der Durchführung von Extrapolationen sollte man sich gründlich mit den dabei implizierten Annahmen befassen.

e) Variablenauswahl und Modellvergleich

Ist das Ziel der Analyse die Ermittlung derjenigen unabhängigen Variablen, die besonders stark in Zusammenhang mit der abhängigen Variablen y stehen, werden häufig mehrere Modelle mit jeweils unterschiedlichen unabhängigen Variablen erstellt und diese Modelle miteinander verglichen. Um zwei Modelle zu vergleichen, werden in der Regel Kennzahlen wie dasBestimmtheitsmaßoder dasInformationskriteriumbenutzt.

Es gibt automatisierte Verfahren wie die sogenannte Schrittweise Regression, die sukzessive dasjenige Modell zu ermitteln versuchen, welches den gesuchten Zusammenhang am besten erklärt. Des Weiteren gibt es in derBayes'schen StatistikVerfahren, die aus mehreren Modellen ein neues Modell ableiten (durch sogenanntes averaging) und so versuchen, die aus der Modellwahl entstehende Unsicherheit zu reduzieren.

Beispielverfahren 1: Lineare Einfachregression

Dielineare Einfachregression, oder auch einfache lineare Regression, kurz: ELR (selten auch „univariate lineare Regression“ genannt), ist ein Verfahren der statistischen Regressionsanalyse und ein Spezialfall der linearen Regression. Bei der ELR wird eine abhängige Variable durch eine lineare Funktion einer einzigen unabhängigen Variablen erklärt. Ziel ist die Schätzung von Y-Achsenabschnitt und Steigung der Regressionsgeraden sowie die Schätzung der Varianz derStörgrößen.

Streudiagramm Preis vs. Absatz für das Beispiel einer Einfachen Linearen Regression (ELR).
Streudiagramm Preis vs. Absatz für das Beispiel einer Einfachen Linearen Regression (ELR).

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung desAbgabepreisessoll zunächst einePreis-Absatz-Funktionermittelt werden. Dazu wird in n = 6 Geschäften ein Testverkauf durchgeführt und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche x (in Euro) sowie der Zahl der jeweils verkauften Flaschen y.

Auf die Vermutung, dass es sich um einen linearen Zusammenhang handelt, kommt der Statistiker, wenn er das obige Streudiagramm betrachtet. Dort erkennt er, dass die eingetragenen Datenpunkte nahezu auf einer Linie liegen. Im Weiteren sind der Preis als unabhängige und die Zahl der verkauften Flaschen als abhängige Variable definiert, und es gibt sechs Beobachtungen. Die Anzahl der verkauften Flaschen könnte aber unter Umständen nicht nur vom Preis abhängen, beispielsweise könnte in der Verkaufsstelle 3 eine große Werbetafel gehangen haben, sodass dort mehr Flaschen als erwartet verkauft wurden (zufälliger Einfluss). Damit scheint das Einfache Lineare Regressionsmodell (ELR) zu passen.

Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).
Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).
(Bild: gemeinfrei / CC0 )

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, schätzt der Statistiker zunächst die Regressionsgerade mit der Methode der kleinsten Quadrate und es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.

Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.
Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.

Für unser Zahlenbeispiel ergeben sich für die abhängige und unabhängige Variable jeweils einMittelwertzu x ¯ = 15 und y ¯ = 5. Somit erhält man die Schätzwerte ß ^ 0 für ß 0 und ß 1 für durch einfaches Einsetzen in die Formeln. Zwischenwerte (z. B. ) in diesen Formeln sind in einer Tabelle dargestellt, die einen Mittelwert ausgibt.

Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt; es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.
Nach der graphischen Inspektion, ob ein linearer Zusammenhang vorliegt, wird zunächst die Regressiongerade mit der Methode der kleinsten Quadrate geschätzt; es ergeben sich die Formeln in der Infobox für die geschätzten Regressionsparameter.
(Bild: gemeinfrei / CC0 )

Die geschätzte Regressionsgerade lautet somit

y ^1 = 19 , 73 - 0 , 98 x i

sodass man vermuten kann, dass bei jedem Euro mehr im Flaschenpreis der Absatz im Mittel um ungefähr eine Flasche sinken dürfte.

Die ELR erlaubt es, für einen konkreten Preis x die zu erwartende Absatzmenge auszurechnen. Aus beispielsweise x = 11 ergibt sich eine geschätzte Absatzmenge von y ^= 19 , 73 - 0 , 98 x 11 = 8 93 = 19. Für jeden Beobachtungswert x i kann eine geschätzte Absatzmenge angegeben werden, z. B. x 3 = 15 für ergibt sich y ^3 = 19 , 73 -0 , 98 x 15 = 5. Die geschätzte Störgröße, genannt Residuum, ist dann e ^3 = y 3 - y ^3 = 7 - 5 = 2 , 00 . Naja, eine Störgröße von 40 Prozent (2 von 5) ist wohl nicht ganz vernachlässigbar. Daher nutzt man am besten weitere Regressionsmethoden und die oben geschilderten Schritte zur Kontrolle und Korrektur des Modells. Zudem ist die Datenprobe sehr klein.

(ID:46375371)

Über den Autor