Suchen

Grundlagen Statistik & Algorithmen, Teil 11 Methoden der Linearen Regressionsanalyse

| Autor / Redakteur: Michael Matzer / Nico Litzel

Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.

Firma zum Thema

Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt.
Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt.
(Bild: gemeinfrei / CC0 )

Bei Regressionsanalysen werden Beziehungen zwischen einer abhängigen und mehreren unabhängigen Variablen modelliert. Damit lassen sich Zusammenhänge quantitativ beschreiben oder Werte der abhängigen Variablen vorhersagen.

Eine weitere Anwendung besteht in der für jede moderne Kommunikation essenziellen Trennung zwischen Signal (Funktion) und Rauschen (Fehler) sowie der Abschätzung des dabei gemachten Fehlers, der Störfunktion. Weitere einführende Bemerkungen sind in dem Artikel von BigData-Insider über die Einfache Lineare Regression zu finden.

Multiple lineare Regression

Die multiple lineare Regression wird auch „mehrfache lineare Regression“ (kurz: MLR) oder „lineare Mehrfachregression“ genannt. Sie ist ein regressionsanalytisches Verfahren und ein Spezialfall der linearen Regression. Die MLR versucht, eine beobachtete abhängige Variable durch mehrere unabhängige Variablen zu erklären. Das dazu verwendete Modell ist linear in den Parametern, wobei die abhängige Variable eine Funktion der unabhängigen Variablen ist. Diese Beziehung wird durch eine additive Störgröße überlagert. Die MLR stellt somit eine Verallgemeinerung der ELR bezüglich der Anzahl der Regressoren dar.

Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.
Methode der kleinsten Quadrate: Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme. Die Kleinste-Quadrate-Schätzwerte b 0 und b 1 minimieren die Summe der Quadrate der senkrechten Abstände der Datenpunkte von der Regressionsgeraden.
(Bild: Debenben / CC BY-SA 4.0 / CC BY-SA 4.0)

Bei der multiplen linearen Regression werden mehrere unabhängige Variablen oder Funktionen der unabhängigen Variablen berücksichtigt. Wird zum Beispiel der Term x hoch 2 zur vorigen Regression hinzugefügt, so ergibt sich: yi = β0 + β1xi + β2xi2 + eii = 1, ..., p. Dabei ist β der unbekannte Parameter. Obwohl der Ausdruck auf der rechten Seite quadratisch in der unabhängigen Variable ist, ist der Ausdruck linear in den Parametern β1, β2 und β3, und . Damit ist dies auch eine lineare Regressionsgleichung. Zur Bestimmung der Modellparameter wird die Methode der kleinsten Quadrate verwendet.

Die wesentliche Voraussetzung an das MLR besteht darin, dass es bis auf die Störgröße ε [Epsilon] das „wahre Modell“ beschreibt. Das zugrundeliegende „wahre Modell“ ist das eigentliche Populationsmodell, welches die Zielgröße und die relevanten Einflussgrößen in Beziehung zueinander setzt. Diese Beziehung wird durch eine additive Störgröße überlagert, für die angenommen wird, dass sie einen Erwartungswert von Null aufweist. Die grundlegende Annahme des Modells ist, dass es linear in den Parametern ist.

Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).
Datensatz mit wahrer Regressionsgerade (blau) und geschätzter Regressionsgerade (rot) sowie wahrer Störgröße und geschätzter Störgröße (Residuum).
(Bild: gemeinfrei / CC0 )

Im Modell wird in der Regel nicht genau spezifiziert, von welcher Art die Störgröße ε ist; sie kann beispielsweise von zusätzlichen Faktoren oder Messfehlern herrühren. Jedoch nimmt man als Grundvoraussetzung an, dass dessen Erwartungswert (in allen Komponenten) 0 ist (Annahme 1). Diese Annahme bedeutet, dass das Modell grundsätzlich für korrekt gehalten und die beobachtete Abweichung als zufällig angesehen wird oder von vernachlässigbaren äußeren Einflüssen herrührt.

Typisch ist die Annahme, dass die Komponenten des Vektors unkorreliert sind (Annahme 2) und dieselbe Varianz σ2 [kleines Sigma] besitzen (Annahme 3), wodurch sich mithilfe von Verfahren wie der Methode der kleinsten Quadrate (s.o.) einfache Schätzer für die unbekannten Parameter β und σ2 ergeben. Die Methode wird daher auch (multiple lineare) KQ-Regression bzw. KQ-Schätzer genannt. Es ist das Standardverfahren zur mathematischen Ausgleichsrechnung.

Der F-Test

Der globale F-Test, auch Globaltest, Gesamttest, Test auf Gesamtsignifikanz eines Modells, F-Test der Gesamtsignifikanz, Test auf den Gesamtzusammenhang eines Modells genannt, stellt eine globale Prüfung der Regressionsfunktion dar. Mit dem F-Test wird eine Kombination von linearen (Gleichungs-) Hypothesen geprüft und somit, ob mindestens eine Variable einen Erklärungsgehalt für das Modell liefert und das Modell somit als Gesamtes signifikant ist. Falls diese Hypothese verworfen wird, ist das Modell nutzlos. Diese Variante des F-Tests ist die gebräuchlichste Anwendung des F-Tests. Beim Spezialfall der Varianzanalyse kann man Unterschiede zwischen zwei Stichproben aufdecken.

Der Test geht auf einen der bekanntesten Statistiker, Ronald Aylmer Fisher (1890 bis 1962) zurück. Er formulierte auch den verbreiteten T-Test.

Epidemiologie

In der Erfassung und Bekämpfung von Epidemien sind Stichproben von größter Bedeutung. Das Problem ist die Aufdeckung von Zusammenhängen und von Merkmalen, die signifikant sind. Die Stichproben dürfen daher nicht zu klein ausfallen.

Die Regressionsanalyse wurde schon früh genutzt, um den Zusammenhang zwischen Tabakrauchen und Krankheits- bzw. Sterblichkeitsrate von Rauchern zu erfassen und zu bewerten. Während in den 1920er-Jahren Werbekampagnen gewöhnliche Zigaretten den US-amerikanischen Frauen als „Fackeln der Freiheit“ anpriesen, dachte wohl keiner – zumindest nicht offiziell – dass Rauchen erhebliche Gesundheitsrisiken barg und birgt.

Doch Beobachtungsstudien, die Regressionsanalyse nutzten, entdeckten den o. g. Zusammenhang. Um zufällige Korrelationen bei der Analyse von Beobachtungsdaten auszuschließen, integrieren Forscher üblicherweise verschiedene Variablen in ihre Regressionsmodelle, zusätzlich zu ihrer primären unabhängigen Variable: das Rauchen etwa. Die abhängige Variable ist Lebensdauer (in Jahren), aber zusätzlich integrieren die Forscher Variablen wie Ausbildungsniveau und Einkommensklasse, also sozioökonomische (und ernährungsmäßige) Faktoren. Diese Störfaktoren wollen sie ausschließen, um so den primären Faktor, das Rauchen, zu determinieren.

Sämtliche Störfaktoren auszuschließen, ist in einer empirischen Untersuchung kaum jemals möglich. Beispielsweise könnte ein hypothetisches Gen die Sterblichkeitsrate beeinflussen oder Leute dazu bringen, mehr zu rauchen. Um solche Störfaktoren aufzuspüren und zu eliminieren, werden häufig zufallsbasierte, kontrollierte Versuchsreihen ausgeführt. Falls es kausale Zusammenhänge gibt, fördern diese Stichproben eher Beweise zutage als Regressionsanalysen von Beobachtungsdaten. Lassen sich jedoch kontrollierte Versuche nicht realisieren, kann man Varianten der MLR wie etwa Instrumentvariablenschätzung nutzen, um kausale Zusammenhänge in Beobachtungsdaten aufzuspüren.

(ID:46549839)

Über den Autor