Grundlagen Statistik & Algorithmen, Teil 14 Mit Diskriminanzanalyse die Spreu vom Weizen trennen

Autor / Redakteur: Michael Matzer / Nico Litzel

Gibt es mehr als zwei Klassen, die zu klassifizieren sind, ziehen Experten den Algorithmus der Diskriminanzanalyse der linearen Regression vor. Die Diskriminanz- oder Unterscheidungsfunktion sorgt dafür, dass zwei Klassen, die sich möglicherweise in einer Schnittmenge überlappen, schärfer getrennt werden, beispielsweise Käufer von Nicht-Käufern.

Firmen zum Thema

Mit einer Diskriminanzanalyse lässt sich die Spreu vom Weizen trennen.
Mit einer Diskriminanzanalyse lässt sich die Spreu vom Weizen trennen.
(Bild: © pavel1964 - stock.adobe.com)

Die Diskriminanzanalyse (DA) enthält statistische Merkmale (Variablen) der Daten, die für jede Klasse berechnet werden. Dabei kann sie Gruppen auf signifikante Unterscheidungen ihrer Merkmale prüfen und dafür geeignete oder ungeeignete Merkmale benennen. Für eine einzelne Eingabevariable schließt dies folgendes ein: Berechnet werden der Mittelwert für jede Klasse und die Varianz, die für alle Klassen berechnet wird.

Zudem sagt diese Methode voraus, welche die Klasse mit dem höchsten Wert sein wird. So lässt sich etwa ermitteln, welche Personen gute und schlechte Kreditnehmer oder Käufer und Nicht-Käufer sind. Nicht nur in der Statistik, sondern auch im Machine Learning lässt sich die Diskriminanzanalyse nutzen, um durch Raumtransformation eine gute Darstellung von Merkmalen zu erreichen. Sie dient als Klassifikator oder zur Reduktion von Dimensionen.

BSP für die Anwendung der Diskriminanzfunktion auf Kreditnehmer: Welche sind kreditwürdig, welche nicht? Gute (blau) und schlechte (rot) Kreditnehmer einer Bank.
BSP für die Anwendung der Diskriminanzfunktion auf Kreditnehmer: Welche sind kreditwürdig, welche nicht? Gute (blau) und schlechte (rot) Kreditnehmer einer Bank.
(Bild: Kreditdaten / Sigbert / CC BY-SA 3.0)

Eine Bank kann beispielsweise Kreditinteressenten in „kreditwürdig“ und „nicht kreditwürdig“ einteilen. Wenn ein Bankkunde einen Kredit beantragt, versucht das Institut, anhand von Merkmalen wie Höhe des Einkommens, Zahl der Kreditkarten, Beschäftigungsdauer bei der letzten Arbeitsstelle usw. auf die zukünftige Zahlungsfähigkeit und -willigkeit des Kunden zu schließen. Allerdings besteht die Gefahr von „false positives“, also einer Grauzone oder Schnittmenge, in denen irrtümlicherweise ein schlechtes Engagement als gut, andererseits ein gutes Kreditengagement als schlecht klassifiziert werden kann. Die Diskriminanzanalyse sorgt dafür, dass diese Schnittmenge verschwindet und eine klare Trennung der beiden Klassen erfolgt.

Zweites Beispiel: Kunden einer Supermarktkette lassen sich als Markenkäufer und Noname-Käufer klassifizieren. Die ersteren haben offenbar ein höheres Budget, das es zu nutzen gilt. In Frage kommende Merkmale (Variablen) wären etwa die jährlichen Gesamtausgaben in diesen Läden, der Anteil von Markenprodukten an den Ausgaben usw.

In jedem dieser Beispiele ist ein metrisch skaliertes Merkmal X zu beobachten, sei es Kreditwürdigkeit (Bonität) oder Markenkäufer (Budget). Dieses Merkmal wird im Modell der Diskriminanzanalyse als eine Zufallsvariable X behandelt. Wie man an den Beispielen ablesen kann, gibt es mindestens zwei Populationen oder Grundgesamtheiten. Aus einer der beiden stammt das gesuchte Objekt.

Durch Klassifikation mithilfe der Diskriminanzfunktion lässt sich das Objekt einer der beiden Klassen regelmäßig zuordnen. Eine Diskriminanzfunktion oder Trennfunktion ist eine Funktion, die bei der Diskriminanzanalyse jeder Beobachtung einen Scorewert zuordnet. Aus dem Scorewert wird die Gruppenzugehörigkeit jeder Beobachtung und die Grenzen zwischen den Gruppen bestimmt. Bei bekannter Gruppenzugehörigkeit der Beobachtungen werden also die Merkmalsvariablen bei minimalen Informationsverlust zu einer einzigen Diskriminanzvariablen zusammengefasst.

Maximum-Likelihood-Methode

Drei Likelihood-Funktionen für Parameter p einer Binomialverteilung für verschiedene Anzahlen k von roten Kugeln in einer Stichprobe von n=10 Kugeln.
Drei Likelihood-Funktionen für Parameter p einer Binomialverteilung für verschiedene Anzahlen k von roten Kugeln in einer Stichprobe von n=10 Kugeln.
(Bild: MLfunction / Casp11 / CC BY-SA 3.0)

Eine Methode der Zuordnung ist die Maximum-Likelihood-Methode: Man ordnet das Objekt der Gruppe zu, deren Likelihood (Wahrscheinlichkeit) am größten ist. Die Maximum-Likelihood-Methode, kurz ML-Methode, auch Maximum-Likelihood-Schätzung (maximum likelihood: englisch für größte Plausibilität, daher auch Methode der größten Plausibilität), Methode der maximalen Mutmaßlichkeit, Größte-Dichte-Methode oder Methode der größten Dichte bezeichnet in der Statistik ein parametrisches Schätzverfahren. Dabei wird – vereinfacht ausgedrückt – derjenige Parameter als Schätzung ausgewählt, gemäß dessen Verteilung die Realisierung der beobachteten Daten am plausibelsten erscheint.

Im folgenden Beispiel liegen ein Merkmal, aber zwei Gruppen und gleiche Varianzen (Abweichungen) vor. Große Varianzen sorgen für mehr Klarheit, denn dann ist die Schnittmenge bzw. Überlappung am geringsten.

Normalverteilung bei einer Diskriminanzanalyse für zwei Populationen
Normalverteilung bei einer Diskriminanzanalyse für zwei Populationen
(Bild: gemeinfrei / CC0 )

Eine Gärtnerei hat die Möglichkeit, eine größere Menge Samen einer bestimmten Sorte Sonnenblumen günstig zu erwerben. Um den Verdacht auszuräumen, dass es sich dabei um alte, überlagerte Samen handelt, wird eine Keimprobe gemacht. Man sät also 1 g Samen aus und zählt, wie viele dieser Samen keimen. Aus Erfahrung ist bekannt, dass die Zahl der keimenden Samen pro 1 g Saatgut annähernd normalverteilt ist. Bei frischem Saatgut (Population I) keimen im Durchschnitt 80 Samen, bei altem (Population II) sind es nur 40 Samen.

  • Population I: Die Zahl der frischen Samen, die keimen, ist verteilt als X I ∼ N ( 80 ; 10 hoch 2 )
  • Population II: Die Zahl der alten Samen, die keimen, ist verteilt als X II ∼ N ( 40 ; 10 hoch 2 )

Die Keimprobe hat nun x=70 ergeben. Eine Grafik zeigt, dass bei dieser Probe die Likelihood der Population I am größten ist. Man ordnet also diese Keimprobe als frisch ein.

Auch Vorhersagen werden mit der Diskriminanzanalyse erstellt, und zwar indem ein Diskriminanzwert für jede Klasse berechnet und eine Vorhersage für die Klasse mit dem höchsten Wert gemacht wird. Die Diskriminanzanalyse eignet sich also am besten für die Klassifikation von prädiktiven Modellierungsproblemen.

(ID:47240504)

Über den Autor