So verfeinert das Bayes-Theorem Spam-Filter

Grundlagen Statistik & Algorithmen, Teil 2 So verfeinert das Bayes-Theorem Spam-Filter – und mehr

25.06.2018Autor / Redakteur: Michael Matzer / Nico Litzel

Mithilfe des Satzes von Bayes lassen sich Parameter schätzen und Hypothesen induktiv testen. In einem Spamfilter können so wahrscheinliche Spam-Mails ermittelt werden. Und aus den Symptomen, die bei einem bekannten Test auftreten, lassen sich wahrscheinliche Krankheitsursachen aufspüren. Der Satz von Bayes, der bedingte Wahrscheinlichkeiten beschreibt, ist also ein nahezu universell nutzbares Werkzeug der Statistik.

Anbieter zum Thema

Illustration des Satzes von Bayes durch Überlagerung der beiden ihm zugrundeliegenden Entscheidungsbäume bzw. Baumdiagramme.
(Bild: Qniemiec / CC BY-SA 3.0)

Treten zwei Ereignisse ein, so tun sie das unter bestimmten Bedingungen. Ob Ereignis A Ereignis B bedingt, könnte bedeuten, dass B auch A bedingt. Das könnte aber ein Trugschluss sein. Dass der Mond um die Erde kreist, bedeutet nicht, dass die Erde um den Mond kreist. Ähnliches gilt für Kausalbeziehungen. Dass 99 von 100 Mails Spam sind, lässt nicht den Schluss zu, dass auch die hundertste Mail Spam sein muss. Wird diese echte Mail so klassifiziert, handelt es sich um ein „false positive“.

2013 führte der US-Paketdienst UPS das Navigationssystem ORION ein (On-Road Integrated Optimization and Navigation) ein. Dieses berücksichtigt garantierte Lieferfristen für einzelne Pakete, angemeldete Abholungen und spezielle Kundenklassen mit bevorzugter Bedienung sowie Daten aus dem Verkehrsfluss in Echtzeit. (UPS)

Die Formel des Bayes-Theorems findet sich hier, gefolgt vom Beweis. Der Satz von Bayes erlaubt das Umkehren von Schlussfolgerungen: Der Nutzer geht von einem bekannten Wert P ( B ∣ A ) aus, ist aber eigentlich an dem Wert P ( A ∣ B ) interessiert (P wie Probabilität bzw. Wahrscheinlichkeit). Beispielsweise ist es von Interesse zu erfahren, wie groß die Wahrscheinlichkeit ist, dass jemand eine bestimmte Krankheit hat, wenn ein dafür entwickelter Schnelltest ein positives Ergebnis zeigt.

Aus empirischen Studien kennt man in der Regel die Wahrscheinlichkeit dafür, mit der der Test bei einer von dieser Krankheit befallenen Person zu einem positiven Ergebnis führt. Die gewünschte Umrechnung ist nur dann möglich, wenn man die Prävalenz der Krankheit kennt, das heißt, die (absolute) Wahrscheinlichkeit, mit der die betreffende Krankheit in der Gesamtpopulation auftritt.

Für das Verständnis kann ein Entscheidungsbaum oder eine Vierfeldertafel helfen. Das Verfahren ist auch als „Rückwärtsinduktion“ bekannt.

Mitunter begegnet man dem Fehlschluss, direkt von P ( B ∣ A ) auf P ( A ∣ B ) schließen zu wollen, ohne die A-priori-Wahrscheinlichkeit P ( A ) zu berücksichtigen. Das kann beispielsweise passieren, wenn angenommen wird, die beiden bedingten Wahrscheinlichkeiten müssten ungefähr gleich groß sein (siehe Prävalenzfehler. Wie der Satz von Bayes zeigt, ist das aber nur dann der Fall, wenn auch P ( A ) und P ( B ) ungefähr gleich groß sind. Ebenso ist zu beachten, dass bedingte Wahrscheinlichkeiten für sich allein nicht dazu geeignet sind, eine bestimmte Kausalbeziehung nachzuweisen.

Ein Rechenbeispiel

Der Ereignisbaum zum Rechenbeispiel mit der Testreihe an infizierten Personen.
(Bild: gemeinfrei / CC0 )

Eine bestimmte Krankheit tritt mit einer Prävalenz von 20 pro 100.000 Personen auf. Der Sachverhalt , dass ein Mensch diese Krankheit in sich trägt, hat also die Wahrscheinlichkeit P ( K ) = 0,0002.

Die Frage lautet nun: Ist ein Screening der Gesamtbevölkerung ohne Rücksicht auf Risikofaktoren oder Symptome geeignet, Träger dieser Krankheit zu ermitteln? Es würden dabei weit überwiegend Personen aus dem Komplement K^C von K getestet, also Personen, die diese Krankheit nicht in sich tragen: Die Wahrscheinlichkeit, dass eine zu testende Person nicht Träger der Krankheit ist, beträgt P ( K^C ) = 1 - P ( K ) = 0,998.

T bezeichne die Tatsache, dass der Test bei einer Person „positiv“ ausgefallen ist, also die Krankheit anzeigt. Es sei bekannt, dass der Test mit 95 Prozent Wahrscheinlichkeit anzeigt (Sensitivität = P ( T│K ) = 0,95), aber manchmal auch bei Gesunden anspricht, d. h., ein falsch positives Testergebnis liefert, und zwar mit einer Wahrscheinlichkeit von P ( T│K^C ) = 1 % (Spezifität = 1 - P (T│K^C ) = 1 - 0,01 = 0,99).

Nicht nur für die Eingangsfrage, sondern in jedem Einzelfall insbesondere vor dem Ergebnis weiterer Untersuchungen, interessiert die „positiver prädiktiver Wert“ genannte bedingte Wahrscheinlichkeit P (K│T), dass positiv Getestete Träger der Krankheit sind. Mithilfe der Berechnung mit dem Satz von Bayes ergibt sich: Die Wahrscheinlichkeit liegt bei etwa 0,0186.

Prinzipbild des Rete-Algorithmus. Deutlich sind zwei Netzwerke (Alpha, Beta) zu erkennen und dass darin jeweils sehr viel Speicher benötigt wird. Dieser hohe Speicherbedarf ist einer der wenigen Nachteile des Rete-Algorithmus. (gemeinfrei)

Probleme mit wenigen Klassen und einfachen Verteilungen lassen sich übersichtlich im Baumdiagramm für die Aufteilung der Häufigkeiten darstellen. Geht man von den Häufigkeiten auf relative Häufigkeiten bzw. auf (bedingte) Wahrscheinlichkeiten über, wird aus dem Baumdiagramm ein Ereignisbaum, ein Sonderfall des Entscheidungsbaums. Man gelangt (natürlich) zum gleichen Ergebnis: 0,0186. (Mehr Details und Rechenbeispiele finden sich im Wikipedia-Artikel.

Anwendungsgebiete

Das Bayes-Theorem aus dem Jahr 1763 [PDF] hat einen ganzen Zweig der Statistik hervorgebracht, der auf ihm basiert: die Bayessche Statistik.

In der Statistik betrifft das Bayes-Theorem alle Fragen des Lernens aus Erfahrung, bei denen eine A-priori-Wahrscheinlichkeitseinschätzung aufgrund von Erfahrungen verändert und in eine A-posteriori-Verteilung überführt wird (vgl. den Begriff „Bayessche Statistik“. Bei letzterer wird ein Wissensstand über einen unbekannten Umweltzustand θ a posteriori, das heißt, NACH der Beobachtung einer mit θ in statistischer Abhängigkeit stehenden Zufallsgröße X beschrieben.

Im Data-Mining sind Bayes-Klassifikatoren theoretische Entscheidungsregeln mit beweisbar minimaler Fehlerrate. Allgemein bezeichnet der Begriff Klassifikator eine Instanz, die Objekte klassifiziert, d. h., in Kategorien einordnet. Sie spielen beispielsweise in Spam-Filtern eine entscheidende Rolle. Klassifikation ist eine Hauptaufgabe des Data Minings.

Es geht darum, Objekte Gruppen (hier als „Klassen“ bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt, um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.

Bayes-Filter

In der Spam-Erkennung werden Bayes-Filter verwendet. Von charakteristischen Wörtern in einer E-Mail (Ereignis A) wird auf die Eigenschaft, Spam (Ereignis B) zu sein, geschlossen. Mit Machine Learning lässt sich der Filter verfeinern.

Der monegassische Stadtbezirk Monte-Carlo (© Noppasinw - stock.adobe.com)

In der Disziplin der Künstlichen Intelligenz wird der Satz von Bayes verwendet, um auch in Domänen mit „unsicherem“ Wissen Schlussfolgerungen ziehen zu können. Diese sind dann nicht deduktiv und somit auch nicht immer korrekt, haben sich aber zur Hypothesenbildung und zum Lernen in solchen Systemen als durchaus nützlich erwiesen.

Im Qualitätsmanagement wird das Bayes-Theorem zur Beurteilung der Aussagekraft von Testreihen genutzt, ähnlich wie in der Medizin (s. o.). In der Entscheidungstheorie bzw. Informationsökonomik ziehen Experten den Satz von Bayes zur Bestimmung des erwarteten Wertes von zusätzlichen Informationen heran. Das soll den nötigen Beschaffungsaufwand begrenzen bzw. steuern.

Natürlich gibt es noch zahlreiche weitere Verwendungsmöglichkeiten für das Bayes-Theorem, doch sie reichen weit über die Informationstechnologie im engeren Sinne hinaus, beispielsweise in die Verkehrssteuerung. Aber es wird deutlich, wie vielseitig verwendbar ein aus dem Jahr 1763 stammender Satz und seine zahlreichen Ergänzungen sein kann.

Kernel-Maschinen werden verwendet, um nichtlinear trennbare Funktionen zu berechnen, um so eine linear trennbare Funktion höherer Ordnung zu erhalten. (Kernel Machine.svg / Alisneaky, svg version by User:Zirguezi / CC BY-SA 4.0)

Ereigniszeitanalyse mit zensierten Daten für die Vertriebsabteilung: die Überlebensfunktion für Vertriebstechniker (durchgezogene Linie) und für Vertreter (gestrichelte Linie) in einem Kaplan-Meier-Schätzer. Vertriebstechniker sind ihrer Stelle wesentlich stärker und länger treu als Vertreter. Der blaue und rötliche Hintergrund deckt sich mit der jeweiligen Kurve. (SAS)

Kernidee von LOF ist, die lokale Dichte eines Punktes mit der seiner Nachbarn zu vergleichen- (gemeinfrei)

(ID:45332347)