Was ist Random Forest?

Definition Was ist Random Forest?

17.03.2020Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Random Forest ist ein Algorithmus, der sich für Klassifizierungs- und Regressionsaufgaben nutzen lässt. Er kombiniert die Ergebnisse vieler verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen zu treffen. Der Lernalgorithmus gehört zu den Verfahren des überwachten Lernens und ist im Machine Learning einsetzbar. Das Verfahren ist relativ einfach und bietet kurze Trainingszeiten.

Anbieter zum Thema

Vogel IT-Medien GmbH

BigData-Insider

Insider Research

Random Forest lässt sich mit den Begriffen „zufälliger Wald“ oder „Zufallswald“ ins Deutsche übersetzen. Es handelt sich um einen Algorithmus, der für Klassifizierungs- und Regressionsaufgaben einsetzbar ist. Der Algorithmus ist relativ einfach und erzielt in kurzen Trainingszeiten gute Lernergebnisse.

Random Forest ist ein Verfahren, das häufig im Machine Learning verwendet wird. Es zählt zu den überwachten Lernverfahren (Supervised Learning) und nutzt die Ergebnisse einer Vielzahl verschiedener Entscheidungsbäume, um bestmögliche Entscheidungen oder Vorhersagen zu treffen. Die Entscheidungsbäume wurden nach einem Zufallsprinzip unkorreliert erstellt. Jeder Baum trifft für sich einzelne Entscheidungen. Aus der Menge der Einzelentscheidungen liefert der Algorithmus eine endgültige Entscheidung. Den Begriff Random Forest prägte im Jahr 1999 Leo Breiman, der verschiedene Methoden zur Randomisierung von Entscheidungsbäumen entwickelte.

Was ist ein Entscheidungsbaum und was ist Bagging?

Um das Funktionsprinzip des Random Forest zu verstehen, sind zunächst die Begriffe Entscheidungsbaum und Bagging näher zu erläutern. Die Basis für Random Forest bilden viele einzelne Entscheidungsbäume (Decision Trees). Ein einzelner Baum besteht aus mehreren Verzweigungen. Die Verzweigungen entstehen, indem Daten aufgrund ihrer Eigenschaften mithilfe von Regeln einer Klasse zugeordnet werden. Ausgehend von der ersten Entscheidung entstehen immer mehr Verzweigungen, bis eine bestimmte Ergebnisebene erreicht ist. Jeder einzelne Entscheidungsbaum in einem Random Forest hat für sich gesehen nicht den Anspruch, jedem Datensatz die korrekte Klasse zuzuweisen.

Unter dem Begriff Bagging versteht man eine bestimmte Methode, die Einzelvorhersagen verschiedener Klassifizierungsmodelle (im Fall eines Random Forest die Entscheidungsbäume) zu kombinieren. Die Einzelergebnisse der Entscheidungsbäume gehen mit einer vorgegebenen Gewichtung in das Gesamtergebnis ein.

Das Funktionsprinzip des Random Forest

Der Algorithmus Random Forest gibt Regeln vor, wie die vielen verschiedene Entscheidungsbäume zu generieren sind und kombiniert sie anschließend mithilfe einer speziellen Ensemble-Methode, um ein Gesamtergebnis zu erzielen. Welche Eigenschaften und Entscheidungskriterien die einzelnen Entscheidungsbäume zum Treffen ihrer Ergebnisse nutzen, basiert auf einem zufälligen Prinzip und unterscheidet sich von Entscheidungsbaum zu Entscheidungsbaum.

Es entsteht ein „Wald“ aus zufälligen, leicht unterschiedlichen Entscheidungsbäumen. Jeder Entscheidungsbaum liefert als kleines, eigenständiges Modell eine Beitrag für die Gesamtentscheidung. Die zufällige Varianz der Bäume steigert die Ergebnis- und Vorhersagegenauigkeit des Random-Forest-Algorithmus. Die Art und Weise, wie die Entscheidungsbäume zu erstellen sind und wie der Random Forest trainiert wird, ist variabel. Beispielsweise ist der Aufbau oder die maximale Tiefe der Entscheidungsbäume wählbar.

Vorteile des Random-Forest-Algorithmus

Random Forest bietet gegenüber anderen Algorithmen zur Klassifikation oder Regression von Daten zahlreiche Vorteile. Da die einzelnen Entscheidungsbäume sich schnell und parallelisiert aufbauen und trainieren lassen, trainiert auch der Gesamtalgorithmus sehr schnell. Seine Stärke zeigt Random Forest, wenn große Datenmengen mit vielen Klassen, Merkmalen und Trainingsdaten verarbeitet werden sollen. Die Varianz der Einzelentscheidungen vieler verschiedener Bäume verbessert die gesamte Ergebnis- und Vorhersagegenauigkeit.

Im Gegensatz zu anderen Modellen und Verfahren des maschinellen Lernens, die beispielsweise auf neuronalen Netzen basieren, bleiben die Entscheidungen eines Random Forest nachvollziehbar und leicht untersuchbar. Warum eine bestimmte Entscheidung getroffen wurde, geht nicht wie in einem neuronalen Netz in einer Art Blackbox unter. Die Anforderungen, die der Random-Forest-Algorithmus an die Hardware und dessen Rechenleistung stellt, sind geringer als beispielsweise die der neuronalen Netzen. Der Algorithmus selbst ist einfach, leicht zu verstehen und flexibel anwendbar.

Nachteile des Random-Forest-Algorithmus

Neben den zahlreichen Vorteilen bringt Random Forest einige Nachteile mit sich. Vor allem im Bereich der Echtzeitentscheidungen und -vorhersagen ist Random Forest nur bedingt einsetzbar. Zwar bietet er eine hohe Trainingsgeschwindigkeit, doch beanspruchen die Vorhersagen und Entscheidungen bei einer großen Anzahl verschiedener Entscheidungsbäume eine größere Zeit. In vielen Echtzeitanwendungen werden daher andere Verfahren genutzt.

Typische Anwendungsbereiche des Random-Forest-Verfahrens

Da Random Forest sowohl für Klassifizierungs- als auch für Regressionsaufgaben einsetzbar ist, ergibt sich ein breites Feld an Anwendungsmöglichkeiten. Branchen, die Random Forest als Machine-Learning-Verfahren einsetzen, sind beispielsweise die Medizin, das Finanzwesen, das Online-Business und der E-Commerce. Machine-Learning-Systeme, die auf dem Random-Forest-Algorithmus basieren, werden eingesetzt, um:

Kunden und Kundengruppen der E-Commerce-Plattformen zu klassifizieren

das Kaufverhalten von Kunden zu analysieren

Betrugsversuche zu erkennen

Aktienkurse vorherzusagen

Daten aus Krankenakten der Patienten zu analysieren

Krankheiten zu identifizieren und zu diagnostizieren

(ID:46411314)