Definition Was ist Bestärkendes Lernen?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Bestärkendes Lernen, auch Reinforcement Learning, ist neben Überwachtem Lernen und Unüberwachtem Lernen eine der drei grundsätzlichen Lernmethoden des Machine Learnings. Das Bestärkende Lernen benötigt kein vorheriges Datenmaterial, sondern generiert Lösungen und Strategien auf Basis von erhaltenen Belohnungen im Trial-and-Error-Verfahren.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Der englische Begriff für Bestärkendes Lernen lautet Reinforcement Learning. Ein alternativer Begriff ist verstärkendes Lernen. Das Reinforcement Learning ist neben dem Supervised Learning (Überwachten Lernen) und dem Unsupervised Learning (Unüberwachten Lernen) eine der drei grundsätzlichen Lernmethoden des Maschinellen Lernens.

Bestärkendes Lernen findet Lösungen und Strategien für komplexe Fragestellungen und Probleme auf Basis eines Trial-and-Error-Verfahrens und erhaltenen Belohnungen für bestimmte durchgeführte Aktionen. Im Gegensatz zu den anderen Lernmethoden ist kein Ausgangsdatenmaterial notwendig, um das lernende System (Agent) zu trainieren. Das Wissen und die Intelligenz entsteht während vielen verschiedenen Simulationsdurchläufen. Die verwendeten Algorithmen haben das Ziel, die erhaltenen Belohnungen zu maximieren. Die einzelnen Aktionen sind nicht vorgegeben, sondern werden durch den durch die erhaltenen Belohnungen generierten Nutzen bestimmt.

Reinforcement Learning ist dem menschlichen Lernen sehr ähnlich und nutzt beispielsweise künstliche neuronale Netzwerke. Ein sehr bekanntes Beispiel für die Verwendung von Reinforcement Learning ist AlphaGo von Google. AlphaGo Zero kann sich mit den weltbesten Spielern des Brettspiels Go messen und sich das Spiel ohne menschliches Zutun selbst beibringen.

Wie funktioniert Bestärkendes Lernen?

Für das Bestärkende Lernen können verschiedene Algorithmen zum Einsatz kommen. Grundsätzlich basieren die Algorithmen auf dem gleichen Prinzip. Aktionen eines Agenten verändern die Systemumgebung. Beim Bestärkenden Lernen hat der Agent in der Ausgangssituation keine Informationen darüber, wie sich eine Aktion auf die Systemumgebung auswirkt. Abhängig davon, ob es sich um positive oder negative Veränderungen im Sinn einer Problemlösung handelt, erhält der Agent Rückmeldungen in Form von Belohnungen oder Belohnungen bleiben aus.

Abhängig vom erhaltenen Feedback führt der Agent anschließend die nächste Aktion aus. Ziel der Algorithmen ist es, die erhaltenen Belohnungen innerhalb des simulierten Systems zu maximieren. Dadurch entstehen Folgen von Aktionen und Strategien, die zu einer Lösung der Problemstellung führen. Künstliche Neuronale Netzwerke bilden die Lernergebnisse in ihren Neuronenschichten ab. Die Problemlösung ist in den Neuronen zwischen dem Input- und Output-Layer gespeichert. Abgrenzung zu den anderen Methoden des maschinellen Lernens: Überwachtes Lernen und Unüberwachtes Lernen

Die beiden anderen Lernmethoden des Machine Learnings Supervised Learning (Überwachtes Lernen) und Unsupervised Learning (Unüberwachtes Lernen) haben eine grundsätzlich andere Funktionsweise als das Bestärkende Lernen. Überwachtes Lernen basiert auf Ausgangsdaten, die für einen Trainingsprozess verwendet werden. Für jedes Trainingsbeispiel ist die jeweils richtige Lösung vorgegeben. Die Daten sind gelabelt. Anhand des Trainingsmaterials lernt der Agent durch bestimmte Muster die Daten richtig einzuordnen. Werden dem trainierten System nach dem Trainingsprozess nicht gelabelte Daten zugeführt, ordnet es diese nach den zuvor erlernten Mustern einem bestimmten Ergebnis zu.

Anwendungsbeispiele

Typische Anwendungsbeispiele des Überwachten Lernens sind die Personenerkennung auf Bildern, die Handschrifterkennung oder das automatische Erkennen von Spam-Mails. Das Generieren und Erstellen von Trainingsdaten ist beim Überwachten Lernen aufwendig.

Auch das Unüberwachte Lernen arbeitet mit Daten. Allerdings sind diese nicht gelabelt. Es existieren zu den einzelnen Datensätzen also keine vorgegebenen Lösungen. Das lernende System versucht Muster, Strukturen und Unterschiede in den Daten zu finden und die Datensätze passend zu gruppieren.

Neben Unüberwachtem und Überwachtem Lernen existiert mit dem Semi-überwachten Lernen noch eine Mischform beider Methoden. Es arbeitet ähnlich dem Überwachten Lernen. Allerdings sind nur ein Teil der Trainingsdaten gelabelt und mit Lösungen versehen. Die Algorithmen sind in der Lage, auch nicht gelabelte Daten für das Training des Systems zu nutzen.

Vorteile des Bestärkenden Lernens

Bestärkendes Lernen bietet gegenüber den anderen maschinellen Lernmethoden einige Vorteile. So ist es möglich, ohne Ausgangsdaten und menschliches Vorwissen Lösungen für komplexe Probleme zu finden. Reinforcement Learning ist dem natürlichen Lernprozess sehr ähnlich und kann Lösungen generieren, zu denen der Mensch nicht in der Lage ist. Prinzipiell ist Bestärkendes Lernen für beliebige intellektuelle Aufgaben einsetzbar. Im Vergleich zu klassischen Engineering-Methoden sind keine Lösungen vom Menschen vorzugeben. Auch die aufwendige Erhebung und Bearbeitung von Trainingsdaten ist nicht notwendig.

Anwendungsbeispiele des Reinforcement Learnings

Es existieren zahlreiche Beispiele, in denen Reinforcement Learning erfolgreich zum Einsatz kommt. Typische Anwendungsbereiche sind Problemstellungen die folgende Eigenschaften haben:

  • das Trial-and-Error-Prinzip ist anwendbar
  • klassische Engineering-Verfahren sind nicht zielführend
  • die Aufgabe ist simulierbar
  • es sollen eigene Strategien zur Lösungsfindung entwickelt werden
  • komplexe Lösungsschritte sollen gefunden und optimiert werden

Praktische Anwendungsbeispiele sind:

  • Steuerung der Klimatisierung in Google-Rechenzentren
  • eigenständiges Lernen von Atari-Spielen durch Googles DeepMind
  • AlphaGo und AlphaGo Zero: Erlernen des Brettspiels Go und Spielen auf Weltklasse-Niveau
  • Ampelsteuerungen zur Minimierung von Stausituationen
  • Optimierung von Logistikprozessen
  • dynamische Gestaltung von Preisen zur Gewinnmaximierung

(ID:46140270)