Definition

Was ist Bestärkendes Lernen?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Bestärkendes Lernen, auch Reinforcement Learning, ist neben Überwachtem Lernen und Unüberwachtem Lernen eine der drei grundsätzlichen Lernmethoden des Machine Learnings. Das Bestärkende Lernen benötigt kein vorheriges Datenmaterial, sondern generiert Lösungen und Strategien auf Basis von erhaltenen Belohnungen im Trial-and-Error-Verfahren.

Der englische Begriff für Bestärkendes Lernen lautet Reinforcement Learning. Ein alternativer Begriff ist verstärkendes Lernen. Das Reinforcement Learning ist neben dem Supervised Learning (Überwachten Lernen) und dem Unsupervised Learning (Unüberwachten Lernen) eine der drei grundsätzlichen Lernmethoden des Maschinellen Lernens.

Bestärkendes Lernen findet Lösungen und Strategien für komplexe Fragestellungen und Probleme auf Basis eines Trial-and-Error-Verfahrens und erhaltenen Belohnungen für bestimmte durchgeführte Aktionen. Im Gegensatz zu den anderen Lernmethoden ist kein Ausgangsdatenmaterial notwendig, um das lernende System (Agent) zu trainieren. Das Wissen und die Intelligenz entsteht während vielen verschiedenen Simulationsdurchläufen. Die verwendeten Algorithmen haben das Ziel, die erhaltenen Belohnungen zu maximieren. Die einzelnen Aktionen sind nicht vorgegeben, sondern werden durch den durch die erhaltenen Belohnungen generierten Nutzen bestimmt.

Reinforcement Learning ist dem menschlichen Lernen sehr ähnlich und nutzt beispielsweise künstliche neuronale Netzwerke. Ein sehr bekanntes Beispiel für die Verwendung von Reinforcement Learning ist AlphaGo von Google. AlphaGo Zero kann sich mit den weltbesten Spielern des Brettspiels Go messen und sich das Spiel ohne menschliches Zutun selbst beibringen.

Wie funktioniert Bestärkendes Lernen?

Für das Bestärkende Lernen können verschiedene Algorithmen zum Einsatz kommen. Grundsätzlich basieren die Algorithmen auf dem gleichen Prinzip. Aktionen eines Agenten verändern die Systemumgebung. Beim Bestärkenden Lernen hat der Agent in der Ausgangssituation keine Informationen darüber, wie sich eine Aktion auf die Systemumgebung auswirkt. Abhängig davon, ob es sich um positive oder negative Veränderungen im Sinn einer Problemlösung handelt, erhält der Agent Rückmeldungen in Form von Belohnungen oder Belohnungen bleiben aus.

Abhängig vom erhaltenen Feedback führt der Agent anschließend die nächste Aktion aus. Ziel der Algorithmen ist es, die erhaltenen Belohnungen innerhalb des simulierten Systems zu maximieren. Dadurch entstehen Folgen von Aktionen und Strategien, die zu einer Lösung der Problemstellung führen. Künstliche Neuronale Netzwerke bilden die Lernergebnisse in ihren Neuronenschichten ab. Die Problemlösung ist in den Neuronen zwischen dem Input- und Output-Layer gespeichert. Abgrenzung zu den anderen Methoden des maschinellen Lernens: Überwachtes Lernen und Unüberwachtes Lernen

Die beiden anderen Lernmethoden des Machine Learnings Supervised Learning (Überwachtes Lernen) und Unsupervised Learning (Unüberwachtes Lernen) haben eine grundsätzlich andere Funktionsweise als das Bestärkende Lernen. Überwachtes Lernen basiert auf Ausgangsdaten, die für einen Trainingsprozess verwendet werden. Für jedes Trainingsbeispiel ist die jeweils richtige Lösung vorgegeben. Die Daten sind gelabelt. Anhand des Trainingsmaterials lernt der Agent durch bestimmte Muster die Daten richtig einzuordnen. Werden dem trainierten System nach dem Trainingsprozess nicht gelabelte Daten zugeführt, ordnet es diese nach den zuvor erlernten Mustern einem bestimmten Ergebnis zu.

Anwendungsbeispiele

Typische Anwendungsbeispiele des Überwachten Lernens sind die Personenerkennung auf Bildern, die Handschrifterkennung oder das automatische Erkennen von Spam-Mails. Das Generieren und Erstellen von Trainingsdaten ist beim Überwachten Lernen aufwendig.

Auch das Unüberwachte Lernen arbeitet mit Daten. Allerdings sind diese nicht gelabelt. Es existieren zu den einzelnen Datensätzen also keine vorgegebenen Lösungen. Das lernende System versucht Muster, Strukturen und Unterschiede in den Daten zu finden und die Datensätze passend zu gruppieren.

Neben Unüberwachtem und Überwachtem Lernen existiert mit dem Semi-überwachten Lernen noch eine Mischform beider Methoden. Es arbeitet ähnlich dem Überwachten Lernen. Allerdings sind nur ein Teil der Trainingsdaten gelabelt und mit Lösungen versehen. Die Algorithmen sind in der Lage, auch nicht gelabelte Daten für das Training des Systems zu nutzen.

Vorteile des Bestärkenden Lernens

Bestärkendes Lernen bietet gegenüber den anderen maschinellen Lernmethoden einige Vorteile. So ist es möglich, ohne Ausgangsdaten und menschliches Vorwissen Lösungen für komplexe Probleme zu finden. Reinforcement Learning ist dem natürlichen Lernprozess sehr ähnlich und kann Lösungen generieren, zu denen der Mensch nicht in der Lage ist. Prinzipiell ist Bestärkendes Lernen für beliebige intellektuelle Aufgaben einsetzbar. Im Vergleich zu klassischen Engineering-Methoden sind keine Lösungen vom Menschen vorzugeben. Auch die aufwendige Erhebung und Bearbeitung von Trainingsdaten ist nicht notwendig.

Anwendungsbeispiele des Reinforcement Learnings

Es existieren zahlreiche Beispiele, in denen Reinforcement Learning erfolgreich zum Einsatz kommt. Typische Anwendungsbereiche sind Problemstellungen die folgende Eigenschaften haben:

  • das Trial-and-Error-Prinzip ist anwendbar
  • klassische Engineering-Verfahren sind nicht zielführend
  • die Aufgabe ist simulierbar
  • es sollen eigene Strategien zur Lösungsfindung entwickelt werden
  • komplexe Lösungsschritte sollen gefunden und optimiert werden

Praktische Anwendungsbeispiele sind:

  • Steuerung der Klimatisierung in Google-Rechenzentren
  • eigenständiges Lernen von Atari-Spielen durch Googles DeepMind
  • AlphaGo und AlphaGo Zero: Erlernen des Brettspiels Go und Spielen auf Weltklasse-Niveau
  • Ampelsteuerungen zur Minimierung von Stausituationen
  • Optimierung von Logistikprozessen
  • dynamische Gestaltung von Preisen zur Gewinnmaximierung

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Fokus auf KI und Technologien der Zukunft

Nachbericht Reply Xchange München

Fokus auf KI und Technologien der Zukunft

Austausch sowie Inspiration: Die Reply Xchange stellt ein breites thematisches Spektrum in den Fokus. Von vernetzen intelligenten Produkten wie der Smart City und dem intelligenten Regal bis hin zu Virtual Reality und holografischen Telepräsenz reichte das Spektrum. Mehr als 1.000 Besucher holten sich in der BMW-Welt Anregungen in Sachen Innovation und neuen Technologien und diskutierten, wie diese die Welt von heute und morgen beeinflussen. lesen

„KI ist weder gut noch böse“

DATA Storage & Analytics Technology Conference 2019

„KI ist weder gut noch böse“

Die Keynote auf der „DATA Storage & Analytics Technology Conference 2019“ von Thorsten Kranz trägt den Titel „KI 2019 – ein Statusbericht aus drei Perspektiven“. Im Gespräch mit BigData-Insider gibt der Director Analytics & Data Science bei der Comma Soft AG einen Einblick in seinen Vortrag. lesen

Daran forscht die Weltspitze der Künstlichen Intelligenz

Nachbericht AWS AI Summit

Daran forscht die Weltspitze der Künstlichen Intelligenz

Künstliche Intelligenz (KI) und maschinelles Lernen entwickeln sich rasant weiter. An Universitäten und anderen Instituten werden fortwährend neue Algorithmen entwickelt. Einen Einblick in die vorderste Linie der KI-Forschung eröffnete der auf der AWS-Tagung re:Invent stattfindende AI Summit. lesen

AWS bringt einsatzfertige analytische Applikationsdienste

Künstliche Intelligenz und Machine Learning

AWS bringt einsatzfertige analytische Applikationsdienste

Auf der AWS re:invent gehörten Machine Learning und Künstliche Intelligenz (KI) zu den wichtigsten Themen. Der Public-Cloud-Provider tut einiges dafür, seinen Kunden den Einsatz von KI-Algorithmen einfacher zu machen. lesen

So können sich Unternehmen jetzt schon auf Quantencomputing vorbereiten

Kommentar von Dr. Sebastian Feld, Ludwig-Maximilians-Universität

So können sich Unternehmen jetzt schon auf Quantencomputing vorbereiten

Seit einiger Zeit liefern sich Akteure aus Forschung und Wirtschaft einen Wettlauf um die Quantentechnologie, an dessen Ende die Revolution der Informationstechnik stehen soll. An den Forschungsprojekten sind oft große Konzerne oder ganze Staatengemeinschaften beteiligt, wie etwa die EU mit ihrem kürzlich gestarteten „OpenSuperQ“. Doch was erhofft man sich vom Quantencomputing und wie können sich der Mittelstand und KMUs auf die neue Technologie vorbereiten? lesen

Das sind die wichtigsten Techniktrends 2018

Kommentar von Mark Barrenechea, OpenText

Das sind die wichtigsten Techniktrends 2018

In den nächsten zehn Jahren werden fünf Milliarden Anwender über Hochgeschwindigkeitsnetzwerke verbunden sein. Neben Menschen gehen auch Billionen von Maschinen ans Netz. Damit einher geht eine neue Art zu arbeiten. Neue Software treibt die digitale Transformation voran und ermöglicht immer intelligentere Unternehmen. lesen

Mitsubishi Electric vereint Künstliche Intelligenz unter der Marke „Maisart“

Künstliche Intelligenz

Mitsubishi Electric vereint Künstliche Intelligenz unter der Marke „Maisart“

Mitsubishi Electric vereint seine Künstliche-Intelligenz-Technologien in der Marke „Maisart“. Der Name ist eine Abkürzung und steht für „Mitsubishi Electric's AI creates the State-of-the-ART in technology“. Das Ziel davon soll sein, intelligentere Geräte, höhere Sicherheit, Benutzerfreundlichkeit und mehr Komfort im Alltag. lesen

Wie sich das menschliche Gehirn im Computer nachbilden lässt

Künstliche Intelligenz

Wie sich das menschliche Gehirn im Computer nachbilden lässt

Die Herausforderung, die Komplexität des menschlichen Gehirns im Computer nachzubilden, hat eine neue Generation von Wissenschaftlern und Entwicklern von Computeralgorithmen hervorgebracht. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46140270 / Definitionen)