Künstliche Intelligenz Deep Reinforcement Learning (DRL) braucht keine Lernmodelle mehr

Von Dipl. Betriebswirt Otto Geißler 4 min Lesedauer

Anbieter zum Thema

Das Deep Reinforcement Learning (DRL) kann menschliche Entscheidungsprozesse nachahmen, indem Roboter bzw. Systeme ihre Performance deutlich optimieren und selbstständig in komplexen Umgebungen navigieren können. Welche Anwendungen lassen sich dadurch verbessern?

Deep Reinforcement Learning lernt direkt aus den Beobachtungen selbst, wodurch eine umfangreiche Merkmalsentwicklung entfällt.(Bild:  frei lizenziert /  Pixabay)
Deep Reinforcement Learning lernt direkt aus den Beobachtungen selbst, wodurch eine umfangreiche Merkmalsentwicklung entfällt.
(Bild: frei lizenziert / Pixabay)

Menschen lernen am besten durch Feedback, denn dadurch werden sie aktiv und ergreifen Initiativen, die zu positiven Ergebnissen führen können. Dieser Verstärkungsprozess kann mit dem Deep Reinforcement Learning (DRL) auf Computerprogramme angewendet werden, um komplexere Probleme zu lösen, die mit klassischer Programmierung nicht möglich sind.

Abgrenzung zu anderen Technologien

Beim DRL werden Reinforcement Learning und Deep Learning miteinander kombiniert, um komplexe, vielschichtige Probleme zu lösen. Dadurch ist es möglich, anspruchsvolle bzw. dynamische Aufgaben der Entscheidungsfindung mithilfe von DRL-Algorithmen nach dem Trial-and-Error-Prinzip auszuführen. Das bedeutet, die DRL-Technologie nutzt die Feedback-Lernmethoden des DRL sowie die neuronalen Netzwerke des Deep Learning, um Aufgaben autonom ausführen und vorhandenes Wissen auf neue und unstrukturierte Datensätze anzuwenden.

Einer der Hauptunterschiede zwischen Deep Learning und Deep Reinforcement Learning besteht darin, dass Deep Learning datengesteuert ist, während Deep Reinforcement Learning im Prinzip zielgesteuert ist. Beim DRL handelt es sich also um zielorientierte Algorithmen, die über viele Schritte lernen, wie sie ein komplexes Ziel erreichen oder wie sie entlang einer bestimmten Dimension sich optimieren können. So können sie beispielsweise die in einem Spiel über viele Züge hinweg gewonnenen Punkte maximieren.

Lernprozesse über Verstärker

Reinforcement-Learning-Algorithmen können sogar bei null anfangen und unter den richtigen Bedingungen „übermenschliche“ Leistungen erbringen. Wie ein Haustier, das durch ein Belohnungssystem (Verstärker) konditioniert werden kann, ist es mit DRL nun auch möglich, diese Algorithmen zu belohnen oder zu bestrafen, wenn sie die richtigen oder falschen Entscheidungen treffen. Während Deep Learning aus realen Daten lernt, lernt Deep Reinforcement Learning im Wesentlichen aus synthetischen Daten, während eine Maschine mit einer Umgebung interagiert und basierend auf seinen Aktionen Feedback erhält.

Wenn man beispielsweise einem humanoiden Roboter beibringen möchte, eine Treppe hinaufzugehen, könnte er beschließen, einen Schritt zu machen, der am Ende zu groß ist. Die daraus resultierende „Sanktion“ für einen Sturz ist ein negatives Feedback, das der Computer dann nutzt, um seinen nächsten Schritt auf einen kleineren anzupassen. Wobei einige Forscher virtuelle Umgebungen verwenden, damit der Roboter verschiedene Optionen testen und wiederholt fallen kann, ohne zu riskieren, teure Roboterteile zu verschleißen.

Vorteile des DRL

  • Kostengünstig: DRL reduziert den Bedarf an menschlichem Eingreifen und ist daher eine relativ kostengünstige Lösung.
  • Proaktives Lernen: DRL-Algorithmen lernen aus ihrer Umgebung und suchen proaktiv nach Möglichkeiten, Belohnungen zu maximieren und so die Performance im Laufe der Zeit zu verbessern.
  • Unabhängigkeit: DRL-geschulte Computer können unabhängig arbeiten und benötigen keine ständige Aufsicht.
  • Konsekutives Lernen: DRL-Algorithmen lernen durch Versuch und Irrtum und reduzieren systematisch Fehler, indem sie aus vergangenen Aktionen lernen.
  • Prognosen: DRL kann auf Grundlage Von Datenmaterial aus der Vergangenheit Prognosen über zukünftige Ereignisse treffen und so Entscheidungsprozesse optimieren.

Nachteile des DRL

Riesige Datenvolumina: DRL-Algorithmen benötigen extrem große Datenmengen, um optimal zu lernen.

Unvorhersehbarkeit: DRL-Modelle können aufgrund ihrer autonomen Natur unvorhersehbares Verhalten annehmen.

Adäquate Anwendungsfälle

DRL wird in verschiedenen Branchen eingesetzt, um menschliche Aktivitäten zu unterstützen und zu verbessern. Dazu gehören Branchen, in denen ständig riesige Datensätze generiert werden, um Versuch-und-Irrtum-Gleichungen erfolgreich auszuführen. In der Folge sind einige der wichtigsten skizziert:

Robotersteuerung: DRL hilft bei der Entwicklung autonomer Roboter, die sich in komplexen, unsicheren Umgebungen zurechtfinden und anspruchsvolle Aufgaben präzise ausführen können. KI-gesteuerte Roboter haben ein breites Anwendungsspektrum wie beispielsweise in der Fertigung, der Automatisierung der Lieferkette, im Gesundheitswesen und viele mehr.

Autonomes Fahren: Deep Reinforcement Learning spielt beim autonomen Fahren häufig eine Rolle. Darin vorkommende Szenarien beinhalten interagierende Computer und erfordern eine dynamische Entscheidungsfindung, was sich für Reinforcement Learning optimal eignet.

Gaming: Entwickler verwenden DRL, um intelligente, anpassungsfähige Nicht-Spieler-Charaktere (NPCs) in Videospielen zu erstellen, die mit der Zeit ihre Spielstrategie erlernen und verbessern und so menschliche Spieler herausfordern können. So hat DRL bei vielen Zwei- oder sogar Mehrspieler-Spielen eine Performance auf menschlichem oder sogar „übermenschlichem“ Niveau erreicht.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gesundheitswesen: Künstliche Intelligenz (KI) hat die Entwicklung fortschrittlicher Systeme ermöglicht. Diese können über klinische Behandlungen lernen, klinische Entscheidungsunterstützung bieten und mithilfe von Big Data bahnbrechende Entdeckungen machen. DRL ermöglicht Fortschritte wie die personalisierte Medizin, um die Gesundheitsversorgung der Patienten systematisch zu optimieren. Insbesondere bei chronischen Erkrankungen und Krebserkrankungen mit individuellen Patientendaten.

Lieferkette: DRL optimiert komplexe Lieferkettensysteme, Bestandsverwaltungen und Routenplanungen, um die Effizienz zu maximieren und die Kosten zu minimieren.

Sonstige Anwendungen: In Bezug auf Use Cases werden viele weitere Bereiche von den positiven Effekten profitieren. Dazu gehören unter anderem Finanzen, Unternehmensführung, Ressourcen-Management, Bildung, Marketing, Smart Grids, Transport, Wissenschaft, Technik und Kunst. DRL-Systeme sind bereits in Produktionsumgebungen im Einsatz. Facebook verwendet beispielsweise DRL für Push-Benachrichtigungen und für schnelleres Laden von Videos mit intelligentem Pre-Fetching.

Fazit

Zusammenfassend lässt sich sagen, dass Deep Reinforcement Learning einen revolutionären Ansatz zur digitalen Problemlösung und Entscheidungsfindung bietet. Die autonome Natur der DRL-Algorithmen in Kombination mit ihrer Fähigkeit, aus ihrer Umgebung zu lernen und die Leistung im Laufe der Zeit zu verbessern, macht DRL zu einem vielversprechenden Instrumentarium für die Bewältigung komplexer Aufgaben in einer Vielzahl von Sektoren.

(ID:50165669)