Definition Was ist ein Recurrent Neural Network (RNN)?
Anbieter zum Thema
Bei einem Recurrent Neural Network sind die künstlichen Neuronen des neuronalen Netzwerks so verschaltet, dass sie Rückkopplungen zu gleichen oder anderen Neuronen aufweisen. Dadurch ist das neuronale Netzwerk in der Lage, Ausgabeinformationen erneut als Eingabeinformationen einzuspeisen und eine Art Gedächtnis aufzubauen. Typische Anwendung eines RNN ist die Verarbeitung sequenzieller Daten, wie sie beispielsweise bei natürlicher Sprache oder bei Zeitreihendaten auftreten.

Die deutsche Bezeichnung für Recurrent Neural Network, abgekürzt RNN, lautet „Rekurrentes Neuronales Netzwerk“ oder „Rückgekoppeltes Neuronales Netzwerk“. Es handelt sich um eine besondere Form eines künstlichen neuronalen Netzwerks. Im Gegensatz zu einem Feedforward-Netzwerk besitzen die Neuronen rückgekoppelte Verschaltungen. Die Ausgabeinformation eines Neurons lässt sich durch die Rückkopplung als Eingabeinformation des gleichen Neurons, eines Neurons der gleichen Schicht oder eines Neurons einer anderen Schicht wieder einspeisen und nutzen. Dadurch hat das künstliche neuronale Netzwerk eine dem biologischen Gehirn ähnlichere Neuronenverschaltung und erhält eine Art von Gedächtnis.
Ein RNN berücksichtigt die Ergebnisse vorheriger Rechenschritte und bezieht sie für die Ermittlung weiterer Ergebnisse wieder mit ein. Besonders gut geeignet sind solche künstlichen neuronalen Netzwerke für die Verarbeitung sequenzieller Daten, wie sie beispielsweise beim Natural Language Processing (NLP) oder bei Analysen von Zeitreihendaten auftreten.
Unterschied zu einem Feedforward Neural Network
Auch Feedforward Neural Networks bestehen wie Recurrent Neural Networks aus mehreren Schichten miteinander verschalteter künstlicher Neuronen. Im Gegensatz zu einem Recurrent Neural Network besitzt das Feedforward Neural Network aber keine Rückkopplungen. Ausgabeinformationen eines Neurons fließen stets in eine Richtung von den Neuronen der Eingabeschicht über die Neuronen der verdeckten Schichten bis zu den Neuronen der Ausgabeschicht. Sämtliche Informationen werden immer nur in diese Richtung weitergeleitet und niemals rückwärts wieder eingespeist. Durch die fehlenden Rückkopplungen ist ein Feedforward Neural Network in seinen Fähigkeiten und Einsatzmöglichkeiten eingeschränkt. Es kann Output nicht erneut als Input berücksichtigen und entwickelt kein „Gedächtnis“. Die Fähigkeit zu Vorhersagen bei der Verarbeitung sequenzieller Daten sind beschränkt. Typischer Einsatzbereich eines Feedforward Neural Network ist die Mustererkennung. Auch das Convolutional Neural Network (CNN) gehört prinzipiell zu den Feedforward-Netzen. Es besitzt aber mehrere sogenannte Faltungsschichten und kommt beispielsweise bei der Bilderkennung zum Einsatz.
Funktionsweise, Rückkopplungsarten und Training des RNN
Ein Recurrent Neural Network besteht aus mehreren Schichten künstlicher Neuronen. Zwischen der Eingabeschicht und der Ausgabeschicht können sich ein oder mehrere Zwischenschichten, auch als Hidden Layer bezeichnet, befinden. Die Neuronen haben mindestens einen Eingang und einen Ausgang. Sie nehmen Informationen über den Eingang entgegen, verarbeiten sie mithilfe eines Rechenalgorithmus und geben eine bewertete oder modifizierte Information aus. Diese Ausgabe dient als Eingabe für andere Neuronen oder als Endergebnis. Aufgrund der rückgekoppelten Verschaltung eines Recurrent Neural Network lässt sich die Ausgabe eines Neurons nicht nur an Neuronen der nächsten Schicht weitergeben, sondern kann als Eingabe des gleichen Neurons, eines Neurons der gleichen Schicht oder eines Neurons einer vorherigen Schicht verwendet werden.
Die Art der Rückkopplung lässt sich in direkte (Ausgang ist ein weiterer Eingang des gleichen Neurons), indirekte (Ausgang ist Eingang eines Neurons einer vorhergehenden Schicht), seitliche (Ausgang ist Eingang eines Neurons der gleichen Schicht) oder vollständige Rückkopplung (alle Neuronenausgänge sind vollständig mit anderen Neuronen verbunden) unterscheiden.
Das Training rückgekoppelter Netze ist aufwendiger als das von Feedforward-Netzen. Durch die Rückkopplungen und die fehlende Fähigkeit, weit entfernte oder weit zurückliegende Informationen einzubeziehen, können lokale Optima oder wenig sinnvolle Netzzustände entstehen. Aus diesem Grund wurden für Rekurrente-Neuronale-Netzwerke Funktionen wie das Long Short-Term Memory (LSTM) entwickelt. Es handelt sich dabei um eine Art „langes Kurzzeitgedächtnis“. Informationen lassen sich länger vorhalten. Das künstliche neuronale Netzwerk ist dank LSTM in der Lage, selbst herauszufinden, welche Daten vergessen werden können und welche Informationen wichtig sind, gespeichert werden und wieder in das Netz einfließen. RNN mit LSTM sind besser zu trainieren, haben eine höhere Leistungsfähigkeit und können den Kontext, beispielsweise bei der Verarbeitung von Texten oder Sprache, besser miteinbeziehen.
Typische Anwendungen für das Recurrent Neural Network
Typischer Anwendungsbereich für das Recurrent Neural Network ist die Verarbeitung sequenzieller Daten. Der unmittelbare Kontext einer Eingabeinformation lässt sich für die Vorhersage eines Ergebnisses berücksichtigen. Bei der Verarbeitung der Datenfolgen bleiben Informationen erhalten und fließen zur Ermittlung des endgültigen Ergebnisses wieder mit ein. Recurrent Neural Networks werden beispielsweise für die Verarbeitung natürlicher Sprache (Natural Language Processing – NLP) oder für Analysen von Zeitreihendaten und Prognosen oder Schätzungen eingesetzt.
Ablösung der Rekurrenten Neuronalen Netzwerke durch Transformer-Modelle
Beim Natural Language Processing und anderen KI-Bereichen wurden Rekurrente Neuronale Netzwerke mit LSTM in den letzten Jahren mehr und mehr von den sogenannten Transformer-Modellen abgelöst. Diese Modelle entwickeln ein besseres Verständnis für die Gesamtdaten. Sie sind mit einem Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus) ausgestattet und arbeiten mit einer Folge von Encodern und Decodern. Eingabesequenzen werden in Vektorrepräsentationen überführt. Teile der Eingangsinformationen lassen sich mit anderen Teilen der Eingangsinformationen in Beziehung setzen. Transformer arbeiten zudem bidirektional und können bei der Prozessierung der Daten vorherige oder folgende Daten berücksichtigen. Bekannte Sprachmodelle mit Transformer-Architektur sind die Modelle der GPT-Familie (Generative Pretrained Transformer) wie GPT-3 oder GPT-4, BERT (Bidirectional Encoder Representations from Transformers), MT-NLG (Megatron-Turing Natural Language Generation Model), LaMDA (Language Model for Dialogue Applications) und viele mehr.
(ID:49776604)