Definition Was ist ein Aufmerksamkeitsmechanismus?

Der Aufmerksamkeitsmechanismus wird eingesetzt, um Beschränkungen einfacher Encoder-Decoder-Modelle zu beseitigen und die Effizienz von Machine-Learning-Modellen zu steigern. Modelle mit integrierten Aufmerksamkeitsmechanismen lassen sich beispielsweise für das Natural Language Processing oder die Bilderkennung verwenden. Moderne, auf der Transformer-Architektur basierende Sprachmodelle wie GPT-3 nutzen Mechanismen der Selbstaufmerksamkeit.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Der Aufmerksamkeitsmechanismus wurde erstmals im Jahr 2015 näher beschrieben. Es handelt sich um ein Verfahren zur Reduzierung der Beschränkungen einfacher Sequenz-zu-Sequenz- und Encoder-Decoder-Modelle. Mithilfe von Aufmerksamkeitsmechanismen lässt sich die Effizienz von Machine-Learning-Modellen, wie sie beispielsweise für das Natural Language Processing oder die Bilderkennung zum Einsatz kommen, steigern. Der Mechanismus ist an intuitiv und unbewusst ausgeführte Vorgänge der menschlichen Wahrnehmung angelehnt. Er sorgt dafür, dass bestimmte Teile einer Eingabesequenz bei der Erstellung der Ausgabesequenz besondere Beachtung (Aufmerksamkeit) finden. In einfachen Worten beschrieben, wird die kontextuelle Bedeutung der zu prozessierenden Elemente besser berücksichtigt. Kontextuelle Abhängigkeiten lassen sich unabhängiger von der Entfernung zur Eingabesequenz modellieren und einbeziehen.

Typischer Einsatzbereich des Aufmerksamkeitsmechanismus ist das maschinelle Übersetzen von Texten. Ein Übersetzungsmodell wird mithilfe des Aufmerksamkeitsmechanismus in die Lage versetzt, für die Übersetzung eines bestimmten Worts die Bedeutung anderer Wörter (beispielsweise am Ende eines Textes) stärker zu berücksichtigen. Zahlreiche auf der Transformer-Architektur basierende neuronale Sprachmodelle wie das Megatron-Turing Natural Language Generation Model (MT-NLG), Google LaMDA, GPT-3 oder BERT machen vom Aufmerksamkeitsmechanismus und der sogenannten Selbstaufmerksamkeit Gebrauch. Das Prinzip der Selbstaufmerksamkeit wurde von Google-Entwicklern vorgeschlagen und in der Transformer-Architektur implementiert. Die Transformer-Architektur implementiert mehrere Schichten der Selbstaufmerksamkeit.

Der Aufmerksamkeitsmechanismus in der menschlichen Wahrnehmung

Der Aufmerksamkeitsmechanismus ist an unbewusst und intuitiv ausgeführte Vorgänge der menschlichen Wahrnehmung angelehnt. Er transformiert diese Vorgänge in ein mathematisches Modell, das auf Machine-Learning-Modelle wie Sprachmodelle anwendbar ist.

Übersetzt ein Mensch beispielsweise einen Satz, geht er nicht stur Wort für Wort vor. Nicht jedes Wort hat die gleiche Wichtigkeit für die Übersetzung des Satzes und seine korrekte Bedeutung. Der Satz wird zunächst komplett gelesen. Einzelne Wörter oder Satzteile finden besondere Beachtung. Der Mensch achtet verstärkt auf die Wörter, die die Grundbedeutung des Satzes enthalten, unabhängig von ihrer Position innerhalb des Satzes. Beispielsweise kann ein Wort am Satzende erst darüber entscheiden, wie die korrekte Bedeutung oder Übersetzung eines Worts am Satzanfang ist. Die gelesenen Wörter und Satzteile erhalten unbewusst eine Wahrscheinlichkeit für die Wichtigkeit der korrekten Übersetzung und Bedeutung des kompletten Satzes.

Ähnlich verhält es sich mit der visuellen Wahrnehmung. Menschen beachten bei einem Objekt oder einem Bild nicht jeden Teilbereich gleich stark. Sie fokussieren sich auf bestimmte als wichtig empfundene Bereiche. Soll beispielsweise eine Person erkannt werden, fokussiert sich der Betrachter auf das Gesicht oder andere typische Merkmale eines Menschen. Bestimmte Körperteile erhalten eine höher Aufmerksamkeit.

Beschreibung der Ausgangsproblematik für die Entwicklung des Aufmerksamkeitsmechanismus

Werden bei typischen Transformationsaufgaben beispielsweise für Anwendungen des Natural Language Processings wie maschinelle Übersetzungen oder Frage-Antworten-Dialoge einfache Sequenz-zu-Sequenz-Modelle (Seq2Seq Models) verwendet, führt das zu einigen Einschränkungen. Die Modelle komprimieren Eingabesequenzen in eine Vektordarstellung und nutzen Kontext-Vektoren mit fixer Länge. Sie haben dadurch Probleme, unterschiedliche Abhängigkeiten und Wichtigkeiten für die Bedeutung einzelner Wörter über größere Abstände im Text zu erfassen. Der Aufmerksamkeitsmechanismus wurde entwickelt, um dieses Problem zu beheben. Er liefert Informationen, welche Teile einer Eingabesequenz beim Weiterleiten der Informationen stärker zu berücksichtigen sind. Es entsteht eine Art von Verknüpfung und Abkürzung zwischen dem komprimierten Kontext-Vektor und der kompletten ursprünglichen Eingabesequenz.

Der Aufmerksamkeitsmechanismus und das Transformer-Modell

Das Transformer-Modell macht ausgiebig Gebrauch vom Aufmerksamkeitsmechanismus. Das Modell wurde 2017 erstmals von Google vorgestellt und hat die Computerlinguistik und NLP-Anwendungen wie maschinelles Übersetzen, Spracherkennung und Textgenerierung revolutioniert. Viele aktuelle Sprachmodelle wie das Megatron-Turing Natural Language Generation Model (MT-NLG), Google LaMDA, GPT-3 oder BERT basieren auf der Transformer-Architektur. Das Transformer-Modell ist aber nicht nur für das Natural Language Processing einsetzbar. In jüngster Vergangenheit hat es in einigen Bereichen der Bildverarbeitung ebenfalls seine Leistungsfähigkeit bewiesen.

Bei der Transformer-Architektur handelt es sich um eine Deep-Learning-Architektur. Transformer-Architekturen arbeiten effizienter als Long-Short-Term-Memory-Architekturen (LSTM) und bilden die Grundlage für vortrainierte Machine-Learning-Modelle. Die Transformer-Architektur baut auf dem Aufmerksamkeitsmechanismus auf und erzielt bei geringerem Aufwand und kürzerer Trainingszeit bessere Sequenztransformationsergebnisse als rekurrente Modelle.

Im Wesentlichen handelt es sich beim Transformer-Modell um in Reihe geschaltete Kodierer und Dekodierer mit Self-Attention-Modulen. Es sind mehrere Selbstaufmerksamkeitsschichten implementiert. Mithilfe des Aufmerksamkeitsmechanismus lassen sich verschiedenen Teilen einer Eingabe unterschiedliche Wichtigkeiten für die Transformation einer Sequenz zuweisen. Eingangsdaten werden quasi im erweiterten Kontext der Umgebungsdaten verarbeitet. Der Kontext kann sich bei Sprachmodellen über viele tausend Wörter erstrecken und ist leicht skalierbar.

(ID:48196057)