Definition Was ist ein Token?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Anbieter zum Thema

Im Bereich der Künstlichen Intelligenz (KI) ist ein Token die kleinste Dateneinheit, die von KI-Modellen zur Verarbeitung natürlicher Sprache verwendet wird. Je nach Tokenisierungsverfahren repräsentiert ein Token ein Wort, ein Teilwort, ein Satzzeichen oder eine andere Zeichenkombination. Die Nutzung vieler Chatbots wird über die Anzahl der Token abgerechnet.

Tokenisierung in der KI: So zerlegen Sprachmodelle wie ChatGPT und Google Gemini Texte in verarbeitbare Einheiten.(Bild:  grandfailure - stock.adobe.com)
Tokenisierung in der KI: So zerlegen Sprachmodelle wie ChatGPT und Google Gemini Texte in verarbeitbare Einheiten.
(Bild: grandfailure - stock.adobe.com)

Das englische Wort Token ist ein im IT-Bereich häufig genutzter Begriff. Diese Definition bezieht sich auf die Verwendung des Begriffs Token im Bereich der Künstlichen Intelligenz und der großen Sprachmodelle (Large Language Models – LLMs). In diesem Umfeld ist ein Token die kleinste sinnvolle Dateneinheit eines Textes, die von den KI-Modellen zur Verarbeitung, Interpretation und Generierung von natürlicher Sprache verwendet wird. Mithilfe von Token wird ein Text in handhabbare Einheiten zerlegt, die von den KI-Algorithmen einfacher und effizienter verarbeitet werden können. Der Vorgang der Zerlegung eines Textes in Token wird als Tokenisierung bezeichnet.

Je nach verwendetem Tokenisierungsverfahren kann ein Token ein einzelnes Wort, ein Teilwort, ein Satzzeichen oder ein anderes Zeichen, eine andere Zeichenkombination oder ein anderer Teil eines Textes wie ein Satz oder ein Absatz sein. Das verwendete Sprachmodell und die Sprache eines Textes haben Einfluss auf die Art der Tokenisierung.

Grundprinzip der Verarbeitung mithilfe von Token

Das Natural Language Processing (NLP) von nahezu allen aktuellen KI-Sprachmodellen basiert auf Token. Sprachmodelle wie Gemini, GPT, Claude und andere verarbeiten Texte, indem sie sie zunächst in Token zerlegen und so in eine von den Algorithmen und den neuronalen Netzwerken maschinell analysierbare Form bringen. Der Prozess der Tokenisierung besteht aus mehreren Einzelschritten und umfasst die Normalisierung (Umwandlung des Textes in eine standardisierte Form), die Zerlegung in kleinere sprachliche Einheiten (Token) und die Zuweisung der sogenannten Token-IDs (numerischen Werten).

Nach der Tokenisierung lässt sich ein Text mithilfe der Token und ihrer Token-IDs abbilden und weiterverarbeiten. Die Token und Token-IDs sind eine Art interne Sprache für das Sprachmodell. Das KI-Modell analysiert die Beziehungen zwischen den Token, identifiziert Muster und berechnet Wahrscheinlichkeiten für Token-Folgen. Zur Darstellung der Beziehungen verwenden die Modelle sogenannte Einbettungen (Embeddings), zum Beispiel in Form von mehrdimensionalen Vektoren.

Nach dem Training mit vielen auf diese Art und Weise zerlegten und dargestellten Texten ist das Sprachmodell in der Lage, auf Basis der gelernten Wahrscheinlichkeiten für Token-Folgen und im Rahmen eines vorgegebenen Token-Kontexts und einer Token-Eingabesequenz selbst Texte zu generieren (Token-Ausgabesequenzen zu berechnen). Bei der Textgenerierung sagt das Modell, basierend auf den vorherigen Token, den wahrscheinlichsten nächsten Token voraus. So entsteht eine Token-Sequenz, die die Antwort auf eine Eingabesequenz darstellt und einen mehr oder weniger sinnvollen Text ergibt.

Die verschiedenen Arten der Tokenisierung

Wie ein Token genau aussieht und welchen Text oder Wortteil er repräsentiert, kann je nach Sprachmodell, Textsprache und Textinhalt unterschiedlich sein. Eine sehr einfache Form der Tokenisierung arbeitet mit Wort-Token, bei denen jeder Token genau ein Wort oder eine zusammengehörige Wortfolge (zum Beispiel ein Eigenname) darstellt. Diese Art der Zerlegung der Texte in Token nutzt Leerzeichen und Satzzeichen zwischen den einzelnen Wörtern, um den Text aufzuteilen. Moderne Sprachmodelle verwenden aber in der Regel eine feinere Art der Tokenisierung und zerlegen Texte in Teilwörter und einzelne Zeichen, die jeweils durch einen Token repräsentiert sind.

Über die Tokenisierung in Wortbestandteile lassen sich die Wörter in kleinere sinnvolle Einheiten aufteilen, was in vielen Sprachen von Vorteil ist. Satzzeichen-Token können beispielsweise Punkt, Komma oder Fragezeichen repräsentieren. Sie sind für die Bedeutung eines Textes beziehungsweise eines Satzes ebenfalls wichtig. Darüber hinaus gibt es noch weitere spezielle Formen von Token, die beispielsweise den Anfang oder das Ende eines Textes oder unbekannte Wortteile markieren. Auch Emojis oder Sonderzeichen können als Token dargestellt werden.

Beispiel für eine Tokenisierung

Zur Veranschaulichung der Tokenisierung im Folgenden ein einfaches Beispiel der Zerlegung eines Satzes in Wörter und Satzzeichen (mit und ohne Berücksichtigung von Eigennamen)

Betrachten wir den Satz: „Peter Müller reist im Sommer nach San Francisco.“

Je nach Tokenisierungsverfahren kann die Zerlegung unterschiedlich erfolgen:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Wortbasierte Tokenisierung:

Token 1: PeterToken 2: MüllerToken 3: reistToken 4: imToken 5: Sommer Token 6: nachToken 7: SanToken 8: FranciscoToken 9: .

Tokenisierung in Wort-Token unter Berücksichtigung der Eigennamen:

Token 1: Peter MüllerToken 3: reistToken 3: imToken 4: Sommer Token 5: nachToken 6: San FranciscoToken 7: .

Die Token-Anzahl als Maß für die unterstützte Kontextlänge und zur Nutzungsabrechnung

Die Länge des Kontexts, die ein Sprachmodell bei der Generierung einer Antwort berücksichtigen kann, ist begrenzt und wird in der Regel in Token angegeben. Je größer diese Token-Anzahl ist, desto längere Texte kann ein Sprachmodell pro Anfrage als Eingabe verarbeiten. Typische Kontextlängen moderner Sprachmodelle betragen häufig mehrere tausend beziehungsweise zehntausend Token.

Auch die Abrechnung der Nutzung gehosteter Sprachmodelle oder Chatbots erfolgt häufig basierend auf Token. Die Kosten der KI-Nutzung hängen von der Anzahl der Ein- und Ausgabe-Token oder der über eine API übermittelten Token ab. Darüber hinaus ist auch eine zeitlich bezogene Abrechnung in Form von Token/Stunde oder Token/Minute möglich. Da die Umwandlung eines Textes in Token und die Token-Anzahl von verschiedenen Faktoren wie der Sprache, dem verwendeten Tokenisierungsverfahren und dem Sprachmodell abhängen, stellen Unternehmen wie OpenAI Tokenizer bereit, mit deren Hilfe sich die genaue Token-Anzahl für einen vorgegebenen Text und damit die entstehenden Kosten bestimmen lassen.

(ID:50337322)