Im Bereich der Künstlichen Intelligenz (KI) ist ein Token die kleinste Dateneinheit, die von KI-Modellen zur Verarbeitung natürlicher Sprache verwendet wird. Je nach Tokenisierungsverfahren repräsentiert ein Token ein Wort, ein Teilwort, ein Satzzeichen oder eine andere Zeichenkombination. Die Nutzung vieler Chatbots wird über die Anzahl der Token abgerechnet.
Tokenisierung in der KI: So zerlegen Sprachmodelle wie ChatGPT und Google Gemini Texte in verarbeitbare Einheiten.
(Bild: grandfailure - stock.adobe.com)
Das englische Wort Token ist ein im IT-Bereich häufig genutzter Begriff. Diese Definition bezieht sich auf die Verwendung des Begriffs Token im Bereich der Künstlichen Intelligenz und der großen Sprachmodelle (Large Language Models – LLMs). In diesem Umfeld ist ein Token die kleinste sinnvolle Dateneinheit eines Textes, die von den KI-Modellen zur Verarbeitung, Interpretation und Generierung von natürlicher Sprache verwendet wird. Mithilfe von Token wird ein Text in handhabbare Einheiten zerlegt, die von den KI-Algorithmen einfacher und effizienter verarbeitet werden können. Der Vorgang der Zerlegung eines Textes in Token wird als Tokenisierung bezeichnet.
Je nach verwendetem Tokenisierungsverfahren kann ein Token ein einzelnes Wort, ein Teilwort, ein Satzzeichen oder ein anderes Zeichen, eine andere Zeichenkombination oder ein anderer Teil eines Textes wie ein Satz oder ein Absatz sein. Das verwendete Sprachmodell und die Sprache eines Textes haben Einfluss auf die Art der Tokenisierung.
Grundprinzip der Verarbeitung mithilfe von Token
Das Natural Language Processing (NLP) von nahezu allen aktuellen KI-Sprachmodellen basiert auf Token. Sprachmodelle wie Gemini, GPT, Claude und andere verarbeiten Texte, indem sie sie zunächst in Token zerlegen und so in eine von den Algorithmen und den neuronalen Netzwerken maschinell analysierbare Form bringen. Der Prozess der Tokenisierung besteht aus mehreren Einzelschritten und umfasst die Normalisierung (Umwandlung des Textes in eine standardisierte Form), die Zerlegung in kleinere sprachliche Einheiten (Token) und die Zuweisung der sogenannten Token-IDs (numerischen Werten).
Nach der Tokenisierung lässt sich ein Text mithilfe der Token und ihrer Token-IDs abbilden und weiterverarbeiten. Die Token und Token-IDs sind eine Art interne Sprache für das Sprachmodell. Das KI-Modell analysiert die Beziehungen zwischen den Token, identifiziert Muster und berechnet Wahrscheinlichkeiten für Token-Folgen. Zur Darstellung der Beziehungen verwenden die Modelle sogenannte Einbettungen (Embeddings), zum Beispiel in Form von mehrdimensionalen Vektoren.
Nach dem Training mit vielen auf diese Art und Weise zerlegten und dargestellten Texten ist das Sprachmodell in der Lage, auf Basis der gelernten Wahrscheinlichkeiten für Token-Folgen und im Rahmen eines vorgegebenen Token-Kontexts und einer Token-Eingabesequenz selbst Texte zu generieren (Token-Ausgabesequenzen zu berechnen). Bei der Textgenerierung sagt das Modell, basierend auf den vorherigen Token, den wahrscheinlichsten nächsten Token voraus. So entsteht eine Token-Sequenz, die die Antwort auf eine Eingabesequenz darstellt und einen mehr oder weniger sinnvollen Text ergibt.
Die verschiedenen Arten der Tokenisierung
Wie ein Token genau aussieht und welchen Text oder Wortteil er repräsentiert, kann je nach Sprachmodell, Textsprache und Textinhalt unterschiedlich sein. Eine sehr einfache Form der Tokenisierung arbeitet mit Wort-Token, bei denen jeder Token genau ein Wort oder eine zusammengehörige Wortfolge (zum Beispiel ein Eigenname) darstellt. Diese Art der Zerlegung der Texte in Token nutzt Leerzeichen und Satzzeichen zwischen den einzelnen Wörtern, um den Text aufzuteilen. Moderne Sprachmodelle verwenden aber in der Regel eine feinere Art der Tokenisierung und zerlegen Texte in Teilwörter und einzelne Zeichen, die jeweils durch einen Token repräsentiert sind.
Über die Tokenisierung in Wortbestandteile lassen sich die Wörter in kleinere sinnvolle Einheiten aufteilen, was in vielen Sprachen von Vorteil ist. Satzzeichen-Token können beispielsweise Punkt, Komma oder Fragezeichen repräsentieren. Sie sind für die Bedeutung eines Textes beziehungsweise eines Satzes ebenfalls wichtig. Darüber hinaus gibt es noch weitere spezielle Formen von Token, die beispielsweise den Anfang oder das Ende eines Textes oder unbekannte Wortteile markieren. Auch Emojis oder Sonderzeichen können als Token dargestellt werden.
Beispiel für eine Tokenisierung
Zur Veranschaulichung der Tokenisierung im Folgenden ein einfaches Beispiel der Zerlegung eines Satzes in Wörter und Satzzeichen (mit und ohne Berücksichtigung von Eigennamen)
Betrachten wir den Satz: „Peter Müller reist im Sommer nach San Francisco.“
Je nach Tokenisierungsverfahren kann die Zerlegung unterschiedlich erfolgen:
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Tokenisierung in Wort-Token unter Berücksichtigung der Eigennamen:
Token 1: Peter MüllerToken 3: reistToken 3: imToken 4: Sommer Token 5: nachToken 6: San FranciscoToken 7: .
Die Token-Anzahl als Maß für die unterstützte Kontextlänge und zur Nutzungsabrechnung
Die Länge des Kontexts, die ein Sprachmodell bei der Generierung einer Antwort berücksichtigen kann, ist begrenzt und wird in der Regel in Token angegeben. Je größer diese Token-Anzahl ist, desto längere Texte kann ein Sprachmodell pro Anfrage als Eingabe verarbeiten. Typische Kontextlängen moderner Sprachmodelle betragen häufig mehrere tausend beziehungsweise zehntausend Token.
Auch die Abrechnung der Nutzung gehosteter Sprachmodelle oder Chatbots erfolgt häufig basierend auf Token. Die Kosten der KI-Nutzung hängen von der Anzahl der Ein- und Ausgabe-Token oder der über eine API übermittelten Token ab. Darüber hinaus ist auch eine zeitlich bezogene Abrechnung in Form von Token/Stunde oder Token/Minute möglich. Da die Umwandlung eines Textes in Token und die Token-Anzahl von verschiedenen Faktoren wie der Sprache, dem verwendeten Tokenisierungsverfahren und dem Sprachmodell abhängen, stellen Unternehmen wie OpenAI Tokenizer bereit, mit deren Hilfe sich die genaue Token-Anzahl für einen vorgegebenen Text und damit die entstehenden Kosten bestimmen lassen.