In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und nur ca. 40 Prozent englische Pretraining-Daten (zum Vergleich wurde Meta Llama3 nur mit 8 Prozent nicht-englischen Sprachen trainiert). (Bild: Fraunhofer IAIS )
Digitale Souveränität und KI

Europäische Sprachmodelle wollen Datensouveränität sichern

Die verbreiteten KI-Modelle wie etwa ChatGPT sind mit englischsprachigen Daten gefüttert und trainiert worden, folglich arbeiten sie am besten mit Eingaben in Englisch. Andere Sprachen werden häufig fehlinterpretiert. Diesen Missstand wollen europäische Sprachmodelle beheben, denn Europa ist nun mal ein Kontinent mit vielen Sprachen. Der Interessent stößt jedoch schnell auf einige Einschränkungen, die es bei der Auswahl zu beachten gilt.

Weiterlesen