Digitale Souveränität und KI Europäische Sprachmodelle wollen Datensouveränität sichern

Von Michael Matzer 8 min Lesedauer

Anbieter zum Thema

Die verbreiteten KI-Modelle wie etwa ChatGPT sind mit englischsprachigen Daten gefüttert und trainiert worden, folglich arbeiten sie am besten mit Eingaben in Englisch. Andere Sprachen werden häufig fehlinterpretiert. Diesen Missstand wollen europäische Sprachmodelle beheben, denn Europa ist nun mal ein Kontinent mit vielen Sprachen. Der Interessent stößt jedoch schnell auf einige Einschränkungen, die es bei der Auswahl zu beachten gilt.

In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und nur ca. 40 Prozent englische Pretraining-Daten (zum Vergleich wurde Meta Llama3 nur mit 8 Prozent nicht-englischen Sprachen trainiert).(Bild:  Fraunhofer IAIS)
In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und nur ca. 40 Prozent englische Pretraining-Daten (zum Vergleich wurde Meta Llama3 nur mit 8 Prozent nicht-englischen Sprachen trainiert).
(Bild: Fraunhofer IAIS)

Teuken 7B

Teuken 7B ist ein europäisches, mehrsprachiges Sprachmodell (LLM), das im Rahmen des Forschungsprojekts OpenGPT-X entwickelt wurde und als Open-Source-Alternative zu vorwiegend englischsprachigen Modellen positioniert ist. Es wurde im Rahmen des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Forschungsprojekts OpenGPT-X entwickelt.

Das Fraunhofer IAIS, das Forschungszentrum Jülich, die TU Dresden und das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) bilden ein Konsortium für die Entwicklung, während der kommerzielle Vertrieb durch die Deutsche Telekom erfolgt.

Bildergalerie

Teuken 7B arbeitet mit sieben Milliarden Parametern und wurde mit rund vier Billionen Tokens vortrainiert. Über 50 Prozent der Trainingsdaten stammen aus nicht-englischen Quellen, sodass eine gute Leistung in den europäischen Sprachen gewährleistet zu sein scheint.

Teuken 7B eignet sich für vielfältige Anwendungsbereiche. Dazu gehören multilinguale Chatbots, Dokumentenzusammenfassungen, die Informationsgewinnung aus Texten sowie der Einsatz in RAG-Systemen (Retrieval-Augmented Generation). Durch die Offenheit des Modells sollen Unternehmen und Forschungseinrichtungen eigene Anpassungen und Feinabstimmungen vornehmen können. Das ermögliche es den Nutzern, sensible Daten innerhalb der eigenen Infrastruktur zu verarbeiten, was besonders für Anwendungen mit hohen Datenschutzanforderungen relevant sei, so die Vertreter des Konsortiums.

Vielfältige Einsatzmöglichkeiten mit flexiblen Betriebsmodellen

Die Telekom bietet nach eigenen Angaben „eine Vielzahl von Vorteilen und Einsatzmöglichkeiten im Einsatz von Teuken-7B, die auf die spezifischen Anforderungen europäischer Unternehmen und Behörden zugeschnitten sind.“ Damit werde die Wahlfreiheit deutscher Unternehmen und öffentlicher Auftraggeber im wachsenden Markt für generative KI gestärkt.

Mit den „AI Foundation Services“ stellt die Telekom-Tochter „T-Systems“ dafür flexible Betriebsmodelle bereit. Unternehmen können wählen, ob sie die Modelle in hochsicheren, zertifizierten Telekom-Rechenzentren in Deutschland, DSGVO-konform in Europa oder sogar dediziert auf eigener Infrastruktur nutzen möchten. Insbesondere für regulierte Branchen und besonders schützenswerte Daten biete die Telekom Lösungen, die „höchsten Ansprüchen an Sicherheit und Compliance“ gerecht würden.

Teuken-7B sei zudem direkt in das standardisierte Telekom-Produkt Business GPT integriert. Es unterstütze „out-of-the-box“ RAG-Anwendungen und fasse Dokumente und unternehmensinterne Chatbots zusammen. Über eine einheitliche Netzwerkschnittstelle (API) könnten Unternehmen mithilfe der AI Foundation Services das Modell auch in bestehende KI-Assistenten, Agenten und eigene Chatbots integrieren. Die AI Foundation Services ermöglichten zudem die Entwicklung und den Betrieb von generativen KI-Anwendungen auf skalierbaren und sicheren Plattformen.

Teuken B7 hat Vorteile bei Fachbegriffen

„Nur durch gemeinsame europäische Anstrengungen können wir konkurrenzfähige Alternativen zu den großen internationalen Anbietern schaffen“, betont Dr. Ferri Abolhassan, Vorstandsmitglied der Telekom. Diese Alternativen seien wichtig, wenn es um Verarbeitung von Sprache geht, die spezielle landestypische oder europäische Kenntnisse voraussetzen, wie etwa in der Medizin-, Arznei- oder in der Amtssprache.

„Teuken überzeugt vor allem bei Fachbegriffen“, weiß Thomas Wächter von der Telekom-Tochter MMS. Deshalb gibt es das Sprachmodell auch in zwei Varianten: Forscher können Teuken-7B als Open-Source-Software von der KI-Community-Plattform „Hugging Face“ kostenfrei herunterladen und in eigene Systeme integrieren. Für Firmenkunden bietet die Deutsche Telekom, wie erwähnt, eine kommerzielle Variante für Behörden und Unternehmen.

So will die Telekom Teuken-7B beispielsweise in die Krankenhaussoftware iMedOne integrieren. Ärzte sollen dem System künftig per Spracheingabe diktieren können, welches Medikament ein Patient einnehmen soll. Den dazu gehörenden Einnahmeplan entwirft dann die KI von OpenGPT-X. Teuken-7B soll aber auch in Ämtern dabei helfen, etwa Zuschüsse für Gesundheitsleistungen zu beantragen oder Bürgergeldanträge automatisch auszufüllen und zu übersetzen.

Teuken-7B unterliegt europäischem Datenschutz

Das bessere Sprachverständnis ist aber nur ein Aspekt. Auch aus Datenschutzgründen bietet Teuken-7B gerade für deutsche und europäische Unternehmen, die sensible Daten verarbeiten, eine wichtige Alternative. Denn während Teuken-7B den europäischen Datenschutzrichtlinien unterliegt, sind US-Firmen an den Cloud-Act gebunden, der US-Behörden, auch den US-Geheimdiensten, Zugriff auf sämtliche Daten garantiert, die US-Firmen irgendwo auf der Welt speichern und verarbeiten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Sensible Daten können im Unternehmen bleiben

„Durch die Bereitstellung von Teuken-7B im Open-Source-Umfeld können Unternehmen das Sprachmodell auf ihre Bedarfsfälle anpassen und spezialisierte Anwendungen damit entwickeln“, sagt Dr. Nicolas Flores-Herr, Projektleiter am Fraunhofer IAIS. „Zudem können sie bestimmen, ob sie das Modell lokal auf der eigenen Infrastruktur oder bei einem vertrauenswürdigen Cloudanbieter ihrer Wahl betreiben wollen. Wenn gewünscht, können sensible Daten also im Unternehmen verbleiben.“

Einschränkungen

Die Anbieter der Base-Variante schränken in ihren Blogs diese Ankündigungen allerdings selbst ein: „Teuken 7B-base-v0.6 wurde für private, nichtkommerzielle Forschungs- und Bildungszwecke in allen 24 offiziellen europäischen Sprachen entworfen.“ Gemäß dieser Definition bleiben Firmen und Behörden außen vor. Diese müssen die Varianten „-research“ und „-instruct“ nutzen.

Das Base-Modell sei mit vielen Sprachen trainiert worden und deshalb für Aufgaben geeignet, die stabile Leistung bei der Verarbeitung dieser Sprachen erfordern. Weil es die Sprachenvielfalt berücksichtige, sei es eine gute Wahl für die Anwendungen in multilingualen und Europa-zentrischen Umgebungen.

Gleich darauf folgt eine Warnung, dass dieses LLM Inhalte erzeugen könne, die als „unangemessen, beleidigend und sogar schädlich“ angesehen werden könnten. Das Modell sei „nicht für den Einsatz in mathematischen und bei Codier-Aufgaben“ konzipiert worden. Da es als Basismodell bereitgestellt werde, könne Teuken 7B-base-v0.6 voreingenommen sein oder gar halluzinieren. Das klingt nicht ermutigend.

In einem kleinen Test kannte 7B-instruct-research lediglich Windows 10 als jüngste Version des Microsoft-Betriebssystems, nicht jedoch Version 11. Der Interessent sollte 7B auf jeden Fall Vergleiche mit gängigen Modellen wie ChatGPT oder Llama anstellen.

OpenEuroLLM

OpenEuroLLM hat die Absicht, „eine Familie von Large Language Models (LLMs) zu entwickeln, die alle EU-Amtssprachen abdeckt und Transparenz, Einhaltung des KI-Gesetzes und die Akzeptanz europäischer Unternehmen, Start-ups und Innovatoren gewährleistet.“ In diesem Unterfangen sind die Beteiligten im Verlauf eines Jahres schon recht weit gekommen, nämlich bis zu den Referenzmodellen.

OpenEuroLLM ist nach eigenen Angaben eine europaweite Initiative, die zwanzig KI-Start-ups und Forschungsorganisationen vereint, um ein offenes, mehrsprachiges LLM zu erstellen. Das Projekt nutzt EuroHPC, Europas Hochleistungs-Computing-Infrastruktur, um KI-Modelle in Übereinstimmung mit europäischen Werten und Vorschriften zu trainieren.

Mit offen veröffentlichten Daten, Modellen und Schulungsressourcen will OpenEuroLLM „KMU und andere Innovatoren in die Lage versetzen, KI-Lösungen kostengünstig zu implementieren und bereitzustellen.“ Einsatzbereiche sind demnach Wirtschaft, Industrie und öffentliche Dienste. Die quelloffenen LLMs sollen den Zugang zu KI-Technik demokratisieren und die Fähigkeit europäischer Unternehmen stärken, im Weltmarkt wettbewerbsfähig aufzutreten. Öffentliche Institutionen wie etwa Behörden sollen damit effektive Dienste entwickeln und bereitstellen. Die Sprachvielfalt soll ebenso berücksichtigt werden wie die europäischen Gesetze.

OpenEuroLLM hat sich Rechenleistung auf dem finnischen LUMI-Supercomputer 1,5 Millionen GPU-Stunden LUMI Extreme Scale Access gesichert. „Als eine der führenden Supercomputing-Einrichtungen Europas stellt die Rechenzuweisung von LUMI einen wichtigen Fortschritt bei der Arbeit auf dem Weg zum Projektziel offener LLMs für Europa dar“, sagte Peter Sarlin, Mitbegründer und CEO von AMD Silo AI und Mitdirektor des OpenEuroLLM-Projekts.

Mit MultiSynt steht OpenEuroLLM die Fähigkeit zur Verfügung, Trainingsdaten in ausreichender Menge zu synthetisieren, um Modelle zuverlässig zu trainieren. Dazu hat „EuroHPC AI Factory Large Scale” drei Mio. GPU-Stunden auf dem Leonardo-Booster bei CINECA in Italien gebucht.

Mittlerweile hat OpenEuroLLM 38 einsprachige LLMs als Referenzmodelle vorgestellt. Jedes Modell verfügt über 2,15 Milliarden Parameter und wurde mit einer bereinigten Datenmenge auf dem LUMI-Rechner trainiert, die bei HuggingFace als HPLT 2.0 (HPLT: High Performance Language Technologies ) Monolingual-Sammlung heruntergeladen werden kann. OpenEuroLLM hat im August 2025 mit Open-sci eine Referenz-Modellfamilie für Transformationsvorgänge veröffentlicht.

Teamwork bringt dieses Projekt also relativ schnell voran, und die Spezialisierung auf Einzelsprachen und Wissenschaftsjargon (open-sci) ist von Vorteil. Allerdings fehlt derzeit jegliche kommerzielle Nutzbarkeit.

SOOFI

Mit SOOFI (Sovereign Open Source Foundation Models) startete Ende November 2025 ein weiteres Projekt zur Stärkung europäischer KI-Souveränität. Ziel ist die Entwicklung eines offenen KI-Sprachmodells mit rund 100 Milliarden Parametern, das europäischen Werten und regulatorischen Vorgaben entspricht. Sechs führende Forschungseinrichtungen sind beteiligt, darunter das Forschungszentrum L3S an der Leibniz Universität Hannover (LUH). SOOFI ist eindeutig anders ausgerichtet.

Warum SOOFI?

Europa verfügt bislang über kaum eigene Sprachmodelle in ausreichender Größe, die als Grundlage für spezifische Branchenanwendungen dienen können. Auch leistungsfähige Reasoning-Modelle, die komplexe Aufgaben durch strukturiertes Denken lösen, sind rar. Dadurch steigt die Abhängigkeit von außereuropäischen Anbietern – ein Muster, das bereits aus dem Cloud-Bereich bekannt ist. SOOFI soll hier eine Alternative schaffen.

Der Aufbau eines europäischen KI-Sprachmodells verringert diese Abhängigkeiten und schafft eine verlässliche Basis für innovative und vertrauenswürdige Anwendungen in Industrie und öffentlichem Sektor. Auf dem Modell soll zudem ein spezielles Reasoning-Modell entstehen, das die Systemqualität verbessert und für komplexere Aufgaben geeignet ist. Erste Anwendungsszenarien mit KI-Agententechnologien seien ebenfalls geplant.

Reasoning-Modelle seien für die deutsche Industrie von großer Bedeutung: Sie analysieren komplexe technische, regulatorische und organisatorische Zusammenhänge, können bei Bedarf auf weitere Informationsquellen zurückgreifen und unterstützen dadurch fundierte Entscheidungen. Sie ermöglichen neue Formen der Automatisierung mithilfe vernetzter Agentensysteme und tragen zu Qualitätsgewinnen in Entwicklung, Produktion und Wissensmanagement bei.

Mehrsprachigkeit, Sicherheit und europäische Werte

Das L3S an der Leibniz Universität Hannover übernimmt im Projekt zentrale Aufgaben rund um Mehrsprachigkeit, Sicherheit und Werte-Alignment. Die Forscher entwickeln mehrsprachige Datensätze für das Feintuning der Modelle, erstellen Benchmarks zur Sicherheitsbewertung und arbeiten an Reward-Modellen sowie Reasoning-Daten, um die logische Leistungsfähigkeit in verschiedenen Sprachen zu stärken.

Zudem stelle das L3S sicher, dass die Modelle europäische kulturelle und ethische Werte widerspiegeln, und baue eine umfassende Evaluationsplattform auf, die SOOFI-Modelle systematisch mit bestehenden Systemen vergleiche. Weitere Schwerpunkte seien die Identifikation relevanter Anwendungsfälle und die Adaption der Technologien für konkrete Anwendungen.

„Große Sprachmodelle, die europäische Werte respektieren, sind entscheidend, um Vertrauen in KI aufzubauen, besonders in sensiblen Bereichen wie Bildung und Medizin. Diese Bereiche verlangen nicht nur technische Exzellenz, sondern auch kulturelle und ethische Übereinstimmung, damit KI den Menschen verantwortungsvoll und transparent unterstützt“, sagt L3S-Direktor Prof. Wolfgang Nejdl. Mit SOOFI entstehe somit nicht nur ein technologisches Fundament für die europäische Industrie, sondern auch ein klares Bekenntnis zu offenen, werteorientierten KI-Systemen.

Auf der L3S-Webseite finden sich Porträts von vier Unternehmen und Projekten, die von dem Wissenstransfer durch das L3S im Hinblick auf digitale Transformation profitieren. Dazu gehören das European Digital Innovation Hub for AI and Cybersecurity (DAISEC), das KI-Servicezentrum für sensible und kritische Infrastrukturen (KISSKI) und KI-Trainer. ProKI ist ein deutschlandweites Demonstrations- und Transfernetzwerk für KI in der Produktion, was es besonders für Fertigungsunternehmen interessant macht.

(ID:50654214)