KI-Regulierung konkretisiert EU veröffentlicht Pflichtvorlage für KI-Trainingsdaten

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

Ab August müssen Anbieter generischer KI-Modelle offenlegen, mit welchen Daten sie ihre Systeme trainieren. Die EU-Kommission hat dafür nun ein verbindliches Template vorgelegt. Es regelt detailliert, welche Angaben verpflichtend sind – und wo Spielräume bestehen.

Henna Virkkunen, Executive Vice-President für Technologische Souveränität, Sicherheit und Demokratie, sieht in der neuen Vorlage einen wichtigen Beitrag für mehr Vertrauen und Transparenz beim Einsatz generischer KI-Modelle.(Bild:  © European Union 2025 - Source : EP)
Henna Virkkunen, Executive Vice-President für Technologische Souveränität, Sicherheit und Demokratie, sieht in der neuen Vorlage einen wichtigen Beitrag für mehr Vertrauen und Transparenz beim Einsatz generischer KI-Modelle.
(Bild: © European Union 2025 - Source : EP)

Die EU-Kommission hat ein standardisiertes Template veröffentlicht, mit dem Anbieter von General-Purpose-AI-Modellen (GPAI) die für das Training verwendeten Inhalte offenlegen müssen. Die Vorlage ist Teil der Umsetzung des AI Act, konkret Artikel 53(1)(d), der ab dem 2. August 2025 für neue Modelle greift. Modelle, die bereits vor diesem Stichtag auf dem Markt waren, unterliegen einer Übergangsfrist bis August 2027.

„Die von der Kommission angenommene Vorlage ist ein weiterer wichtiger Schritt auf dem Weg zu einer vertrauenswürdigen und transparenten KI. Durch die Bereitstellung eines benutzerfreundlichen Dokuments unterstützen wir Anbieter von KI-Modellen mit allgemeinem Verwendungszweck bei der Einhaltung des KI-Gesetzes. Auf diese Weise können wir Vertrauen in KI aufbauen und ihr volles Potenzial zum Nutzen der Wirtschaft und der Gesellschaft freisetzen“, erklärte Henna Virkkunen, Exekutiv-Vizepräsidentin für Tech-Souveränität, Sicherheit und Demokratie.

Strukturierte Summary für alle Trainingsdaten

Das Template verlangt eine narrative Zusammenfassung über alle Daten, die in das Training eingeflossen sind – inklusive Pretraining, Alignment und Finetuning. Ziel ist eine umfassende, aber nicht technisch detaillierte Übersicht. Die Pflicht gilt auch für Open-Source-Modelle, sofern sie in der EU vermarktet werden.

Die Summary gliedert sich in drei Kernbereiche:

  • 1. Allgemeine Modellinformationen: Anbieter müssen Name, Modellbezeichnung, Markteinführungsdatum und verwendete Datenmodalitäten (z. B. Text, Bild, Video) angeben. Die Trainingsdaten werden in Größenordnungen (z. B. „< 1 Mrd. Tokens“) klassifiziert. Zusätzlich verlangt die Vorlage Angaben zu Sprachen, Herkunft und ggf. dynamischer Nachtrainierung.
  • 2. Datenquellen im Detail: Hier müssen die Hauptquellen benannt werden – differenziert nach öffentlich zugänglichen Datensätzen, privat lizenzierten Inhalten, Web-Scraping, Nutzerdaten und synthetisch erzeugten Daten. Bei öffentlich verfügbaren Datensätzen sollen große Bestände (> 3 Prozent des jeweiligen Modalitätsanteils) einzeln benannt werden. Für Web-Scraping verlangt die EU die Offenlegung der meistgenutzten Domains (Top 10 Prozent bzw. 1.000 Domains bei KMU).
  • 3. Rechtliche und technische Schutzmaßnahmen: Anbieter müssen darlegen, wie sie beim Sammeln von Daten mit Text-und-Data-Mining-Opt-outs gemäß der DSM-Richtlinie umgehen. Auch der Umgang mit illegalen Inhalten im Trainingsmaterial – etwa durch Filter oder Blacklists – ist darzustellen. Optional können weitere datenschutzrelevante Maßnahmen genannt werden.

Abgrenzung zu Geschäftsgeheimnissen

Das Template basiert auf einem abgestuften Transparenzanspruch: Während öffentliche Datensätze relativ detailliert offengelegt werden sollen, reicht bei privaten oder lizenzierten Daten eine grobe Beschreibung. Domainlisten müssen nur aggregiert angegeben werden. Geschäftsgeheimnisse, etwa zur Gewichtung von Datensätzen, müssen nicht offengelegt werden.

Veröffentlichen, aktualisieren, dokumentieren

Die Summary ist verpflichtend öffentlich zu machen – zum Marktstart des Modells, über alle Distributionskanäle hinweg. Wird das Modell weitertrainiert, muss die Summary mindestens alle sechs Monate oder bei relevanten Änderungen aktualisiert werden. Die EU stellt das Template künftig als Onlineformular bereit. Das AI Office kontrolliert die Einhaltung. Bei Verstößen sollen Bußgelder von bis zu 15 Mio. Euro oder 3 Prozent des weltweiten Jahresumsatzes drohen.

(ID:50496010)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung