Kommentar von Thomas Fischl und Tim Sauerhammer, Reed Smith Rechtliche Grenzen beim Datensammeln für KI – Urheberrecht und Datenschutz im Fokus

Von Thomas Fischl und Tim Sauerhammer* Lesedauer: 5 min

Anbieter zum Thema

Seit der Einführung von ChatGPT interessieren sich sowohl Einzelpersonen als auch Unternehmen verstärkt für den Einsatz von Künstlicher Intelligenz (KI) in verschiedenen Geschäftsbereichen. Das Fundament jeder KI-Anwendung sind die Daten, die verwendet werden, um die KI zu „trainieren“. Diese Trainingsdaten, insbesondere deren Umfang und Qualität, haben maßgeblichen Einfluss auf die Leistungsfähigkeit einer KI. Doch aus rechtlicher Sicht sind nicht alle Daten unproblematisch.

Künstliche Intelligenz ist nur so gut wie die Datenbasis dahinter. Doch nicht alle Daten sind aus juristischer Sicht unproblematisch und können ohne Weiteres für das KI-Training herangezogen werden.
Künstliche Intelligenz ist nur so gut wie die Datenbasis dahinter. Doch nicht alle Daten sind aus juristischer Sicht unproblematisch und können ohne Weiteres für das KI-Training herangezogen werden.
(Bild: phonlamaiphoto - stock.adobe.com)

Im Rahmen einer gezielten Datenstrategie ist es für KI-Entwickler unerlässlich, entweder interne Datenpools aufzubauen oder qualitativ hochwertige Daten von externen Quellen zu beziehen. Viele KI-Programme verwenden Datenmengen, die aus öffentlich zugänglichen Internetquellen extrahiert und aufbereitet wurden. Das wurde bisher entweder von den Entwicklerunternehmen selbst oder von spezialisierten Unternehmen mithilfe von Webcrawlern oder Webscraping durchgeführt. Einige Online-Plattformen wie Reddit stellen ihre Daten auch über eine API zur Verfügung, also eine Schnittstelle, die es Entwicklern ermöglicht, auf strukturierte Daten zuzugreifen und diese in ihre Anwendungen oder Systeme zu integrieren. Im Gegensatz zu reinem Webscraping ermöglicht eine API einen direkten und standardisierten Zugriff auf die Datenquelle.

Zuletzt ist der Anschein entstanden, dass Website-Betreiber wie etwa Reddit oder Stack Overflow versuchen, die Nutzung ihrer wertvollen Daten als Trainingsdaten verstärkt zu kommerzialisieren. Das wirft einige Grundsatzfragen auf. Im Folgenden wollen wir etwas Licht in den rechtlichen Dschungel der Datenverwendung durch KI-Modelle bringen.

Gibt es rechtliche Grenzen für das Sammeln von öffentlich zugänglichen Daten aus dem Internet?

Grenzen für das Sammeln von Daten als Trainingsdaten können sich nach deutschem Recht vor allem aus dem Urheberrechtsgesetz (UrhG) und der Datenschutzgrundverordnung (DSGVO) ergeben. Allerdings kommt es insoweit maßgeblich darauf an, um welche Art von Daten es geht:

Handelt es sich bei den Daten um sogenannte „nicht personenbezogene Daten“, ist das Verarbeiten zu Trainingszwecken aus datenschutzrechtlicher Sicht unproblematisch. Für diese Inhalte gilt die DSGVO nicht. „Nicht personenbezogene Daten“ sind solche Daten, die sich nicht auf eine identifizierte oder identifizierbare Person beziehen. Damit sind solche Informationen gemeint, die man einem Menschen nicht zuordnen kann, und zwar entweder direkt oder auch in der Kombination mit weiteren verfügbaren Daten. Da öffentlich verfügbare Inhalte wie etwa Beiträge in Onlineforen oft keiner identifizierbaren Person zugeordnet werden können oder anonymisiert sind, ist die Verwendung für das maschinelle Lernen datenschutzrechtlich größtenteils unproblematisch.

Jedoch können die Daten durch das Urheberrecht geschützt sein. Der Schutz des UrhG besteht parallel zu demjenigen der DSGVO – es bedarf also einer Doppelprüfung hinsichtlich der datenschutzrechtlichen und urheberrechtlichen Zulässigkeit. Hierzu ist zunächst festzuhalten, dass nicht jede im Internet veröffentlichte Information per se urheberrechtlichen Schutz genießt. Vielmehr muss es sich um eine persönliche geistige Schöpfung der Literatur, Wissenschaft oder Kunst handeln.

Einzelfallprüfung ist ein Muss

Ob ein online gestellter Inhalt als eine solche zu qualifizieren ist, muss im Einzelfall geprüft werden. Denn geschützt sind nach der gesetzgeberischen Begründung nur Erzeugnisse, die durch den Inhalt oder die Form oder durch die Verbindung von Inhalt und Form etwas Neues und Eigentümliches darstellen. Es muss also die Schwelle des routinemäßigen Gestaltens, des allgemeinen handwerklichen Könnens bzw. des Alltäglichen überschritten werden.

Hier zeigt sich, dass es maßgeblich darauf ankommt, für welchen Anwendungsbereich die KI trainiert wird und welche Art von Daten dafür genutzt werden. Large Language Models etwa müssen mit Textdaten gefüttert werden, die wie z. B. reine Sachinformationen, Beiträge in Onlineforen oder sozialen Netzwerken, größtenteils nicht dem urheberrechtlichen Schutz unterliegen. Demgegenüber bedarf etwa ein KI-Bildgenerator Unmengen an Bildmaterial, das fast immer ein geschütztes Werk darstellt. Ähnlich verhält es sich bei KIs, die Programmierarbeiten unterstützen. Sie benötigen für das Training Abschnitte eines Programmiercodes, der als urheberrechtlich relevante, geistige Schöpfung oft besonderem Schutz unterliegt. Hier greift demnach ebenso der Schutz des UrhG.

Erwähnt werden soll an dieser Stelle, dass reine Textdaten trotz eigentlich fehlender Schöpfungshöhe unter Umständen doch in den Genuss des Urheberrechtsschutzes kommen können. Genauer gesagt, die konkrete Zusammenstellung der Textdaten wird geschützt. Das dann, wenn die Daten in einer Art und Weise zusammengestellt werden, dass sie ein Sammelwerk darstellen, dessen Elemente systematisch oder methodisch angeordnet und einzeln mithilfe elektronischer Mittel oder auf andere Weise zugänglich sind. Denkbar ist ein solcher Schutz für Unternehmen, die Daten ihrer Website systematisch als Datenbank aufbereiten und über eine API-Schnittstelle als Trainingsdaten zur Verfügung stellen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Abschließend lässt sich feststellen, dass es unmöglich ist, eine allgemeine Aussage über den Schutz von Daten zu treffen. Stattdessen hängt die rechtliche Bewertung vom Einzelfall und der Art der verwendeten Trainingsdaten ab.

Und wenn die Daten urheberrechtlich geschützt sind?

Kommt man zum Ergebnis, dass bestimmte Daten urheberrechtlich geschützt sind, stellt sich sodann die Frage, was genau daraus folgt. Grundsätzlich beeinträchtigt das Sammeln und Abspeichern von Daten das Vervielfältigungsrecht des Rechtsinhabers – wenn dieser nicht zustimmt. Jedoch sieht das UrhG seit 2021 eine Ausnahmeregelung vor, nach welcher eine Vervielfältigung von Daten zulässig ist, wenn es sich um ein sogenanntes „Text und Data Mining“ handelt. Darunter versteht das Gesetz die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Im Ergebnis soll das unkomplizierte Trainieren einer KI und damit Innovation ermöglicht werden.

Zu beachten ist jedoch, dass die Ausnahmeregelung nicht greift, wenn entweder der Berechtigte ein Text und Data Mining explizit verbietet oder die Daten unrechtmäßig erlangt wurden – etwa durch Überwindung technischer Zugangsschranken wie Pay-Walls oder unter Verletzung entsprechend ausgestalteter Nutzungsbedingungen. Auch hier muss also der Einzelfall genau betrachtet werden.

Kann geprüft werden, welche fremden Daten KI verwendet?

Ob der oben beschriebene Schutz praktische Relevanz hat, muss sich jedoch erst noch zeigen. Denn KI-Projekte veröffentlichen bisher in der Regel (noch) nicht, mit welchen spezifischen Daten die jeweilige KI trainiert wurde und ein Rückschluss von Erzeugnis auf die Quelle ist schwer möglich. Ansprüche werden daher leicht auf der Beweisebene scheitern können.

Hinsichtlich personenbezogener Daten stünde immerhin ein Auskunftsanspruch nach Art. 15 DSGVO im Raum. Eine betroffene Person hat hiernach das Recht, von dem KI-Unternehmen eine Bestätigung darüber zu verlangen, ob sie betreffende personenbezogene Daten verarbeitet werden.

Es erscheint zweifelhaft, dass damit den Rechteinhabern ausreichende Möglichkeiten an die Hand gegeben werden.

* Thomas Fischl und Tim Sauerhammer sind Anwälte bei der Kanzlei Reed Smith.

Artikelfiles und Artikellinks

(ID:49513530)