Der EU AI Act und die Einhaltung von Urheberrechten
Eine der zentralen Herausforderungen bei der Schulung generativer KI-Modelle besteht darin, die Einhaltung von Urheberrechtsgesetzen sicherzustellen. Große Sprachmodelle, wie ChatGPT oder Google DeepMind, benötigen enorme Mengen an Text, Bildern und anderen Daten, um qualitativ hochwertige Antworten zu generieren. Es ist allgemein bekannt, dass diese Datensätze häufig durch Web-Scraping zusammengestellt werden, wobei öffentlich verfügbare Inhalte verwendet werden.
Der EU AI Act verstärkt die Notwendigkeit der Einhaltung von Urheberrechten, insbesondere in Bezug auf LLMs (Large Language Models). Erwägungsgrund 105 hebt hervor, dass die Entwicklung und Schulung von KI-Modellen mit allgemeiner Zweckbestimmung den Zugang zu umfangreichen Mengen an Text, Bildern, Videos und anderen Daten erfordert. Der Akt anerkennt, dass „Text- und Datenmining-Techniken in diesem Kontext umfassend für die Abrufung und Analyse solcher Inhalte verwendet werden können, die möglicherweise durch Urheberrecht und verwandte Rechte geschützt sind“. Jede Nutzung von urheberrechtlich geschütztem Inhalt erfordert die Genehmigung des jeweiligen Rechteinhabers, es sei denn, relevante Ausnahmen und Einschränkungen des Urheberrechts gelten.
Allgemeine KI-Modelle
Der Act definiert allgemeine KI-Modelle als solche, die auf großen Datensätzen trainiert werden, die eine erhebliche Allgemeinheit aufweisen und eine Vielzahl von unterschiedlichen Aufgaben ausführen. Beispiele hierfür sind ChatGPT oder Googles PaLM – die Code-Generierung, Übersetzung und Witz-Erklärung übernehmen – oder Anthropics Claude – das in der Lage ist, Inhalte zu erstellen, Visionen zu analysieren und komplexe Fragen zu beantworten.
Obwohl der AI Act sich nur auf Anbieter von allgemeinen KI-Modellen bezieht, sind andere KI-Entwickler nicht aus dem Schneider. Bestimmungen der Richtlinie über „Urheberrecht und verwandte Rechte im digitalen Binnenmarkt“ gelten weiterhin für jeden, der versucht, ein urheberrechtlich geschütztes Werk zu verwenden. Es ist erwähnenswert, dass die Richtlinie tatsächlich der erste legislative Versuch war, die Urheberrechtsproblematik im Zusammenhang mit dem Training von KI durch Web-Scraping anzugehen.
Bestimmungen der DSM-Richtlinie zu KI-Training und Urheberrecht
Die DSM-Richtlinie führte eine Ausnahmeregelung für Text- und Datenmining in den Urheberrechtsschutz ein. Während Text- und Datenmining eine breite Palette von computergestützten Analysen abdeckt, einschließlich der Indizierung von Suchmaschinen, erstreckt sie sich auch auf das Daten-Scraping für das KI-Training. Die Richtlinie wurde jedoch 2019 erlassen – vor dem Anstieg generativer KI-Tools – sodass die Gesetzgeber möglicherweise die Auswirkungen von LLMs auf online urheberrechtlich geschützte Werke nicht vollständig vorhergesehen haben.
Im Allgemeinen ist das Web-Scraping von urheberrechtlich geschütztem Inhalt für das KI-Training gemäß der DSM-Richtlinie zulässig, vorausgesetzt, die Rechteinhaber haben sich nicht ausdrücklich ausgeschlossen. Rechteinhaber können ihre Rechte mithilfe maschinenlesbarer Mittel reservieren, nämlich durch technische Protokolle, die von Web-Crawlern – Bots, die Daten scrapen – erkannt und respektiert werden können. Erwägungsgrund 18 erwähnt, dass maschinenlesbare Reservierungen Metadaten oder die Allgemeinen Geschäftsbedingungen der Website umfassen können – obwohl in der Praxis die meisten Crawler die Allgemeinen Geschäftsbedingungen nicht verarbeiten. Wenn ein Rechteinhaber ausdrücklich seine Rechte reserviert hat, müssen Anbieter allgemeiner KI-Modelle die Genehmigung einholen, bevor sie die Inhalte für das Training verwenden.
Anforderungen des AI Act an die Einhaltung von Urheberrechten in allgemeinen KI-Modellen
Artikel 53 des AI Act auferlegt zwei wesentliche Verpflichtungen an Anbieter allgemeiner KI. Erstens müssen sie eine Richtlinie zur Einhaltung des EU-Urheberrechts implementieren, insbesondere indem sie die Reservierung von Rechten in der DSM-Richtlinie identifizieren und einhalten.
Die zweite Anforderung besteht darin, eine ausreichend detaillierte Zusammenfassung über die Inhalte zu erstellen und öffentlich zugänglich zu machen, die für das Training verwendet wurden. Diese Transparenzmaßnahme soll es den Kreativen ermöglichen zu überprüfen, ob ihre Werke im Training verwendet wurden und ob Opt-out-Anfragen respektiert wurden.
Der dritte Entwurf des Verhaltenskodex für allgemeine KI: Abschnitt Urheberrecht
Der AI Act spezifiziert nicht, was eine Richtlinie zur Einhaltung von Urheberrechten umfassen sollte, ermutigt jedoch Anbieter allgemeiner KI, branchenspezifische Best Practices zu entwickeln – bezeichnet als Verhaltenskodex. Am 11. März reichte eine Gruppe unabhängiger Experten, unterstützt vom AI Office und unter Beteiligung von fast 1.000 Interessengruppen, Vertretern der EU-Mitgliedstaaten und internationalen Beobachtern, den dritten Entwurf des Verhaltenskodex für allgemeine KI ein.
Der Urheberrechtsabschnitt des Kodex skizziert fünf Maßnahmen, um die Einhaltung des Urheberrechtsschutzes gemäß dem AI Act sicherzustellen. Besonders hervorzuheben ist das Engagement der Unterzeichner, „Rechtsreservierungen beim Crawlen des World Wide Web zu identifizieren und einzuhalten“.
Sicherstellung, dass Crawler maschinenlesbare Opt-outs respektieren
Der Entwurf des Verhaltenskodex besagt, dass die Unterzeichner die Crawler einsetzen sollten, die die Anweisungen gemäß dem Robot Exclusion Protocol lesen und befolgen.
Die robots.txt ist eine Datei, die von Websites verwendet wird, um zu steuern, wie Web-Crawler – einschließlich Suchmaschinen-Bots – auf die Inhalte der Website zugreifen und diese indizieren. Sie bietet Anweisungen dazu, welche Teile einer Website nicht gecrawlt werden sollten. Derzeit ist es das am häufigsten verwendete technische Protokoll, um die Rechte der Ersteller zu reservieren. Es ist jedoch wichtig zu beachten, dass die robots.txt nur den konformen Bots Hinweise gibt. Sie blockiert nicht den Zugang zu urheberrechtlich geschützten Werken, sondern informiert den Crawler darüber, ob das Urheberrecht reserviert wurde oder nicht.
In diesen Umständen ist das Engagement der Unterzeichner des Kodex, den Crawler zu verwenden, der diese Hinweise befolgt, ein wichtiger Schritt. Leider können urheberrechtlich geschützte Inhalte weiterhin von Bots gescrapet werden, die einfach das Reservierungsflag ignorieren.
Dennoch sollte angemerkt werden, dass trotz der robots.txt als dem am meisten respektierten Protokoll mehrere andere in Gebrauch sind, und das Fehlen eines einheitlichen Standards für die Reservierung von Rechten macht das Leben der Anbieter allgemeiner KI nicht einfacher.
In seinem Papier „Überlegungen zu Opt-out-Compliance-Richtlinien von KI-Modellentwicklern“ lieferte Paul Keller Einblicke in die bestehenden Arten von Protokollen, die in zwei Hauptkategorien eingeteilt werden können – ortsbasierte und einheitliche Protokolle.
Ortsbasierte Protokolle – wie robots.txt, ai.txt, das TDM-Reservierungsprotokoll, Metatags oder HTTP-Header – werden von Domainbesitzern auf alle Inhalte der Website angewendet und können leider auch die Indizierung durch Suchmaschinen blockieren.
Einheitliche Protokolle ermöglichen die Kennzeichnung eines bestimmten Werkes durch Metadaten-Tags, die den Crawler darüber informieren, dass der Ersteller wünscht, dass es vom KI-Training ausgeschlossen wird. Beispielsweise wird ein Bild mit Metadaten getaggt, die Einzelheiten über den Ursprung des Inhalts und etwaige Nutzungseinschränkungen enthalten – wie „nicht für das KI-Training“. Im Gegensatz zu den orts-basierten Signalen können die Metadaten-Tags an einem bestimmten Werk angebracht werden, was dem einzelnen Ersteller mehr Kontrolle bietet.
Um die oben genannten Herausforderungen anzugehen, enthält der Kodex ein zusätzliches Engagement, größtmögliche Anstrengungen zu unternehmen, um Protokolle zu identifizieren, die entweder aus einem branchenübergreifenden Standardisierungsprozess hervorgegangen sind – mit dem Ziel, ein einheitliches Protokoll zur Reservierung von Rechten zu erreichen – oder „state-of-the-art und weithin von Rechteinhabern akzeptiert“ sind. Dies bedeutet, dass weniger bekannte oder neu eingeführte Opt-out-Mechanismen möglicherweise nicht unbedingt befolgt werden, es sei denn, sie werden zum Branchenstandard. Obwohl die DSM-Richtlinie die maschinenlesbaren Mittel, die zur Äußerung des Opt-outs verwendet werden können, nicht einschränkt, könnte der Vorschlag, „state-of-the-art“ Protokolle zu folgen, zu einem schnelleren Standardisierungsprozess beitragen.
Der Kodex ermutigt die Unterzeichner, Standardisierungsbemühungen zu unterstützen und Gespräche zu führen, um geeignete maschinenlesbare Standards zur Äußerung von Reservierungsrechten zu entwickeln. Dieses Engagement wird einen großen Schritt nach vorn darstellen und die lang erwarteten Bemühungen unterstützen, ein einheitliches Protokoll zur Reservierung von Urheberrechten gemäß der DSM-Richtlinie zu entwerfen und umzusetzen.
Risiken eines einheitlichen Protokolls zur Reservierung der Rechte
Obwohl ein einheitliches Opt-out-Protokoll für große KI-Anbieter ein Traum sein mag, ist es nicht ohne potenzielle Risiken. Wenn Anbieter allgemeiner KI nur weit verbreitete Protokolle befolgen, könnten andere – oftmals sehr gute Lösungen – vom Markt verschwinden. Dies könnte auch zu einer eingeschränkten Auswahl für Autoren führen, die möglicherweise eine andere Option bevorzugen, um ihre Werke zu schützen.
Die Anforderungen des AI Act in Bezug auf Urheberrechte haben auch eine extraterritoriale Wirkung. Daher gilt die Verpflichtung, eine Richtlinie zur Einhaltung von Urheberrechten zu haben, für jeden Anbieter allgemeiner KI, der sein Produkt auf dem EU-Markt anbietet, unabhängig davon, wo das Training stattgefunden hat. Diese Anbieter werden auch erwartet, das einheitliche Protokoll zu befolgen, sobald dies vereinbart ist.