Data Mining und das Urheberrecht

Wie inzwischen sehr viele Menschen wissen dürften, prescht die Entwicklung von KI-Systemen mit den sieben Meilen Stiefeln in den verschiedensten Branchen voran. Ob das für uns zum Guten oder Schlechten ausgehen wird, darf die Zukunft zeigen. Ich für meinen Teil wende mich heute noch einmal explizit dem Bereich des Urheberrechtes in der Kunstbranche zu. Dieses Mal geht es speziell um das Data Mining.

Das Training einer KI

Damit eine KI richtig funktioniert, muss sie lernen. Dazu benötigt man massenhaft Daten. Im Falle von Text- und Bildgeneratoren sind es Texte und Bilder. Und hier sind wir am Ursprung aller Probleme angekommen. Daten unterliegen einem besonderen Schutz und speziell Texte aller Art sowie Bilder unterliegen dem Urheberrecht.

Es tun sich also zwei zwingende Fragen auf: Wo kommen die Daten für das Training einer KI her und gibt es irgendwelche Gesetze beim sog. Data Mining zu beachten?

Gesetzlichen Regelungen

Dreh- und Angelpunkt ist das Urheberrecht, wenn es darum geht Texte und Bilder in irgendeiner Weise zu verwerten. Niemand anderes als der Urheber (§§ 11 ff UrhG) kann über die Verwendung bestimmen, außer ein Werk ist gemeinfrei. Den Umstand, dass es Länder gibt – Deutschland gehört übrigens nicht dazu – in denen man auf sein Urheberrecht verzichten kann, erwähne ich zwar an dieser Stelle, aber es ist für die Betrachtung selbst nicht von Belang. Es stellt sich nur die Frage, ob es ein Urheberrecht gibt und wo dieses im Zweifel liegt.

Nun gibt es aber auch Werke, die sozusagen verwaist sind. Bei denen ist trotz gründlicher Recherche kein Urheber oder Nutzungsrechteinhaber mehr auffindbar. Auch hier regelt das Urheberrecht, dass mit diesen Werken wie mit gemeinfreien Werken verfahren werden darf. Solches Material findet man unter anderem in Sammlungen von öffentlichen Bibliotheken oder Archiven.

Grundsätzlich muss also für das Training nicht gemeinfreier oder verwaister Werke die Erlaubnis des Urhebers (eine Lizenz) in schriftlicher Form vorliegen. Ansonsten kann es zivilrechtliche Klagen geben. Auch haben die Urheber im Prinzip ein Recht auf finanzielle Beteiligung oder Entschädigung, solange nichts anderes gesetzlich geregelt ist. Leider existiert so eine Regelung. Verantwortlich dafür ist § 44b UrhG, ein ergänzender Paragraph des Urheberrechtes, der am 31.05.2021 erlassen und am 07.06.2021 in Kraft getreten ist. Damit ist das kommerzielle Text und Data Mining (also das, worum es beim Training einer KI geht) vergütungsfrei. Bis dahin galt das nur für wissenschaftliche Zwecke (§ 60d UrhG).

Für das kommerzielle Mining sieht § 44b UrhG keine Vergütungspflicht zugunsten der Urheber vor.

https://www.cmshs-bloggt.de/gewerblicher-rechtsschutz/urheberrecht/text-und-data-mining-nach-dem-neuen-urheberrecht/

Halten wir kurz fest: Für eine Verwertung irgendeiner Art ist die Frage nach dem Urheberrecht zu klären und eine Lizenz zu erwirken. Eine Vergütung ist dabei nicht unbedingt vorgesehen.

Die vom Gesetz her vorgeschriebene fehlende Vergütung im Bereich des Data Mining ist für Urheber ein echtes Ärgernis, aber leider nicht das einzige. Es gibt noch weitere Umstände, die den Verantwortlichen beim Training einer KI entgegenkommen und den Urheber benachteiligen. Welche das sind, ist von Land zu Land verschieden. Ich beziehe mich im Weiteren ausschließlich auf deutsches Recht.

Herkunft der Trainingsdaten

Ausgerechnet das Lizenzrecht hilft dabei, das Urheberrecht aufzuweichen. Und damit schlagen wir auch gleichzeitig einen Bogen zur Herkunft des Trainingsmaterials. Beides hängt miteinander zusammen. Wie im Vorfeld schon erwähnt benötigt man z. B. für die Verwertung von Texten und Bildern entsprechende Lizenzen.

Normalerweise müsste also jeder Urheber einzeln um eine Lizenz gebeten werden. Für das KI-Training wäre der zu erwartende Aufwand, um an genügend Lizenzen zu kommen, enorm. Das wird so nicht gemacht, zumal hier besonders in der Kunst-Szene eine riesige Abneigung entgegenschlagen würde. Stattdessen wird anders vorgegangen.

Lizenzvergabe durch AGB, Nutzungsbedingungen und Co.

Am einfachsten und lukrativsten ist es nur einen Ansprechpartner zu haben, der einem die gesammelten Daten zur Verfügung stellt und dabei auch noch das Urheberrecht bzw. Lizenzecht beachtet. Solche Ansprechpartner sind in großen Unternehmen oder Plattformen zu finden, die das benötigte Text- bzw. Bildmaterial liefern. Der Trick hierbei besteht darin, dass User solchen Nutzungsbedingungen zustimmen, in denen geregelt ist, dass deren Text- und Bildmaterial frei weiterverwendet werden darf.

Ganz vorne mit dabei, sind Unternehmen, die auch die Forschung von KI-Systemen unterstützen. Facebook, Instagram und Google sind nur drei der großen Player.

Bei Google ist z. B. zu lesen (Stand: 14.02.2023):

Quelle: https://policies.google.com/terms?hl=de&fg=1

Interessant sind hier die Angaben zum Zweck der Lizenz. Er ist so allgemein gehalten, wie es nur möglich ist, um so viel Material ansammeln zu können wie irgendwie machbar. Die drei Listenpunkte sind nur Beispiele und lange nicht im Zweck vollständig. Man könnte hier auch aufführen, dass Texte und Bilder für das Training einer KI verwendet werden. Das steht in diesen Worten jetzt nicht hier, fällt aber auch darunter.

Wer also als Google-Nutzer sein Text- und Bildmaterial bei Google hinterlässt, überlässt es also auch im Zweifel für das KI-Training. Dafür, dass man Googledienste kostenlos nutzt, ist das der Preis. Man bezahlt also mit ganz speziellen Daten. Daten sind nicht nur die Angaben über die eigene Person, die unterliegen ja dem Datenschutz und werden gesondert behandelt. Daten sind also alles, was man sich an Informationen vorstellen kann und werden auch gerne als Inhalte bezeichnet.

Bei Facebook und Instagram läuft es genauso. So können hier das letzte Urlaubs- oder jüngste Babyfoto des eigenen Nachwuchses zum Traningsmaterial für eine KI werden. Gleiches gilt für Texte. Jeder Beitrag bei Facebook und Instagram kann zum Trainingsmaterial werden. Auf Facebook findet man den entsprechenden Passus übrigens unter Punkt 3.3 der Nutzungsvereinbarungen „Deine Verpflichtungen gegenüber Facebook und unserer Gemeinschaft“.

Ähnlich gehen auch andere Plattformen vor. In meinem Blogartikel Stability AI und der 18+ Content ist übrigens auch nachzulesen, wo das Bildmaterial für die Sex-und Pornoszene herkommen kann. Darunter fallen Plattformen, wo private Videos hochgeladen werden. Auch das ist eine Quelle für KI Trainingsdaten, an die normalhin niemand denkt.

Andere Quellen

Aber nicht nur große Plattformen werden nach Trainingsmaterial abgegrast. Auch normale öffentliche Websites werden mitgenommen und das sogar ohne den Anspruch auf Vergütung. Doch wie kann das sein? Die Antwort lautet § 44b UrhG. Dieser Paragraph erlaubt:

die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

http://www.gesetze-im-internet.de/urhg/__44b.html

Allerdings müssen, die auf diese Weise erhobenen Daten nach Gebrauch bzw. Erfüllung des Zwecks wieder gelöscht werden.

Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

http://www.gesetze-im-internet.de/urhg/__44b.html

Bislang sind mir jedenfalls keine Möglichkeiten bekannt, die die Trainingsdaten wieder aus einem Dataset wie LAION entfernen. Selbst Stability AI arbeitet derzeit noch mit einer LAION Version, wo diese Funktion nicht berücksichtigt wurde. Daten, die also in der Vergangenheit gemäß § 44b UrhG fürs KI-Training verwendet wurden, sind genau dann rechtswidrig verwendet worden, solange sie nicht wieder gelöscht worden sind, egal aus welchen Gründen, nachdem der Trainingszweck erreicht wurde. So viel dazu.

Schlusswort

Auf jeder Plattform, wo Bilder (bewegt oder statisch) und Texte aller Art erstellt oder hochgeladen werden, sollten die Nutzungsbedingungen, AGB und Co. sehr genau gelesen werden. Hier verstecken sich oft genug die Lizenzvereinbarungen, die es braucht, damit so eine Plattform genau diese Daten rechtskonform weiterleiten kann und damit als alleiniger Ansprechpartner für die Verantwortlichen des KI-Trainings fungiert. Es gibt nur eine Möglichkeit sich dagegen zu wehren, nämlich solche Plattformen nicht zu nutzen. Das kommt für die meisten aus vielen Gründen nicht oder nur eingeschränkt infrage.

So ist z. B. Art Station in der Vergangenheit eine beliebte Möglichkeit bei Künstlern gewesen, ihr Portfolio mit der ganzen Welt zu teilen. Leider hat Art Station letztes Jahr auch sämtliche hochgeladenen Bilder zum Training einer KI gespendet. Höchstwahrscheinlich hat es zum damaligen Zeitpunkt bei Art Station schon eine ähnliche Lizenzvereinbarung wie bei Google in den Nutzungsbedingungen gegeben. Insofern haben die Künstler nun die Wahl, dort ihre Zelte abzubrechen und ihre kostenlose Werbemöglichkeit plattzumachen oder diese Kröte zu schlucken. Wie die Künstlerszene zu diesen Machenschaften steht, war letztes Jahr eindrucksvoll zu sehen. Sie fluteten die Plattform mit NoAI-Kunstwerken. Viele haben daraufhin auch Art Station verlassen.

DevianArt ist eine weitere Kunstplattform, die das Gleiche gemacht hat. Allerdings wird DevianArt dafür auch in den USA verklagt. Der Vorwurf lautet unter anderem: Urheberrechtsverletzung durch die unerlaubte Weitergabe von Bildmaterial.

Für Websitebetreiber hingegen gibt es durchaus eine Möglichkeit des Widerspruchs. Sie wird allerdings wenig bis gar nicht genutzt, obwohl das möglich wäre. Auch das regelt § 44b UrhG. Dazu muss ein Vorbehalt gegen das Data Mining in maschineller Form erstellt werden. Das heißt nichts anderes, als dass man dazu einen Passus in seiner Datenschutzverordnung formulieren soll. Die sog. Crawler, die das Internet nach geeigneten Inhalten durchsuchen, sollen solche rechtlichen Hinweise erkennen und darauf entsprechend reagieren und die mit einem Vorbehalt versehenen Websites ignorieren. Allerdings habe ich auch schon gelesen, dass das eher weniger gut funktioniert bzw. der Vorbehalt ignoriert wird. Die Datenerhebung findet also auch nach ausdrücklichem Widerspruch statt, was ein klarer Rechtsverstoß ist.

Mehr zum Nutzungsvorbehalt findet ihr in meinem neueren Blogartikel „Nutzungsvorbehalt in E-Books und Büchern„.

So ein Vorbehalt funktioniert aber auf Plattformen wie Facebook und Instagram absolut nicht. In der Vergangenheit kursierten oft Beiträge, in denen der Verfasser den Nutzungsbedingungen widersprochen hat. Das sind nichtige Schreiben, komplett irrelevant. Sie haben keine Auswirkung. Solange man die Dienste von Facebook und Co. nutzt, stimmt man den geltenden Nutzungsbestimmungen zu. So einfach ist das.

Meiner Recherche zu diesem Thema liegen nicht bloß die hier bereits genannten Quellen unter den Zitaten zugrunde, sondern unter anderem auch eine Ausarbeitung des Deutschen Bundestages von 2018 zum Thema Künstliche Intelligenz und Machine Learning – Eine urheberrechtliche Betrachtung und ein Blogartikel der Kanzlei CMS Hasche Sigle Partnerschaft von Rechtsanwälten und Steuerberatern mbB.

Wer sich also dahingehend weiter schlau lesen will, sollte sich diese Quellen in ganzer Länge antun. Dieser Blogartikel ist eine Zusammenfassung aller Informationen, die ich bislang aufgetrieben und für euch hoffentlich einigermaßen verständlich aufbereitet habe.

Eure Rike

PS: Dieser Artikel stellt keine Rechtsberatung dar. Die erhaltet ihr ausschließlich bei einem Fachanwalt eurer Wahl.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert