Wie lassen sich KI-Bots aussperren?

Inzwischen ist bekannt, dass sich eine breite Künstlerfront gegen KI gebildet hat. Nun gibt es aber auch erste Bemühungen von größeren Unternehmen, sich gegen KI zusammenzuschließen. Sie wollen ihre Daten vor dem Zugriff der KI-Unternehmen schützen und die KI-Bots aussperren. Bots, auch Crawler genannt, durchsuchen tagtäglich das Internet nach Daten. Sie klopfen an jede Website an, die sie finden können, und nehmen dort wie ein Staubsauger die Daten ungefragt auf.

Zu den Unternehmen, die sich jetzt gemeinschaftlich zur Wehr setzen, gehören inzwischen CNN und die New York Times, sowie einige andere Unternehmen, nachzulesen z. B. bei TechCrunch. Mit weiteren Unternehmen wird gerade verhandelt. Es tut sich also auch in dieser Hinsicht etwas, auch wenn man davon relativ wenig hört und dieser KI-Hype versucht, alles in Zuckerwatte zu hüllen.

Aber wie kann man nun diese KI-Bots aussperren?

Tja, es wird immer wieder von dieser mysteriösen robots.txt Datei geredet und einer mehrzeiligen Codierung, die man dort eingeben soll. Das soll Bots dann vom Zugriff abhalten. Bei harmlosen Bots, zu denen auch ChatGPT von Open AI gehört – so seltsam das auch klingt – werden sich vermutlich an dieses „Hinweisschild“ halten, aber andere nicht.

Eine Garantie ist eine modifizierte robots.txt jedenfalls nicht. Sie ist ein zahnloser Tiger, wie man so schön sagt. Was es bräuchte, wäre ein zupackender Türsteher, der den KI-Bot beim Anklopfen am Schlawitchen packt und der Website verweist. So etwas gibt es tatsächlich. Es nennt sich .htaccess. Man könnte diese Datei als den großen Bruder der robots.txt verstehen. Auch hier wird codiert. Ist ein Bot hier benannt und die Codierung zu 100% richtig – eine falsche kann euch die Website zerschießen – dann kommt der Bot nicht rein und kann auch keine Daten von eurer Website abgreifen. Auch eine WAF (Web Application Firewall) kann euch diesen Dienst erfüllen.

Wie realisiere ich eine WAF oder .htaccess. oder auch robots.txt?

Das war eine meiner ersten Fragen, als ich zum ersten Mal darüber gelesen habe. Und sie ist berechtigt, weil eben für den blutigen Laien nicht trivial. Bei der txt denken alle an eine einfache Textdatei, wie man sie z. B. unter Windows eröffnen kann. Das ist leider falsch. Eine txt ist eine Datei, die im Stammverzeichnis des Websitehosts angelegt oder zu finden sein wird. Nur da. Ihr könnt es also vergessen, unter Windows eine Textdatei zu erstellen und dann in einen eurer Medienordner eurer Website zu legen. Das bringt nichts und kostet euch nur Speicherplatz. Näheres zu diesem Datei-Typ erfahrt ihr hier bei Google selbst.

Bei der .htaccess verhält es sich ähnlich. Auch sie befindet sich im Stammverzeichnis eures Websitehosts oder muss dort angelegt werden. Auf beide Datei-Typen hat man für gewöhnlich nur Zugriff, wenn man selbst hostet. Diejenigen mit einem Baukastensystem müssten also schauen, ob sie mit ihrem Leasing-Paket beim Anbieter ihrer Wahl Zugriff darauf haben. Bei einer robots.txt könnte das vielleicht noch möglich sein, aber bei der .htaccess vermutlich nicht mehr. Aber wie gesagt, das müsst ihr selbst prüfen. Ich hoste inzwischen selbst und habe das Problem nicht. Aus meiner Zeit der Baukastensysteme weiß ich, dass ich keinen Zugriff darauf gehabt habe. Aber das ist jetzt auch schon ein Weile her.

Eine WAF ist dagegen eine Firewall, die beim Baukastensystem auch schwerlich zu realisieren ist. Ihr seid also abermals abhängig von eurem Anbieter. Wer selber hostet, kann sich unter zahlreichen Produkten für eines entscheiden und dann in seinem Hostingbereich integrieren. Nutzer von WordPress haben es am einfachsten. Es gibt geeignete Plugins (inkl. nach EU-Standard), die man mit einem Klick in der Admin-Oberfläche von WordPress installieren und dann verwalten kann. Gleiches kann man bei der .htaccess machen.

Eine Übersicht dieser drei Methoden findet ihr hier: https://www.berlinaten.de/chatgpt-user-agent-blockieren-schuetzen-sie-ihre-website-vor-ki-missbrauch/

WordPress-User finden hier eine Übersicht einiger Plugins, die als WAF kategorisiert sind. https://de.wordpress.org/plugins/tags/waf/

Nutzungsvorbehalt

Auch das wäre eine Möglichkeit, sein Urheberrecht auszuüben, obwohl man damit KI-Bots nicht aussperren kann. Im EU-Raum dürfen alle freizugänglichen Daten aus dem Internet fürs Trainieren einer KI herangezogen werden. Das fällt unter die Ausführungen zum Data Mining. Allerdings kann jeder Urheber seine Daten mit einem Nutzungsvorbehalt versehen. Jener muss allerdings in einer maschinenlesbaren Form auf der Website integriert sein. Es gibt verschiedene Ansätze, das zu realisieren. Ich beschränke mich an dieser Stelle auf einen Hinweis für WordPress-User. Mit Hilfe des Plugins Creative Commons kann man bequem seine ganze Website oder auch gezielt Seiten und Beiträge mit einer Lizenz versehen, die regelt, wie mit dem Inhalt verfahren werden darf. Könnt ihr trotz des Nutzungsvorbehaltes einen Verstoß nachweisen, habt ihr Anspruch auf Unterlassung und evtl. auch Schadensersatz, auch gegenüber von KI-Unternehmen, die eure Daten entgegen eures Nutzungsvorbehaltes für ihre Zwecke eingesetzt haben. Mehr zu Common Licence findet ihr hier.

Schlusswort

Grundsätzlich sollte man die Zugriffe auf seiner Website im Auge behalten. Jeder Zugriff frisst Datenvolumen, das je nach eurem Vertrag begrenzt sein kann. Klopfen haufenweise Bots bei euch an, habt ihr ein Problem. Bedenkt bei allen drei Möglichkeiten auch, dass das keine statische Einrichtung ist. Ihr müsst fortlaufend agieren. Für das Aussperren mit robots.txt oder .htaccess müsst ihr den Namen des Bots kennen, den sog. User-Agent. Da jeden Tag neue unterwegs sind, steht euch eine Sisyphusarbeit bevor. Das ist die harte Realität hinter der Geschichte. Bei einer WAF ist es etwas leichter. Da werden euch die Anklopfer namentlich genannt, aber erst ausgesperrt, wenn ihr WAF dazu beauftragt. Diese bequeme Methode ist oft kostenintensiv, aber zu empfehlen für jene, die sich nicht an die Kodierung einer der beiden anderen Varianten trauen und KI-Bots von ihrer Website aussperren wollen.

Eure Rike Moor

Eine Antwort zu „Wie lassen sich KI-Bots aussperren?“

Nutzungsvorbehalt in Büchern und EBooks – Lektorat Moor

7. November 2023

[…] einer eigenen Website eine übersichtliche Anzahl an Möglichkeiten. Einige habe ich in einem anderen Blogartikel bereits vorgestellt und die Vor- sowie Nachteile […]

Antworten