🔒
Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Heute — 11. Januar 2026Haupt-Feeds

Erfundene Quellen: Wie Chatbots die Wikipedia vergiften

29. Dezember 2025 um 18:37

Manche Nutzer:innen lassen sich Wikipedia-Artikel von Sprachmodellen generieren, inklusive erfundener Referenzen. Ein Wikipedia-Urgestein stolperte zufällig über die halluzinierten Artikel – ausgerechnet mit der Hilfe von einem Sprachmodell.

Auf der Suche nach nicht existierenden Büchern. (Symbolbild) – Alle Rechte vorbehalten IMAGO / Zoonar

Eigentlich wollte Mathias Schindler nur eine kleine Sache in der Wikipedia korrigieren. Doch dann baute der Wikipedianer versehentlich einen Detektor für bestimmte KI-generierte Inhalte in der Enzyklopädie. Auf dem 39C3 berichtet er, warum die halluzinierten Texte auch ein Problem für die Anbieter großer Sprachmodelle werden könnte und warum er den Autor:innen keine guten Absichten unterstellt.

Die kleine Sache, die Schindler korrigieren wollte, waren fehlerhafte ISBNs. Mit diesen 10 oder 13-stelligen Nummern werden Bücher identifiziert und finden sich oft in Quellenangaben von Wikipedia-Einträgen. Dabei sind die Zahlenkombinationen nicht vollkommen zufällig, erklärt Schindler im Talk. Die letzte Ziffer ist eine Prüfziffer, sie lässt sich aus den neun beziehungsweise zwölf vorherigen Ziffern berechnen. Ursprünglich wollte Schindler falsche ISBNs in der Wikipedia aufspüren und ausbessern, auch damit Nutzer:innen die richtigen Bücher finden, die als Referenzen in den Artikeln angegeben wurden.

Zufallsfund dank falscher ISBNs

„Referenzen auf Wikipedia sind nicht nur wichtig, sondern ein integraler Teil der Wikipedia“, sagt Schindler und verweist in seinem Vortrag auf den alten Spruch: „Wikimedia mag ein guter Ort sein, um eine Recherche zu starten, aber es ist ein schlechter Ort, um dort die Recherche zu beenden.“ (Alle Zitate aus dem Talk haben wir ins Deutsche übersetzt.) Schindler muss es wissen. Er ist Mitbegründer von Wikimedia Deutschland und Wikipedia-Autor seit 2003.

Um die inkorrekten ISBNs zu finden, schrieb Schindler ein Skript, lud die gesamte deutschsprachige Wikipedia herunter und durchsuchte sie nach ISBNs mit einer faulen Prüfziffer, erzählt er in seinem Vortrag. Doch er stieß nicht nur auf falsch eingegebene ISBNs oder von den Verlagen falsch ausgegebene ISBNs, sondern fand auch Artikel, bei denen zwei oder mehr Bücher fehlerhafte ISBNs hatten. Diese Bücher schienen zwar plausible Titel und Autor:innen zu haben, aber Schindler konnte sie nirgendwo sonst finden. Sie waren halluziniert.

Offenbar hatten sich Menschen ganze Artikel von einem Large Language Model (LLM) wie ChatGPT schreiben lassen, welches sich dann auch einen Abschnitt mit Einzelnachweisen ausdachte.

Noch ist es ein Nischenphänomen

Im Gespräch mit netzpolitik.org erzählt Schindler, dass er mit seiner Methode etwa 150 Artikel gefunden habe, bei denen man Sorge haben müsse, dass sie zumindest teilweise KI-generiert und frei erfunden seien. Allerdings seien die fehlerhaften Einträge nicht ausschließlich auf KI-Chatbots zurückzuführen, manchmal gebe es andere Gründe für mehrfach falsche ISBNs, sagt Schindler. Außerdem gibt es über drei Millionen deutschsprachige Wikipedia-Artikel, die 150 Auffälligen machen also nur ein äußerst geringen Anteil von 0,005 Prozent aus.

Andererseits erfasst Schindlers Methode auch nicht alle Halluzinationen, dafür war es schließlich nicht gedacht. „Dieses Werkzeug ist nicht das Universaltool zum Erkennen von ChatGPT-generierten Artikeln.“ Andere Möglichkeiten, solche Inhalte zu enttarnen, seien etwa systematische Abweichungen von der Syntax von „Media Wiki“ (der Software hinter Wikipedia). Oder wenn Autor:innen viele Adjektive verwenden: „Kein Wikipedianer, der was auf sich hält, wird den Fernsehturm als ‚großartig‘ oder ‚herausragend‘ bezeichnen.“

LLM generierter Text „Anti-These zu Wikipedia“

Doch auch wenn das Erstellen von Wikipedia-Artikeln mit LLMs noch nicht so verbreitet sein sollte, geht es für Wikipedia um Grundsätzliches: Die Kontamination mit Inhalten, die auf den ersten Blick wahr erscheinen könnten und sich als Fakten tarnen. Schindler sagt: „Man könnte es auch als Anti-These zu einem Enzyklopädie-Projekt wie Wikipedia beschreiben.“

Die Gefahren? Zum einen können sich falsche Infos verselbstständigen, wenn eine andere Veröffentlichung den vermeintlichen Fakt von Wikipedia abschreibt und die Wikipedia diese Veröffentlichungen hinterher als Beleg für genau diesen Fakt aufführen. Schindler weist in seinem Vortrag auf diesen Teufelskreis hin, der bereits vor LLMs ein Problem darstellte.

Glaubwürdigkeit in Gefahr – und die Qualität von LLMs

Zum anderen verschlingen LLM-generierte Quellen zunehmend die Ressourcen unterschiedlichster Einrichtungen. Nicht nur die der Online-Enzyklopädie: Irregeleitete Nutzer:innen fragen etwa Bibliothekar:innen nach ausgedachten Büchern, berichtete 404 Media im Herbst. Beim Internationalen Komitee des Roten Kreuzes (ICRC) wurde die Situation offenbar so schlimm, dass es sich mit einer „wichtigen Mitteilung“ an die Öffentlichkeit wandte.

„Wenn eine Referenz nicht gefunden werden kann, heißt das nicht, dass das ICRC Informationen zurückhält. Verschiedene Situationen können das erklären, wie etwa unvollständige Zitationen, Dokumente, die in andere Institutionen lagern, oder – zunehmend – KI-generierte Halluzinationen“, warnte das ICRC Anfang Dezember.

Auch für die Entwickler von Large Language Models hätten halluzinierte Wikipedia-Artikel Nachteile, argumentiert Schindler. Denn ihre Modelle werden oft mit Wikipedia-Artikeln trainiert. „Die KI-Firmen profitieren von hochwertigen Daten und leiden unter dem Verlust von Quellen, die frei von synthetischen Texten sind“, sagt im Schindler im Gespräch mit netzpolitik.org. Oder wie er es im Vortrag formuliert: „LLM-Provider vergiften damit auf eine Art den Fluss, aus dem sie selber trinken“, sagt Schindler.

Wer macht sowas?

Doch wer stellt eigentlich LLM-generierte Inhalte in die Wikipedia? „Bunt gemischt“, erzählt Mathias Schindler im Gespräch mit netzpolitik.org. Von Wikipedia-Neulingen über langjährige Autor:innen bis zu einer Werbeagentur sei alles dabei gewesen. Er habe versucht, möglichst viele Autor:innen von verdächtigen Artikeln zu kontaktieren. Manche hätten ihn ignoriert, andere alles geleugnet oder den Einsatz einer LLM heruntergespielt.

„Eine Erklärung ist, dass Menschen LLMs tatsächlich als Recherchewerkzeug ansehen, das magischen Zugang zu wissenschaftlichen Datenbanken und Literatur hat und belastbare Belege liefert“, sagt Schindler zu netzpolitik.org. Bisher habe er aber noch keine solche Person unter den verdächtigen Autor:innen getroffen. Stattdessen vermutet Schindler eher persönlichen Geltungsdrang oder dass Personen eine Agenda verfolgen, die Enzyklopädie in ihrem Sinne umzuschreiben.

In seinem Vortrag erzählt Schindler, er habe alle verdächtigen Autor:innen, um den Prompt gebeten, mit dem diese den Artikel generiert hätten. „Das ist mein persönlicher ‚Litmus‘-Test, ob die Menschen ehrliche Absichten haben“, sagt Schindler. Nur eine einzige Person habe den Prompt nach vielen Nachfragen privat geteilt.

Die Herausforderung bleibt

Laut Schindler wurden alle gemeldeten Artikel gelöscht, bei denen die Autor:innen die Zweifel nicht ausräumen konnten, dass sie KI-generiert waren. In vielen Fällen wurden auch die Autor:innen gesperrt. In einem Richtlinien-Artikel der deutschsprachigen Wikipedia heißt es dazu: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen. Beiträge, die damit erstellt werden, verstoßen daher unter anderem gegen WP:Keine Theoriefindung, WP:Belege, WP:Urheberrechtsverletzung, WP:Neutraler Standpunkt; ihre Verwendung ist daher derzeit generell unerwünscht.“

Für Schindler bleibt es eine Herausforderung für die Wikipedia-Community, halluzinierte Texte aufzudecken, zumal Chatbots künftig ISBNs mit einer korrekt berechneten letzten Stelle erfinden könnten. Er hofft auf einen konstruktiven Dialog mit den KI-Firmen. „Mein persönlicher Wunsch wäre, dass man durch Austausch und vielleicht Kompetenztransfer mit den KI-Firmen erreicht, dass man KI-generierte Texte leichter erkennt, wenn jemand versucht, sie in die Wikipedia zu stellen.“

Am Ende ist die Geschichte der KI-generierten ISBNs auch eine über falschen und vielleicht besseren KI-Einsatz. Denn den Code für seinen ISBN-Checker hat Schindler auch mithilfe von Large Language Models geschrieben.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

Ältere BeiträgeHaupt-Feeds

Breakpoint: Lasst ihr ChatGPT auch eure Liebesbriefe schreiben?

26. Oktober 2025 um 07:35

Während generative KI immer mehr in unseren Alltag einsickert, drohen wir den Kern dessen zu verlieren, was uns sein lässt. Große Sprachmodelle zu nutzen, mag praktisch sein, doch sollten wir darüber nicht vergessen, dass wir Menschen sind.

Briefumschlag mit aufgemaltem Herz liegt in einer Pfütze mit vielen Blättern
Ein Liebesbrief? – Gemeinfrei-ähnlich freigegeben durch unsplash.com Jovan Vasiljević

„Hey ChatGPT, schreib mir was Nettes für meine Freundin.“ „Mach ich“, sagt die Maschine und wir sagen „Danke“. Danke, dass du uns das Denken abnimmst, das Fühlen gleich mit. Bald schreiben wir nicht mehr nur mit generativer KI, sondern sind ihre Anhängsel: halb Mensch, halb Prompt.

Überall, wo früher Gedanken waren, sind jetzt Textvorschläge. Die Schule? Automatisch. Hausarbeiten, Gedichte, Bewerbungsschreiben? Alles generiert, alles glatt, alles gleich. Selbst Liebesnachrichten klingen wie Werbeslogans mit Gefühlsgarantie.

Natürlich ist nichts dagegen einzuwenden, ChatGPT zu nutzen, um sich Arbeit zu sparen. Auch ich tue das gelegentlich, viele von euch wahrscheinlich ebenso. Wer seine E-Mails oder Anschreiben optimiert, spart Zeit. Nur: Wenn wir irgendwann auch unsere Emotionen outsourcen, was bleibt dann noch von uns?

Kommunikation per Knopfdruck

Jede Kommunikation kann mittlerweile per Knopfdruck von einem Large Language Model (LLM) optimiert werden. Seit Kurzem bietet etwa Instagram an, die eigenen Direktnachrichten und Kommentare von einer KI überarbeiten zu lassen. Es gibt LLMs, die Beziehungstipps geben oder kurzerhand selbst vorgeben, ein Partner zu sein.

Doch das alles tut ChatGPT nicht aus Altruismus. Ganz abgesehen davon, dass KIs nicht selbst denken oder handeln und nichts selbst „tun“, ist auch ihr Zweck nicht gemeinwohlorientiert. Stattdessen sind sie kommerzielle Angebote, die für ihre Hersteller Profite erwirtschaften sollen; etwa durch Datensammeln und Abos.

Egal ob es der KI-Partner ist, die Nachrichtenformulierung auf Instagram oder die Generierung von Social-Media-Posts: All das ist nicht dafür gemacht zu helfen, sondern um wirtschaftliche Erträge zu erwirtschaften. Deswegen ist es auch nicht verwunderlich, dass immer mehr Hersteller ein Stück dieses scheinbar unendlich profitablen Kuchens abhaben wollen.

Es scheint, als gäbe es mittlerweile eine KI für alles – von der wissenschaftlichen Recherche bis zu Formulierungsvorschlägen zum Flirten. Sogar Auswirkungen auf unsere Wortwahl lassen sich inzwischen nachweisen. Wörter, die wir früher kaum genutzt haben – die LLMs aber gerne verwenden – tauchen nun überall auf. Wer nicht denken will, scheint auch nicht mehr mehr dazu gezwungen zu sein.

ChatGPT Mensch sein

Irgendwer soll mal gesagt haben: „Ich denke, also bin ich.“ Wenn wir etwas „ChatGPTen“, dann ist ChatGPT – aber nicht wir. ChatGPT ist kein Partner, kein Ratgeber und erst recht kein Ersatz für den eigenen Verstand.

Wenn wir aufhören, selbst zu denken, zu formulieren, zu fühlen – wenn wir das Menschliche an Maschinen delegieren, dann verlieren wir das, was wir der KI voraushaben: unser Bewusstsein.

Dieser Prozess mag beginnen, indem wir LLMs nervige Aufgaben für uns übernehmen lassen, sei es eine Hausaufgabe oder eine Arbeitsmail. Es gibt einige Stimmen, die gerne erzählen, dass ChatGPT das Abitur bestehen könnte und fragen, weshalb Schüler:innen überhaupt noch ihre Hausarbeiten selbst schreiben sollten, wenn ChatGPT das doch viel effizienter erledigen könnte. Und natürlich könnte ChatGPT unser Abitur schreiben.

Es ist keine Nachricht, dass ein Rechner, der mit nahezu allen Informationen dieser Erde gefüttert ist, Antworten auf Fragen aus Schulprüfungen generieren kann. Aber in der Schule sollten eigentlich Schüler mit Informationen gefüttert werden. Und zwar nicht mit dem Ziel, Prüfungen zu bestehen, sondern damit Menschen etwas lernen. Und ja, es ist zumindest kurzfristig nützlich, dass ChatGPT unsere E-Mails oder Hausarbeiten schreibt, uns Arbeit abnimmt. Die Frage ist aber: Wo hört das auf?

Immer mehr Menschen neigen dazu, KI einfachste Denkaufgaben oder gar ihre eigene künstlerische Expression übernehmen zu lassen; von den Hausaufgaben bis hin zum Liebesgedicht. Das ist weder verwunderlich noch verwerflich. Fast jedes soziale Netzwerk und immer mehr Betriebssysteme implementieren LLMs und platzieren sie so, dass wir kaum daran vorbeikommen. Wenn ich WhatsApp öffne, dann ist dort an oberster Stelle nicht der Chat mit meiner besten Freundin oder meiner Mutter, sondern ein Suchfenster, in dem ich doch bitte MetaAI eine Frage stellen darf.

Ich will in einer Welt leben, die von Menschen für Menschen gemacht ist. Und nicht in einer, in der deine KI mit meiner hin und her chattet, bis sie ein Bewerbungsgespräch oder ein Date für uns vereinbart hat.

Was macht uns aus?

Die britische “Sun” hat 2016 geschrieben, 2025 (also heute) würden Frauen mehr Sex mit Robotern als mit Männern haben. Dass das nicht stimmt, liegt auf der Hand. Aber weit davon entfernt sind wir nicht mehr, wenn ein LLM für uns die heißen Nachrichten an unser Date schreibt oder Vorschläge für die besten Sexstellungen generiert.

Vielen Menschen scheint das zu gefallen. Sexting ist schließlich mindestens genauso denkintensiv wie eine E-Mail an den Chef. Da tut es gut, wenn eine KI einem diese Bürde abnehmen kann. Es ist effizient, spart Zeit und Gedankenkraft. Wäre doch schön, wenn ein LLM uns noch mehr unseres anstrengenden Alltags abnehmen könnte. Wo wir schon dabei sind: Lasst ChatGPT doch einfach eure Frau bumsen.

Schreibt meinetwegen eure E-Mails mit KI, die Nachrichten an eure Freunde, eure Liebesbriefe oder die Trauerrede für die Beerdigung eurer eigenen Mutter. Lasst euch nehmen, was euch sein lässt. Aber was bleibt dann noch von uns?

Wenn wir einfache Denkaufgaben nicht mehr Kraft unseres eigenen Verstandes absolvieren, unsere Gefühle nicht mehr selbst ausdrücken oder Kunst schaffen, dann überlassen wir der KI und ihren Produzenten das Großartigste, was diese Welt zu bieten hat: Mensch zu sein.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

Datenschutz und KI: Schluss mit der Zögerlichkeit!

17. September 2025 um 15:43

Die Folgen des KI-Hypes für den Datenschutz sind schwer absehbar. Im Fall von Metas KI-Training zögern Aufsichtsbehörden, das Oberlandesgericht Köln gab dem Konzern sogar – fürs Erste – grünes Licht. Jura-Professorin Paulina Jo Pesch zeigt Schwächen des Urteils auf und fordert eine entschiedenere Durchsetzung der Datenschutzvorgaben.

Ein altmodisch aussehendes Treppenhaus von oben. Es windet sich in Spiralen nach unten.
Abwärtsspirale: Das Treppenhaus im Oberlandesgericht Köln CC-BY-SA 4.0 1971markus

Hinter weitverbreiteten KI-Anwendungen stehen generative Sprach- und Bildmodelle, die mit riesigen Datenmengen gefüttert werden, auch mit personenbezogenen Daten. Das Problem: Teile der Trainingsdaten, darunter personenbezogene, lassen sich aus vielen der Modelle extrahieren. Unter welchen Umständen sich ein Modell zu viel „merkt“ und wie sich das verhindern lässt, ist bislang wenig erforscht. Zugleich werden Extrahierungsmethoden immer besser. Anbieter*innen können bislang nicht verhindern, dass Modelle personenbezogene Trainingsdaten ausgeben. Auch Chatbots können personenbezogene Daten von anderen verraten.

Außerdem „halluzinieren“ die Modelle. Sie generieren also falsche Informationen, die nicht in den Trainingsdaten enthalten sind. Weil KI-Unternehmen diese nicht offenlegen, können Forscher*innen nicht zuverlässig messen, wann ein Modell Informationen erfindet und wann es unrichtige Trainingsdaten wiedergibt. Zuverlässige Methoden zur Vermeidung von Halluzinationen gibt es bisher nicht.

Werden personenbezogene Daten aus einem Modell extrahiert, kann für Betroffene gerade die Kombination aus „Erinnerung“ und „Halluzination“ gefährlich sein. Ein mit personenbezogenen Daten trainiertes Modell generiert unter Umständen Falschinformationen über sie. Gerade bei öffentlichen Modellen besteht das Risiko, dass Nutzer*innen diese Informationen unkritisch weiterverbreiten.

Meta fragt lieber nicht um Erlaubnis

Mit Llama (Large Language Model Meta AI) ist auch Meta an dem KI-Rennen beteiligt. Meta nutzt Llama für eigene KI-Funktionen wie Transkriptions- oder Suchfeatures auf Instagram, Facebook und WhatsApp sowie für Chatbots oder in KI-Brillen, die das Unternehmen anbietet. Außerdem stellt Meta seine Modelle anderen zur Nutzung bereit. So können etwa Forscher*innen die Modelle testen oder Unternehmen auf Basis von Llama KI-Dienstleistungen oder -Produkte anbieten.

Im Juni 2024 informierte Meta die Nutzer*innen von Instagram und Facebook über eine Aktualisierung seiner Datenschutzrichtlinie. Diese Aktualisierung ließ Metas Vorhaben erkennen, seine KI-Modelle mit Nutzer*innendaten zu trainieren. Die Nutzer*innen konnten dem zwar widersprechen, die Widerspruchsmöglichkeit war jedoch schwer auffindbar.

Nachdem Datenschutzorganisationen wie noyb Meta scharf kritisierten, veröffentlichte der Konzern noch gleichen Monat weitere Informationen zum geplanten Training. Demnach beabsichtigte der Konzern, nur noch öffentliche Daten für das Training zu verwenden. Kurz darauf verkündete Meta, die irische Datenschutzbehörde verzögere das Training in der EU. Im April 2025 verkündete der Konzern dann den baldigen Trainingsstart.

Was trainiert Meta eigentlich mit welchen Daten?

Inzwischen hat der Konzern damit begonnen, seine KI mit den Daten europäischer Nutzer*innen zu trainieren. Unklar ist weiterhin, welche Daten dafür genau genutzt werden. Meta stellt im Vergleich zu anderen KI-Unternehmen zwar mehr Informationen über das Training mit Social-Media-Daten bereit. Diese Informationen haben sich aber immer wieder verändert und lassen Fragen offen.

Das betrifft insbesondere den Umgang mit sensiblen Daten. Bei Llama handelt es sich um ein multimodales Sprachmodell, das neben Texten auch Bilder, Videos und Tondateien verarbeitet. Der für das Training genutzte Social-Media-Content umfasst damit etwa auch Fotos der Nutzer*innen. Metas Datenschutzinformationen verweisen auf öffentliche Inhalte wie Beiträge, Kommentare und Audiospuren.

Inzwischen heißt es in den Datenschutzinformationen, dass auch Daten von Drittpartner*innen und KI-Interaktionen für die KI-Entwicklung genutzt würden. Als Beispiele für KI-Interaktionen nennt Meta Nachrichten, die Nutzer*innen oder andere Personen von der KI erhalten, mit ihr teilen oder an diese senden.

Diese Angaben schließen private Sprachnachrichten und Transkriptionen nicht aus. Metas Umschreibung passt auch auf Chatverläufe mit Chatbots. Solche Chatverläufe können besonders sensible Daten enthalten, wenn etwa Chatbots für intime Gespräche zu mentaler Gesundheit oder parasoziale romantische Beziehungen genutzt werden.

Verbraucherzentrale scheitert vor Gericht

Um den Beginn des Trainings zu verhindern, hat die Verbraucherzentrale Nordrhein-Westfalen im Mai 2025 einen Eilantrag beim Oberlandesgericht (OLG) Köln gestellt. Sie argumentierte insbesondere, dass Meta das Training nicht auf eine wirksame Rechtsgrundlage stützen könne, ist mit dem Eilantrag jedoch gescheitert. Das Urteil und Einblicke in die mündliche Verhandlung in Köln offenbaren erhebliche Mängel.

Meta hatte sich entschieden, keine Einwilligungen einzuholen, sondern beruft sich auf ein berechtigtes Interesse an der Nutzung der Daten für KI-Training. Die Verbraucherzentrale hält das für unzureichend, doch das Gericht folgt Metas Argumentation in seinem Urteil. Nach der Datenschutzgrundverordnung (DSGVO) können berechtigte Interessen die Verarbeitung personenbezogener Daten rechtfertigen, solange die Interessen Betroffener nicht schwerer wiegen. Dabei müssen diese der Datenverarbeitung aber widersprechen können.

Die Verbraucherzentrale NRW hat darauf hingewiesen, dass nicht alle Betroffenen widersprechen können. Facebook- und Instagram-Beiträge enthalten zuhauf personenbezogene Daten von Nicht-Nutzer*innen. Die Widerspruchsfunktion steht aber nur Nutzer*innen offen. Das Gericht ignoriert diesen Einwand. Zudem behauptet es ohne Begründung und trotz gegenteiliger Hinweise, Meta erfülle die Anforderungen der DSGVO an den Schutz von Minderjährigen.

Das Gericht halluziniert niedrige Risiken herbei

Berechtigte Interessen geben außerdem keine Rechtsgrundlage für Verarbeitungen her, die für Betroffene zu riskant sind. Das OLG Köln behauptet, die Risiken für Nutzer*innen seien gering. Dabei legt das Urteil nahe, dass die Richter*innen nicht verstanden haben, was Meta trainiert. Das Wort „Llama“ taucht im gesamten Urteil nicht auf. Auch beschreibt das Gericht keine Anwendungsszenarien.

Auf diese kommt es aber entscheidend an. Ein Transkriptionsfeature gibt wahrscheinlich keine extrahierbaren Daten aus. Aus Llama selbst werden jedoch sicher Daten extrahiert. Forscher*innen wenden Extrahierungsmethoden auf alle bekannten Modelle an. Je nachdem, welche Arten von Daten wie gut extrahierbar sind, könnte es dabei versehentlich auch zu Datenlecks kommen.

Gerichte prüfen in Eilverfahren die Rechtslage nur „kursorisch“, also nicht im Detail. Das OLG Köln reiht dabei aber mit großem Selbstbewusstsein Behauptungen aneinander, die aus Sicht der Datenschutzforschung haltlos sind. Selbst wenn Metas Training transparent genug wäre, fehlt es an tragfähigen Forschungsergebnissen für die Einschätzung des Gerichts.

Ein grober Fehler des Urteils betrifft besondere Kategorien personenbezogener Daten. Das sind sensible Daten, die die DSGVO besonders schützt, zum Beispiel Daten über Race, religiöse Anschauungen oder sexuelle Orientierungen. Social-Media-Daten enthalten viele solcher Daten. Besondere Kategorien personenbezogener Daten dürfen nicht auf Basis berechtigter Interessen verarbeitet werden, sondern nur unter strengeren Voraussetzungen, in vielen Fällen nur aufgrund von Einwilligungen. Das OLG Köln stört sich daran nicht.

Stattdessen behauptet das Gericht, dass die Anwendung der besonderen Schutzanforderungen nicht geboten sei. Das Urteil stellt hier wieder auf ein nicht weiter begründetes geringes Risiko ab. Dabei kommt es gerade im Bereich des maschinellen Lernens leicht zu unbemerkten Modellbias, also zu systematischen Fehleinschätzungen, die zum Beispiel zu rassistischer Diskriminierung führen. Besondere Kategorien personenbezogener Daten bergen dabei potenziell besonders hohe Risiken.

Bedenkliche Informationslage

Bedenklich ist zudem die Informationslage, auf die sich das Gericht stützt. In diesem Fall sind das vor allem die Angaben von Meta selbst. Das ist in einem Eilverfahren an sich nicht zu beanstanden – weil es schnell gehen muss, gelten geringere Beweisanforderungen. Gerichte arbeiten daher mit eidesstattlichen Versicherungen, formellen Erklärungen der Parteien. Um Falschangaben vorzubeugen, sind falsche eidesstattliche Versicherungen nach dem Strafgesetzbuch strafbar.

Das Urteil stellt entscheidend auf eidesstattliche Versicherungen von Metas Produktmanager für generative KI ab. Zwei in der mündlichen Verhandlung in Köln anwesende Personen berichten allerdings, dass die Versicherungen nie formgerecht abgegeben worden sind. (Die Autorin hat von zwei in der Verhandlung in Köln anwesenden Personen Informationen zum Ablauf der mündlichen Verhandlung und dabei getroffenen Aussagen des Gerichts erhalten. Eine der Personen ist seitens der klagenden Verbraucherzentrale am Verfahren beteiligt, die andere Person hat den Prozess beobachtet, ohne daran beteiligt zu sein.)

Eidesstattliche Versicherungen müssen mündlich oder im Original mit händischer Unterschrift abgegeben werden. Selbst wenn die Erklärungen von Meta formgerecht wären, hätte sich das OLG Köln besser nicht darauf verlassen. Es gibt zwar keine Anzeichen dafür, dass diese Falschangaben enthalten. Durch das deutsche Strafgesetzbuch wäre deren Richtigkeit aber nicht abgesichert: Falls der in Kalifornien ansässige Manager nicht einreisen will, hätten Falschangaben keine strafrechtlichen Folgen für ihn.

Zudem legt das Urteil nahe, dass Metas Erklärungen inhaltlich dünn sind. Sie bestätigen etwa das Funktionieren der Widerspruchsfunktion. Eine Pressemitteilung der für Meta zuständigen irischen Datenschutzbehörde (Data Protection Commission, DPC) zeigt jedoch, dass die Behörde Meta zur Nachbesserung der Widerspruchsfunktion aufgefordert hat. Es bleibt somit zweifelhaft, ob Widersprüche in der Vergangenheit einfach genug möglich waren und funktioniert haben.

Datenschutzbehörden lassen Meta erst mal machen

Auch die Pressemitteilung der irischen Datenschutzbehörde und der Umgang des Gerichts damit verdienen besondere Aufmerksamkeit. Die für ihre Nachsicht gegenüber Datenkonzernen bekannte Behörde hat die Pressemitteilung am Vorabend der mündlichen Verhandlung in Köln veröffentlicht. Sollte die Behörde sich etwa mit Meta abgestimmt und so das Verfahren beeinflusst haben?

Das OLG Köln hat nach Berichten Anwesender schon in der mündlichen Verhandlung signalisiert, der Rechtsauffassung der irischen Behörde wahrscheinlich folgen zu müssen, warum auch immer das Gericht sich an deren Einschätzung auch nur lose gebunden fühlt. Das ist nicht nur im Hinblick auf die Gewaltenteilung bedenklich. Die Pressemitteilung enthält auch keinerlei Rechtsauffassung zur Frage nach der Datenschutzkonformität, der das Gericht folgen könnte. Sie enthält schlicht gar keine rechtliche Einschätzung. Es heißt lediglich, Meta habe in Absprache mit der Behörde Maßnahmen zur Verbesserung des Datenschutzes ergriffen und verfolge die Umsetzung weiter.

Aus der Pressemitteilung wird ersichtlich, dass die irische Behörde Meta nur beraten hat. Das war dem OLG Köln auch von Metas Hauptaufsichtsbehörde in Deutschland, dem Hamburger Datenschutzbeauftragten, bekannt. Im Urteil heißt es ausdrücklich, die Behörde habe Meta das Training „bislang“ nicht untersagt und beobachte derzeit die Folgen der Trainings.

Der Hamburger Datenschutzbeauftragte hatte im Juli 2024 die Datenschutzauswirkungen des Trainings generativer Sprachmodelle noch unterschätzt. Nach Berichten aus der mündlichen Verhandlung hat er angesichts seiner Einblicke in Metas Training diese Auffassung zurückgenommen, erhebliche Datenschutzbedenken geäußert und zunächst sogar ein eigenes Verfahren gegen Meta angekündigt. Außerdem berichtete er, dass die irische Behörde plane, ein Verletzungsverfahren im Oktober einzuleiten. Das spricht dafür, dass europäische Datenschutzbehörden von Verstößen wissen, Meta aber zunächst gewähren lassen.

Wider den KI-Hype

Die Bedeutung des Kölner Verfahrens weist über Meta und über Deutschland hinaus. Das Urteil und die Vorgänge im Prozess legen nahe, dass europäische Gerichte und Aufsichtsbehörden bei KI dem Ansatz „Abwarten und Teetrinken“ folgen. Es lässt sich nur spekulieren, welche Rollen hier der Druck des KI-Hypes, Innovationspläne der EU oder auch blanke Naivität spielen.

Dabei macht die DSGVO nicht nur klare Vorgaben an KI-Unternehmen, sondern bietet diesen auch ausreichende Möglichkeiten, sich an die Vorgaben zu halten. Demnach müssen KI-Unternehmen die Datenschutzkonformität ihrer Vorhaben begründet nachweisen. Sie dürfen ihre Modelle trainieren und testen – allerdings nur zu reinen Forschungszwecken und ohne die KI in der Praxis einzusetzen – und damit blind auf die Menschheit loszulassen. Gerichte und Aufsichtsbehörden sollten diese Vorgaben durchsetzen, anstatt sich dem KI-Hype zu beugen.

Prof. Dr. Paulina Jo Pesch ist Juniorprofessorin für Bürgerliches Recht sowie das Recht der Digitalisierung, des Datenschutzes und der Künstlichen Intelligenz am Institut für Recht und Technik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Sie koordiniert das vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderte interdisziplinäre Forschungsprojekt SMARD-GOV, das Datenschutzaspekte großer Sprachmodelle erforscht.

Eine englischsprachige Langfassung der Analyse des Verfahrens sowie eines weiteren Verfahrens beim OLG Schleswig-Holstein ist im CR-online blog erschienen.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

  • Es gibt keine weiteren Artikel
❌