🔒
Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Heute — 11. Januar 2026Haupt-Feeds

Erfundene Quellen: Wie Chatbots die Wikipedia vergiften

29. Dezember 2025 um 18:37

Manche Nutzer:innen lassen sich Wikipedia-Artikel von Sprachmodellen generieren, inklusive erfundener Referenzen. Ein Wikipedia-Urgestein stolperte zufällig über die halluzinierten Artikel – ausgerechnet mit der Hilfe von einem Sprachmodell.

Auf der Suche nach nicht existierenden Büchern. (Symbolbild) – Alle Rechte vorbehalten IMAGO / Zoonar

Eigentlich wollte Mathias Schindler nur eine kleine Sache in der Wikipedia korrigieren. Doch dann baute der Wikipedianer versehentlich einen Detektor für bestimmte KI-generierte Inhalte in der Enzyklopädie. Auf dem 39C3 berichtet er, warum die halluzinierten Texte auch ein Problem für die Anbieter großer Sprachmodelle werden könnte und warum er den Autor:innen keine guten Absichten unterstellt.

Die kleine Sache, die Schindler korrigieren wollte, waren fehlerhafte ISBNs. Mit diesen 10 oder 13-stelligen Nummern werden Bücher identifiziert und finden sich oft in Quellenangaben von Wikipedia-Einträgen. Dabei sind die Zahlenkombinationen nicht vollkommen zufällig, erklärt Schindler im Talk. Die letzte Ziffer ist eine Prüfziffer, sie lässt sich aus den neun beziehungsweise zwölf vorherigen Ziffern berechnen. Ursprünglich wollte Schindler falsche ISBNs in der Wikipedia aufspüren und ausbessern, auch damit Nutzer:innen die richtigen Bücher finden, die als Referenzen in den Artikeln angegeben wurden.

Zufallsfund dank falscher ISBNs

„Referenzen auf Wikipedia sind nicht nur wichtig, sondern ein integraler Teil der Wikipedia“, sagt Schindler und verweist in seinem Vortrag auf den alten Spruch: „Wikimedia mag ein guter Ort sein, um eine Recherche zu starten, aber es ist ein schlechter Ort, um dort die Recherche zu beenden.“ (Alle Zitate aus dem Talk haben wir ins Deutsche übersetzt.) Schindler muss es wissen. Er ist Mitbegründer von Wikimedia Deutschland und Wikipedia-Autor seit 2003.

Um die inkorrekten ISBNs zu finden, schrieb Schindler ein Skript, lud die gesamte deutschsprachige Wikipedia herunter und durchsuchte sie nach ISBNs mit einer faulen Prüfziffer, erzählt er in seinem Vortrag. Doch er stieß nicht nur auf falsch eingegebene ISBNs oder von den Verlagen falsch ausgegebene ISBNs, sondern fand auch Artikel, bei denen zwei oder mehr Bücher fehlerhafte ISBNs hatten. Diese Bücher schienen zwar plausible Titel und Autor:innen zu haben, aber Schindler konnte sie nirgendwo sonst finden. Sie waren halluziniert.

Offenbar hatten sich Menschen ganze Artikel von einem Large Language Model (LLM) wie ChatGPT schreiben lassen, welches sich dann auch einen Abschnitt mit Einzelnachweisen ausdachte.

Noch ist es ein Nischenphänomen

Im Gespräch mit netzpolitik.org erzählt Schindler, dass er mit seiner Methode etwa 150 Artikel gefunden habe, bei denen man Sorge haben müsse, dass sie zumindest teilweise KI-generiert und frei erfunden seien. Allerdings seien die fehlerhaften Einträge nicht ausschließlich auf KI-Chatbots zurückzuführen, manchmal gebe es andere Gründe für mehrfach falsche ISBNs, sagt Schindler. Außerdem gibt es über drei Millionen deutschsprachige Wikipedia-Artikel, die 150 Auffälligen machen also nur ein äußerst geringen Anteil von 0,005 Prozent aus.

Andererseits erfasst Schindlers Methode auch nicht alle Halluzinationen, dafür war es schließlich nicht gedacht. „Dieses Werkzeug ist nicht das Universaltool zum Erkennen von ChatGPT-generierten Artikeln.“ Andere Möglichkeiten, solche Inhalte zu enttarnen, seien etwa systematische Abweichungen von der Syntax von „Media Wiki“ (der Software hinter Wikipedia). Oder wenn Autor:innen viele Adjektive verwenden: „Kein Wikipedianer, der was auf sich hält, wird den Fernsehturm als ‚großartig‘ oder ‚herausragend‘ bezeichnen.“

LLM generierter Text „Anti-These zu Wikipedia“

Doch auch wenn das Erstellen von Wikipedia-Artikeln mit LLMs noch nicht so verbreitet sein sollte, geht es für Wikipedia um Grundsätzliches: Die Kontamination mit Inhalten, die auf den ersten Blick wahr erscheinen könnten und sich als Fakten tarnen. Schindler sagt: „Man könnte es auch als Anti-These zu einem Enzyklopädie-Projekt wie Wikipedia beschreiben.“

Die Gefahren? Zum einen können sich falsche Infos verselbstständigen, wenn eine andere Veröffentlichung den vermeintlichen Fakt von Wikipedia abschreibt und die Wikipedia diese Veröffentlichungen hinterher als Beleg für genau diesen Fakt aufführen. Schindler weist in seinem Vortrag auf diesen Teufelskreis hin, der bereits vor LLMs ein Problem darstellte.

Glaubwürdigkeit in Gefahr – und die Qualität von LLMs

Zum anderen verschlingen LLM-generierte Quellen zunehmend die Ressourcen unterschiedlichster Einrichtungen. Nicht nur die der Online-Enzyklopädie: Irregeleitete Nutzer:innen fragen etwa Bibliothekar:innen nach ausgedachten Büchern, berichtete 404 Media im Herbst. Beim Internationalen Komitee des Roten Kreuzes (ICRC) wurde die Situation offenbar so schlimm, dass es sich mit einer „wichtigen Mitteilung“ an die Öffentlichkeit wandte.

„Wenn eine Referenz nicht gefunden werden kann, heißt das nicht, dass das ICRC Informationen zurückhält. Verschiedene Situationen können das erklären, wie etwa unvollständige Zitationen, Dokumente, die in andere Institutionen lagern, oder – zunehmend – KI-generierte Halluzinationen“, warnte das ICRC Anfang Dezember.

Auch für die Entwickler von Large Language Models hätten halluzinierte Wikipedia-Artikel Nachteile, argumentiert Schindler. Denn ihre Modelle werden oft mit Wikipedia-Artikeln trainiert. „Die KI-Firmen profitieren von hochwertigen Daten und leiden unter dem Verlust von Quellen, die frei von synthetischen Texten sind“, sagt im Schindler im Gespräch mit netzpolitik.org. Oder wie er es im Vortrag formuliert: „LLM-Provider vergiften damit auf eine Art den Fluss, aus dem sie selber trinken“, sagt Schindler.

Wer macht sowas?

Doch wer stellt eigentlich LLM-generierte Inhalte in die Wikipedia? „Bunt gemischt“, erzählt Mathias Schindler im Gespräch mit netzpolitik.org. Von Wikipedia-Neulingen über langjährige Autor:innen bis zu einer Werbeagentur sei alles dabei gewesen. Er habe versucht, möglichst viele Autor:innen von verdächtigen Artikeln zu kontaktieren. Manche hätten ihn ignoriert, andere alles geleugnet oder den Einsatz einer LLM heruntergespielt.

„Eine Erklärung ist, dass Menschen LLMs tatsächlich als Recherchewerkzeug ansehen, das magischen Zugang zu wissenschaftlichen Datenbanken und Literatur hat und belastbare Belege liefert“, sagt Schindler zu netzpolitik.org. Bisher habe er aber noch keine solche Person unter den verdächtigen Autor:innen getroffen. Stattdessen vermutet Schindler eher persönlichen Geltungsdrang oder dass Personen eine Agenda verfolgen, die Enzyklopädie in ihrem Sinne umzuschreiben.

In seinem Vortrag erzählt Schindler, er habe alle verdächtigen Autor:innen, um den Prompt gebeten, mit dem diese den Artikel generiert hätten. „Das ist mein persönlicher ‚Litmus‘-Test, ob die Menschen ehrliche Absichten haben“, sagt Schindler. Nur eine einzige Person habe den Prompt nach vielen Nachfragen privat geteilt.

Die Herausforderung bleibt

Laut Schindler wurden alle gemeldeten Artikel gelöscht, bei denen die Autor:innen die Zweifel nicht ausräumen konnten, dass sie KI-generiert waren. In vielen Fällen wurden auch die Autor:innen gesperrt. In einem Richtlinien-Artikel der deutschsprachigen Wikipedia heißt es dazu: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen. Beiträge, die damit erstellt werden, verstoßen daher unter anderem gegen WP:Keine Theoriefindung, WP:Belege, WP:Urheberrechtsverletzung, WP:Neutraler Standpunkt; ihre Verwendung ist daher derzeit generell unerwünscht.“

Für Schindler bleibt es eine Herausforderung für die Wikipedia-Community, halluzinierte Texte aufzudecken, zumal Chatbots künftig ISBNs mit einer korrekt berechneten letzten Stelle erfinden könnten. Er hofft auf einen konstruktiven Dialog mit den KI-Firmen. „Mein persönlicher Wunsch wäre, dass man durch Austausch und vielleicht Kompetenztransfer mit den KI-Firmen erreicht, dass man KI-generierte Texte leichter erkennt, wenn jemand versucht, sie in die Wikipedia zu stellen.“

Am Ende ist die Geschichte der KI-generierten ISBNs auch eine über falschen und vielleicht besseren KI-Einsatz. Denn den Code für seinen ISBN-Checker hat Schindler auch mithilfe von Large Language Models geschrieben.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

Ältere BeiträgeHaupt-Feeds

Opt-Out-Anleitung: So verhinderst du, dass LinkedIn mit deinen Daten KI trainiert

22. September 2025 um 16:26

Das Karrierenetzwerk LinkedIn will mit Nutzer*innendaten generative KI-Werkzeuge trainieren. Wir zeigen, wie man das dem Unternehmen verbieten kann.

Auf einem Telefon ist die LinkedIn-App angezeigt.
Die Erlaubnis zum KI-Training ist bei LinkedIn voreingestellt. – Alle Rechte vorbehalten IMAGO / Zoonar

Was steht im Lebenslauf, wer postet was, wer sucht schon wie lange einen Job? Die Social-Media-Plattform LinkedIn hat sehr aufschlussreiche Informationen über ihre Nutzer*innen. Normalerweise lässt sich einstellen, wer was sehen darf, aber eine Nutzerin bekommt demnächst Zugang zu vielen vorhandenen Datensätzen: die hauseigene Künstliche Intelligenz, die automatisiert Inhalte erstellen soll. Die wird ab dem 3. November mit Informationen der Nutzer*innen gefüttert.

Nicht zu diesen Informationen gehören laut einer Infoseite private Nachrichten oder Inhalte von minderjährigen Nutzenden. Wer volljährig ist und das KI-Training deaktivieren möchte, muss jetzt tätig werden. Dem Unternehmen diese Verwendung der eigenen Daten zu verbieten, geht so: Wer sich mit einem Browser in seinen Account einloggt, findet auf der Profilseite ganz unten den Link zu „Konto und Datenschutz verwalten“. Dort, in den Profileinstellungen, gibt es den Reiter „Datenschutz“ und unter „So verwendet LinkedIn Ihre Daten“ die Einstellung „Daten zur Verbesserung generativer KI“. Die ist standardmäßig auf „Ein“ gestellt, lässt sich aber mit einem Klick deaktivieren.

Noch mehr Wege, persönliche Informationen vor LinkedIn zu schützen

Die KI soll etwa Arbeitgeber*innen dabei unterstützen, mit Job-Kandidat*innen in Kontakt zu kommen und Nutzer*innen bei Profilaktualisierungen, Nachrichten und Beiträgen helfen. Sie lässt sich auch verwenden, wenn man LinkedIn die Erlaubnis zur Datennutzung zum KI-Training eintzogen hat.

LinkedIn beruft sich bei dem KI-Training auf ein berechtigtes Interesse nach DSGVO. Bei bestimmten Änderungen der Nutzungsbedingungen, beispielsweise wenn ein neues Produkt eingeführt wird, will LinkedIn die Nutzer*innen künftig nicht mehr vorab über die Änderung informieren. Gleichzeitig verkündete das Unternehmen auch, dass es zu Werbezwecken künftig mehr Daten an die Muttergesellschaft Microsoft weitergeben will. Unter dem Reiter „Anzeigendaten“ in den Profileinstellungen lässt sich angesichts verschiedener Datenarten festlegen, dass LinkedIn diese künftig nicht mehr zum Ausspielen personalisierter Werbung nutzen darf.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

Datenschutz und KI: Schluss mit der Zögerlichkeit!

17. September 2025 um 15:43

Die Folgen des KI-Hypes für den Datenschutz sind schwer absehbar. Im Fall von Metas KI-Training zögern Aufsichtsbehörden, das Oberlandesgericht Köln gab dem Konzern sogar – fürs Erste – grünes Licht. Jura-Professorin Paulina Jo Pesch zeigt Schwächen des Urteils auf und fordert eine entschiedenere Durchsetzung der Datenschutzvorgaben.

Ein altmodisch aussehendes Treppenhaus von oben. Es windet sich in Spiralen nach unten.
Abwärtsspirale: Das Treppenhaus im Oberlandesgericht Köln CC-BY-SA 4.0 1971markus

Hinter weitverbreiteten KI-Anwendungen stehen generative Sprach- und Bildmodelle, die mit riesigen Datenmengen gefüttert werden, auch mit personenbezogenen Daten. Das Problem: Teile der Trainingsdaten, darunter personenbezogene, lassen sich aus vielen der Modelle extrahieren. Unter welchen Umständen sich ein Modell zu viel „merkt“ und wie sich das verhindern lässt, ist bislang wenig erforscht. Zugleich werden Extrahierungsmethoden immer besser. Anbieter*innen können bislang nicht verhindern, dass Modelle personenbezogene Trainingsdaten ausgeben. Auch Chatbots können personenbezogene Daten von anderen verraten.

Außerdem „halluzinieren“ die Modelle. Sie generieren also falsche Informationen, die nicht in den Trainingsdaten enthalten sind. Weil KI-Unternehmen diese nicht offenlegen, können Forscher*innen nicht zuverlässig messen, wann ein Modell Informationen erfindet und wann es unrichtige Trainingsdaten wiedergibt. Zuverlässige Methoden zur Vermeidung von Halluzinationen gibt es bisher nicht.

Werden personenbezogene Daten aus einem Modell extrahiert, kann für Betroffene gerade die Kombination aus „Erinnerung“ und „Halluzination“ gefährlich sein. Ein mit personenbezogenen Daten trainiertes Modell generiert unter Umständen Falschinformationen über sie. Gerade bei öffentlichen Modellen besteht das Risiko, dass Nutzer*innen diese Informationen unkritisch weiterverbreiten.

Meta fragt lieber nicht um Erlaubnis

Mit Llama (Large Language Model Meta AI) ist auch Meta an dem KI-Rennen beteiligt. Meta nutzt Llama für eigene KI-Funktionen wie Transkriptions- oder Suchfeatures auf Instagram, Facebook und WhatsApp sowie für Chatbots oder in KI-Brillen, die das Unternehmen anbietet. Außerdem stellt Meta seine Modelle anderen zur Nutzung bereit. So können etwa Forscher*innen die Modelle testen oder Unternehmen auf Basis von Llama KI-Dienstleistungen oder -Produkte anbieten.

Im Juni 2024 informierte Meta die Nutzer*innen von Instagram und Facebook über eine Aktualisierung seiner Datenschutzrichtlinie. Diese Aktualisierung ließ Metas Vorhaben erkennen, seine KI-Modelle mit Nutzer*innendaten zu trainieren. Die Nutzer*innen konnten dem zwar widersprechen, die Widerspruchsmöglichkeit war jedoch schwer auffindbar.

Nachdem Datenschutzorganisationen wie noyb Meta scharf kritisierten, veröffentlichte der Konzern noch gleichen Monat weitere Informationen zum geplanten Training. Demnach beabsichtigte der Konzern, nur noch öffentliche Daten für das Training zu verwenden. Kurz darauf verkündete Meta, die irische Datenschutzbehörde verzögere das Training in der EU. Im April 2025 verkündete der Konzern dann den baldigen Trainingsstart.

Was trainiert Meta eigentlich mit welchen Daten?

Inzwischen hat der Konzern damit begonnen, seine KI mit den Daten europäischer Nutzer*innen zu trainieren. Unklar ist weiterhin, welche Daten dafür genau genutzt werden. Meta stellt im Vergleich zu anderen KI-Unternehmen zwar mehr Informationen über das Training mit Social-Media-Daten bereit. Diese Informationen haben sich aber immer wieder verändert und lassen Fragen offen.

Das betrifft insbesondere den Umgang mit sensiblen Daten. Bei Llama handelt es sich um ein multimodales Sprachmodell, das neben Texten auch Bilder, Videos und Tondateien verarbeitet. Der für das Training genutzte Social-Media-Content umfasst damit etwa auch Fotos der Nutzer*innen. Metas Datenschutzinformationen verweisen auf öffentliche Inhalte wie Beiträge, Kommentare und Audiospuren.

Inzwischen heißt es in den Datenschutzinformationen, dass auch Daten von Drittpartner*innen und KI-Interaktionen für die KI-Entwicklung genutzt würden. Als Beispiele für KI-Interaktionen nennt Meta Nachrichten, die Nutzer*innen oder andere Personen von der KI erhalten, mit ihr teilen oder an diese senden.

Diese Angaben schließen private Sprachnachrichten und Transkriptionen nicht aus. Metas Umschreibung passt auch auf Chatverläufe mit Chatbots. Solche Chatverläufe können besonders sensible Daten enthalten, wenn etwa Chatbots für intime Gespräche zu mentaler Gesundheit oder parasoziale romantische Beziehungen genutzt werden.

Verbraucherzentrale scheitert vor Gericht

Um den Beginn des Trainings zu verhindern, hat die Verbraucherzentrale Nordrhein-Westfalen im Mai 2025 einen Eilantrag beim Oberlandesgericht (OLG) Köln gestellt. Sie argumentierte insbesondere, dass Meta das Training nicht auf eine wirksame Rechtsgrundlage stützen könne, ist mit dem Eilantrag jedoch gescheitert. Das Urteil und Einblicke in die mündliche Verhandlung in Köln offenbaren erhebliche Mängel.

Meta hatte sich entschieden, keine Einwilligungen einzuholen, sondern beruft sich auf ein berechtigtes Interesse an der Nutzung der Daten für KI-Training. Die Verbraucherzentrale hält das für unzureichend, doch das Gericht folgt Metas Argumentation in seinem Urteil. Nach der Datenschutzgrundverordnung (DSGVO) können berechtigte Interessen die Verarbeitung personenbezogener Daten rechtfertigen, solange die Interessen Betroffener nicht schwerer wiegen. Dabei müssen diese der Datenverarbeitung aber widersprechen können.

Die Verbraucherzentrale NRW hat darauf hingewiesen, dass nicht alle Betroffenen widersprechen können. Facebook- und Instagram-Beiträge enthalten zuhauf personenbezogene Daten von Nicht-Nutzer*innen. Die Widerspruchsfunktion steht aber nur Nutzer*innen offen. Das Gericht ignoriert diesen Einwand. Zudem behauptet es ohne Begründung und trotz gegenteiliger Hinweise, Meta erfülle die Anforderungen der DSGVO an den Schutz von Minderjährigen.

Das Gericht halluziniert niedrige Risiken herbei

Berechtigte Interessen geben außerdem keine Rechtsgrundlage für Verarbeitungen her, die für Betroffene zu riskant sind. Das OLG Köln behauptet, die Risiken für Nutzer*innen seien gering. Dabei legt das Urteil nahe, dass die Richter*innen nicht verstanden haben, was Meta trainiert. Das Wort „Llama“ taucht im gesamten Urteil nicht auf. Auch beschreibt das Gericht keine Anwendungsszenarien.

Auf diese kommt es aber entscheidend an. Ein Transkriptionsfeature gibt wahrscheinlich keine extrahierbaren Daten aus. Aus Llama selbst werden jedoch sicher Daten extrahiert. Forscher*innen wenden Extrahierungsmethoden auf alle bekannten Modelle an. Je nachdem, welche Arten von Daten wie gut extrahierbar sind, könnte es dabei versehentlich auch zu Datenlecks kommen.

Gerichte prüfen in Eilverfahren die Rechtslage nur „kursorisch“, also nicht im Detail. Das OLG Köln reiht dabei aber mit großem Selbstbewusstsein Behauptungen aneinander, die aus Sicht der Datenschutzforschung haltlos sind. Selbst wenn Metas Training transparent genug wäre, fehlt es an tragfähigen Forschungsergebnissen für die Einschätzung des Gerichts.

Ein grober Fehler des Urteils betrifft besondere Kategorien personenbezogener Daten. Das sind sensible Daten, die die DSGVO besonders schützt, zum Beispiel Daten über Race, religiöse Anschauungen oder sexuelle Orientierungen. Social-Media-Daten enthalten viele solcher Daten. Besondere Kategorien personenbezogener Daten dürfen nicht auf Basis berechtigter Interessen verarbeitet werden, sondern nur unter strengeren Voraussetzungen, in vielen Fällen nur aufgrund von Einwilligungen. Das OLG Köln stört sich daran nicht.

Stattdessen behauptet das Gericht, dass die Anwendung der besonderen Schutzanforderungen nicht geboten sei. Das Urteil stellt hier wieder auf ein nicht weiter begründetes geringes Risiko ab. Dabei kommt es gerade im Bereich des maschinellen Lernens leicht zu unbemerkten Modellbias, also zu systematischen Fehleinschätzungen, die zum Beispiel zu rassistischer Diskriminierung führen. Besondere Kategorien personenbezogener Daten bergen dabei potenziell besonders hohe Risiken.

Bedenkliche Informationslage

Bedenklich ist zudem die Informationslage, auf die sich das Gericht stützt. In diesem Fall sind das vor allem die Angaben von Meta selbst. Das ist in einem Eilverfahren an sich nicht zu beanstanden – weil es schnell gehen muss, gelten geringere Beweisanforderungen. Gerichte arbeiten daher mit eidesstattlichen Versicherungen, formellen Erklärungen der Parteien. Um Falschangaben vorzubeugen, sind falsche eidesstattliche Versicherungen nach dem Strafgesetzbuch strafbar.

Das Urteil stellt entscheidend auf eidesstattliche Versicherungen von Metas Produktmanager für generative KI ab. Zwei in der mündlichen Verhandlung in Köln anwesende Personen berichten allerdings, dass die Versicherungen nie formgerecht abgegeben worden sind. (Die Autorin hat von zwei in der Verhandlung in Köln anwesenden Personen Informationen zum Ablauf der mündlichen Verhandlung und dabei getroffenen Aussagen des Gerichts erhalten. Eine der Personen ist seitens der klagenden Verbraucherzentrale am Verfahren beteiligt, die andere Person hat den Prozess beobachtet, ohne daran beteiligt zu sein.)

Eidesstattliche Versicherungen müssen mündlich oder im Original mit händischer Unterschrift abgegeben werden. Selbst wenn die Erklärungen von Meta formgerecht wären, hätte sich das OLG Köln besser nicht darauf verlassen. Es gibt zwar keine Anzeichen dafür, dass diese Falschangaben enthalten. Durch das deutsche Strafgesetzbuch wäre deren Richtigkeit aber nicht abgesichert: Falls der in Kalifornien ansässige Manager nicht einreisen will, hätten Falschangaben keine strafrechtlichen Folgen für ihn.

Zudem legt das Urteil nahe, dass Metas Erklärungen inhaltlich dünn sind. Sie bestätigen etwa das Funktionieren der Widerspruchsfunktion. Eine Pressemitteilung der für Meta zuständigen irischen Datenschutzbehörde (Data Protection Commission, DPC) zeigt jedoch, dass die Behörde Meta zur Nachbesserung der Widerspruchsfunktion aufgefordert hat. Es bleibt somit zweifelhaft, ob Widersprüche in der Vergangenheit einfach genug möglich waren und funktioniert haben.

Datenschutzbehörden lassen Meta erst mal machen

Auch die Pressemitteilung der irischen Datenschutzbehörde und der Umgang des Gerichts damit verdienen besondere Aufmerksamkeit. Die für ihre Nachsicht gegenüber Datenkonzernen bekannte Behörde hat die Pressemitteilung am Vorabend der mündlichen Verhandlung in Köln veröffentlicht. Sollte die Behörde sich etwa mit Meta abgestimmt und so das Verfahren beeinflusst haben?

Das OLG Köln hat nach Berichten Anwesender schon in der mündlichen Verhandlung signalisiert, der Rechtsauffassung der irischen Behörde wahrscheinlich folgen zu müssen, warum auch immer das Gericht sich an deren Einschätzung auch nur lose gebunden fühlt. Das ist nicht nur im Hinblick auf die Gewaltenteilung bedenklich. Die Pressemitteilung enthält auch keinerlei Rechtsauffassung zur Frage nach der Datenschutzkonformität, der das Gericht folgen könnte. Sie enthält schlicht gar keine rechtliche Einschätzung. Es heißt lediglich, Meta habe in Absprache mit der Behörde Maßnahmen zur Verbesserung des Datenschutzes ergriffen und verfolge die Umsetzung weiter.

Aus der Pressemitteilung wird ersichtlich, dass die irische Behörde Meta nur beraten hat. Das war dem OLG Köln auch von Metas Hauptaufsichtsbehörde in Deutschland, dem Hamburger Datenschutzbeauftragten, bekannt. Im Urteil heißt es ausdrücklich, die Behörde habe Meta das Training „bislang“ nicht untersagt und beobachte derzeit die Folgen der Trainings.

Der Hamburger Datenschutzbeauftragte hatte im Juli 2024 die Datenschutzauswirkungen des Trainings generativer Sprachmodelle noch unterschätzt. Nach Berichten aus der mündlichen Verhandlung hat er angesichts seiner Einblicke in Metas Training diese Auffassung zurückgenommen, erhebliche Datenschutzbedenken geäußert und zunächst sogar ein eigenes Verfahren gegen Meta angekündigt. Außerdem berichtete er, dass die irische Behörde plane, ein Verletzungsverfahren im Oktober einzuleiten. Das spricht dafür, dass europäische Datenschutzbehörden von Verstößen wissen, Meta aber zunächst gewähren lassen.

Wider den KI-Hype

Die Bedeutung des Kölner Verfahrens weist über Meta und über Deutschland hinaus. Das Urteil und die Vorgänge im Prozess legen nahe, dass europäische Gerichte und Aufsichtsbehörden bei KI dem Ansatz „Abwarten und Teetrinken“ folgen. Es lässt sich nur spekulieren, welche Rollen hier der Druck des KI-Hypes, Innovationspläne der EU oder auch blanke Naivität spielen.

Dabei macht die DSGVO nicht nur klare Vorgaben an KI-Unternehmen, sondern bietet diesen auch ausreichende Möglichkeiten, sich an die Vorgaben zu halten. Demnach müssen KI-Unternehmen die Datenschutzkonformität ihrer Vorhaben begründet nachweisen. Sie dürfen ihre Modelle trainieren und testen – allerdings nur zu reinen Forschungszwecken und ohne die KI in der Praxis einzusetzen – und damit blind auf die Menschheit loszulassen. Gerichte und Aufsichtsbehörden sollten diese Vorgaben durchsetzen, anstatt sich dem KI-Hype zu beugen.

Prof. Dr. Paulina Jo Pesch ist Juniorprofessorin für Bürgerliches Recht sowie das Recht der Digitalisierung, des Datenschutzes und der Künstlichen Intelligenz am Institut für Recht und Technik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Sie koordiniert das vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderte interdisziplinäre Forschungsprojekt SMARD-GOV, das Datenschutzaspekte großer Sprachmodelle erforscht.

Eine englischsprachige Langfassung der Analyse des Verfahrens sowie eines weiteren Verfahrens beim OLG Schleswig-Holstein ist im CR-online blog erschienen.


Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

  • Es gibt keine weiteren Artikel
❌