Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.

Heute — 11. Januar 2026Haupt-Feeds

netzpolitik.org
Erfundene Quellen: Wie Chatbots die Wikipedia vergiften
29. Dezember 2025 um 18:37

Erfundene Quellen: Wie Chatbots die Wikipedia vergiften

29. Dezember 2025 um 18:37

Von: Leonhard Pitz

Manche Nutzer:innen lassen sich Wikipedia-Artikel von Sprachmodellen generieren, inklusive erfundener Referenzen. Ein Wikipedia-Urgestein stolperte zufällig über die halluzinierten Artikel – ausgerechnet mit der Hilfe von einem Sprachmodell.

Eigentlich wollte Mathias Schindler nur eine kleine Sache in der Wikipedia korrigieren. Doch dann baute der Wikipedianer versehentlich einen Detektor für bestimmte KI-generierte Inhalte in der Enzyklopädie. Auf dem 39C3 berichtet er, warum die halluzinierten Texte auch ein Problem für die Anbieter großer Sprachmodelle werden könnte und warum er den Autor:innen keine guten Absichten unterstellt.

Die kleine Sache, die Schindler korrigieren wollte, waren fehlerhafte ISBNs. Mit diesen 10 oder 13-stelligen Nummern werden Bücher identifiziert und finden sich oft in Quellenangaben von Wikipedia-Einträgen. Dabei sind die Zahlenkombinationen nicht vollkommen zufällig, erklärt Schindler im Talk. Die letzte Ziffer ist eine Prüfziffer, sie lässt sich aus den neun beziehungsweise zwölf vorherigen Ziffern berechnen. Ursprünglich wollte Schindler falsche ISBNs in der Wikipedia aufspüren und ausbessern, auch damit Nutzer:innen die richtigen Bücher finden, die als Referenzen in den Artikeln angegeben wurden.

Zufallsfund dank falscher ISBNs

„Referenzen auf Wikipedia sind nicht nur wichtig, sondern ein integraler Teil der Wikipedia“, sagt Schindler und verweist in seinem Vortrag auf den alten Spruch: „Wikimedia mag ein guter Ort sein, um eine Recherche zu starten, aber es ist ein schlechter Ort, um dort die Recherche zu beenden.“ (Alle Zitate aus dem Talk haben wir ins Deutsche übersetzt.) Schindler muss es wissen. Er ist Mitbegründer von Wikimedia Deutschland und Wikipedia-Autor seit 2003.

Um die inkorrekten ISBNs zu finden, schrieb Schindler ein Skript, lud die gesamte deutschsprachige Wikipedia herunter und durchsuchte sie nach ISBNs mit einer faulen Prüfziffer, erzählt er in seinem Vortrag. Doch er stieß nicht nur auf falsch eingegebene ISBNs oder von den Verlagen falsch ausgegebene ISBNs, sondern fand auch Artikel, bei denen zwei oder mehr Bücher fehlerhafte ISBNs hatten. Diese Bücher schienen zwar plausible Titel und Autor:innen zu haben, aber Schindler konnte sie nirgendwo sonst finden. Sie waren halluziniert.

Offenbar hatten sich Menschen ganze Artikel von einem Large Language Model (LLM) wie ChatGPT schreiben lassen, welches sich dann auch einen Abschnitt mit Einzelnachweisen ausdachte.

Noch ist es ein Nischenphänomen

Im Gespräch mit netzpolitik.org erzählt Schindler, dass er mit seiner Methode etwa 150 Artikel gefunden habe, bei denen man Sorge haben müsse, dass sie zumindest teilweise KI-generiert und frei erfunden seien. Allerdings seien die fehlerhaften Einträge nicht ausschließlich auf KI-Chatbots zurückzuführen, manchmal gebe es andere Gründe für mehrfach falsche ISBNs, sagt Schindler. Außerdem gibt es über drei Millionen deutschsprachige Wikipedia-Artikel, die 150 Auffälligen machen also nur ein äußerst geringen Anteil von 0,005 Prozent aus.

Andererseits erfasst Schindlers Methode auch nicht alle Halluzinationen, dafür war es schließlich nicht gedacht. „Dieses Werkzeug ist nicht das Universaltool zum Erkennen von ChatGPT-generierten Artikeln.“ Andere Möglichkeiten, solche Inhalte zu enttarnen, seien etwa systematische Abweichungen von der Syntax von „Media Wiki“ (der Software hinter Wikipedia). Oder wenn Autor:innen viele Adjektive verwenden: „Kein Wikipedianer, der was auf sich hält, wird den Fernsehturm als ‚großartig‘ oder ‚herausragend‘ bezeichnen.“

LLM generierter Text „Anti-These zu Wikipedia“

Doch auch wenn das Erstellen von Wikipedia-Artikeln mit LLMs noch nicht so verbreitet sein sollte, geht es für Wikipedia um Grundsätzliches: Die Kontamination mit Inhalten, die auf den ersten Blick wahr erscheinen könnten und sich als Fakten tarnen. Schindler sagt: „Man könnte es auch als Anti-These zu einem Enzyklopädie-Projekt wie Wikipedia beschreiben.“

Die Gefahren? Zum einen können sich falsche Infos verselbstständigen, wenn eine andere Veröffentlichung den vermeintlichen Fakt von Wikipedia abschreibt und die Wikipedia diese Veröffentlichungen hinterher als Beleg für genau diesen Fakt aufführen. Schindler weist in seinem Vortrag auf diesen Teufelskreis hin, der bereits vor LLMs ein Problem darstellte.

Glaubwürdigkeit in Gefahr – und die Qualität von LLMs

Zum anderen verschlingen LLM-generierte Quellen zunehmend die Ressourcen unterschiedlichster Einrichtungen. Nicht nur die der Online-Enzyklopädie: Irregeleitete Nutzer:innen fragen etwa Bibliothekar:innen nach ausgedachten Büchern, berichtete 404 Media im Herbst. Beim Internationalen Komitee des Roten Kreuzes (ICRC) wurde die Situation offenbar so schlimm, dass es sich mit einer „wichtigen Mitteilung“ an die Öffentlichkeit wandte.

„Wenn eine Referenz nicht gefunden werden kann, heißt das nicht, dass das ICRC Informationen zurückhält. Verschiedene Situationen können das erklären, wie etwa unvollständige Zitationen, Dokumente, die in andere Institutionen lagern, oder – zunehmend – KI-generierte Halluzinationen“, warnte das ICRC Anfang Dezember.

Auch für die Entwickler von Large Language Models hätten halluzinierte Wikipedia-Artikel Nachteile, argumentiert Schindler. Denn ihre Modelle werden oft mit Wikipedia-Artikeln trainiert. „Die KI-Firmen profitieren von hochwertigen Daten und leiden unter dem Verlust von Quellen, die frei von synthetischen Texten sind“, sagt im Schindler im Gespräch mit netzpolitik.org. Oder wie er es im Vortrag formuliert: „LLM-Provider vergiften damit auf eine Art den Fluss, aus dem sie selber trinken“, sagt Schindler.

Wer macht sowas?

Doch wer stellt eigentlich LLM-generierte Inhalte in die Wikipedia? „Bunt gemischt“, erzählt Mathias Schindler im Gespräch mit netzpolitik.org. Von Wikipedia-Neulingen über langjährige Autor:innen bis zu einer Werbeagentur sei alles dabei gewesen. Er habe versucht, möglichst viele Autor:innen von verdächtigen Artikeln zu kontaktieren. Manche hätten ihn ignoriert, andere alles geleugnet oder den Einsatz einer LLM heruntergespielt.

„Eine Erklärung ist, dass Menschen LLMs tatsächlich als Recherchewerkzeug ansehen, das magischen Zugang zu wissenschaftlichen Datenbanken und Literatur hat und belastbare Belege liefert“, sagt Schindler zu netzpolitik.org. Bisher habe er aber noch keine solche Person unter den verdächtigen Autor:innen getroffen. Stattdessen vermutet Schindler eher persönlichen Geltungsdrang oder dass Personen eine Agenda verfolgen, die Enzyklopädie in ihrem Sinne umzuschreiben.

In seinem Vortrag erzählt Schindler, er habe alle verdächtigen Autor:innen, um den Prompt gebeten, mit dem diese den Artikel generiert hätten. „Das ist mein persönlicher ‚Litmus‘-Test, ob die Menschen ehrliche Absichten haben“, sagt Schindler. Nur eine einzige Person habe den Prompt nach vielen Nachfragen privat geteilt.

Die Herausforderung bleibt

Laut Schindler wurden alle gemeldeten Artikel gelöscht, bei denen die Autor:innen die Zweifel nicht ausräumen konnten, dass sie KI-generiert waren. In vielen Fällen wurden auch die Autor:innen gesperrt. In einem Richtlinien-Artikel der deutschsprachigen Wikipedia heißt es dazu: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen. Beiträge, die damit erstellt werden, verstoßen daher unter anderem gegen WP:Keine Theoriefindung, WP:Belege, WP:Urheberrechtsverletzung, WP:Neutraler Standpunkt; ihre Verwendung ist daher derzeit generell unerwünscht.“

Für Schindler bleibt es eine Herausforderung für die Wikipedia-Community, halluzinierte Texte aufzudecken, zumal Chatbots künftig ISBNs mit einer korrekt berechneten letzten Stelle erfinden könnten. Er hofft auf einen konstruktiven Dialog mit den KI-Firmen. „Mein persönlicher Wunsch wäre, dass man durch Austausch und vielleicht Kompetenztransfer mit den KI-Firmen erreicht, dass man KI-generierte Texte leichter erkennt, wenn jemand versucht, sie in die Wikipedia zu stellen.“

Am Ende ist die Geschichte der KI-generierten ISBNs auch eine über falschen und vielleicht besseren KI-Einsatz. Denn den Code für seinen ISBN-Checker hat Schindler auch mithilfe von Large Language Models geschrieben.

Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

Ältere BeiträgeHaupt-Feeds

netzpolitik.org
Mit fragwürdigen Methoden: Konservative US-Denkfabrik nimmt Wikipedia ins Visier
16. Januar 2025 um 08:31

Mit fragwürdigen Methoden: Konservative US-Denkfabrik nimmt Wikipedia ins Visier

netzpolitik.org

16. Januar 2025 um 08:31

Von: Tomas Rudl

Eine Donald Trump nahestehende konservative US-Denkfabrik will die Identitäten unliebsamer Wikipedia-Autor:innen enthüllen. Das soll angeblich antisemitische Inhalte aus der freien Online-Enzyklopädie fegen. Wikimedia Deutschland sieht sich dagegen gewappnet.

Die freie Online-Enzyklopädie Wikipedia gerät im US-Kulturkampf zwischen die Fronten. – Alle Rechte vorbehalten IMAGO / imagebroker

Die konservative US-Denkfabrik Heritage Foundation bläst zur Jagd auf Wikipedia-Autor:innen der englischsprachigen Ausgabe. Einem Dokument zufolge, welches das Magazin Forward letzte Woche veröffentlicht hat, will der Think Tank die Identität von Wikipedianer:innen mit fragwürdigen Methoden entblößen und sie „ins Visier nehmen“.

Die Heritage Foundation gilt als eine der einflussreichsten Denkfabriken in den USA und ist bestens in konservativen Kreisen verankert. Zuletzt hatte sie mit dem „Project 2025“ Aufmerksamkeit erregt, einer detaillierten Blaupause für die Machtübernahme des kommenden US-Präsidenten Donald Trump. Auf eine Presseanfrage hat die Organisation nicht reagiert.

Unter dem Titel „Wikipedia Editor Targeting“ richtet sich die Aktion gegen Wikipedianer:innen, die angeblich ihre Position missbrauchen würden. Laut Forward sei das Dokument an diverse jüdische Organisationen und andere mögliche Unterstützer:innen des „Project Esther“ verschickt worden. Letzteres ist eine Initiative der Heritage Foundation, die sich laut Eigenaussage dem Kampf gegen Antisemitismus verschrieben hat, sich dabei aber selbst antisemitischer Anspielungen bedient.

Eine Reihe von Enthüllungstechniken

Um die wahre Identität anonymer beziehungsweise pseudonymer Wikipedianer:innen herauszufinden, soll eine Reihe von Techniken angewandt werden. Dazu zählen unter anderem Analysen von Texten und Benutzernamen, aber auch die Auswertung von Datenlecks, Fingerprinting, menschliche Quellen und technisches Targeting. Forward zufolge wird das Projekt von einem ehemaligen FBI-Agenten geleitet.

So würden etwa Handlungsmuster wie ein bestimmter Schreibstil, die Häufigkeit von Editierungen in der freien Online-Enzyklopädie oder Kollaborationen Hinweise darauf geben, wer hinter einem Wikipedia-Account steckt. Hierbei helfen sollen auch auf unterschiedlichen Online-Diensten verwendete Benutzernamen sowie Informationen aus Datenlecks. Weiter graben ließe sich unter anderem mit diversen OSINT-Anbietern oder mit der umstrittenen Gesichtserkennungssoftware von PimEyes.

Als aktive Methoden listet das Dokument beispielsweise Umleitungen auf, mit denen sich IP-Adressen, Fingerabdrücke von Browsern und andere Daten sammeln ließen. In Frage käme auch die Überwachung des Standorts, des verwendeten Netzbetreibers und andere Netzwerkdetails, die beim Aufrufen untergeschobener Links anfallen können. Zudem empfiehlt das Dokument, mit Hilfe sogenannter Sockenpuppen-Accounts Diskussionen anzustoßen und dabei womöglich entlarvende Reaktionen zu provozieren.

Anonymität respektive Pseudonymität ist nicht nur im Internet, sondern auch in demokratischen Gesellschaften unerlässlich. Dafür sprechen eine Vielzahl an Gründen, unter anderem, weil es gerade bei heiklen Themen den freien Austausch von Argumenten erleichtert. Umgekehrt haben wiederholt Studien gezeigt, dass eine Klarnamenpflicht oder gar unfreiwillig entblößte Identitäten nicht zu einer besseren Diskussions- oder Faktenkultur beitragen.

Konservative reiben sich an der Wikipedia

US-Konservativen ist Wikipedia schon seit langem ein Dorn im Auge. Der von Freiwilligen bestückten und auf belegten Fakten aufbauenden Online-Enzyklopädie werfen sie eine linke Schlagseite vor. Das freie Projekt tendiere dazu, ein „liberales – und in manchen Fällen sogar sozialistisches, kommunistisches und mit Nazis sympathisierendes – Weltbild zu projizieren, das in völligem Widerspruch zur konservativen Realität und Rationalität steht“, heißt es etwa im entsprechenden Artikel des von konservativen US-Aktivist:innen gegründeten Gegenprojekts Conservapedia.

Zuletzt hatte die konservative Influencerin Chaya Raichik, die unter der Online-Identität „Libs of TikTok“ kräftig den Kulturkampf in den USA befeuert, Stimmung gegen Wikipedia gemacht. Weil das Projekt Geld für Antidiskriminierung ausgebe, solle niemand mehr für die „Wokepedia“ spenden, schrieb sie kurz vor Ende der jährlichen Wikipedia-Spendenkampagne im Dezember auf X. Den Aufruf hatte der X-Chef und Donald-Trump-Vertraute Elon Musk verstärkt, wenn auch ohne nennenswerten Erfolg.

Zugleich schlägt der seit dem Terrorangriff der Hamas auf Israel laufende Krieg im Gazastreifen auch in den USA hohe Wellen. Das macht nicht vor der Darstellung des Konflikts in der Wikipedia Halt: Im Vorjahr hatte etwa der Jüdische Weltkongress der englischsprachigen Wikipedia-Ausgabe in einem Bericht „Desinformation und das Verbreiten negativer Stereotype“ rund um den Konflikt vorgeworfen. Weite Teile der Debatte lassen sich in einem eigenen Wikipedia-Artikel nachlesen, der zudem, wie in der offenen Enzyklopädie üblich, eine Änderungshistorie sowie die inhaltlichen Diskussionen enthält.

Weiter eskaliert ist die digitale Auseinandersetzung im vergangenen Sommer, nachdem die englische Wikipedia-Community die prominente US-Menschenrechtsorganisation Anti-Defamation League (ADL) zu einer nicht vertrauenswürdigen Quelle erklärt hat. Vorwürfe von Geschichtsrevisionismus hagelte es nach einer Überarbeitung des Eintrags über Zionismus, der nun auch Verweise auf Kolonialismus enthält.

Wikipedia-Prinzipien ein „gutes Schutzschild“

Die Kampagne der Heritage Foundation stößt bei der deutschen Wikipedia auf Unverständnis. „Sollte dieses Dokument echt sein, wäre es ein Einschüchterungsversuch, mit dem offenbar Menschen unter Druck gesetzt werden sollen, die ehrenamtlich verlässliches und belegtes Wissen teilen“, sagt eine Sprecherin von Wikimedia Deutschland. Aus ihrer Sicht sei nicht nachvollziehbar, warum die Heritage Foundation die Wikipedia als politischen Gegner betrachtet. Die Wissensplattform sei doch vor allem „ein enzyklopädisches Projekt, das quellen- und faktenbasiert Wissen über die Welt mit der Welt teilt“.

Zwar habe es in der Vergangenheit immer wieder Versuche gegeben, Inhalte zu manipulieren, sagt die Sprecherin. „Jedoch sind die große Community sowie die Wikipedia-Prinzipen, nach denen diese Community Wissen teilt, ein guter Schutzschild, um solche Versuche zu erkennen und abzuwehren.“

Auf einer ganz anderen Ebene spielen sich indes die Versuche ab, Klarnamen von Wikipedianer:innen gegen ihren Willen zu enthüllen. Auch das habe es in der Vergangenheit vereinzelt gegeben, sagt die Sprecherin. Es gebe allerdings Mechanismen und Vorkehrungen, um dies zu vermeiden – über die Wikipedia zum Schutz der Anonymität von Wikipedianer:innen nicht öffentlich sprechen will. Sollte diese Form des Kulturkampfs auch auf Deutschland überschwappen, wäre das von manchen als „digitales Weltwunder“ bezeichnete Projekt also gewappnet.

Es gibt keine weiteren Artikel