Prompt: lies diesen artikel
https://arxiv.org/pdf/2509.04664 und fasse ihn mir zusammen. Ich muss die Formeln nicht verstehen, möchte aber die Grundaussage und die wesentlichen Argumente sowie die Datengrundlage erläutert haben.
--
Antwort:
Ich habe den Artikel gelesen. Hier ist eine Zusammenfassung der wesentlichen Inhalte:
„Why Language Models Hallucinate" – Zusammenfassung
Autoren: Adam Kalai, Ofir Nachum, Santosh Vempala, Edwin Zhang (OpenAI / Georgia Tech), September 2025
Grundaussage
Halluzinationen entstehen nicht aus rätselhaften Gründen – sie sind im Kern schlicht Fehler bei der binären Klassifikation. Wenn ein Modell wahre von falschen Aussagen nicht unterscheiden kann, entstehen Halluzinationen durch ganz natürlichen statistischen Druck. Die Autoren argumentieren außerdem, dass die gängigen Bewertungsmethoden für KI-Modelle das Problem aktiv verschlimmern.
Das Motivationsbeispiel
Die Autoren fragen mehrere aktuelle Spitzenmodelle nach Kalais eigenem Geburtstag – obwohl er ausdrücklich bittet, nur zu antworten, wenn man es weiß. DeepSeek-V3 gibt drei verschiedene falsche Daten aus. ChatGPT, DeepSeek und Llama werden nach dem Titel von Kalais Dissertation gefragt: Alle drei erfinden überzeugend klingende, aber komplett falsche Antworten (falscher Titel, falsche Universität, falsches Jahr).
Argument 1: Halluzinationen entstehen schon beim Pretraining
Selbst wenn die Trainingsdaten fehlerfrei wären, würde das statistische Ziel, das beim Pretraining optimiert wird, dazu führen, dass das Modell Fehler produziert.
Die Kernidee: Ein Sprachmodell lernt, die Verteilung von Sprache nachzubilden. Dabei muss es implizit für jede mögliche Ausgabe entscheiden, ob sie „gültig" ist – das ist schwieriger als die reine Klassifikation „richtig oder falsch". Die Autoren zeigen formal, dass die Rate falscher Ausgaben mindestens doppelt so hoch ist wie die Fehlerrate bei dieser Klassifikationsaufgabe.
Drei konkrete Ursachen werden unterschieden:
a) Willkürliche Fakten ohne Muster (z.B. Geburtstage): Wenn ein Fakt im Training nur einmal auftaucht, kann das Modell ihn statistisch gesehen kaum korrekt reproduzieren. Die Halluzinationsrate ist mindestens so hoch wie der Anteil solcher „Einzel-Erwähnungen" in den Trainingsdaten. Erscheint ein Fakt häufig (wie Einsteins Geburtstag), wird er zuverlässig gelernt; erscheint er nur einmal (wie das Geburtsdatum einer unbekannten Person), ist Halluzination quasi unvermeidlich.
b) Schwaches Modell (z.B. Buchstaben zählen): Manche Aufgaben kann das Modell strukturell schlecht lösen – etwa weil Tokens (wie „DEEP/SEEK") nicht als einzelne Buchstaben repräsentiert werden. Reasoning-Modelle wie DeepSeek-R1, die explizit Schritt für Schritt denken, lösen solche Aufgaben hingegen zuverlässig.
c) „Garbage in, Garbage out": Wenn die Trainingsdaten selbst Fehler enthalten, übernimmt das Modell diese.
Argument 2: Post-Training verschlimmert das Problem strukturell
Sprachmodelle werden mit ähnlichen Tests bewertet wie Studenten bei Prüfungen. In beiden Fällen maximiert Raten die erwartete Punktzahl, wenn ein binäres Schema angewendet wird, das einen Punkt für eine richtige Antwort vergibt und keinen für eine leere Antwort oder „Ich weiß es nicht".
Das heißt: Ein Modell, das bei Unsicherheit einfach rät, schneidet auf den gängigen Benchmarks
besser ab als ein Modell, das ehrlich „Ich weiß es nicht" antwortet. Die Autoren nennen das eine „Epidemie des Bestrafens von Unsicherheit": Die gesamte Benchmark-Landschaft – die die KI-Entwicklung maßgeblich steuert – belohnt systematisch selbstbewusstes Raten statt ehrliches Eingestehen von Unwissen.
Die zentrale Empfehlung
Diese Epidemie kann nur durch eine sozio-technische Maßnahme angegangen werden: die Bewertungsmethoden bestehender Benchmarks, die falsch ausgerichtet sind und die Leaderboards dominieren, zu ändern – anstatt zusätzliche Halluzinations-Evaluierungen einzuführen.
Konkret fordern die Autoren, dass Benchmarks keine Punkte abziehen oder verweigern, wenn ein Modell bei Unsicherheit korrekt „Ich weiß es nicht" antwortet. Solange das nicht passiert, werden Modelle immer so optimiert, als wären sie permanent in einer Prüfungssituation.
Datengrundlage
Der Artikel ist primär
theoretisch-mathematisch ausgerichtet – die eigentliche Basis sind Beweise aus der Lerntheorie (computational learning theory), keine großen empirischen Datensätze. Als Belege dienen:
- Konkrete Demonstrations-Experimente mit aktuellen Modellen (DeepSeek-V3, GPT-4o, Llama, Claude 3.7 Sonnet, Meta AI) zu Geburtstagen, Buchstaben zählen und Dissertationstiteln.
- Kalibrierungsgrafiken von GPT-4 (aus einem früheren OpenAI-Bericht), die zeigen, dass Basismodelle vor dem Post-Training gut kalibriert sind, danach jedoch nicht mehr.
- Verweis auf Folgerstudien (z.B. Miao & Kearns 2025), die die theoretischen Vorhersagen empirisch untersuchen.
Fazit in einem Satz
Halluzinationen sind kein zufälliges Versagen, sondern ein
strukturelles Problem: Sie entstehen durch statistische Unvermeidbarkeiten beim Training und werden durch Bewertungssysteme, die Raten belohnen, aktiv aufrechterhalten – die Lösung liegt daher weniger in neuen Modellen als in einer Reform der Benchmarks.