Künstliche Intelligenz - ein Appell

rmb · 25.03.26

HerzMusik schrieb:
Jungs, um was geht es denn hier? Um KI Einsatz in der Musik? Oder KI allgemein?

lies dir den Eingangspost nochmal durch. Es geht dem threadersteller darum, das wir uns hier im Forum als Menschen untereinander austauschen.
Es sollte dabei keine Diskussion über Sinn und Unsinn der KI angestossen werden. Solche gibt es beileibe schon genug.

Oliver Revilo · 25.03.26

Irgendwie bringt mich das wieder zu meinem hauptsächlichen Punkt: Live, auf der Bühne, liegt die Wahrheit

Da kann man dann schön sehen, ob das Geschriebene auch zu den Taten passt. Und da gibt’s auch böse Überraschungen

Mit KI wird ja nicht nur mit „fremdem“ Wissen herumgeworfen, ohne dass man wirklich Ahnung hat, sondern es gibt auch Videofaker, die bereits aufgeflogen sind, weil sie das, was sie in Videos zeigen, nicht annähernd in echt können, was für bekloppte Menschen

Oft mehr Schein als Sein. Und das trifft dann auch auf diejenigen zu, die schreiben, ohne es zu wissen, und sich nur von der KI speisen lassen

Also: Ja zur KI, aber nein beim Austausch mit anderen, da sollte man noch den eigenen Kopf arbeiten lassen

Aber die Faker stoppen wir dadurch nicht – sie werden sich irgendwann selbst verraten, wenn man zwischen den Zeilen liest

MikeMcFly · 25.03.26

@HerzMusik : Auch ich arbeite inzwischen beruflich viel mit KI und wollte KI mit meinem Beitrag nicht gänzlich verteufeln. Ich finde aber, da, wo es um kreative Arbeit geht, gilt es, bestimmte Grenzen einzuhalten. Besonders, wenn es um Beiträge in Foren geht. Denn Foren sind dazu da, dass sich Menschen miteinander austauschen und nicht Maschinen.

Und auch wenn ich mich für die Chancen und Möglichkeiten begeistern kann, die KI mit sich bringt, ist eben nicht alles rosig. Die Entwicklung wird nun einmal die sein, dass KI in den nächsten Jahren sehr viele Jobs auffrisst, von denen man vor einigen Jahren noch behauptet hat, das könne nie ein Computer erledigen. Aber die Diskussion sollte vielleicht in einem anderen Thread geführt werden. Hier stand die Frage nach KI in Beiträgen des Musiker-Boards und genau da lehne ich KI strikt ab.

abolesco · 25.03.26

Oliver Revilo schrieb:
Ja zur KI, aber nein beim Austausch mit anderen, da sollte man noch den eigenen Kopf arbeiten lassen

Ich finde nicht, dass das eine das andere ausschließen muss.
MMn. wären zB. viele Beiträge im MuTh-Fred viel besser verständlich, wenn sie anstatt "nur" Worte auch saubere Infografiken enthalten würden. Das man dadurch besser lernen kann und das gelernte besser behält dürfte unstrittig sein.
Wenn jetzt jmd. meint dann könne der Ersteller auch gleich eine KI bemühen würde ich das in vielen Fällen anzweifeln, denn oft wissen TE gar nicht wonach- oder mit welchen Begriffen- sie suchen müssten.

Perkeo · 25.03.26

Wenn ich mich recht erinner, habe ich hier selbst schon mal eine KI generierte Antwort eingestellt. Allerdings hab ich's auch dazu geschrieben und der Gedankengang dahinter war, dass es für andere vielleicht hilfreich ist, die Lösung in komprimierter Form zu sehen.

Und bei spezifischen Fragen wende ich mich oft zuerst mal an eine KI und finde dort meist exakt das, was ich wissen wollte. Denn das ist eben oft die Kehrseite hier, die informativen Antworten verstecken sich oft auf "Threadseite 23 von 34ff."

Ich hab hier meine speziellen Nischen, zu denen ich gerne lese und ab und zu auch mal schreibe, ebenso wie meine "speziellen User", die ich für besonders kompetent halte, aber im Großen und Ganzen ist das hier Unterhaltung.

Echte Experten zu finden, ist nicht so schwer, wenn man ne Weile mit liest und ggf. stell ich dann schon auch mal ne Frage per PN. Also ist mir eigentlich egal, ob jemand KI zum Antworten nutzt oder nicht, denn die "Expertise" dieses oder jenes Users zeigt sich dann sowieso recht bald (oder auch nicht...).

Willi1969 · 25.03.26

Ich lasse die Kunst mal außen vor. Da habe ich keine Ahnung von. Ich kann dazu nur soviel sagen, dass mir die folgenden Beispiele richtig gut gefallen und es mir völlig egal ist, wer oder was das nun kreiert hat.

Google Search

View: https://m.youtube.com/watch?v=mUQCcfcpTek

Aber:

Perkeo schrieb:
Also ist mir eigentlich egal, ob jemand KI zum Antworten nutzt oder nicht

Mir überhaupt nicht. Ich stelle doch in einem Forum keine Frage, um dann von einem anderen Nutzer Informationen vorgesetzt zu bekommen, die ich auch ohne Nutzung des Forums selbst beschaffen kann.

Das macht ja den Sinn eines Forums obsolet.

Es geht doch hier um die Meinungen, die Erfahrungen und das daraus entstandene Wissen der Nutzer.

Wenn ich als Fragender die Frage ggf. damit eröffne, dass ich meine eigenen Recherchen, die durchaus durch die Nutzung von KI entstanden sein können, aufzähle und die Ergebnisse zur Diskussion stelle, dann sehe ich darin kein Problem. Aber nicht copy and paste hingeklatscht sondern kontextbezogen bitte

Beispiel:

Ich habe in meinem ersten Thread in diesem Forum die anderen Nutzer gefragt, welche Monitore ich für mein RD-2000 kaufen soll. Ich habe nach Meinungen und Erfahrungen anderer Menschen gesucht. Und eine lebhafte Diskussion bekommen, die mich in meiner Entscheidungs-findung gut unterstützt hat.

Gebe ich die Frage in die Google KI Suche ein, erhalte ich das :

Screenshot_2026-03-25-12-30-31-466_com.brave.browser.jpg

Screenshot_2026-03-25-12-30-13-191_com.brave.browser.jpg

Ja, ist auch eine Antwort. Aber danach habe ich nicht gefragt. Das hätte ich mir auch selbst suchen können.

Ich sehe genau 2 Gründe dafür, mit KI auf eine Frage zu antworten.

1. Das eigene Wissen auf einfache Art strukturiert darzustellen.

Dafür habe ich Verständnis, denn ich sitze hier z. B. gerade am Tablet und da ist es echt mühsam, so einen Beitrag zu verfassen. Daher..... Wenn der Nutzer KI nimmt, diese mit seinem Wissen abgleicht und das dann als Antwort präsentiert? So what?

2. Geltungsbedürfnis nach dem Motto "Herr Lehrer, ich weiß was!"

DerZauberer · 25.03.26

Willi1969 schrieb:
Beispiel:

Ich habe in meinem ersten Thread in diesem Forum die anderen Nutzer gefragt, welche Monitore ich für mein RD-2000 kaufen soll. Ich habe nach Meinungen und Erfahrungen anderer Menschen gesucht. Und eine lebhafte Diskussion bekommen, die mich in meiner Entscheidungs-findung gut unterstützt hat.

Gebe ich die Frage in die Google KI Suche ein, erhalte ich das :

Anhang anzeigen 1024639 Anhang anzeigen 1024640

Gegenbeispiel - gib anstelle deiner kurzen Google-Suche mal folgenden Prompt in deine KI ein (beispielhaft auf dein Thema bezogen, ich spiele kein Klavier, habe keine Ahnung von Boxen-Preisen, also ggf. anpassen, die Rahmenbedingungen sind frei erfunden):

Ich suche ein Paar aktive Monitor-Boxen für mein Roland RD-2000 Stagepiano, die für mich und meine Bedürfnisse am besten passen. Ich möchte eigentlich maximal 2000€ für das Paar Boxen ausgeben, sollte ich mit 2500€ eine deutlich höhere Qualität erreichen können, würde ich dies auch in Erwägung ziehen.
Ich nutze das Stagepiano in meinem Home Studio, in dem ich übe und Musik aufnehme. Der Raum ist ca. 14qm groß annähernd quadratisch, der Parkettboden ist zu rund 50% mit Teppich bedeckt, eine Wand hat Fenster und blickdichten Vorhang, die anderen Wände sind verputzt, ein weiteres „Room treatment“ ist nicht gewünscht. Neben dem Schreibtisch mit einer DAW befinden sich in dem Raum das Stagepiano auf einem Ständer, ein Stuhl, ein kleiner Lesesessel, und ein IKEA Kallax 2x4 Regal mit Büchern und Schallplatten.
Durchsuche für deine Bewertung neben den Hersteller-Informationen vor allen Dingen auch Internet-Foren, unabhängige Tests, YouTube-Kanäle etc., um eine möglichst breite und wenig von Werbung gefärbte Basis für die Bewertung zu haben. Nach detaillierter Recherche hätte ich gerne deine Top 3 Empfehlungen, mit Vorteilen/Nachteilen, in einer übersichtlichen Tabelle, sowie eine Liste von Aspekten, die ich bei der weiteren Suche noch vertiefen müsste. Zeige mir Unsicherheiten oder Aspekte, die du nicht gründlich erforschen konntest, als solche auf - mir geht es um eine erste fundierte Einschätzung als Basis für meine weitere Meinungsbildung.

Wenn du es weiter treibst und diesen Prompt nicht nur in die kostenlose Google-KI klatschst, sondern separat in verschiedene KI-Apps, und am besten davon noch eine bezahlte - dann hast du eine durchaus solide Basis für deine Reise. Und in einem Forum würden sich einige Experten durchaus freuen, wenn Ausgangsfragen so detailliert formuliert werden würden wie der Prompt oben, anstatt dass man dem Poster die Rahmenbedingungen einzeln aus der Nase ziehen muss.

opa_albin · 25.03.26

Ich glaube, gegen eine fundierte und geprüfte Antwort hat ja niemand etwas.
Auch wenn Leute vor dem Fragen im Forum schon mal eine KI befragt haben und damit nicht weiterkommen.

Das Problem taucht dann auf, wenn in Größenordnungen Posts wie "Die KI sagt dazu:" und dann der reinkopierte Text kommen.
Davon hatten wir schon einige, und das ist erstens sinnnlos, weil völlig unreflektiert, ungeprüft und zweitens vielleicht sogar falsch ist.

Eigentlich vergleichbar damit, wie wenn ich die Google-Suchergebnisse als Link hier posten würde.

Außerdem empfinde ich es als unhöflich, weil dann jemand im Forum die KI-Antwort prüfen muss, ggf. widersprechen, was 10x so viel Arbeit macht.

Es gibt ja nun schon eine Boardregel dazu. Ich denke, wir alle sollten freundlich, aber konsequent einen vernünftigen Umgang mit KI-Antworten anmahnen und uns auch selbst dran halten.

Ich sag mal so, das Internet ist für uns alle Neuland.

Aber im Ernst, die Entwicklung wird nicht stehenbleiben, und es gibt schon nicht wenige Leute im Netz, die sich keine Gedanken machen, wofür und wie sie die KI nutzen. Insofern sehe ich diese Diskussion durchaus als Zeichen für die Qualität dieses Forums, alleine weil man sich ständig Gedanken macht, wie man mit KI und Co. umgeht.

68060 · 25.03.26

Ich sags auch mal so zu den "KI"-Antworten:
Wenn hier jemand wissentlich Unsinn als Antwort reinschreiben würde, dann würde man solchen Leuten das übelnehmen. Und zwar zu recht. Wenn jemand damit auffallen täte, ständig Unsinn zu schreiben, würde das Konsequenzen haben im Forum.

Diese LLMs lügen aber permanent. Bzw. das nennt man "halluzinieren". Der Prozentsatz ist gemessen an Menschen, die meist einfach sagen wenn sie etwas nicht wissen, enorm.
Und das beste: eine sehr aktuelle Studie zeigt, dass das auch immer so sein wird und neuere LLMs da sogar schlechter sind als ältere.
Die Studie ist übrigens von OpenAI selbst.

Damit sollten sich "KI"-Antworten von ganz von selbst verbieten - ich sehe keinen Grund wieso man einen Menschen hier schlechter behandeln sollte als den "KI"-Rotz, oder solche, die diesen verbreiten.

opa_albin · 25.03.26

68060 schrieb:
Diese LLMs lügen aber permanent. Bzw. das nennt man "halluzinieren". Der Prozentsatz ist gemessen an Menschen, die meist einfach sagen wenn sie etwas nicht wissen, enorm.
Und das beste: eine sehr aktuelle Studie zeigt, dass das auch immer so sein wird und neuere LLMs da sogar schlechter sind als ältere.

Da wäre es ja angemessen, diese Studie auch mal zu verlinken. Könntest Du uns den Link zur Verfügung stellen?

Ich wäre im übrigen nicht so sicher, dass Menschen so neutral und sachlich sind.

Selkat · Donnerstag um 04:08

68060 schrieb:
Diese LLMs lügen aber permanent. Bzw. das nennt man "halluzinieren".

Das ist so nicht richtig.
Ein LLM ist immer nur eine Wissensblase mit einem reintrainierten Wissenstand zu einem bestimmten Zeitpunkt.
Ein KI-System fängt dann an zu halluzinieren, wenn es nach etwas gefragt wird, das NICHT in dieser Wissenblase
vorhanden ist und das halluzinieren auch nicht eingeschränkt ist(durch Guardrails, System-/Profilprompts/Skills etc.)
und da gibt es z.T.ganz gewaltige Unterschiede zwischen Allerwelts-KI's wie chatGPT und hochspezialisierten KI-Systemen
deren Wissenbasis und Regeln genau definiert sind...da halluziniert keine KI auch nur einen einzigen Buchstaben.

68060 · Donnerstag um 06:23

opa_albin schrieb:
Da wäre es ja angemessen, diese Studie auch mal zu verlinken. Könntest Du uns den Link zur Verfügung stellen?
Ich wäre im übrigen nicht so sicher, dass Menschen so neutral und sachlich sind.

Selbstverständlich:

Why Language Models Hallucinate

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models...

arxiv.org

@Selkat: da würde ich widersprechen, was an der Art liegt, wie diese Algorithmen geeicht werden. Aus der Studie geht das recht klar hervor; letztlich ist ein LLM nur ein Programm, das Sätze baut indem es die Wahrscheinlichkeit für jeweils das nächste Wort nimmt. Ein LLM hat keine Intelligenz mit der es Fälle unterscheiden kann wo geringe bessere Wahrscheinlichkeit von Inhalten tatsächlich wahr sind oder diese gleichsam unwahrscheinlich und damit eine Halluzination wären. Weil LLMs das ganz prinzipiell nicht verstehen sondern eben nur ein Algorithmus sind, mit all den Eigenschaften die so ein Algorithmus eben hat im Gegensatz zu Intelligenz.

x-Riff · Donnerstag um 07:29

Ich glaube, die Differenzierung zwischen unterschiedlichen KI-Systemen, bringt hier nicht weiter.
Aus folgendem Grund: Die höchste Wahrscheinlichkeit sind user, welche ChatGPT und ähnliche, kostenlose und auf (nicht spezialisierte/ausgebildete) user ausgerichteten LLM sind. Diese finden sich dann in ihren posts. Die Frage ist, wie damit seitens des MB umgegangen werden kann.
Hier darauf abzuheben, dass es mittlerweile sehr weit entwickeltere Spezial-KIs gibt, die von dafür ausgebildeten oder zumindest sehr geübten Fachleuten für bestimmte Zwecke genutzt werden und deren Ergebnisse zuverlässiger sein können oder sind, macht in dem Kontext, um den es hier geht, aus meiner Sicht keinen Sinn.

Der zweite Bereich bildet mithilfe von KI erzeugte Musik. Auch hier ist aus meiner Sicht eine Kennzeichnung durch die user vorzunehmen, weil es nicht nur auf das Ergebnis ankommt, sondern im Kontext des Musiker-Board auch auf den Prozess (siehe die Regeln zu "user-Vorstellungen"). Der wird zumeist - auch ohne dass es eine Regel gibt, auf die rekurriert werden kann - auch meist von Seiten einiger user*innen gefordert und dann meinem Eindruck nach meist von den poster*innen geliefert - zuweilen verschwinden diese aber auch in der Versenkung oder man erfährt nichts weiter.
Hier könnte ein Bereich "mit KI generierte Musik" helfen, da es beispielsweise user*innen gibt, die sich prinzipiell nicht für KI-generierte Musik interessieren. Und es ist den mesten poster*innen nicht klar, dass dies für viele user*innen eine Rolle spielt, wie die Musik oder der Text zustande kam. Es ist nicht von Vorteil, dass jemand eine Musik ohne Kennzeichnung hochläd, die ca. 80 Aufrufe hat und die ersten drei posts enthalten die Frage, ob das selbstgemacht oder KI-generiert ist und verabschieden sich dann, wenn es so ist. Anstelle eines Feedbacks gibt es regelmäßig erst mal eine Klärung, um welche Musik (seltener: um welchen Text) es sich handelt bzw. ob KI involviert ist bzw. welche Bedeutung es hat, ob KI involviert ist oder nicht. Und das nahezu in jedem thread, in dem sowas erst mal geklärt wird - und das ist regelmäßig der Fall, wenn es sich nicht um poster*innen handelt, die man kennt. Das ist für beide Seiten mühsam und unergiebig - und es trifft gerade user*innen, die neu auf dem Musiker Board sind. Beide Seiten kann ich verstehen - aber die Art und Weise, wie sich der Umgang damit gestaltet, eben weil es keine Regel oder keinen Bereich für KI-generierte Musik oder Texte gibt, finde ich nicht erquicklich.
Wenn ich sage, dass ich beide Seiten verstehen kann, meine ich unter anderem, dass ich verstehen kann, wenn Leute, die kein Instrument spielen und nicht singen, aber Songtexte machen, in KI wie Suno einen recht einfachen, kostenlosen oder -günstigen und, verglichen mit einer Bandsuche oder einer Kollaboration hier auf dem MB, recht umstandslosen Weg verfolgen. Ich persönlich würde es nicht machen, aber wie gesagt: Ich kann es verstehen. Es gibt hier aber nun mal sehr viele user*innen, die das prinzipiell ablehnen, und nicht nur "aus Tradition", sondern aus unterschiedlichen Gründen, auch musikalischen bzw. künstlerischen (u.a. weil der Prozess bis zum Endprodukt völlig anders gestaltet ist).

Aus diesem Grunde fände ich es gut, wenn es einen Bereich "KI-generierte Musik und Texte" gäbe, da es solche Irritationen von beiden Seiten und solche Klärungsauftakte in threads, die auf eine inhaltliche Auseinandersetzung bzw. ein Feedback inhaltlicher Art ausgerichtet sind, vermeiden hilft. Es schärft zudem die Bedeutung dieses Unterschieds - und es bietet Raum für die, welche dort posten, genauer auszuführen, welche parts in welcher Weise KI-generiert sind.

x-Riff

opa_albin · Donnerstag um 07:37

x-Riff schrieb:
Aus diesem Grunde fände ich es gut, wenn es einen Bereich "KI-generierte Musik und Texte" gäbe, da ...

Interessanter Gedanke, den ich erstmal unterstützen würde (auch wenn das natürlich nicht ins Gewicht fällt

)
Vermutlich muss man sich aber genau überlegen, wo die Grenze zu ziehen ist. Viele Mixing-Tools u.ä. arbeiten ja schon mit KI-Algorithmen unter der Haube.

-- EDIT
Aus der o.g. Studie (Einleitung)

We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline.

und aus der Zusammenfassung

Simple modifications of mainstream evaluations can realign incentives, rewarding appropriate
expressions of uncertainty rather than penalizing them.

Das klingt für mich erstmal, als wäre das Halluzinieren vor allem eine Frage des Trainings. Offensichtlich wird die Mainstream-KI derzeit im Training dafür "belohnt", immer fleißig zu antworten und nicht Unsicherheit zu zeigen.
Ich habe jedenfalls auch schon Prompts gesehen, die die KI dazu anhalten sollen, bei unsicheren Daten nicht zu halluzinieren.

Ein Mensch ist aber grundsätzlich auch nicht unbedingt anders. So manche Gespräche, die ich in den Öffis mitbekomme, beruhen auch zu max. 10% auf Fakten und 90% auf Gelaber/Meinungen/Schlechtmachen von anderen/Videos von XY. Und da reden wir noch gar nicht von dem, was zu Corona-Aluhut-Zeiten so an Ansichten unterwegs war. Letztlich auch eine Frage des "Trainings" und der Datengrundlage ...

-- EDIT 2
Der Inhalt des Artikels übersteigt meine Kenntnisse. Falls es jemand interessiert, ich habe mir den Artikel von Claude (Sonnet 4.6) zusammenfassen lassen.

Prompt: lies diesen artikel https://arxiv.org/pdf/2509.04664 und fasse ihn mir zusammen. Ich muss die Formeln nicht verstehen, möchte aber die Grundaussage und die wesentlichen Argumente sowie die Datengrundlage erläutert haben.
--
Antwort:

Ich habe den Artikel gelesen. Hier ist eine Zusammenfassung der wesentlichen Inhalte:

„Why Language Models Hallucinate" – Zusammenfassung

Autoren: Adam Kalai, Ofir Nachum, Santosh Vempala, Edwin Zhang (OpenAI / Georgia Tech), September 2025

Grundaussage

Halluzinationen entstehen nicht aus rätselhaften Gründen – sie sind im Kern schlicht Fehler bei der binären Klassifikation. Wenn ein Modell wahre von falschen Aussagen nicht unterscheiden kann, entstehen Halluzinationen durch ganz natürlichen statistischen Druck. Die Autoren argumentieren außerdem, dass die gängigen Bewertungsmethoden für KI-Modelle das Problem aktiv verschlimmern.

Das Motivationsbeispiel

Die Autoren fragen mehrere aktuelle Spitzenmodelle nach Kalais eigenem Geburtstag – obwohl er ausdrücklich bittet, nur zu antworten, wenn man es weiß. DeepSeek-V3 gibt drei verschiedene falsche Daten aus. ChatGPT, DeepSeek und Llama werden nach dem Titel von Kalais Dissertation gefragt: Alle drei erfinden überzeugend klingende, aber komplett falsche Antworten (falscher Titel, falsche Universität, falsches Jahr).

Argument 1: Halluzinationen entstehen schon beim Pretraining

Selbst wenn die Trainingsdaten fehlerfrei wären, würde das statistische Ziel, das beim Pretraining optimiert wird, dazu führen, dass das Modell Fehler produziert.

Die Kernidee: Ein Sprachmodell lernt, die Verteilung von Sprache nachzubilden. Dabei muss es implizit für jede mögliche Ausgabe entscheiden, ob sie „gültig" ist – das ist schwieriger als die reine Klassifikation „richtig oder falsch". Die Autoren zeigen formal, dass die Rate falscher Ausgaben mindestens doppelt so hoch ist wie die Fehlerrate bei dieser Klassifikationsaufgabe.

Drei konkrete Ursachen werden unterschieden:

a) Willkürliche Fakten ohne Muster (z.B. Geburtstage): Wenn ein Fakt im Training nur einmal auftaucht, kann das Modell ihn statistisch gesehen kaum korrekt reproduzieren. Die Halluzinationsrate ist mindestens so hoch wie der Anteil solcher „Einzel-Erwähnungen" in den Trainingsdaten. Erscheint ein Fakt häufig (wie Einsteins Geburtstag), wird er zuverlässig gelernt; erscheint er nur einmal (wie das Geburtsdatum einer unbekannten Person), ist Halluzination quasi unvermeidlich.

b) Schwaches Modell (z.B. Buchstaben zählen): Manche Aufgaben kann das Modell strukturell schlecht lösen – etwa weil Tokens (wie „DEEP/SEEK") nicht als einzelne Buchstaben repräsentiert werden. Reasoning-Modelle wie DeepSeek-R1, die explizit Schritt für Schritt denken, lösen solche Aufgaben hingegen zuverlässig.

c) „Garbage in, Garbage out": Wenn die Trainingsdaten selbst Fehler enthalten, übernimmt das Modell diese.

Argument 2: Post-Training verschlimmert das Problem strukturell

Sprachmodelle werden mit ähnlichen Tests bewertet wie Studenten bei Prüfungen. In beiden Fällen maximiert Raten die erwartete Punktzahl, wenn ein binäres Schema angewendet wird, das einen Punkt für eine richtige Antwort vergibt und keinen für eine leere Antwort oder „Ich weiß es nicht".

Das heißt: Ein Modell, das bei Unsicherheit einfach rät, schneidet auf den gängigen Benchmarks besser ab als ein Modell, das ehrlich „Ich weiß es nicht" antwortet. Die Autoren nennen das eine „Epidemie des Bestrafens von Unsicherheit": Die gesamte Benchmark-Landschaft – die die KI-Entwicklung maßgeblich steuert – belohnt systematisch selbstbewusstes Raten statt ehrliches Eingestehen von Unwissen.

Die zentrale Empfehlung

Diese Epidemie kann nur durch eine sozio-technische Maßnahme angegangen werden: die Bewertungsmethoden bestehender Benchmarks, die falsch ausgerichtet sind und die Leaderboards dominieren, zu ändern – anstatt zusätzliche Halluzinations-Evaluierungen einzuführen.

Konkret fordern die Autoren, dass Benchmarks keine Punkte abziehen oder verweigern, wenn ein Modell bei Unsicherheit korrekt „Ich weiß es nicht" antwortet. Solange das nicht passiert, werden Modelle immer so optimiert, als wären sie permanent in einer Prüfungssituation.

Datengrundlage

Der Artikel ist primär theoretisch-mathematisch ausgerichtet – die eigentliche Basis sind Beweise aus der Lerntheorie (computational learning theory), keine großen empirischen Datensätze. Als Belege dienen:

Konkrete Demonstrations-Experimente mit aktuellen Modellen (DeepSeek-V3, GPT-4o, Llama, Claude 3.7 Sonnet, Meta AI) zu Geburtstagen, Buchstaben zählen und Dissertationstiteln.

Kalibrierungsgrafiken von GPT-4 (aus einem früheren OpenAI-Bericht), die zeigen, dass Basismodelle vor dem Post-Training gut kalibriert sind, danach jedoch nicht mehr.

Verweis auf Folgerstudien (z.B. Miao & Kearns 2025), die die theoretischen Vorhersagen empirisch untersuchen.

Fazit in einem Satz

Halluzinationen sind kein zufälliges Versagen, sondern ein strukturelles Problem: Sie entstehen durch statistische Unvermeidbarkeiten beim Training und werden durch Bewertungssysteme, die Raten belohnen, aktiv aufrechterhalten – die Lösung liegt daher weniger in neuen Modellen als in einer Reform der Benchmarks.

Ich muss sagen, für solche Dinge finde ich KI ein großartiges Werkzeug.

x-Riff · Donnerstag um 07:39

opa_albin schrieb:
Viele Mixing-Tools u.ä. arbeiten ja schon mit KI-Algorithmen unter der Haube.

Da reicht es ja, das Programm zu nennen. Mir geht es tatsächlich im Kern um das Vorstellen von Musik und Texten, bei denen KI eine bedeutende Rolle spielt. Bei Texten würde mir beispielsweise ausreichen, wenn da steht: brainstorming und erste Textentwürfe mit KI anhand von prompts. Aus diesen Entwürfen entstand dann dieser Text.
Dann ist klar, dass die eigentliche Schöpfung beim Menschen liegt. Das ist für mich ein Unterschied zu: Text von KI erstellt.

abolesco · Donnerstag um 08:35

Ist egal, offensichtlich hat man sich seitens der Admins dazu entschieden alles so zu lassen wie es ist.

DerZauberer · Donnerstag um 09:08

@opa_albin Spannend zu lesen. und es unterstreicht auch das, was ich immer wieder erlebe/propagiere:

Menschen nutzen "die KI", indem sie im kostenlosen Google AI Modus oder ChatGPT in der Free-Version eine unstrukturierte Frage stellen und dann sagen "haha, die kann ja nix".
Menschen verstehen nicht, dass die Large Language Models zwar tolle Texte schreieben, aber nicht unbedingt gut mit harten Fakten umgehen können. Es gibt ja so Tests wie "how many Rs are in the word Strawberry" oder ähnliche Fragen, die diese Schwächen gut offengelegt haben.
Menschen verstehen auch nicht, dass es ganz viele ganz unterschiedliche KI-Ansätze gibt, viele Spezialwerkzeuge für konkrete Anwendungsgebiete.

Ich will damit sagen: Es lohnt sich, sich mit dieser Technologie auseinanderzusetzen, weil sie unser Leben in ganz vielen Bereichen beeinflussen wird, ob wir es wollen oder nicht.

HerzMusik · Donnerstag um 09:14

DerZauberer schrieb:
@opa_albin Spannend zu lesen. und es unterstreicht auch das, was ich immer wieder erlebe/propagiere:

Menschen verstehen auch nicht, dass es ganz viele ganz unterschiedliche KI-Ansätze gibt, viele Spezialwerkzeuge für konkrete Anwendungsgebiete.

Möchte mich dem Satz hier anschließen.

abolesco · Donnerstag um 10:57

DerZauberer schrieb:
Menschen verstehen nicht, dass die Large Language Models zwar tolle Texte schreieben, aber nicht unbedingt gut mit harten Fakten umgehen können. Es gibt ja so Tests wie "how many Rs are in the word Strawberry" oder ähnliche Fragen, die diese Schwächen gut offengelegt haben.

Naja, diesen Test dürften heutzutage alle gängigen KI bestehen. Heutzutage baut sich die KI schnell einen Code der das Wort buchstabiert und die Rs darin zählt. Außerdem hat man das "Verständnis" für die sTruKtuR von Wörtern verbessert.

DerZauberer schrieb:
Menschen verstehen nicht, dass die Large Language Models zwar tolle Texte schreieben, aber nicht unbedingt gut mit harten Fakten umgehen können.

Auch hier kommt es meiner Meinung nach auf das Prompten an. Ich habe mir sogar ein Facktenchecker-Gem gebaut und das funktioniert sehr gut, imho.

Allem anderen würde auch ich mich anschließen.

68060 · Donnerstag um 17:51

abolesco schrieb:
Naja, diesen Test dürften heutzutage alle gängigen KI bestehen.

Nope, tun sie immernoch nicht.
Und der Grund ist ganz einfach: was die Datenkrallenbots im www nicht finden, können diese Algorithmen auch nicht wiedergeben, nichtmal das Bild einer bestimmten Uhrzeit wenn sie dieses nicht schon exakt so auch im www gefunden haben. (Lesenswert: https://u-labs.de/portal/uhrzeit-promt-entlarvt-ki-dienste/ ).
Die Fehlerursache mit den drei "r" ist die gleiche wie mit den Uhren: Wenn ein Mensch fragt, mit wievielen "r" man "strawberry" schreibt, dann wird insgeheim nach den "r" in "berry" gefragt, ähnlich wie beim Namen "Pfeiffer", und der Witz aus der Feuerzangenbowle "Pfeiffer mit drei f" zielt genau darauf auch ab. Und Menschen verstehen das oder fragen nochmal nach. Deswegen findet sich im Netz mannigfaltig diese Frage mit der für Menschen hinreichenden Antwort "mit zwei r". Das ist das was das LLM zu schlucken bekommt und prinzipiell nicht verstehen kann dass die Frage "wieiviel r kommen in strawberry insgesamt vor" eine für Menschen andere Frage ist - die sie dann falsch beantwortet.

Gerade diese Beispiele zeigen hervorragend, wie diese "KI" einfach nur das wiedergeben, also kopieren, kann, was sie eben auch findet und genau null selbst kreativ ist. Es zeigt plastisch dass es sich nur um Datenklau handelt.

Und diesem Satz...
"Menschen verstehen auch nicht, dass es ganz viele ganz unterschiedliche KI-Ansätze gibt, viele Spezialwerkzeuge für konkrete Anwendungsgebiete."
...widerspreche ich vehement. Das grundlegende Prinzip ist immernoch genau das selbe wie in den 1950ern, als es entdeckt wurde.
Was uns dieser Algorithmus beschert ist ein Unterprogramm, das nicht mehr einfach "1" und "0" testet und erkennt, sondern Muster.
Alles was hinzugekommen ist, ist Rechenpower.
LLMs und "GenAI" sind ganz herkömmliche Softwarestrukturen, die lediglich diese Mustererkennungslagorithmen benutzen und da natürlich einfach andere Daten zu schlucken bekommen und auf andere Ergebnisse hin geeicht werden, je nachdem was die Software halt machen soll. Wie bei jeder anderen Software auch, nur dass das, was "KI" genannt wird, eben Gebrauch dieses Mustererkennungs- und -kopieralgorithmus macht.

Im Kern haben sie alle die selben Einschränkungen: es sind fixe Algorithmen, die im Gebrauch selbst nicht besser werden in dem was sie tun sollen, dazu brauchen sie neue Eichungen mit noch mehr Daten. Sie sind nicht flexibel wie es Gehirne sind, weswegen LLMs zum Beispiel auch keine Fehler zugeben und diese korrigieren können.

Künstliche Intelligenz - ein Appell

Beiträge mit meisten Reaktionen

Why Language Models Hallucinate

„Why Language Models Hallucinate" – Zusammenfassung

Grundaussage

Das Motivationsbeispiel

Argument 1: Halluzinationen entstehen schon beim Pretraining

Argument 2: Post-Training verschlimmert das Problem strukturell

Die zentrale Empfehlung

Datengrundlage

Fazit in einem Satz

Quick Links

Wie, wo Profilnachrichten (PN) schreiben?