Ungeleitete KI-Debatte: 3× mehr Tokens, schlechtere Genauigkeit

Drei unabhängig verfasste arXiv-Papiere, am 5. Mai veröffentlicht, liefern ein einheitliches Urteil gegen ungeleitete Multi-Agenten-LLM-Debatte: Sie schneidet bei der Genauigkeit konsequent gleich oder schlechter ab als isolierte Selbstkorrektur – bei einem Token-Verbrauch von 2,1–3,4-facher Höhe. Die Befunde stellen die verbreitete „Rat-der-Agenten"-Annahme direkt in Frage – dass gegenseitiges Peer-Review zwischen LLMs Fehler filtert statt verstärkt.

Was die Quellen tatsächlich sagen

„The Cost of Consensus" (Bertalanič & Fortuna, arXiv:2605.00914) ließ Teams von je 10 homogenen Agenten – Qwen2.5-7B, Llama-3.1-8B und Ministral-3-8B – über 3 Debattenrunden auf GSM-Hard und MMLU-Hard durchlaufen. Die Studie isoliert drei messbare Versagenspfade. Sykophante Konformität: Agenten übernehmen unkritisch Mehrheitsantworten; modale Übernahme erreicht bis zu 85,5 %. Kontextuelle Anfälligkeit: Peer-Begründungen destabilisieren zuvor korrekte Schlussfolgerungen; Verletzlichkeitsraten bis zu 70 %. Konsenszusammenbruch: Pluralitätsabstimmung verwirft bereits im Pool vorhandene korrekte Antworten; Oracle-Lücke bis zu 32,3 Prozentpunkte. Ein wichtiger kontraintuitiver Befund: Konformität erreicht ihren Höhepunkt bei minimaler Peer-Exposition (K=2) und verstärkt sich mit größerer anfänglicher Diversität. Die günstigste Debatten-Topologie ist die schädlichste. Token-Kosten erreichen bis zu 28.631 pro Problem, weit mehr als bei Selbstkorrektur.

Zwei Begleit-Papiere enthüllen die strukturelle Tiefe des Problems. Yao et al. (arXiv:2605.01750) zeigen, dass LLM-Dyaden in Mehrrunden-Verhandlungen konsequent keine Pareto-optimalen Ressourcenallokationen erzielen – selbst wenn jeder Agent diese Ergebnisse in Isolation identifiziert. Full-Transparency-Interventionen zeigen, dass Informationszugang nicht der Engpass ist: Das Versagen liegt im dynamischen Grounding – gemeinsamer Planformung, Commitment-Tracking und Runde-für-Runde-Ausführungskoordination. Ko et al. (arXiv:2604.06091) demonstrieren, dass repräsentative LLM-Agenten durch rein soziale Hebel adversarial manipulierbar sind: größere gegnerische Gruppen, kompetenter wirkende Peers und längere Argumente degradieren alle die Genauigkeit – ein Spiegel menschlicher Gruppenpsychologie-Biases.

Strategische Einschätzung

Für Teams, die Debatten-Scaffolding mit kleinen (7–8B) homogenen Modellen betreiben: Strukturierte Rollendifferenzierung oder Modellheterogenität sind Voraussetzungen, keine optionalen Upgrades. Wo diese Bedingungen nicht erfüllt sind, ist isolierte Selbstkorrektur die kostengenaue Standardwahl. Mehrheitsvoting unter homogenen Agenten korrigiert Fehler nicht – es propagiert und verfestigt sie.