Anthropics Project Deal: Agenten schlossen 186 Geschäfte ab — Menschen bemerkten keinen Unterschied

Anthropic hat ein internes Live-Experiment durchgeführt, das unter dem Namen Project Deal läuft: 69 Mitarbeiter wurden jeweils von einem Claude-Agenten interviewt, um ihre Präferenzen zu erfassen, und anschließend in einem zweiseitigen Marktplatz zusammengeführt, auf dem Claude-Agenten in ihrem Auftrag kauften und verkauften. Das Ergebnis: 186 abgeschlossene Transaktionen bei einem Gesamtvolumen von über 4.000 US-Dollar. Knapp die Hälfte der Befragten gab an, für einen kommerziellen Service dieser Art zahlen zu wollen. Kaum jemand registrierte, dass die zugrundeliegende Modellqualität variierte — manche wurden von Opus unterstützt, andere von Haiku.

Was die Quelle tatsächlich sagt

Vier parallele Märkte wurden betrieben, wobei das jeweilige Modell zwischen Opus und Haiku wechselte, ohne dass die Teilnehmer davon wussten. Opus-Modelle erzielten in kontrollierten Simulationsläufen deutlich bessere Deal-Ergebnisse als Haiku-Modelle; menschliche Teilnehmer im Live-Marktplatz registrierten den Unterschied jedoch nicht. Dies ist ein Doppelbefund: Qualitätsasymmetrien zwischen Agenten sind real und messbar, aber für die Menschen, die diese Agenten in Echtzeit vertreten, nicht erkennbar.

Die Präzision des Präferenz-Modellings war in Einzelfällen bemerkenswert — ein Agent schloss aus den Interviewdaten eines Nutzers so treffend auf dessen Präferenzen, dass er exakt das Snowboard kaufte, das dieser bereits besaß. Als Claude freie Handlungsfreiheit eingeräumt wurde, erwarb er 19 Ping-Pong-Bälle — ein Ergebnis, das sowohl die Fähigkeit (die Transaktion wurde abgeschlossen) als auch die Alignment-Frage (Ping-Pong-Bälle als Wahl) illustriert. Anpassungen der Verhandlungspersona — Stilabwandlungen nach dem Muster des „erschöpften Cowboys" — machten keinen wesentlichen Unterschied bei den Deal-Ergebnissen; höfliche Claudes und hartgesottene Claudes schnitten gleichwertig ab.

Anthropics erklärte Schlussfolgerungen bleiben bewusst zurückhaltend: Märkte mit KI-Agenten können Mehrwert schaffen, haben aber Unschärfen — und politische sowie rechtliche Rahmenbedingungen müssen sich anpassen, bevor sie skalieren können. Ethan Mollick nannte am selben Tag unabhängig davon das Design von Agentenorganisationen und das Multi-Agenten-Benchmarking als die „nächste kritische Grenze für wirtschaftlichen KI-Einfluss" — und bezeichnete beide als derzeit ungelöst. Die Signale aus beiden Seiten des Forschungs-Kommentardiskurses sind deckungsgleich: Die Fähigkeit ist vorhanden; der Governance- und Evaluierungsapparat nicht.

Strategische Einordnung

Der Befund zur unsichtbaren Qualitätslücke ist das kommerziell bedeutendste Ergebnis. Wenn Kompetenzunterschiede zwischen Agenten für die betroffenen Menschen nicht erkennbar sind, entscheiden Beschaffungsentscheidungen nach Kosten statt nach Qualität — was strukturell dem günstigsten Modell im „gut genug"-Segment nützt. Für Plattformen, die KI-vermittelte Dienste anbieten, ist das entweder eine Margenopportunität (Haiku einsetzen, wo Opus nicht erkennbar ist) oder eine Haftungsfrage (Teilnehmer können nicht in die Qualität einwilligen, die sie erhalten). Beide Lesarten sind korrekt.