MILKYWAY-Paper: Vorhersage-Harness erreicht 61% vs. 44% für reines GPT-5.4 + Websuche

Ein neues arXiv-Preprint der City University of Hong Kong, Tsinghua und USTC stellt MILKYWAY vor — einen externen Text-Harness, der GPT-5.4 + Websuche bei Vorhersage-Benchmarks übertrifft (61% vs. 44%), indem er das Lernen in editierbare Skill.md-Dateien auslagert, die von einem zweiten Harness-Editor-Agenten aktualisiert werden.

MILKYWAY-Paper: Vorhersage-Harness erreicht 61% vs. 44% für reines GPT-5.4 + Websuche

Forscher der City University of Hong Kong, der Tsinghua University und der USTC veröffentlichten MILKYWAY (arXiv-Preprint, 17. April) — ein System, das die Gewichte von GPT-5.4 einfriert und das gesamte Lernen in einen externen, editierbaren Text-Harness auslagert, der auf drei Komponenten aufbaut: Factors (F), Evidence (E) und Uncertainty (T). Ein zweiter „Harness-Editor"-Agent schreibt das Instruktionshandbuch fortlaufend neu, sobald neue Erkenntnisse zu einem noch offenen Ereignis vorliegen. Ergebnisse auf den Future-X- und Future-World-Benchmarks: MILKYWAY erreicht 61% gegenüber GPT-5.4 + Websuche mit 44%, wobei sich der Abstand bei längeren Vorhersagehorizonten vergrößert (70% vs. 57% bei T-5 Tagen).

Warum das wichtig ist

MILKYWAY demonstriert konkret, dass Agent-Scaffolding Basis-Modell-Upgrades bei einer strukturierten Reasoning-Aufgabe übertreffen kann — ohne jede Änderung an den Modellgewichten. Das Skill.md-Muster (editierbare Text-Instruktionsdateien, die von einem Meta-Agenten aktualisiert werden) entspricht direkt den Konventionen in Claude Code und zunehmend auf anderen Agenten-Plattformen. Die zentrale Einschränkung: Wird der Harness gelöscht, fällt das Modell auf sein Basis-Leistungsniveau zurück. Analyse und Walkthrough: Discover AI.

MILKYWAY-Paper: Vorhersage-Harness erreicht 61% vs. 44% für reines GPT-5.4 + Websuche

MILKYWAY-Paper: Vorhersage-Harness erreicht 61% vs. 44% für reines GPT-5.4 + Websuche

Warum das wichtig ist

Live News Feed