MILKYWAY-Paper: Vorhersage-Harness erreicht 61% vs. 44% für reines GPT-5.4 + Websuche
Forscher der City University of Hong Kong, der Tsinghua University und der USTC veröffentlichten MILKYWAY (arXiv-Preprint, 17. April) — ein System, das die Gewichte von GPT-5.4 einfriert und das gesamte Lernen in einen externen, editierbaren Text-Harness auslagert, der auf drei Komponenten aufbaut: Factors (F), Evidence (E) und Uncertainty (T). Ein zweiter „Harness-Editor"-Agent schreibt das Instruktionshandbuch fortlaufend neu, sobald neue Erkenntnisse zu einem noch offenen Ereignis vorliegen. Ergebnisse auf den Future-X- und Future-World-Benchmarks: MILKYWAY erreicht 61% gegenüber GPT-5.4 + Websuche mit 44%, wobei sich der Abstand bei längeren Vorhersagehorizonten vergrößert (70% vs. 57% bei T-5 Tagen).
Warum das wichtig ist
MILKYWAY demonstriert konkret, dass Agent-Scaffolding Basis-Modell-Upgrades bei einer strukturierten Reasoning-Aufgabe übertreffen kann — ohne jede Änderung an den Modellgewichten. Das Skill.md-Muster (editierbare Text-Instruktionsdateien, die von einem Meta-Agenten aktualisiert werden) entspricht direkt den Konventionen in Claude Code und zunehmend auf anderen Agenten-Plattformen. Die zentrale Einschränkung: Wird der Harness gelöscht, fällt das Modell auf sein Basis-Leistungsniveau zurück. Analyse und Walkthrough: Discover AI.