Sakana AI Conductor: 7B-RL-Orchestrator erreicht SOTA auf GPQA-Diamond bei ICLR 2026

Sakana AIs Conductor, bei ICLR 2026 angenommen, ist ein 7-Milliarden-Parameter-Modell, das per Reinforcement Learning darauf trainiert wurde, andere LLMs zu routen und zu koordinieren – und auf GPQA-Diamond und LiveCodeBench State-of-the-Art erreicht. Werden rekursive Selbstrouting-Topologien erlaubt, entstehen diese autonom.

Sakana AI Conductor: 7B-RL-Orchestrator erreicht SOTA auf GPQA-Diamond bei ICLR 2026

Das bei ICLR 2026 angenommene Conductor-Modell von Sakana AI ist ein 7-Milliarden-Parameter-Modell, das per Reinforcement Learning darauf trainiert wurde, Multi-Agenten-Topologien zu entwerfen und Instruktionen für jeden Worker-Agenten im System zu generieren. Statt Aufgaben direkt zu lösen, leitet Conductor andere Large Language Models zu den passenden Aufgaben weiter und formuliert deren Anweisungen. Ergebnisse: State-of-the-Art auf GPQA-Diamond (wissenschaftliche Fragen auf Expertenniveau) und LiveCodeBench, wobei rekursive Topologien autonom entstehen, wenn Selbst-Routing zugelassen wird. Allein durch das Routing erzielte individuelle Worker-Gewinne von ca. 3 % auf AIME25 und GPQA-Diamond sind vergleichbar mit einem vollständigen generationalen Modell-Upgrade.

Einordnung

Conductor ist das bisher stärkste Argument dafür, dass „der Orchestrator selbst ein gelerntes Modell sein sollte" – statt handkonfiguriertem Scaffolding. Ein 7B-Modell, das SOTA durch Koordination statt roher Rechenleistung erreicht, deutet auf eine neue Skalierungsachse hin: gelernte Orchestrierung – verschieden sowohl von Pre-Training-Skalierung als auch von Fine-Tuning.

Sakana AI Conductor: 7B-RL-Orchestrator erreicht SOTA auf GPQA-Diamond bei ICLR 2026

Sakana AI Conductor: 7B-RL-Orchestrator erreicht SOTA auf GPQA-Diamond bei ICLR 2026

Einordnung

Live News Feed