HeavySkill RLVR hebt GPT-OSS-20B von 69,7 % auf 85,5 % auf LiveCodeBench

HeavySkill ist ein zweistufiger Trainingsansatz, der RLVR (Reinforcement Learning with Verifiable Rewards) nutzt, um paralleles Schlussfolgern und Deliberation als erlernbare Modellfähigkeiten zu internalisieren – statt als Laufzeit-Harness-Verhalten. Auf GPT-OSS-20B angewandt, verbessert sich die LiveCodeBench-Leistung von 69,7 % auf 85,5 % – ein Gewinn von 16 Punkten. Auf IFEval verbessert sich R1-Distill-Qwen-32B von 35,7 % auf 69,3 %, ein Gewinn von 33 Punkten. Die zugrundeliegende These: Fähigkeiten, die bisher als externes Scaffolding implementiert waren (parallele Abfrageverarbeitung, Deliberationsschleifen), lassen sich in die Modellgewichte trainieren – wodurch die Verbesserung dauerhaft und zur Inferenzzeit günstig wird.

Einordnung

Wenn sich Agentic-Harness-Gewinne routinemäßig per RLVR in Modellgewichte überführen lassen, gefährdet dies das Geschäftsmodell von Orchestrierungsframework-Anbietern (LangChain, LlamaIndex, CrewAI) und legt nahe, dass der heutige „Best-Practice"-Harness zum voreingestellten Modellverhalten des nächsten Jahres wird.