HuggingFace ml-intern: Autonomer Post-Training-Agent steigert GPQA von 10% auf 32% in unter 10 Stunden

HuggingFace hat ml-intern als quelloffenes Werkzeug veröffentlicht, das ausgehend von einem übergeordneten Prompt („baue das beste wissenschaftliche Reasoning-Modell") den vollständigen Post-Training-Prozess autonom durchläuft: Es liest arXiv-Paper und Zitationsgraphen, lädt HF-Hub-Datensätze herunter und bereinigt sie, implementiert SFT/GRPO/synthetische Datengenerierung, startet Trainings-Jobs auf HF Jobs oder Spaces, überwacht Durchläufe, diagnostiziert Fehler und iteriert mit Ablationen. Im Bereich wissenschaftliches Reasoning steigerte es Qwen3-1.7B innerhalb von unter 10 Stunden von 10% auf 32% auf GPQA; im Healthcare-Bereich generierte es 1.100 synthetische Datenpunkte von Grund auf und übertraf Codex auf HealthBench um 60%. Clement Delangue testete das System eine Stunde lang bei Rechenkosten von rund einem Dollar.

Einordnung

ml-intern ist eine überzeugende Demo vollständig automatisierter Modellverbesserung ohne menschlichen Eingriff in den Trainingskreislauf — eine direkte Herausforderung an die Annahme, dass Post-Training ML-Engineering-Teams voraussetzt. Sollten sich die Benchmark-Gewinne in größerem Maßstab bestätigen, verschiebt sich das Bild dessen, was ein kleines KI-Team ohne dedizierte Forschungsfunktion leisten kann. Quelle: GitHub | Web-App.