ml-intern: HuggingFace veröffentlicht einen vollautomatischen Post-Training-Agenten
HuggingFace hat ml-intern veröffentlicht, einen Open-Source-Agenten, der die vollständige Machine-Learning-Pipeline von der Forschung bis zum Training auf Basis eines einzigen übergeordneten Prompts ausführt. Es ist eine der konkretesten Demonstrationen bisher, dass autonome KI KI-Forschungsarbeit durchführt — nicht bei jedem Schritt auf menschliche Anleitung wartend, sondern den vollständigen Loop selbstständig abschließend.
Was die Quellen tatsächlich sagen
Man gibt einen Prompt wie „baue das beste wissenschaftliche Reasoning-Modell" ein, und ml-intern erledigt den Rest: Es liest arXiv-Paper und Zitationsgraphen, um relevante Techniken zu identifizieren, lädt und bereinigt Datensätze vom HF Hub, implementiert SFT- und GRPO-Trainings-Skripte, startet Jobs über HF Jobs oder lokale Infrastruktur, überwacht Run-Metriken, diagnostiziert Fehler, führt Ablationen durch und iteriert, bis die Ergebnisse sich verbessern.
Die Benchmark-Zahlen sind konkret. Bei Qwen3-1.7B mit Fokus auf wissenschaftliches Reasoning steigerte ml-intern GPQA in unter 10 Stunden von 10% auf 32% — und überbot dabei Claude Codes besten gemeldeten Score von 22,99% auf demselben Benchmark. In einem Healthcare-Domain-Test befand der Agent verfügbare Datensätze als zu minderer Qualität, generierte 1.100 synthetische Datenpunkte von Grund auf und schlug OpenAIs Codex auf HealthBench um 60%. In einem Mathematik-Domain-Test schrieb er ein GRPO-Skript, startete es auf A100s via HF Spaces, beobachtete den Kollaps der Reward-Kurven, führte Ablationen durch und erholte sich — ohne Aufsicht.
HuggingFace-CEO Clément Delangue führte einen persönlichen Test durch: 1 Stunde Post-Training, rund 1 Dollar Rechenkosten auf HF Jobs. Er hat 1.000 USD in GPU-Credits sowie Anthropic-API-Credits für frühe Community-Nutzer bereitgestellt. Das Projekt ist sowohl als CLI (github.com/huggingface/ml-intern) als auch als Web-App (huggingface.co/spaces/smolagents/ml-intern) verfügbar.
Strategische Einordnung
ml-intern stellt die Annahme direkt in Frage, dass menschliches Urteilsvermögen bei jeder Trainingsentscheidung erforderlich ist. Für KI-Engineering-Teams ist der Einstiegspreis bewusst niedrig gehalten — kleine Basismodelle, Commodity-Compute, Minuten Laufzeit. Die Open-Source-Veröffentlichung bedeutet zudem, dass das Scaffolding des Agenten eine lesbare, forkbare Referenz für Teams ist, die bereichsspezifische Post-Training-Pipelines aufbauen.