Turings Open MM-RL erreicht Platz 1 der Trending-Liste auf HuggingFace mit PhD-Niveau-MINT-Benchmark
Turing hat Open MM-RL veröffentlicht – einen multimodalen MINT-Benchmark mit PhD-Niveau-Schwierigkeit in Physik, Chemie, Biologie und Mathematik. Jede Antwort ist zu 100 % deterministisch verifizierbar – keine subjektive Bewertung –, und jede Aufgabe wurde von PhD-Fachspezialisten doppelt geprüft. Der Datensatz unterstützt Einzel-Bild-, Multi-Panel- und Multi-Bild-Aufgabenformate zur Komplexitätsskalierung. Beim Erscheinen belegte er Platz 1 der HuggingFace-Trending-Liste; 3.000 weitere sofort einsetzbare Aufgaben wurden als baldige Ergänzung angekündigt.
Warum das relevant ist
PhD-Niveau-MINT mit verifizierbarer Ground Truth schließt eine wesentliche Lücke in der Evaluation von Frontier-Modellen. Da Modelle sich menschlicher Expertenleistung auf bestehenden Benchmarks annähern, wird deterministische Evaluation auf PhD-Niveau unverzichtbar, um echte Fähigkeitsregressionen oder -verbesserungen zuverlässig zu erkennen.