NanoResearch: Erster KI-Wissenschaftler mit ko-evolvierenden Fähigkeiten, Gedächtnis und RL
Ein Konsortium aus sieben chinesischen Institutionen (Shanghai AI Lab, HKUST, Peking, Zhejiang, SJTU, ECUST, CUHK) hat NanoResearch unter MIT-Lizenz veröffentlicht. Das System schließt drei Regelkreise, die früheren KI-Wissenschaftlern fehlten: eine persistente Skill-Bank (Markdown-Dateien, die nach jedem Projekt aktualisiert werden), Gedächtnismodule (Projektfakten und gescheiterte Hypothesen) sowie SDPO — Self-Distillation Policy Optimization —, das natürlichsprachliches Nutzerfeedback in Token-Level-Gradientenaktualisierungen überführt, die die Orchestrator-Gewichte ohne Reward-Modell verändern. Ablationen bestätigen reduzierte API-Aufrufe, halbierten GPU-Aufwand und niedrigere Kosten gegenüber AI Scientist v2.
Warum das relevant ist
Die Umwandlung von Freitext-NL-Feedback in direkte Gewichtsaktualisierungen ohne Reward-Modell ist der methodische Durchbruch. Die Forscherpersönlichkeit des Agenten passt sich im Zeitverlauf an den individuellen Nutzerstil an und schließt damit den Kreislauf zwischen menschlicher Präferenz und autonomer wissenschaftlicher Produktion.