NanoResearch: Erster KI-Wissenschaftler mit ko-evolvierenden Fähigkeiten, Gedächtnis und RL

Ein chinesisches Konsortium aus sieben Institutionen veröffentlichte NanoResearch, den ersten KI-Wissenschaftler-Agenten mit dreistufiger Ko-Evolution: einer persistenten Skill-Bank, Gedächtnismodulen und Orchestrator-Level-RL via Self-Distillation Policy Optimization (SDPO) — ohne Reward-Modell.

1 Min. Lesezeit|agenticonsult Intelligence

NanoResearch: Erster KI-Wissenschaftler mit ko-evolvierenden Fähigkeiten, Gedächtnis und RL

Ein Konsortium aus sieben chinesischen Institutionen (Shanghai AI Lab, HKUST, Peking, Zhejiang, SJTU, ECUST, CUHK) hat NanoResearch unter MIT-Lizenz veröffentlicht. Das System schließt drei Regelkreise, die früheren KI-Wissenschaftlern fehlten: eine persistente Skill-Bank (Markdown-Dateien, die nach jedem Projekt aktualisiert werden), Gedächtnismodule (Projektfakten und gescheiterte Hypothesen) sowie SDPO — Self-Distillation Policy Optimization —, das natürlichsprachliches Nutzerfeedback in Token-Level-Gradientenaktualisierungen überführt, die die Orchestrator-Gewichte ohne Reward-Modell verändern. Ablationen bestätigen reduzierte API-Aufrufe, halbierten GPU-Aufwand und niedrigere Kosten gegenüber AI Scientist v2.

Warum das relevant ist

Die Umwandlung von Freitext-NL-Feedback in direkte Gewichtsaktualisierungen ohne Reward-Modell ist der methodische Durchbruch. Die Forscherpersönlichkeit des Agenten passt sich im Zeitverlauf an den individuellen Nutzerstil an und schließt damit den Kreislauf zwischen menschlicher Präferenz und autonomer wissenschaftlicher Produktion.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

NanoResearch: Erster KI-Wissenschaftler mit ko-evolvierenden Fähigkeiten, Gedächtnis und RL

NanoResearch: Erster KI-Wissenschaftler mit ko-evolvierenden Fähigkeiten, Gedächtnis und RL

Warum das relevant ist

Live News Feed