Forschungbreaking
SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen
SSRL nutzt RL, um LLMs das interne Durchsuchen eigener Parameter beizubringen – 5,5× schnelleres Training, keine API-Aufrufe, und 20–42% bessere Google-Suchnutzung.
26. April 20261 Min. Lesezeit