SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

Self-Search Reinforcement Learning (SSRL, arXiv:2508.10874) schlägt vor, LLMs darauf zu trainieren, intern eine THINK→SEARCH_QUERY→INFORMATION→ANSWER-Schleife zu simulieren — die „Suchergebnisse" werden dabei selbst in speziellen Tags erzeugt, anstatt eine externe API aufzurufen. Information Token Masking zwingt das Modell dazu, die eigenen generierten Suchinhalte zu verstehen statt zu kopieren. Eine kombinierte Belohnungsfunktion (Korrektheit + Format) trainiert die gesamte Schleife. Das Training ist 5,5× schneller als Methoden mit echter externer Suche und offline-stabil. Entscheidend: SSRL-trainierte Modelle verbessern sich auch bei echten Google-Suchanfragen — Entropy-Guided Search reduziert externe API-Aufrufe um 20–42 %, indem Anfragen mit geringer Unsicherheit an das interne Wissen weitergeleitet werden.

Warum das relevant ist

SSRL stellt die Annahme in Frage, dass besseres Retrieval größere Kontextfenster oder schnellere externe APIs erfordert — durch verbesserte Effizienz der eigenen Parametersuche des Modells ermöglicht es kleineren Modellen, deutlich größere auf bestimmten Aufgaben zu erreichen, mit direkten Implikationen für die Kostenarchitektur agentischer Systeme.