SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

SSRL (arXiv:2508.10874) verwendet RL, um LLMs darauf zu trainieren, intern THINK→SEARCH_QUERY→INFORMATION→ANSWER-Schleifen zu simulieren — ohne externe API-Aufrufe. Das Training ist 5,5× schneller; SSRL-trainierte Modelle verbessern sich auch bei echter Google-Suche um 20–42 %.

SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

Self-Search Reinforcement Learning (SSRL, arXiv:2508.10874) schlägt vor, LLMs darauf zu trainieren, intern eine THINK→SEARCH_QUERY→INFORMATION→ANSWER-Schleife zu simulieren — die „Suchergebnisse" werden dabei selbst in speziellen Tags erzeugt, anstatt eine externe API aufzurufen. Information Token Masking zwingt das Modell dazu, die eigenen generierten Suchinhalte zu verstehen statt zu kopieren. Eine kombinierte Belohnungsfunktion (Korrektheit + Format) trainiert die gesamte Schleife. Das Training ist 5,5× schneller als Methoden mit echter externer Suche und offline-stabil. Entscheidend: SSRL-trainierte Modelle verbessern sich auch bei echten Google-Suchanfragen — Entropy-Guided Search reduziert externe API-Aufrufe um 20–42 %, indem Anfragen mit geringer Unsicherheit an das interne Wissen weitergeleitet werden.

Warum das relevant ist

SSRL stellt die Annahme in Frage, dass besseres Retrieval größere Kontextfenster oder schnellere externe APIs erfordert — durch verbesserte Effizienz der eigenen Parametersuche des Modells ermöglicht es kleineren Modellen, deutlich größere auf bestimmten Aufgaben zu erreichen, mit direkten Implikationen für die Kostenarchitektur agentischer Systeme.

SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

Warum das relevant ist

Live News Feed