Skill-RAG löst Retrieval nur aus, wenn das LLM zu scheitern droht
Skill-RAG ersetzt die monolithische Retrieve-Always-RAG-Pipeline durch eine Fehlererkennungsarchitektur: Eine auf LLM-Hidden-States trainierte Sonde sagt vorher, ob das Modell kurz davor steht, eine falsche Antwort zu produzieren. Retrieval wird nur dann ausgelöst, wenn die Sonde einen unmittelbaren Fehler erkennt; verschiedene Fehlermodi (faktische Lücken, Multi-Hop-Reasoning-Versagen, zeitliche Wissenslücken) werden an unterschiedliche spezialisierte Retrieval-Skills weitergeleitet. Das Ergebnis übertrifft sowohl Standard-RAG als auch Full-Context-Retrieval auf HotpotQA, Natural Questions und TriviaQA — sowohl in Effizienz als auch in Genauigkeit.
Warum das relevant ist
Skill-RAG rahmt die zentrale RAG-Designfrage neu: nicht mehr „Wie ist unsere Retriever-Architektur aufgebaut?", sondern „Wann sollten wir abrufen, und welcher Retrieval-Skill ist geeignet?" Diese Verschiebung — vom monolithischen Pipeline zu kombinierbaren Primitiven, die nach Fehlermodus ausgewählt werden — ist direkt auf jedes produktive Agentic-System übertragbar, in dem Retrieval-Kosten und Latenz eine Rolle spielen.