„Memory Laundering”: Toxischer Kontext übersteht KI-Zusammenfassung unterhalb von Detektorschwellen

Forscher zeigen, dass toxischer Kontext, der in memory-augmented Agents injiziert wird, den Zusammenfassungsschritt als komprimierte Speichereinträge überstehen kann — unterhalb der Erkennungsschwellen gängiger Toxizitätsdetektoren, mit ausreichend feindseliger Rahmung, um nachgelagerte Ausgaben zu beeinflussen. Die Studie führt den Sub-Threshold Propagation Gap (SPG) als formales Messkonzept ein. Der zentrale Befund: Bereinigung muss vor der Zusammenfassung erfolgen — eine abgeschlossene Zusammenfassung nachträglich zu bereinigen lässt den eingeschleusten Einfluss bestehen.

„Memory Laundering": Toxischer Kontext übersteht KI-Zusammenfassung unterhalb von Detektorschwellen

Neue Forschungsergebnisse von Wang et al. zeigen, dass toxischer oder feindlich gestalteter Kontext, der in memory-augmented Agents injiziert wird, den Zusammenfassungsschritt als komprimierte Speichereinträge überstehen kann — unterhalb der Erkennungsschwellen gängiger Toxizitätsdetektoren, mit ausreichend feindseliger Rahmung, um nachgelagerte Ausgaben zu beeinflussen. Die Studie führt den Sub-Threshold Propagation Gap (SPG) als formales Messkonzept ein. Entscheidend: Eine nachträgliche Bereinigung der fertigen Zusammenfassung reicht nicht aus. Der eingeschleuste Einfluss bleibt durch den Laundering-Prozess erhalten; nur eine Bereinigung vor der Zusammenfassung verhindert die Ausbreitung.

Warum das wichtig ist

Dies betrifft unmittelbar jede Pipeline, die Gesprächsverläufe, Nachrichteninhalte oder Agentenausgaben vor der Wiederverwendung in Memory-Stores komprimiert. Die Bereinigung vor der Komprimierung ist für produktive Agenten-Memory-Systeme keine optionale Optimierung mehr, sondern ein notwendiger Schritt.

„Memory Laundering”: Toxischer Kontext übersteht KI-Zusammenfassung unterhalb von Detektorschwellen

„Memory Laundering": Toxischer Kontext übersteht KI-Zusammenfassung unterhalb von Detektorschwellen

Warum das wichtig ist

Live News Feed