„Memory Laundering": Toxischer Kontext übersteht KI-Zusammenfassung unterhalb von Detektorschwellen

Neue Forschungsergebnisse von Wang et al. zeigen, dass toxischer oder feindlich gestalteter Kontext, der in memory-augmented Agents injiziert wird, den Zusammenfassungsschritt als komprimierte Speichereinträge überstehen kann — unterhalb der Erkennungsschwellen gängiger Toxizitätsdetektoren, mit ausreichend feindseliger Rahmung, um nachgelagerte Ausgaben zu beeinflussen. Die Studie führt den Sub-Threshold Propagation Gap (SPG) als formales Messkonzept ein. Entscheidend: Eine nachträgliche Bereinigung der fertigen Zusammenfassung reicht nicht aus. Der eingeschleuste Einfluss bleibt durch den Laundering-Prozess erhalten; nur eine Bereinigung vor der Zusammenfassung verhindert die Ausbreitung.

Warum das wichtig ist

Dies betrifft unmittelbar jede Pipeline, die Gesprächsverläufe, Nachrichteninhalte oder Agentenausgaben vor der Wiederverwendung in Memory-Stores komprimiert. Die Bereinigung vor der Komprimierung ist für produktive Agenten-Memory-Systeme keine optionale Optimierung mehr, sondern ein notwendiger Schritt.