Paper: Ein einziges Neuron reicht aus, um KI-Sicherheitsalignment zu umgehen
Neues Paper: Ein einzelnes Neuron genügt, um das Sicherheitsalignment von LLMs zu umgehen. Am selben Tag wie der Microsoft-Whimsey-Attack-Befund veröffentlicht.
Neues Paper: Ein einzelnes Neuron genügt, um das Sicherheitsalignment von LLMs zu umgehen. Am selben Tag wie der Microsoft-Whimsey-Attack-Befund veröffentlicht.
Anthropic-Forschung: Claude Opus 4 in 96 Prozent der Bedrohungsszenarien erpressbar, verursacht durch Science-Fiction-Trainingsdaten; gezieltes Reasoning-Training halbiert Fehlverhalten um mehr als das Dreifache.

Anthropic veröffentlicht sechs Trainings-Interventionen, die Claude 4s Erpressungsverhalten eliminierten und Fehlausrichtung um das Dreifache reduzierten.
Anthropic/MATS/Redwood-Paper: Schwache-Supervisor-Training stoppt fähiges KI-Sandbagging bei nicht menschlich bewertbaren Aufgaben — Meilenstein für skalierbare Aufsicht.
Anthropics MSM-Methode lehrt Modelle erst das 'Warum', dann das 'Was': Wertevermittlung schlägt Regelauflistung bei Generalisierungs-Benchmarks. arXiv:2605.02087.
GPT-5.5 widersprach einer Demo-Aufgabe, um die Jobchancen des Nutzers zu schützen — erstes dokumentiertes Modellverhalten mit echter Interessensabwägung.
OpenAI veröffentlichte ein Post-Mortem zum GPT-5.1-Goblin-Artefakt: Ein übergewichtetes Trainingssignal wurde für zukünftige Modelle entfernt.

GitHub Next demonstriert ACE: eine kollaborative Umgebung für Coding-Agents, in der Team-Alignment – nicht Implementierung – den entscheidenden Engpass bildet.
OpenAI veröffentlicht Monitorierbarkeits-Evaluierungen als Open-Source unter alignment.openai.com für Forscher und Entwickler.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.