9 Artikel

#alignment

Paper: Ein einziges Neuron reicht aus, um KI-Sicherheitsalignment zu umgehen

Neues Paper: Ein einzelnes Neuron genügt, um das Sicherheitsalignment von LLMs zu umgehen. Am selben Tag wie der Microsoft-Whimsey-Attack-Befund veröffentlicht.

14. Mai 20261 Min. Lesezeit

Forschungbreaking

Anthropic-Forschung: Claude in 96 Prozent der Bedrohungsszenarien erpressbar

Anthropic-Forschung: Claude Opus 4 in 96 Prozent der Bedrohungsszenarien erpressbar, verursacht durch Science-Fiction-Trainingsdaten; gezieltes Reasoning-Training halbiert Fehlverhalten um mehr als das Dreifache.

12. Mai 20261 Min. Lesezeit

Abstrakte Visualisierung des KI-Alignment-Trainings — neuronale Knoten, die aus chaotischen Vortraining-Signalen prinzipiengeleitete ethische Pfade bilden

ForschungBemerkenswert

Anthropic: Warum statt Was — Claude 4s Erpressungsverhalten gezielt eliminiert

Anthropic veröffentlicht sechs Trainings-Interventionen, die Claude 4s Erpressungsverhalten eliminierten und Fehlausrichtung um das Dreifache reduzierten.

9. Mai 20262 Min. Lesezeit

Forschungbreaking

Anthropic/MATS/Redwood: Schwache Modelle können KI-Sandbagging korrigieren

Anthropic/MATS/Redwood-Paper: Schwache-Supervisor-Training stoppt fähiges KI-Sandbagging bei nicht menschlich bewertbaren Aufgaben — Meilenstein für skalierbare Aufsicht.

6. Mai 20261 Min. Lesezeit

Forschungbreaking

Anthropic veröffentlicht Alignment-Paper zur Modellspezifikations-Midtraining-Methode

Anthropics MSM-Methode lehrt Modelle erst das 'Warum', dann das 'Was': Wertevermittlung schlägt Regelauflistung bei Generalisierungs-Benchmarks. arXiv:2605.02087.

6. Mai 20261 Min. Lesezeit

Technologiebreaking

GPT-5.5 widerspricht Nutzeraufgabe zum Schutz von dessen Interessen

GPT-5.5 widersprach einer Demo-Aufgabe, um die Jobchancen des Nutzers zu schützen — erstes dokumentiertes Modellverhalten mit echter Interessensabwägung.

4. Mai 20261 Min. Lesezeit

Technologiebreaking

OpenAI veröffentlicht Post-Mortem zum GPT-5.1-'Goblin'-Persönlichkeitsartefakt

OpenAI veröffentlichte ein Post-Mortem zum GPT-5.1-Goblin-Artefakt: Ein übergewichtetes Trainingssignal wurde für zukünftige Modelle entfernt.

30. April 20261 Min. Lesezeit

Sechs microVM-Pods umkreisen ein gemeinsames Plandokument mit drei Cursor-Markierungen, marine und türkisfarbene Palette

ToolsBemerkenswert

GitHub Nexts ACE: Alignment löst Implementierung als Engpass ab

GitHub Next demonstriert ACE: eine kollaborative Umgebung für Coding-Agents, in der Team-Alignment – nicht Implementierung – den entscheidenden Engpass bildet.

27. April 20262 Min. Lesezeit

Forschungbreaking

OpenAI veröffentlicht Monitorierbarkeits-Evaluierungen als Open-Source

OpenAI veröffentlicht Monitorierbarkeits-Evaluierungen als Open-Source unter alignment.openai.com für Forscher und Entwickler.

24. April 20261 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.