Anthropic veröffentlicht Alignment-Paper zur Modellspezifikations-Midtraining-Methode
Anthropic hat ein neues Alignment-Paper veröffentlicht, das Model Spec Midtraining (MSM) vorstellt — eine Methode, die den gängigen Alignment-Fehler behebt, bei dem auf Verhaltensbeispielen basierendes Training nicht auf neue Situationen generalisiert. MSM lehrt das Modell zunächst, wie und warum Werte zu generalisieren sind, bevor Verhaltensbeispiele eingeführt werden. Das Paper untersucht empirisch, welche Modellspezifikationen und Konstitutionen die beste Generalisierung erzielen, und kommt zu dem Ergebnis, dass die Vermittlung zugrundeliegender Werte der bloßen Regelspezifikation überlegen ist — mit weiteren Verbesserungen durch detaillierte Unterregeln.
Warum das relevant ist
MSM adressiert ein grundlegendes Problem bei der Ausrichtung leistungsfähiger KI-Systeme in der Breite: Verstehen Modelle die Intention hinter ihrem Training nicht, funktionieren sie bei vertrauten Mustern korrekt, versagen jedoch bei neuartigen Variationen. Das vollständige Paper ist unter arxiv.org/abs/2605.02087 verfügbar.