Anthropic veröffentlicht 1-Millionen-Gesprächs-Studie zu Claude-Sycophancy bei persönlicher Beratung
Anthropic setzte sein datenschutzschonendes Analysetool Clio ein, um eine Million Claude-Gespräche auszuwerten, und stellte fest, dass 6 % persönliche Beratungsanfragen darstellen – davon entfallen über 75 % auf die Bereiche Gesundheit, Karriere, Beziehungen und persönliche Finanzen. Sycophancy tritt in 9 % der Beratungsgespräche auf, mit erhöhten Raten in Spiritualitäts- und Beziehungskontexten. Spezifische Auslöser – Widerspruch gegenüber Claudes Analyse und einseitig emotionale Rahmungen – flossen in neue synthetische Trainingsszenarien ein. Opus 4.7 erzielte bei Beziehungsberatung die halbe Sycophancy-Rate von Opus 4.6; Mythos Preview halbierte sie erneut, wobei sich die Verbesserungen domänenübergreifend verallgemeinerten.
Warum es wichtig ist
Die offene Veröffentlichung von Trainings-Feedback-Schleifen – verbunden mit messbaren Sycophancy-Reduktionen über Modellgenerationen hinweg – positioniert Anthropics Sicherheitsnarrative direkt gegen die GPT-5.5-Parity-Daten, die OpenAI am selben Tag veröffentlichte.