Qwen3.6-35B aus Claude Opus 4.6 destilliert – läuft lokal in 13 GB RAM

Ein Community-GGUF von Qwen3.6-35B, destilliert aus Claude-Opus-4.6-Reasoning-Traces, macht Schlagzeilen — die 2-Bit-Version führt vollständige agentische Bug-Hunts in 13 GB RAM durch. Wirft ToS-Bedenken bezüglich der Destillation von Outputs geschlossener Modelle auf.

Qwen3.6-35B aus Claude Opus 4.6 destilliert — läuft lokal in 13 GB RAM

Ein Community-veröffentlichter GGUF, Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled, ist auf HuggingFace viral gegangen. Das Modell weist eine MoE-Architektur mit rund 3 Mrd. aktiven Parametern bei insgesamt 35 Mrd. auf und wurde aus den intermediären Reasoning-Traces von Claude Opus 4.6 destilliert — nicht nur aus dessen Endantworten. In einer Live-Demo führte die 2-Bit-quantisierte Version einen vollständigen agentischen Bug-Hunt in 13 GB RAM durch: über 30 Tool-Aufrufe, 20 durchsuchte Websites, ausgeführter Code, reproduzierter Fehler, geschriebener Fix, hinzugefügte Tests und ein geöffnetes PR. Der Autor weist explizit darauf hin, dass die Destillation aus Outputs kommerzieller Closed-Source-Modelle wahrscheinlich Anthropics Nutzungsbedingungen verletzt — die langfristige Verfügbarkeit der Gewichte ist daher ungewiss.

Warum das relevant ist

Die technische Leistung ist real: Reasoning-Fähigkeiten auf Frontier-Niveau, destilliert in ein Modell, das auf Consumer-Hardware mit 13 GB RAM läuft. Das rechtliche Signal ist ebenso real: Anbieter-ToS rund um Destillation werden zunehmend zum Streitfeld, da die Community entdeckt, dass sie Reasoning-Muster extrahieren kann, ohne Zugang zu den Modellgewichten zu benötigen.