7 Artikel

#local-inference

llama.cpp integriert Multi-Token-Prediction: 78 % mehr Durchsatz bei Qwen3.6

llama.cpp integriert MTP-Unterstützung und steigert den Qwen3.6-27B-Durchsatz um 78 % auf A10G ohne Qualitätsverlust – nur zwei CLI-Flags werden benötigt, kein zweites Modell.

20. Mai 20261 Min. Lesezeit

Toolsbreaking

Nous Hermes Agent v0.14.0: OAuth-Proxy macht Abonnements zu lokalen API-Endpunkten

Nous Hermes Agent v0.14.0 macht Claude Pro, ChatGPT Pro und SuperGrok per OAuth-Proxy als lokale OpenAI-kompatible Endpunkte nutzbar – das doppelte Bezahlen für Abo und API entfällt.

20. Mai 20261 Min. Lesezeit

Technologiebreaking

Qwen3 35B MoE aus Claude Opus destilliert — kostenlos als quantisiertes GGUF veröffentlicht

Qwen3 35B MoE aus Claude Opus destilliert — kostenlos als quantisiertes GGUF für lokale Inferenz mit nahezu Frontier-Qualität.

29. April 20261 Min. Lesezeit

Toolsbreaking

Shimmy v1.9.0: Einzelne 4,8 MB Binärdatei unterstützt alle GPU-Backends für lokale LLM-Inferenz

Shimmy v1.9.0 ist ein 4,8 MB großer, OpenAI-kompatibler lokaler Inferenzserver, der alle GPU-Backends bündelt und einen 142-fachen Größenvorteil gegenüber Ollama beansprucht.

29. April 20261 Min. Lesezeit

Technologiebreaking

DeepSeek V4 Flash mit 2-Bit-GGUF: Erste Frontier-Qualität im lokalen Betrieb

Entwickler berichten: DeepSeek V4 Flash mit 2-Bit-GGUF über llama.cpp liefert erstmals ein echtes Frontier-Modell-Erlebnis auf dem eigenen Rechner – ein Meilenstein für lokale KI.

28. April 20261 Min. Lesezeit

Technologiebreaking

Intel veröffentlicht INT4-Quantisierungen von DeepSeek-V4 Pro und Flash – kein MXFP4 nötig

Intel veröffentlicht W4A16-INT4-Quantisierungen von DeepSeek-V4-Pro und Flash via AutoRound – ohne MXFP4-Hardware lauffähig, was die Deployment-Basis für Self-Hosting erheblich erweitert.

28. April 20261 Min. Lesezeit

Technologiebreaking

Qwen3.6-27B veröffentlicht: Stärkstes kompaktes lokales Modell unter Apache 2.0

Qwen3.6-27B erscheint leise unter Apache 2.0: AAII-Score 46, für M-Series-Lokalausführung optimiert – das stärkste verfügbare kompakte lokale Modell.

27. April 20261 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.