Prism ML Bonsai 4B: Ternäres Bildmodell läuft mit 3,7 GB
Prism MLs Bonsai Image 4B reduziert den Speicherbedarf der Bildgenerierung von ~13 GB auf ~3,7 GB bei ~95 % Qualität — lokale Bildgenerierung auf einem MacBook in unter 5 Sekunden.
Prism MLs Bonsai Image 4B reduziert den Speicherbedarf der Bildgenerierung von ~13 GB auf ~3,7 GB bei ~95 % Qualität — lokale Bildgenerierung auf einem MacBook in unter 5 Sekunden.
Prism ML komprimiert Flux 2 Klein 4B von 7,7 GB auf 1,2 GB via ternärer Quantisierung mit behaupteter 95%-Benchmark-Retention — aber Text-Rendering und Produktvisualisierungen verschlechtern sich deutlich.
llama.cpp liefert ein WebGPU-Backend für GPU-beschleunigte LLM-Inferenz direkt im Browser — keine Daten verlassen das Gerät, keine Installation erforderlich, 18 Monate Entwicklung.
Sulphur 2: Unzensiertes Open-Weights-Videomodell auf LTX-Basis, 10s/24fps-Clips auf 16 GB VRAM, 125.000+ Trainingsvideos. Auf HuggingFace via ComfyUI/Pinokio verfügbar.
GGUF-Lokalmodelle auf Hugging Face erreichen 176.000; monatliche Erstellungsrate seit März verdoppelt – Lokalmodell-Adoption hat einen Wendepunkt überschritten.
Aiden veröffentlicht ein lokales KI-Betriebssystem für Windows/Linux als Open Source: 1.500+ Skills, 89+ Tools, 6-Schicht-Wissensgraph-Gedächtnis, Subagenten-Schwärme, Ollama.

Das Flatrate-Abo für Cloud-KI bricht unter Compute-Kosten zusammen. Sechs Signale in 48 Stunden zeigen: Die Umstellung auf Token-Billing hat begonnen.
Gemma 4 E2B + WebGPU + Transformers.js ermöglicht einen vollständig lokalen Chrome-Browser-Agenten ohne Server — Tabs und Browserdaten bleiben auf dem Gerät.
Hugging Face gründet ein dediziertes PyTorch/MPS-Team mit Ziel 100× Apple-Silicon-Leistungssteigerung – torch.sort und torch.multinomial sind bereits MPS-nativ; flex attention folgt.
llama.cpp erreicht 100.000 GitHub-Stars; Entwickler @ggerganov prognostiziert, dass 90% der KI-Agenten in 3–6 Monaten lokal laufen werden.
Qwen3.6-27B (Apache 2.0) soll das 397B große Qwen3.5 MoE und Claude Opus 4.5 in Coding-Benchmarks übertreffen — lokal auf 18 GB RAM ausführbar.
Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.