12 Artikel

#local-ai

Prism ML Bonsai 4B: Ternäres Bildmodell läuft mit 3,7 GB

Prism MLs Bonsai Image 4B reduziert den Speicherbedarf der Bildgenerierung von ~13 GB auf ~3,7 GB bei ~95 % Qualität — lokale Bildgenerierung auf einem MacBook in unter 5 Sekunden.

30. Mai 20261 Min. Lesezeit

Forschungbreaking

Prism ML liefert ternäres Flux 2 Klein 4B: 7,7 GB auf 1,2 GB komprimiert

Prism ML komprimiert Flux 2 Klein 4B von 7,7 GB auf 1,2 GB via ternärer Quantisierung mit behaupteter 95%-Benchmark-Retention — aber Text-Rendering und Produktvisualisierungen verschlechtern sich deutlich.

27. Mai 20261 Min. Lesezeit

Technologiebreaking

llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

llama.cpp liefert ein WebGPU-Backend für GPU-beschleunigte LLM-Inferenz direkt im Browser — keine Daten verlassen das Gerät, keine Installation erforderlich, 18 Monate Entwicklung.

27. Mai 20261 Min. Lesezeit

Toolsbreaking

Sulphur 2: Unzensiertes Open-Source-Videomodell erzeugt 10-Sekunden-Clips auf 16 GB VRAM

Sulphur 2: Unzensiertes Open-Weights-Videomodell auf LTX-Basis, 10s/24fps-Clips auf 16 GB VRAM, 125.000+ Trainingsvideos. Auf HuggingFace via ComfyUI/Pinokio verfügbar.

14. Mai 20261 Min. Lesezeit

Technologiebreaking

GGUF-Ökosystem erreicht 176.000 Modelle; monatliches Wachstum seit März fast verdoppelt

GGUF-Lokalmodelle auf Hugging Face erreichen 176.000; monatliche Erstellungsrate seit März verdoppelt – Lokalmodell-Adoption hat einen Wendepunkt überschritten.

10. Mai 20261 Min. Lesezeit

Toolsbreaking

Aiden veröffentlicht lokales KI-Betriebssystem als Open Source: 1.500 Skills, kein Cloud-Zwang

Aiden veröffentlicht ein lokales KI-Betriebssystem für Windows/Linux als Open Source: 1.500+ Skills, 89+ Tools, 6-Schicht-Wissensgraph-Gedächtnis, Subagenten-Schwärme, Ollama.

3. Mai 20261 Min. Lesezeit

Branchereport

Die Abo-Krise: Compute-Ökonomie zwingt Cloud-KI in eine tokenbasierte Zukunft

Das Flatrate-Abo für Cloud-KI bricht unter Compute-Kosten zusammen. Sechs Signale in 48 Stunden zeigen: Die Umstellung auf Token-Billing hat begonnen.

30. April 202610 Min. Lesezeit

Technologiebreaking

Gemma 4 treibt vollständig lokalen Browser-Agenten via WebGPU an — kein Server, kein API-Key

Gemma 4 E2B + WebGPU + Transformers.js ermöglicht einen vollständig lokalen Chrome-Browser-Agenten ohne Server — Tabs und Browserdaten bleiben auf dem Gerät.

29. April 20261 Min. Lesezeit

Technologiebreaking

Hugging Face gründet dediziertes PyTorch/MPS-Team für Apple Silicon

Hugging Face gründet ein dediziertes PyTorch/MPS-Team mit Ziel 100× Apple-Silicon-Leistungssteigerung – torch.sort und torch.multinomial sind bereits MPS-nativ; flex attention folgt.

25. April 20261 Min. Lesezeit

Technologiebreaking

llama.cpp erreicht 100.000 GitHub-Stars; Entwickler prognostiziert 90% lokale KI-Agenten

llama.cpp erreicht 100.000 GitHub-Stars; Entwickler @ggerganov prognostiziert, dass 90% der KI-Agenten in 3–6 Monaten lokal laufen werden.

25. April 20261 Min. Lesezeit

Technologiebreaking

Qwen3.6-27B: 27B-Modell übertrifft angeblich 397B MoE in allen Coding-Benchmarks

Qwen3.6-27B (Apache 2.0) soll das 397B große Qwen3.5 MoE und Claude Opus 4.5 in Coding-Benchmarks übertreffen — lokal auf 18 GB RAM ausführbar.

23. April 20261 Min. Lesezeit

Technologie

Qwen3.6-27B übertrifft ein 397B-Modell bei Coding-Benchmarks

Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.

23. April 20262 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.