Shimmy v1.9.0: Einzelne 4,8-MB-Binärdatei unterstützt alle GPU-Backends für lokale LLM-Inferenz
Shimmy v1.9.0 erscheint als „Kitchen Sink"-Build: eine einzelne Rust-Binärdatei pro Plattform (Windows/Linux x64 und macOS ARM64), die CUDA, Vulkan, OpenCL oder CPU zur Laufzeit automatisch erkennt und nutzt. Die 4,8 MB große Binärdatei soll 142-mal kleiner sein als Ollama (680 MB) und startet in unter 100 ms. Das Release ergänzt MoE-CPU-Offloading, um 70B+-Modelle auf Consumer-VRAM laufen zu lassen, indem Mixture-of-Experts-Schichten auf GPU und Systemarbeitsspeicher verteilt werden. MIT-lizenziert mit einem ausdrücklichen Versprechen auf dauerhaft kostenlose Nutzung. Zweimal auf der Hacker-News-Frontpage vertreten.
Einordnung
Shimmys Einzelbinär-Ansatz beseitigt die Kompilierungs- und Backend-Auswahlhürden, die Entwickler mit mittlerem Erfahrungsniveau vom Betrieb lokaler LLMs abhalten. In Verbindung mit der konfigurationsfreien Modell-Autoentdeckung aus HuggingFace, Ollama und lokalen Verzeichnissen ist dies der bislang deutlichste Versuch, lokale Inferenz so reibungslos wie pip install zu gestalten.