GLM 5.1: Erstes Open-Source-Frontier-Modell mit ~1 Billion Parametern ist da

Z.ai (Zhipu AI) hat GLM 5.1 veröffentlicht — ein quelloffenes Frontier-Modell mit rund 1 Billion Parametern in vollständiger FP16-Präzision (~1,5 TB). EXO Labs demonstrierte den Betrieb auf einem 4-Mac-Studio-Cluster via RDMA-over-Thunderbolt bei ~20 Tokens pro Sekunde.

GLM 5.1: Erstes Open-Source-Frontier-Modell mit ~1 Billion Parametern ist da

Z.ai (Zhipu AI) hat GLM 5.1 veröffentlicht — das erste quelloffene Modell, das annähernd eine Billion Parameter in vollständiger FP16-Präzision (rund 1,5 TB Gewichte) erreicht. EXO Labs demonstrierte den Betrieb des Modells auf einem Cluster aus vier Mac Studios (je 512 GB), verbunden über RDMA-over-Thunderbolt, unter Verwendung frisch konvertierter MLX-4-Bit-Gewichte (~400 GB) bei etwa 20 Tokens pro Sekunde. Die Hardwarekosten — rund 40.000 USD in Consumer-Apple-Silicon — belegen, dass das Billionen-Parameter-Regime nun auch für Teams ohne Hyperscaler-Zugang erreichbar ist.

Warum das relevant ist

Ein quelloffenes Modell mit einer Billion Parametern, das auf einem 40.000-USD-Consumer-Hardware-Cluster betrieben werden kann, markiert eine fundamentale Öffnung von Frontier-AI für Teams außerhalb der großen Technologiekonzerne. EXOs RDMA-over-Thunderbolt-Demo etabliert Multi-Mac-Clustering als tragfähige Inferenz-Architektur für große Open-Source-Modelle.