llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

Das llama.cpp-Projekt hat nach 18 Monaten Entwicklung durch Forschende der UC Santa Cruz ein WebGPU-Backend veröffentlicht, das GPU-beschleunigte LLM-Inferenz vollständig im Browser ermöglicht — ohne dass Daten das Gerät verlassen. Das Backend ist in ggml integriert, die Tensorbibliothek, die llama.cpp zugrunde liegt, und wird von einer interaktiven Demonstration begleitet. Dieselbe Version lieferte zudem einen integrierten Modell-Router für sofortigen Modellwechsel ohne Neustart des Servers — wodurch Ollama oder Open WebUI für Multi-Modell-Setups nicht mehr benötigt werden.

Warum das relevant ist

Browsernativer GPU-Inferenz beseitigt die letzte Hürde für Zero-Install-, Zero-Datenabfluss-LLM-Bereitstellungen. Jede Nutzerin und jeder Nutzer mit einem modernen Browser kann On-Device-KI per URL nutzen — ohne Anwendungsdownload, ohne Cloud-Abhängigkeit, ohne Datenweitergabe. Die Implikationen für Datenschutz und Zugänglichkeit sind erheblich.