llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

llama.cpp hat ein WebGPU-Backend ausgeliefert, das GPU-beschleunigte LLM-Inferenz vollständig im Browser ermöglicht. Keine Daten verlassen das Gerät. Von UCSC-Forschenden über 18 Monate entwickelt und in ggml integriert.

1 Min. Lesezeit|agenticonsult Intelligence

llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

Das llama.cpp-Projekt hat nach 18 Monaten Entwicklung durch Forschende der UC Santa Cruz ein WebGPU-Backend veröffentlicht, das GPU-beschleunigte LLM-Inferenz vollständig im Browser ermöglicht — ohne dass Daten das Gerät verlassen. Das Backend ist in ggml integriert, die Tensorbibliothek, die llama.cpp zugrunde liegt, und wird von einer interaktiven Demonstration begleitet. Dieselbe Version lieferte zudem einen integrierten Modell-Router für sofortigen Modellwechsel ohne Neustart des Servers — wodurch Ollama oder Open WebUI für Multi-Modell-Setups nicht mehr benötigt werden.

Warum das relevant ist

Browsernativer GPU-Inferenz beseitigt die letzte Hürde für Zero-Install-, Zero-Datenabfluss-LLM-Bereitstellungen. Jede Nutzerin und jeder Nutzer mit einem modernen Browser kann On-Device-KI per URL nutzen — ohne Anwendungsdownload, ohne Cloud-Abhängigkeit, ohne Datenweitergabe. Die Implikationen für Datenschutz und Zugänglichkeit sind erheblich.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

llama.cpp liefert WebGPU-Backend: Vollständige browserbasierte GPU-Inferenz ohne Installation

Warum das relevant ist

Live News Feed