Gemma 4 übertrifft Modelle 20× seiner Größe auf LM Arena — jetzt Apache 2.0

Google DeepMind hat Gemma 4 unter Apache 2.0 veröffentlicht — eine bewusste Neulizenzierung, die die Modellfamilie als infrastrukturgeeignetes Open Source für On-Device- und agentische Workloads positioniert. Vier Größenstufen reichen von E2B und E4B (On-Device-Multimodalität) über 26B MoE bis hin zum dichten 31B-Flaggschiff, das bereits Platz drei auf dem globalen LM Arena Leaderboard belegt und damit geschlossene Modelle bis zur 20-fachen Parameterzahl übertrifft.

Was die Quelle tatsächlich sagt

Google-DeepMind-Forscherin Cassidy Hardin stellte auf der AI Engineer Conference vier zusammenwirkende Effizienzgewinne vor. Erstens: ein 5:1-Verhältnis von lokaler zu globaler Attention — lokale Schichten nutzen Sliding-Window-Attention (512–1.024 Token), die abschließende Schicht ist stets global, und Grouped Query Attention läuft lokal mit 2:1, global mit 8:1. Zweitens: Per-Layer Embeddings (PLE) — jede Schicht erhält eine eigene 256-dimensionale Tabelle, die im Flash-Speicher, nicht im VRAM abgelegt wird. Dieses Verfahren macht das „effektive 2B"-Framing von E2B greifbar (tatsächliche Repräsentationstiefe: 5,1B), ohne GPU-Speicher zu beanspruchen.

Das 26B-Modell führt Gemmas erste Mixture-of-Experts-Architektur ein: 128 Experten insgesamt, 8 aktiv pro Forward-Pass, zuzüglich eines dauerhaft aktiven Shared Expert mit der dreifachen Größe eines regulären Experten. Beide großen Modelle befinden sich unter den sechs besten Open-Source-Slots auf LM Arena; das 31B belegt global Platz drei mit 256K Kontext und nativem Function Calling. Die Bereitstellung reicht von selbstgehostetem Betrieb (Hugging Face, Kaggle, Ollama) bis zu Cloud-Hosting (AI Studio, Vertex AI). Der Vision-Encoder ersetzt Gemma 3's Pan-and-Scan-Verfahren durch Eingaben mit variablem Seitenverhältnis und variabler Auflösung; E2B und E4B ergänzen einen 35M-Parameter-Conformer-Audioencoder für Übersetzung und ASR.

Eine zweite Quelle — der offizielle @googlegemma-Account, verstärkt durch Hugging Face — bestätigt, dass Gemma 4 E2B bereits einen vollständig lokalen Browser-Agenten via WebGPU betreibt, ohne jegliche Serverinfrastruktur. Der Agent übernimmt Browserverlauf, Seitenzusammenfassung und Tab-Verwaltung vollständig clientseitig.

Strategische Einordnung

Apache 2.0, wettbewerbsfähige Arena-Benchmarks und On-Device-Multimodalität in Kombination — das ist eine Konstellation, die der Open-Source-Stack bei dieser Parameterzahl bislang nicht kannte. Der WebGPU-Browser-Agent beseitigt die letzte Infrastrukturabhängigkeit für datenschutzbewusste oder Edge-Deployments. Teams, die proprietäre APIs evaluieren, sollten ihre Baseline überprüfen: Das selbst gehostete 31B-Modell erreicht heute Qualitätsstufen, die bisher API-Zugang voraussetzten.