xAI Grok 4.3 und Mistral Medium 3.5 enttäuschen bei unabhängigen Benchmarks
Unabhängige Evaluierungen auf Artificial Analysis zeigen, dass xAI Grok 4.3 beta trotz Marketing-Schwerpunkt auf agentischen Tool-Verbesserungen hinter Kimi K 2.6, MiMu (Xiaomi) und den führenden geschlossenen Modellen (GPT 5.5 u. a.) zurückbleibt. Mistral Medium 3.5 – ein 128B großes Dense-Modell mit 256K-Kontext – schneidet auf denselben Benchmarks deutlich schlechter ab als DeepSeek V4 und ist zugleich teurer als vergleichbare offene Modelle. Reviewer empfehlen Mistral Medium 3.5 ausschließlich für EU-regulierungskonforme Anwendungsfälle, bei denen europäische Modelle vorgeschrieben sind.
Einordnung
Zwei hochkarätige Releases, die selbstberichtete Benchmarks verfehlen, unterstreichen die Notwendigkeit unabhängiger Evaluation vor Beschaffungsentscheidungen – ein Muster, das bei Modellveröffentlichungen 2026 zur Routine wird.