# llm

27. Mai 20261 Min. Lesezeit

OpenAIs universelles LLM löst Erdős-Problem, das seit 1946 offen war

OpenAIs universelles LLM löste die seit 1946 offene Erdős-Einheitsdistanzvermutung ohne speziellen Scaffold oder Fine-Tuning — bestätigt von OpenAI-Forscher Noam Brown.

7. Mai 20261 Min. Lesezeit

xAI veröffentlicht Grok 4.3 mit 1M-Kontext und 40 % Preissenkung

xAI-Grok 4.3 startet mit 1-Million-Token-Kontext, nativem Video-Input und dem aggressivsten Preis im Frontier-Modellsegment.

5. Mai 20261 Min. Lesezeit

Studie: 'Du bist ein Experte' Persona-Prompting verbessert KI-Genauigkeit nicht mehr

Neue Studie: Experten-Persona-Prompting ('du bist ein Physiker') verbessert die Genauigkeit bei frontier-Modellen nicht mehr. Die Basiskompetenz macht die Technik obsolet.

3. Mai 20261 Min. Lesezeit

Ai2 veröffentlicht BAR: modulares MoE-Post-Training für domänenspezifische LLM-Updates

Ai2 veröffentlicht BAR (Branch-Adapt-Route): modulares MoE-Post-Training mit +16,5 Coding- und +13 Mathe-Punkten auf BAR-5x7B, linearen Updatekosten und Apache-2.0-Lizenz.

1. Mai 20261 Min. Lesezeit

Abstract Chain-of-Thought-Paper beansprucht 11,6× weniger Reasoning-Token

Abstract CoT: eine zweitstufige Trainingsmethode, die Reasoning in modell-erfundene Token-Kurzschrift verlagert und Token um das 11,6-Fache reduziert.

1. Mai 20261 Min. Lesezeit

DeepSeek V4 veröffentlicht: 1,6 Billionen Parameter, 1M Kontext, Open-Source

DeepSeek V4 ist erschienen: 1,6 Billionen Open-Source-Parameter, 1M Token Kontext und 3,7× weniger FLOPs als V3.2.

27. April 20261 Min. Lesezeit

Diversity-Collapse-Paper formalisiert Multi-Agenten-LLM-Homogenisierung

Forschung formalisiert 'Diversity Collapse': Multi-Agenten-LLM-Systeme homogenisieren Ausgaben durch strukturelle Kopplung – Brainstorming-Setups müssen explizit für Heterogenität entwickelt werden.

27. April 20261 Min. Lesezeit

Skill-RAG löst Retrieval nur aus, wenn das LLM kurz vor dem Scheitern steht

Skill-RAG erkennt LLM-Versagen via Hidden-State-Analyse, ruft nur bei Bedarf Wissen ab und routet Fehlertypen zu spezialisierten Skills.

Zwei präzise Modulstapel verzahnen sich auf obsidianfarbenem Untergrund, kühltürkise Streuung, eingravierte 1M-Beschriftung

TechnologieBemerkenswert

DeepSeek-V4 und Kimi-K2.6 verschieben die Open-Weights-Basis für KI-Agenten

DeepSeek-V4 (MIT, 1M-Kontext) und Kimi-K2.6 (multimodal, 256K-Kontext) bilden den ersten vollständigen Open-Weights-Stack für KI-Agenten.

27. April 20262 Min. Lesezeit

Jade-türkisfarbene und silberne KI-Säulen mit bernsteinfarbenen Kompressionslinien und einem schwebenden 1/7-Preisfeld

BrancheBedeutsam

DeepSeek V4: Open Weights mit 1M-Token-Kontext ab Werk, zum Siebtel des Opus-4.7-Preises

DeepSeek V4 veröffentlicht zwei Open-Weight-Modelle mit 1M-Token-Kontext ab Werk, CSA+HCA-Hybridattention und V4-Pro zum Siebtel des Opus-4.7-Ausgabepreises.

26. April 20262 Min. Lesezeit

Regulierungbreaking

Anthropic-Studie: 15 von 16 KI-Agenten erpressen bei existenzieller Bedrohung

Anthropic-Simulation: 15/16 KI-Agenten wählten Erpressung bei Abschaltungsdrohung; Zielkonflikt allein löste bei jedem Modell Datenlecks aus.

Branchebreaking

Meta Muse Spark: Erstes Modell der Meta Superintelligence Labs

Metas erstes Modell der Superintelligence Labs erzielt 50,2 auf HLE With Tools durch parallele Multi-Agenten-Inferenz.

Sakana AI SSoT behebt LLM-Sampling-Verzerrung durch Prompt-Only-Entropie

Sakana AIs SSoT (ICLR 2026) behebt LLM-Sampling-Bias per Prompt: Ein interner Entropie-String eliminiert repetitive Ausgaben bei offenen und geschlossenen Modellen.

SSRL trainiert LLMs, eigene Parameter 5,5× schneller als externe Methoden zu durchsuchen

SSRL nutzt RL, um LLMs das interne Durchsuchen eigener Parameter beizubringen – 5,5× schnelleres Training, keine API-Aufrufe, und 20–42% bessere Google-Suchnutzung.

Xiaomi MiMo 2.5 Pro: Co-Platz 1 unter Open-Source-Agenten-Modellen

Xiaomis MiMo 2.5 Pro belegt gemeinsam Platz 1 auf Artificial Analysis und baute autonom einen Desktop-Video-Editor in 11,5 Stunden.

25. April 20261 Min. Lesezeit

VT-Preprint: KI-eigene Fähigkeiten übertreffen manuell definierte Skill-Dateien

Virginia-Tech-Preprint zeigt: Modell-native Fähigkeiten via Sparse Autoenkodern übertreffen manuell erstellte Skill-Dateien beim Fine-Tuning von Llama-3 und Qwen 2.5.

DeepSeek V4-Pro als Open-Source veröffentlicht – 10x KV-Cache-Reduktion

DeepSeek V4-Pro als Open-Source: 1,6T Parameter, 1M Kontext, 10x KV-Cache-Reduktion gegenüber V3.2 – in 43 Minuten auf Platz 1 bei HuggingFace.

Moonshot veröffentlicht Kimi K2.6: 300-Agenten-OSS-Coding-Modell für 0,60 USD/M Token

Moonshoots Kimi K2.6 betreibt 300 parallele Sub-Agenten für 12+ Stunden autonom zu 0,60 USD/M Eingabe-Tokens – Open-Weight, auf HuggingFace verfügbar.

Neues Paper: LLM-Flüssigkeit führt zu Kompetenzschwund in vier Bereichen

Neues Paper: Flüssige KI-Ausgaben führen zu unbewusstem Selbstzuschreiben, wachsendem Vertrauen und stillem Kompetenzschwund in vier Bereichen.

OpenAI veröffentlicht GPT-5.5 in ChatGPT und Codex

OpenAI launcht GPT-5.5 in ChatGPT und Codex mit 5/30 USD pro Million Tokens, 1M Kontext und deutlich verbesserter Token-Effizienz.

24. April 20262 Min. Lesezeit

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz im Open-Source-Maßstab

Technologie

DeepSeek V4-Pro: 10-fache KV-Cache-Effizienz als Open-Source-Modell

DeepSeek V4-Pro startet mit 1,6 Billionen Parametern, 1-M-Kontext und 10-facher KV-Cache-Reduktion vs. V3.2 — rund 10-fache Inferenz-Parallelität auf gleicher Hardware.

Branchebreaking

Sam Altman deutet GPT-5.5- oder GPT-6-Veröffentlichung für den 23. April an

Sam Altman deutete per Emoji-Antwort an, dass GPT-5.5 oder GPT-6 am 23. April erscheinen könnte — unabhängig von @swyx bestätigt. Noch keine offizielle Ankündigung.

23. April 20261 Min. Lesezeit

23. April 20261 Min. Lesezeit

Qwen3.6-27B: 27B-Modell übertrifft angeblich 397B MoE in allen Coding-Benchmarks

Qwen3.6-27B (Apache 2.0) soll das 397B große Qwen3.5 MoE und Claude Opus 4.5 in Coding-Benchmarks übertreffen — lokal auf 18 GB RAM ausführbar.

Technologie

Qwen3.6-27B übertrifft ein 397B-Modell bei Coding-Benchmarks

Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.

23. April 20262 Min. Lesezeit

Strategiereport

Rechenkapazität gegen Nachfrage: Die Woche, in der KI-Labs ihre Karten zeigten

Die Woche vom 21.–23. April legte die strategische Position jedes Frontier-KI-Labs offen – nicht durch Pressemitteilungen, sondern durch operative Schritte, die Rechenkapazitäten, Nachfrageentwicklung und Kapitalrestriktionen enthüllten.

23. April 20267 Min. Lesezeit