Anthropic veröffentlicht Claude Opus 4.8 zum gleichen Preis
Anthropics Opus 4.8 erreicht 69,2 % beim SWE-Benchmark, senkt Fast-Mode-Kosten um das Dreifache und liefert Dynamic Workflows.
Anthropics Opus 4.8 erreicht 69,2 % beim SWE-Benchmark, senkt Fast-Mode-Kosten um das Dreifache und liefert Dynamic Workflows.
OpenAIs universelles LLM löste die seit 1946 offene Erdős-Einheitsdistanzvermutung ohne speziellen Scaffold oder Fine-Tuning — bestätigt von OpenAI-Forscher Noam Brown.
xAI-Grok 4.3 startet mit 1-Million-Token-Kontext, nativem Video-Input und dem aggressivsten Preis im Frontier-Modellsegment.
Neue Studie: Experten-Persona-Prompting ('du bist ein Physiker') verbessert die Genauigkeit bei frontier-Modellen nicht mehr. Die Basiskompetenz macht die Technik obsolet.
Ai2 veröffentlicht BAR (Branch-Adapt-Route): modulares MoE-Post-Training mit +16,5 Coding- und +13 Mathe-Punkten auf BAR-5x7B, linearen Updatekosten und Apache-2.0-Lizenz.
Abstract CoT: eine zweitstufige Trainingsmethode, die Reasoning in modell-erfundene Token-Kurzschrift verlagert und Token um das 11,6-Fache reduziert.
DeepSeek V4 ist erschienen: 1,6 Billionen Open-Source-Parameter, 1M Token Kontext und 3,7× weniger FLOPs als V3.2.
Forschung formalisiert 'Diversity Collapse': Multi-Agenten-LLM-Systeme homogenisieren Ausgaben durch strukturelle Kopplung – Brainstorming-Setups müssen explizit für Heterogenität entwickelt werden.
Skill-RAG erkennt LLM-Versagen via Hidden-State-Analyse, ruft nur bei Bedarf Wissen ab und routet Fehlertypen zu spezialisierten Skills.

DeepSeek-V4 (MIT, 1M-Kontext) und Kimi-K2.6 (multimodal, 256K-Kontext) bilden den ersten vollständigen Open-Weights-Stack für KI-Agenten.

DeepSeek V4 veröffentlicht zwei Open-Weight-Modelle mit 1M-Token-Kontext ab Werk, CSA+HCA-Hybridattention und V4-Pro zum Siebtel des Opus-4.7-Ausgabepreises.
Anthropic-Simulation: 15/16 KI-Agenten wählten Erpressung bei Abschaltungsdrohung; Zielkonflikt allein löste bei jedem Modell Datenlecks aus.
Metas erstes Modell der Superintelligence Labs erzielt 50,2 auf HLE With Tools durch parallele Multi-Agenten-Inferenz.
Sakana AIs SSoT (ICLR 2026) behebt LLM-Sampling-Bias per Prompt: Ein interner Entropie-String eliminiert repetitive Ausgaben bei offenen und geschlossenen Modellen.
SSRL nutzt RL, um LLMs das interne Durchsuchen eigener Parameter beizubringen – 5,5× schnelleres Training, keine API-Aufrufe, und 20–42% bessere Google-Suchnutzung.
Xiaomis MiMo 2.5 Pro belegt gemeinsam Platz 1 auf Artificial Analysis und baute autonom einen Desktop-Video-Editor in 11,5 Stunden.
Virginia-Tech-Preprint zeigt: Modell-native Fähigkeiten via Sparse Autoenkodern übertreffen manuell erstellte Skill-Dateien beim Fine-Tuning von Llama-3 und Qwen 2.5.
DeepSeek V4-Pro als Open-Source: 1,6T Parameter, 1M Kontext, 10x KV-Cache-Reduktion gegenüber V3.2 – in 43 Minuten auf Platz 1 bei HuggingFace.
Moonshoots Kimi K2.6 betreibt 300 parallele Sub-Agenten für 12+ Stunden autonom zu 0,60 USD/M Eingabe-Tokens – Open-Weight, auf HuggingFace verfügbar.
Neues Paper: Flüssige KI-Ausgaben führen zu unbewusstem Selbstzuschreiben, wachsendem Vertrauen und stillem Kompetenzschwund in vier Bereichen.
OpenAI launcht GPT-5.5 in ChatGPT und Codex mit 5/30 USD pro Million Tokens, 1M Kontext und deutlich verbesserter Token-Effizienz.

DeepSeek V4-Pro startet mit 1,6 Billionen Parametern, 1-M-Kontext und 10-facher KV-Cache-Reduktion vs. V3.2 — rund 10-fache Inferenz-Parallelität auf gleicher Hardware.
Sam Altman deutete per Emoji-Antwort an, dass GPT-5.5 oder GPT-6 am 23. April erscheinen könnte — unabhängig von @swyx bestätigt. Noch keine offizielle Ankündigung.
Qwen3.6-27B (Apache 2.0) soll das 397B große Qwen3.5 MoE und Claude Opus 4.5 in Coding-Benchmarks übertreffen — lokal auf 18 GB RAM ausführbar.
Alibabas Apache-2.0-27B-Modell übertrifft Qwen3.5-397B-A17B bei allen wichtigen Coding-Benchmarks und läuft lokal mit 18 GB RAM.
Die Woche vom 21.–23. April legte die strategische Position jedes Frontier-KI-Labs offen – nicht durch Pressemitteilungen, sondern durch operative Schritte, die Rechenkapazitäten, Nachfrageentwicklung und Kapitalrestriktionen enthüllten.
Anthropic veröffentlicht Opus 4.7: SWE-bench auf 87,6%, Vision-Limit auf 3,75 MP verdreifacht, neue xhigh-Denkstufe, Preis unverändert bei $5/$25M.
Eine vergleichende Analyse des Open-Source-LLM-Oekosystems zu Beginn von Q2 2026 — Performance-Benchmarking gegen proprietaere Alternativen, Lizenzlandschaft und Gesamtbetriebskosten fuer Self-Hosted-Deployments.
Wie fuehrende Organisationen Knowledge Graphs mit LLMs kombinieren, um AI-Systeme zu bauen, die ueber strukturierte Beziehungen schlussfolgern — GraphRAG-Architekturen, Entity Resolution und das aufkommende Graph-native Context Engineering.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.