Google veröffentlicht Gemma 4 12B: Encoder-freies multimodales Modell
Googles Gemma 4 12B ist encoder-frei und multimodal — Text, Audio, Video, Bild — in 16 GB VRAM unter Apache 2.0. Sofort in Transformers, llama.cpp und MLX nutzbar.
Googles Gemma 4 12B ist encoder-frei und multimodal — Text, Audio, Video, Bild — in 16 GB VRAM unter Apache 2.0. Sofort in Transformers, llama.cpp und MLX nutzbar.
Googles Gemini Embedding 2 ist das erste einheitliche multimodale Embedding-Modell für Text, Audio, Video und Bild — verfügbar auf Gemini API und Vertex AI.
Turings Open MM-RL: PhD-Niveau-MINT-Benchmark mit 100 % verifizierbaren Antworten, Platz 1 auf HuggingFace. Jede Aufgabe doppelt von PhD-Spezialisten geprüft. 3.000 weitere Aufgaben folgen.
Luma Uni-1 API: Intent-zuerst-Bildgenerierung mit eingebetteter Prompt-Verbesserung und Referenzsuche, Top-3 in Image Arena, unter 50 % des Preises vergleichbarer Modelle.
NVIDIA veröffentlicht Nemotron 3 Nano Omni (30B MoE/3B aktiv): einheitliches Video-/Audio-/Bild-/Text-Modell mit 9-facher Verbesserung der Video-Reasoning-Kapazität.
DeepSeeks Visual-Primitives-Paper nutzt Koordinaten-Tokens im Chain-of-Thought und erreicht damit eine ~10-fache KV-Cache-Komprimierung gegenüber Sonnet 4.6 und Gemini 3 Flash.
Meta veröffentlicht Tribe v2: ein multimodales Modell menschlicher Gehirnreaktionen auf Audio, Bild und Sprache, mit Paper, Code und mobilem Demo.
Google DeepMinds KI-Mitspezialist analysiert per Live-Video Symptome und erzielte null kritische Fehler bei 97 von 98 Diagnoseabfragen.

GPT Image 2 erzielt einen 26-Punkte-Vorsprung in Image-Arena-Blindtests — beispiellos für die Kategorie — durch einen Reasoning-Loop vor jedem Pixel-Render.
Gemini Embedding 2, Googles erstes nativ multimodales Embedding-Modell, ist jetzt GA in der Gemini API und Vertex AI.
Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.