10 Artikel

#multimodal

Google veröffentlicht Gemma 4 12B: Encoder-freies multimodales Modell

Googles Gemma 4 12B ist encoder-frei und multimodal — Text, Audio, Video, Bild — in 16 GB VRAM unter Apache 2.0. Sofort in Transformers, llama.cpp und MLX nutzbar.

7. Juni 20261 Min. Lesezeit

Technologiebreaking

Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten

Googles Gemini Embedding 2 ist das erste einheitliche multimodale Embedding-Modell für Text, Audio, Video und Bild — verfügbar auf Gemini API und Vertex AI.

29. Mai 20261 Min. Lesezeit

Forschungbreaking

Turings Open MM-RL erreicht Platz 1 auf HuggingFace mit PhD-Niveau MINT-Benchmark

Turings Open MM-RL: PhD-Niveau-MINT-Benchmark mit 100 % verifizierbaren Antworten, Platz 1 auf HuggingFace. Jede Aufgabe doppelt von PhD-Spezialisten geprüft. 3.000 weitere Aufgaben folgen.

14. Mai 20261 Min. Lesezeit

Toolsbreaking

Luma Uni-1 Reasoning-First-Bildgenerierungs-API geht live

Luma Uni-1 API: Intent-zuerst-Bildgenerierung mit eingebetteter Prompt-Verbesserung und Referenzsuche, Top-3 in Image Arena, unter 50 % des Preises vergleichbarer Modelle.

6. Mai 20261 Min. Lesezeit

Technologiebreaking

NVIDIA veröffentlicht Nemotron 3 Nano Omni: offenes 30B multimodales Modell

NVIDIA veröffentlicht Nemotron 3 Nano Omni (30B MoE/3B aktiv): einheitliches Video-/Audio-/Bild-/Text-Modell mit 9-facher Verbesserung der Video-Reasoning-Kapazität.

3. Mai 20261 Min. Lesezeit

Forschungbreaking

DeepSeeks Visual-Primitives-Paper beansprucht 10-fache KV-Cache-Komprimierung

DeepSeeks Visual-Primitives-Paper nutzt Koordinaten-Tokens im Chain-of-Thought und erreicht damit eine ~10-fache KV-Cache-Komprimierung gegenüber Sonnet 4.6 und Gemini 3 Flash.

3. Mai 20261 Min. Lesezeit

Forschungbreaking

Meta Tribe v2: Grundlagenmodell für menschliche Gehirnreaktionen auf Klang, Bild und Sprache

Meta veröffentlicht Tribe v2: ein multimodales Modell menschlicher Gehirnreaktionen auf Audio, Bild und Sprache, mit Paper, Code und mobilem Demo.

1. Mai 20261 Min. Lesezeit

Technologiebreaking

Google DeepMind stellt KI-Mitspezialist für klinische Entscheidungsunterstützung vor

Google DeepMinds KI-Mitspezialist analysiert per Live-Video Symptome und erzielte null kritische Fehler bei 97 von 98 Diagnoseabfragen.

1. Mai 20261 Min. Lesezeit

Four azure reasoning rings feed into a sharp image output grid, OpenAI mark etched in glass

Technologie

GPT Image 2 gewinnt 93 % der Blindtests — Reasoning trifft die visuelle Ebene

GPT Image 2 erzielt einen 26-Punkte-Vorsprung in Image-Arena-Blindtests — beispiellos für die Kategorie — durch einen Reasoning-Loop vor jedem Pixel-Render.

25. April 20262 Min. Lesezeit

Technologiebreaking

Gemini Embedding 2 jetzt allgemein verfügbar in Gemini API und Vertex AI

Gemini Embedding 2, Googles erstes nativ multimodales Embedding-Modell, ist jetzt GA in der Gemini API und Vertex AI.

24. April 20261 Min. Lesezeit

AI Intelligence Newsletter

Kuratierte AI-Einblicke — wir senden, wenn es sich lohnt.