Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten
Google DeepMind hat Gemini Embedding 2 (GE2) veröffentlicht — das erste native multimodale Embedding-Modell, das Text-, Audio-, Video- und Bildeingaben in einer einheitlichen Repräsentation verarbeitet. GE2 führt Benchmarks für Bildsuche, Videosuche, mehrsprachigen Text und Code-Retrieval an und generalisiert auf untrainierte Nischenbereiche. Das Modell ist ab sofort über die Gemini API und Vertex AI verfügbar und ermöglicht modalitätsübergreifendes Retrieval — etwa die Abfrage per Bild, um relevante Videoinhalte zu finden.
Warum das relevant ist
Ein einziges Embedding-Modell für alle wesentlichen Modalitäten macht separate Embedding-Pipelines pro Inhaltstyp überflüssig — unmittelbar relevant für jedes System, das modalitätsübergreifendes RAG oder Knowledge-Base-Arbeit im Produktionsmaßstab betreibt.