Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten

Google DeepMind hat Gemini Embedding 2 (GE2) veröffentlicht — das erste native multimodale Embedding-Modell, das Text, Audio, Video und Bilder in einer einheitlichen Repräsentation verarbeitet. GE2 führt Benchmarks für Bildsuche, Videosuche, mehrsprachigen Text und Code-Retrieval an und generalisiert auf untrainierte Nischenbereiche. Verfügbar auf Gemini API und Vertex AI.

1 Min. Lesezeit|agenticonsult Intelligence

Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten

Google DeepMind hat Gemini Embedding 2 (GE2) veröffentlicht — das erste native multimodale Embedding-Modell, das Text-, Audio-, Video- und Bildeingaben in einer einheitlichen Repräsentation verarbeitet. GE2 führt Benchmarks für Bildsuche, Videosuche, mehrsprachigen Text und Code-Retrieval an und generalisiert auf untrainierte Nischenbereiche. Das Modell ist ab sofort über die Gemini API und Vertex AI verfügbar und ermöglicht modalitätsübergreifendes Retrieval — etwa die Abfrage per Bild, um relevante Videoinhalte zu finden.

Warum das relevant ist

Ein einziges Embedding-Modell für alle wesentlichen Modalitäten macht separate Embedding-Pipelines pro Inhaltstyp überflüssig — unmittelbar relevant für jedes System, das modalitätsübergreifendes RAG oder Knowledge-Base-Arbeit im Produktionsmaßstab betreibt.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten

Google veröffentlicht Gemini Embedding 2: Ein Modell für alle Modalitäten

Warum das relevant ist

Live News Feed