Microsoft Phi-Ground-Any: 4B-Visions-Modell erreicht SOTA für KI-GUI-Grounding

Microsoft hat Phi-Ground-Any auf Hugging Face veröffentlicht — ein Visions-Modell mit 4 Milliarden Parametern, das State-of-the-Art-Ergebnisse auf den Benchmarks ScreenSpot-pro und UI-Vision erzielt und KI-Agenten in die Lage versetzt, grafische Benutzeroberflächenelemente präzise zu identifizieren und zu bedienen.

1 Min. Lesezeit|agenticonsult Intelligence

Microsoft Phi-Ground-Any: 4B-Visions-Modell erreicht SOTA für KI-GUI-Grounding

Microsoft hat Phi-Ground-Any auf Hugging Face veröffentlicht — ein Visions-Modell mit 4 Milliarden Parametern, das auf ScreenSpot-pro und UI-Vision, den beiden primären Benchmarks für GUI-Grounding, State-of-the-Art-Ergebnisse erzielt. GUI-Grounding bezeichnet die Fähigkeit von KI-Agenten, Interface-Elemente auf dem Bildschirm zu identifizieren und präzise mit ihnen zu interagieren. Das Modell versetzt KI-Agenten in die Lage, gezielt Schaltflächen, Formularfelder und UI-Elemente anzuklicken, ohne programmatischen API-Zugriff vorauszusetzen — eine Schlüsselfähigkeit für Computer-Use-Agenten, die auf allgemeinen Desktop- oder Weboberflächen operieren.

Warum das relevant ist

GUI-Grounding auf SOTA-Niveau bei 4 Milliarden Parametern bedeutet, dass diese Fähigkeit nun effizient genug ist, um in umfassendere Agentensysteme integriert zu werden, ohne deren Compute-Budget zu dominieren. Sie beseitigt eine wesentliche Fähigkeitslücke für Computer-Use-Agenten, die mit beliebigen Softwareoberflächen interagieren müssen — nicht nur mit solchen, die über agenten-gerechte APIs verfügen.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Microsoft Phi-Ground-Any: 4B-Visions-Modell erreicht SOTA für KI-GUI-Grounding

Microsoft Phi-Ground-Any: 4B-Visions-Modell erreicht SOTA für KI-GUI-Grounding

Warum das relevant ist

Live News Feed