Microsoft Phi-Ground-Any: 4B-Visions-Modell erreicht SOTA für KI-GUI-Grounding
Microsoft hat Phi-Ground-Any auf Hugging Face veröffentlicht — ein Visions-Modell mit 4 Milliarden Parametern, das auf ScreenSpot-pro und UI-Vision, den beiden primären Benchmarks für GUI-Grounding, State-of-the-Art-Ergebnisse erzielt. GUI-Grounding bezeichnet die Fähigkeit von KI-Agenten, Interface-Elemente auf dem Bildschirm zu identifizieren und präzise mit ihnen zu interagieren. Das Modell versetzt KI-Agenten in die Lage, gezielt Schaltflächen, Formularfelder und UI-Elemente anzuklicken, ohne programmatischen API-Zugriff vorauszusetzen — eine Schlüsselfähigkeit für Computer-Use-Agenten, die auf allgemeinen Desktop- oder Weboberflächen operieren.
Warum das relevant ist
GUI-Grounding auf SOTA-Niveau bei 4 Milliarden Parametern bedeutet, dass diese Fähigkeit nun effizient genug ist, um in umfassendere Agentensysteme integriert zu werden, ohne deren Compute-Budget zu dominieren. Sie beseitigt eine wesentliche Fähigkeitslücke für Computer-Use-Agenten, die mit beliebigen Softwareoberflächen interagieren müssen — nicht nur mit solchen, die über agenten-gerechte APIs verfügen.