Meta veröffentlicht Sapiens2: Vision Transformer mit 1 Mrd. Menschenbildern vortrainiert
Meta hat Sapiens2 auf HuggingFace veröffentlicht – eine Modellsuite hochauflösender Vision Transformer, vortrainiert auf einer Milliarde Menschenbilder. Die Modelle decken vier menschzentrierte Wahrnehmungsaufgaben ab: Pose-Schätzung, Körpersegmentierung, Tiefennormalen und Punktkarten. Der Pretraining-Umfang von einer Milliarde Menschenbildern macht Sapiens2 zu einem der größten öffentlich zugänglichen menschzentrierten Vortrainierungsdatensätze.
Einordnung
Menschzentrierte visuelle Wahrnehmung in diesem Maßstab erschließt direkte Anwendungen in der Avatar-Generierung, im Motion Capture, in AR/VR-Systemen, in der Robotik sowie bei Barrierefreiheitswerkzeugen. Die HuggingFace-Veröffentlichung mit offenen Gewichten macht Sapiens2 für die Forschungs- und Entwicklercommunity unmittelbar nutzbar – und senkt die Hürde erheblich, auf einer der qualitativ hochwertigsten Grundlagen für menschliche Wahrnehmung aufzubauen.