Meta veröffentlicht Sapiens2: Vision Transformer auf 1 Mrd. Menschenbildern trainiert

Meta hat Sapiens2 veröffentlicht – eine Modellsuite hochauflösender Vision Transformer, vortrainiert auf einer Milliarde Menschenbilder, mit Unterstützung für Pose-Schätzung, Körpersegmentierung, Tiefennormalen und Punktkarten – ab sofort auf HuggingFace verfügbar.

1 Min. Lesezeit|agenticonsult Intelligence

Meta veröffentlicht Sapiens2: Vision Transformer mit 1 Mrd. Menschenbildern vortrainiert

Meta hat Sapiens2 auf HuggingFace veröffentlicht – eine Modellsuite hochauflösender Vision Transformer, vortrainiert auf einer Milliarde Menschenbilder. Die Modelle decken vier menschzentrierte Wahrnehmungsaufgaben ab: Pose-Schätzung, Körpersegmentierung, Tiefennormalen und Punktkarten. Der Pretraining-Umfang von einer Milliarde Menschenbildern macht Sapiens2 zu einem der größten öffentlich zugänglichen menschzentrierten Vortrainierungsdatensätze.

Einordnung

Menschzentrierte visuelle Wahrnehmung in diesem Maßstab erschließt direkte Anwendungen in der Avatar-Generierung, im Motion Capture, in AR/VR-Systemen, in der Robotik sowie bei Barrierefreiheitswerkzeugen. Die HuggingFace-Veröffentlichung mit offenen Gewichten macht Sapiens2 für die Forschungs- und Entwicklercommunity unmittelbar nutzbar – und senkt die Hürde erheblich, auf einer der qualitativ hochwertigsten Grundlagen für menschliche Wahrnehmung aufzubauen.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

Meta veröffentlicht Sapiens2: Vision Transformer auf 1 Mrd. Menschenbildern trainiert

Meta veröffentlicht Sapiens2: Vision Transformer mit 1 Mrd. Menschenbildern vortrainiert

Einordnung

Live News Feed