LeWorldModel: Erstes pixel-natives JEPA – 15M Parameter, 48× schnellere Planung

LeWorldModel ist das erste JEPA, das vollständig aus rohen Pixeln trainiert wurde – 15M Parameter, einzelne Laptop-GPU, mit 48-fach schnellerer Planung als Foundation-Model-basierte Weltmodelle bei vergleichbarer Leistung auf 2D- und 3D-Benchmarks. Entwickelt von LeCuns AMI Labs und Kooperationspartnern.

1 Min. Lesezeit|agenticonsult Intelligence

LeWorldModel: Erstes pixel-natives JEPA – 15M Parameter, 48× schnellere Planung

LeWorldModel, entwickelt von Mila, NYU, Samsung SAIL und der Brown University (ohne Beteiligung von Meta), ist das erste JEPA (Joint Embedding Predictive Architecture), das vollständig aus rohen Pixeln trainiert wurde. Mit lediglich 15 Millionen Parametern lässt es sich auf einer einzelnen GPU innerhalb weniger Stunden trainieren und erreicht eine 48-fach schnellere Planungsleistung als Foundation-Model-basierte Weltmodelle – bei vergleichbarer Qualität auf 2D- und 3D-Planungs-Benchmarks. Die Architektur kommt ohne exponentielle gleitende Mittelwerte oder vortrainierte Encoder aus, die bei früheren JEPAs zu einem Kollaps führten; sechs Hyperparameter werden auf einen einzigen reduziert, sodass das Modell auf einer Laptop-GPU betrieben werden kann.

Einordnung

Wenn ein pixel-natives Weltmodell mit 15M Parametern 48-fach schneller plant als Foundation-Model-Baselines bei vergleichbarer Genauigkeit, gewinnt das Argument für JEPA-basierte Architekturen als Grundlage für physische KI-Agenten deutlich an Substanz – und wird für Forscher ohne Hyperscale-Compute-Budget zugänglich.

Diskutieren aufLinkedIn X

Diese Eilmeldung wurde mit AI-Unterstuetzung aus der genannten Primaerquelle zusammengestellt. Sie dient der schnellen Lageorientierung — fuer die massgebliche Aussage bitte die Originalpublikation konsultieren.

LeWorldModel: Erstes pixel-natives JEPA – 15M Parameter, 48× schnellere Planung

LeWorldModel: Erstes pixel-natives JEPA – 15M Parameter, 48× schnellere Planung

Einordnung

Live News Feed