LeWorldModel: Erstes pixel-natives JEPA – 15M Parameter, 48× schnellere Planung
LeWorldModel, entwickelt von Mila, NYU, Samsung SAIL und der Brown University (ohne Beteiligung von Meta), ist das erste JEPA (Joint Embedding Predictive Architecture), das vollständig aus rohen Pixeln trainiert wurde. Mit lediglich 15 Millionen Parametern lässt es sich auf einer einzelnen GPU innerhalb weniger Stunden trainieren und erreicht eine 48-fach schnellere Planungsleistung als Foundation-Model-basierte Weltmodelle – bei vergleichbarer Qualität auf 2D- und 3D-Planungs-Benchmarks. Die Architektur kommt ohne exponentielle gleitende Mittelwerte oder vortrainierte Encoder aus, die bei früheren JEPAs zu einem Kollaps führten; sechs Hyperparameter werden auf einen einzigen reduziert, sodass das Modell auf einer Laptop-GPU betrieben werden kann.
Einordnung
Wenn ein pixel-natives Weltmodell mit 15M Parametern 48-fach schneller plant als Foundation-Model-Baselines bei vergleichbarer Genauigkeit, gewinnt das Argument für JEPA-basierte Architekturen als Grundlage für physische KI-Agenten deutlich an Substanz – und wird für Forscher ohne Hyperscale-Compute-Budget zugänglich.