Sora 的发布让整个 AI 领域为之狂欢,但 LeCun是个例外。面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误。归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从ChatGPT 到 Sora 一致采用的自回归生成式路线。LeCun 一直认为, GPT 系列 LLM 模型所依赖的自回归学习范式对世界的理解非常肤浅,远远比不上真正的「世界模型」。所以,一遇到[Sora 是世界模型」的说法,LeCun 就有些坐不住:「仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。」那么,面对视觉任务,世界模型如何获得自回归模型一般的性能?最近,Lecun 发布了自己关于「世界模型」的新论文《在视觉表征学习中学习和利用世界模型》,刚好解释了这个问题。