智源研究院院长王仲远：世界模型关键在预测下一状态，AI向理解世界进阶

2025年11月1日

（图片来自网络）

经济观察报报道，2025年，“世界模型”（World Model）成为AI领域最受关注的词汇之一。它意味着让AI理解世界运作规律，从识别或生成层面转向能想象并预测世界变化。当下大模型红利逐渐减弱，各公司都在寻找新的增长点：DeepMind推出可生成交互式3D世界的Genie 3，OpenAI继续强化Sora的物理一致性；英伟达、华为、百度等也正从机器人与自动驾驶场景切入，推动AI从“看懂”迈向“参与”。

10月30日，智源研究院发布悟界·Emu3.5多模态世界大模型。智源研究院院长王仲远在接受媒体采访时指出，随着互联网文本数据被充分利用，大语言模型的增长进入相对缓慢阶段，行业需要新的突破口，而多模态与世界模型正是被寄予厚望的方向。王仲远强调，世界模型的核心是用自回归架构统一图像、文本与视频的生成和理解，能够预测“下一个状态（Next-State）”，这非常接近人类大脑对世界进行理解的方式。

与主流的Diffusion Transformer（DiT）架构不同，智源研究院从“第一性原理”出发，构建了原生多模态大模型——悟界·Emu3.5。在Emu架构下，模型能在同一系统中完成感知、理解、推理与生成，形成一个可持续进化的世界模型。智源研究院多模态大模型负责人王鑫龙介绍，Emu3.5基于超过10万亿token的多模态数据训练，其中视频数据累计时长达790年，参数规模为340亿。团队提出的“离散扩散自适应（DiDA）”推理方法，使图像生成速度提升近20倍，同时保持高质量输出。

模型在多维度实现突破：一是从意图到规划，能够理解更高级别的人类意图，例如如何制作一艘宇宙飞船，并生成连贯的多步骤行动路径；二是动态世界模拟，能在统一框架内预测物理动态、时空演化与因果关系；三是泛化交互能力，为AI与人类及物理环境之间的协作提供认知基础。针对外界将世界模型等同于视频生成的看法，王仲远明确表示不认同，他认为世界模型的核心是对因果与物理规律的理解，而非单纯的视频生成。他以“机器人抓咖啡杯”为例：机器人要抓起一杯靠近桌边的咖啡，它必须预测哪种动作会让杯子掉落，哪种才安全——这才是对世界的真正理解。

王仲远认为，人类学习世界时不会区分语言或动作，Emu3.5也不受限于特定用途。它既可支撑具身智能，也能生成多模态训练数据。在他看来，这不仅是一次架构创新，也展示了中国科研团队的原创路线，在世界模型这一尚未完全收敛的领域中，尝试提出自己的答案。2024年10月，智源研究院曾发布全球首个原生多模态世界模型悟界·Emu3。该模型仅基于“下一个token预测”机制，而Emu3.5则在此基础上进一步完善，使AI具备更强的物理直觉与跨场景规划能力。王仲远坚信，未来的AI，将不只是理解指令，更要理解世界本身，并在其中行动。

（免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。）

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-11-01 19

技术发展让未来更有希望
网友9 2025-11-01 19

需要时间验证，但现在很期待应用
网友8 2025-11-01 19

中国科研在AI领域有突破，值得点赞
网友7 2025-11-01 19

多模态模型能预测，中国科研在AI很厉害
网友6 2025-11-01 19

AI的发展方向很看好，世界模型是重要一步
网友5 2025-11-01 19

机器人如果能理解世界，以后生活方便多啦
网友4 2025-11-01 19

智源的研究有创新，很支持
网友3 2025-11-01 19

AI能预测下一个状态，这功能听起来很有意思
网友2 2025-11-01 19

世界模型让AI更智能，以后机器人做事会靠谱不少
网友1 2025-11-01 19

科技发展这么快，希望AI能帮我做家务

查看“智源研究院院长王仲远：世界模型关键在预测下一状态，AI向理解世界进阶”相关搜索 >

智源研究院院长王仲远：世界模型关键在预测下一状态，AI向理解世界进阶

精彩评论（10）

最新新闻