智源研究院院长王仲远:世界模型关键在预测下一状态,AI向理解世界进阶

2025年11月1日
news

(图片来自网络)

经济观察报报道,2025年,“世界模型”(World Model)成为AI领域最受关注的词汇之一。它意味着让AI理解世界运作规律,从识别或生成层面转向能想象并预测世界变化。当下大模型红利逐渐减弱,各公司都在寻找新的增长点:DeepMind推出可生成交互式3D世界的Genie 3,OpenAI继续强化Sora的物理一致性;英伟达、华为、百度等也正从机器人与自动驾驶场景切入,推动AI从“看懂”迈向“参与”。

10月30日,智源研究院发布悟界·Emu3.5多模态世界大模型。智源研究院院长王仲远在接受媒体采访时指出,随着互联网文本数据被充分利用,大语言模型的增长进入相对缓慢阶段,行业需要新的突破口,而多模态与世界模型正是被寄予厚望的方向。王仲远强调,世界模型的核心是用自回归架构统一图像、文本与视频的生成和理解,能够预测“下一个状态(Next-State)”,这非常接近人类大脑对世界进行理解的方式。

与主流的Diffusion Transformer(DiT)架构不同,智源研究院从“第一性原理”出发,构建了原生多模态大模型——悟界·Emu3.5。在Emu架构下,模型能在同一系统中完成感知、理解、推理与生成,形成一个可持续进化的世界模型。智源研究院多模态大模型负责人王鑫龙介绍,Emu3.5基于超过10万亿token的多模态数据训练,其中视频数据累计时长达790年,参数规模为340亿。团队提出的“离散扩散自适应(DiDA)”推理方法,使图像生成速度提升近20倍,同时保持高质量输出。

模型在多维度实现突破:一是从意图到规划,能够理解更高级别的人类意图,例如如何制作一艘宇宙飞船,并生成连贯的多步骤行动路径;二是动态世界模拟,能在统一框架内预测物理动态、时空演化与因果关系;三是泛化交互能力,为AI与人类及物理环境之间的协作提供认知基础。针对外界将世界模型等同于视频生成的看法,王仲远明确表示不认同,他认为世界模型的核心是对因果与物理规律的理解,而非单纯的视频生成。他以“机器人抓咖啡杯”为例:机器人要抓起一杯靠近桌边的咖啡,它必须预测哪种动作会让杯子掉落,哪种才安全——这才是对世界的真正理解。

王仲远认为,人类学习世界时不会区分语言或动作,Emu3.5也不受限于特定用途。它既可支撑具身智能,也能生成多模态训练数据。在他看来,这不仅是一次架构创新,也展示了中国科研团队的原创路线,在世界模型这一尚未完全收敛的领域中,尝试提出自己的答案。2024年10月,智源研究院曾发布全球首个原生多模态世界模型悟界·Emu3。该模型仅基于“下一个token预测”机制,而Emu3.5则在此基础上进一步完善,使AI具备更强的物理直觉与跨场景规划能力。王仲远坚信,未来的AI,将不只是理解指令,更要理解世界本身,并在其中行动。

(免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。)

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-01 19
    技术发展让未来更有希望
  • 网友9 2025-11-01 19
    需要时间验证,但现在很期待应用
  • 网友8 2025-11-01 19
    中国科研在AI领域有突破,值得点赞
  • 网友7 2025-11-01 19
    多模态模型能预测,中国科研在AI很厉害
  • 网友6 2025-11-01 19
    AI的发展方向很看好,世界模型是重要一步
  • 网友5 2025-11-01 19
    机器人如果能理解世界,以后生活方便多啦
  • 网友4 2025-11-01 19
    智源的研究有创新,很支持
  • 网友3 2025-11-01 19
    AI能预测下一个状态,这功能听起来很有意思
  • 网友2 2025-11-01 19
    世界模型让AI更智能,以后机器人做事会靠谱不少
  • 网友1 2025-11-01 19
    科技发展这么快,希望AI能帮我做家务
查看“智源研究院院长王仲远:世界模型关键在预测下一状态,AI向理解世界进阶”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙