智源EMU3.5发布多模态世界模型开启新范式

2025年11月1日

（图片来自网络）

智源EMU3.5发布：多模态世界模型开启新纪元

10月30日，智源研究院正式发布「悟界EMU3.5」多模态世界大模型。在当前大语言模型（LLM）文本能力逐渐触顶、多模态被视为人工智能新方向的背景下，多模态数据融合难题成为行业焦点。智源通过创新技术找到「第三种Scaling范式」，为多模态领域发展注入新动力。

01 从效率到范式：解决核心挑战

多模态人工智能的核心挑战之一是建立「大一统模型」。智源选择「原生多模态」路线——使用统一自回归架构处理文本、图像、视频等数据。但此路线曾面临「推理效率低」的问题：自回归模型逐个预测Token生成图像时，速度远慢于并行生成的模型。为此，EMU3.5提出「DiDA（离散扩散自适应）」创新技术，实现高效混合推理预测，让自回归模型效率提升近20倍，解决了原生多模态路线的核心短板。

02 开启「第三 Scaling 范式」

基于效率突破，智源验证多模态「Scaling（规模化）」新范式。从模型参数（从8B拓展至34B）、训练数据（视频训练时长从15年增至790年）的规模化投入，模型性能显著提升。智源研究院院长提出，EMU3.5开启了继「语言预训练」和「后训练及推理」之后的「第三个Scaling范式」，理由包括架构统一性、设施可复用性、强化学习引入等，为多模态规模化发展提供新路径。

03 向世界学习：从Token到状态预测

EMU3.5将学习范式从「Next-Token Prediction（预测Token）」升级为「Next-State Prediction（预测状态）」，学习世界物理规律与因果关系。通过理解「桌边的咖啡」等场景的因果逻辑，模型能预测状态变化、规划行动，为具身智能（机器人）提供理解、规划和训练数据支持，推动通用人工智能发展。

目前智源已披露技术细节并计划开源模型，多模态世界模型领域的新范式有望落地。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-11-01 09

能预测下一个状态，感觉AI像有了自己的思维，以后可以帮助我们解决更多难题。
网友9 2025-11-01 09

从效率到范式，智源的发展路径很清晰，这种技术创新对行业来说很受鼓舞。
网友8 2025-11-01 09

科技让生活更丰富多彩，多模态模型能帮助老人更好地和智能设备互动，很期待！
网友7 2025-11-01 09

AI又学新东西了，这次学的是世界状态？感觉以后可以帮我们预测很多生活小问题啦！
网友6 2025-11-01 09

DiDA技术和Scaling范式很创新，对多模态领域发展有重要意义，值得深入研究。
网友5 2025-11-01 09

多模态模型能生成图片和视频，以后做作业或者创作都会方便很多，太好玩了！
网友4 2025-11-01 09

技术突破带来新范式，对AI行业来说是个里程碑，未来应用场景会越来越多。
网友3 2025-11-01 09

AI学习世界规律，这太酷了！以后可能能帮我们做更多事，比如智能家居。
网友2 2025-11-01 09

通过技术提升效率，多模态确实有潜力，不过开源后行业竞争会激烈，值得关注发展趋势。
网友1 2025-11-01 09

这科技发展太快了，多模态模型能让我更懂电脑，以后用起来方便多了！

查看“智源EMU3.5发布多模态世界模型开启新范式”相关搜索 >

智源EMU3.5发布 多模态世界模型开启新范式

智源EMU3.5发布：多模态世界模型开启新纪元

精彩评论（10）

最新新闻

智源EMU3.5发布多模态世界模型开启新范式