智源EMU3.5发布 多模态世界模型开启新范式

2025年11月1日
news

(图片来自网络)

智源EMU3.5发布:多模态世界模型开启新纪元

10月30日,智源研究院正式发布「悟界EMU3.5」多模态世界大模型。在当前大语言模型(LLM)文本能力逐渐触顶、多模态被视为人工智能新方向的背景下,多模态数据融合难题成为行业焦点。智源通过创新技术找到「第三种Scaling范式」,为多模态领域发展注入新动力。

01 从效率到范式:解决核心挑战

多模态人工智能的核心挑战之一是建立「大一统模型」。智源选择「原生多模态」路线——使用统一自回归架构处理文本、图像、视频等数据。但此路线曾面临「推理效率低」的问题:自回归模型逐个预测Token生成图像时,速度远慢于并行生成的模型。为此,EMU3.5提出「DiDA(离散扩散自适应)」创新技术,实现高效混合推理预测,让自回归模型效率提升近20倍,解决了原生多模态路线的核心短板。

02 开启「第三 Scaling 范式」

基于效率突破,智源验证多模态「Scaling(规模化)」新范式。从模型参数(从8B拓展至34B)、训练数据(视频训练时长从15年增至790年)的规模化投入,模型性能显著提升。智源研究院院长提出,EMU3.5开启了继「语言预训练」和「后训练及推理」之后的「第三个Scaling范式」,理由包括架构统一性、设施可复用性、强化学习引入等,为多模态规模化发展提供新路径。

03 向世界学习:从Token到状态预测

EMU3.5将学习范式从「Next-Token Prediction(预测Token)」升级为「Next-State Prediction(预测状态)」,学习世界物理规律与因果关系。通过理解「桌边的咖啡」等场景的因果逻辑,模型能预测状态变化、规划行动,为具身智能(机器人)提供理解、规划和训练数据支持,推动通用人工智能发展。

目前智源已披露技术细节并计划开源模型,多模态世界模型领域的新范式有望落地。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-01 09
    能预测下一个状态,感觉AI像有了自己的思维,以后可以帮助我们解决更多难题。
  • 网友9 2025-11-01 09
    从效率到范式,智源的发展路径很清晰,这种技术创新对行业来说很受鼓舞。
  • 网友8 2025-11-01 09
    科技让生活更丰富多彩,多模态模型能帮助老人更好地和智能设备互动,很期待!
  • 网友7 2025-11-01 09
    AI又学新东西了,这次学的是世界状态?感觉以后可以帮我们预测很多生活小问题啦!
  • 网友6 2025-11-01 09
    DiDA技术和Scaling范式很创新,对多模态领域发展有重要意义,值得深入研究。
  • 网友5 2025-11-01 09
    多模态模型能生成图片和视频,以后做作业或者创作都会方便很多,太好玩了!
  • 网友4 2025-11-01 09
    技术突破带来新范式,对AI行业来说是个里程碑,未来应用场景会越来越多。
  • 网友3 2025-11-01 09
    AI学习世界规律,这太酷了!以后可能能帮我们做更多事,比如智能家居。
  • 网友2 2025-11-01 09
    通过技术提升效率,多模态确实有潜力,不过开源后行业竞争会激烈,值得关注发展趋势。
  • 网友1 2025-11-01 09
    这科技发展太快了,多模态模型能让我更懂电脑,以后用起来方便多了!
查看“智源EMU3.5发布 多模态世界模型开启新范式”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙