智源推出Emu3.5多模态世界大模型,开启AI新纪元

2025年11月3日
news

(图片来自网络)

2025年10月30日,智源研究院在北京举办“悟界·Emu系列技术交流会”,正式发布了Emu3.5多模态世界大模型,这一发布标志着AI发展进入新纪元。

模型发布意义:这项工作开启了AI从语言学习向多模态世界学习演进的新纪元,实现了原生多模态的大规模预训练、强化学习与高效推理的新突破,指明了多模态Scaling的新范式,并证明了更简洁、更具扩展性的技术路径可行性,同时标志着AI正加速从数字世界迈向物理世界的关键一步。

核心技术特点:Emu3.5遵循第一性原理,采用单一自回归Transformer架构,实现了端到端的原生多模态世界建模。它基于超过10万亿token的大规模多模态数据训练,视频数据训练量时长从15年跃升至790年,参数量从8B上升至34B。智源提出“离散扩散自适应”(DiDA)技术,在不牺牲性能的前提下,将图片推理速度提升近20倍,让自回归模型的生成效率首次媲美顶尖的闭源扩散模型。

“世界模型”的内涵:智源将Emu3.5称为“世界模型”,是因为它通过单一、统一的“预测下一个状态”训练目标,从海量多模态数据中自发学习并内化物理世界的运行规律、时空连续性及因果关系,而非被硬编码灌输知识。其核心在于“理解、预测与规划”,不仅能生成未来场景,更构建一个关于世界运作的内在模型;区别于专注于内容生成的模型,它致力于构建世界模型的预测系统,具备意图解析、因果推理和多步行动路径规划能力。

核心能力与价值:Emu3.5具备三大特点——从意图到规划(理解高层意并生成行动路径)、动态世界模拟(统一框架内融合理解、规划、模拟)、泛化交互基础(因果推理与规划能力支持具身操控),具备从“理解”到“行动”的全面智能,能生成行动指南、图文编辑等,具备物理直觉,可探索多场景。在多模态叙事、跨场景具身操作等方面展现卓越能力,且在基准测试中表现超越了众多知名闭源模型。

未来发展与展望:智源定位为做高校做不了、企业不愿意做的AI创新型研究,将其作为通往通用AI(AGI)的演进实践路径。未来,智源将逐步面向学术界开放Emu3.5科研体验版,面向产业界和开发者启动邀请制测试,推动多模态世界大模型新范式发展,为探索AGI提供坚实实践路径。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-03 07
    多模态世界大模型让AI更智能,为通用AI发展打基础,很期待!
  • 网友9 2025-11-03 07
    看到技术进步,对未来生活充满信心,期待更多创新产品!
  • 网友8 2025-11-03 07
    AI发展日新月异,多模态世界模型是重要一步,值得点赞!
  • 网友7 2025-11-03 07
    希望这个模型能应用到更多领域,帮助普通人更方便,太好了!
  • 网友6 2025-11-03 07
    智源的技术突破让人惊叹,多模态学习开启新可能!
  • 网友5 2025-11-03 07
    作为科技爱好者,看到多模态世界模型发展,对未来充满希望!
  • 网友4 2025-11-03 07
    这个多模态模型太酷了,以后能帮助解决更多现实问题,支持!
  • 网友3 2025-11-03 07
    学习AI知识更有动力了,世界模型发展很快,中国科技真进步!
  • 网友2 2025-11-03 07
    智源的这个大模型很厉害,标志着AI向物理世界迈进,很期待!
  • 网友1 2025-11-03 07
    终于看到AI能理解世界了,以后会有更多智能服务帮助生活!
查看“智源推出Emu3.5多模态世界大模型,开启AI新纪元”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙