智源推出Emu3.5多模态世界大模型，开启AI新纪元

2025年11月3日

（图片来自网络）

2025年10月30日，智源研究院在北京举办“悟界·Emu系列技术交流会”，正式发布了Emu3.5多模态世界大模型，这一发布标志着AI发展进入新纪元。

模型发布意义：这项工作开启了AI从语言学习向多模态世界学习演进的新纪元，实现了原生多模态的大规模预训练、强化学习与高效推理的新突破，指明了多模态Scaling的新范式，并证明了更简洁、更具扩展性的技术路径可行性，同时标志着AI正加速从数字世界迈向物理世界的关键一步。

核心技术特点：Emu3.5遵循第一性原理，采用单一自回归Transformer架构，实现了端到端的原生多模态世界建模。它基于超过10万亿token的大规模多模态数据训练，视频数据训练量时长从15年跃升至790年，参数量从8B上升至34B。智源提出“离散扩散自适应”（DiDA）技术，在不牺牲性能的前提下，将图片推理速度提升近20倍，让自回归模型的生成效率首次媲美顶尖的闭源扩散模型。

“世界模型”的内涵：智源将Emu3.5称为“世界模型”，是因为它通过单一、统一的“预测下一个状态”训练目标，从海量多模态数据中自发学习并内化物理世界的运行规律、时空连续性及因果关系，而非被硬编码灌输知识。其核心在于“理解、预测与规划”，不仅能生成未来场景，更构建一个关于世界运作的内在模型；区别于专注于内容生成的模型，它致力于构建世界模型的预测系统，具备意图解析、因果推理和多步行动路径规划能力。

核心能力与价值：Emu3.5具备三大特点——从意图到规划（理解高层意并生成行动路径）、动态世界模拟（统一框架内融合理解、规划、模拟）、泛化交互基础（因果推理与规划能力支持具身操控），具备从“理解”到“行动”的全面智能，能生成行动指南、图文编辑等，具备物理直觉，可探索多场景。在多模态叙事、跨场景具身操作等方面展现卓越能力，且在基准测试中表现超越了众多知名闭源模型。

未来发展与展望：智源定位为做高校做不了、企业不愿意做的AI创新型研究，将其作为通往通用AI（AGI）的演进实践路径。未来，智源将逐步面向学术界开放Emu3.5科研体验版，面向产业界和开发者启动邀请制测试，推动多模态世界大模型新范式发展，为探索AGI提供坚实实践路径。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-11-03 07

多模态世界大模型让AI更智能，为通用AI发展打基础，很期待！
网友9 2025-11-03 07

看到技术进步，对未来生活充满信心，期待更多创新产品！
网友8 2025-11-03 07

AI发展日新月异，多模态世界模型是重要一步，值得点赞！
网友7 2025-11-03 07

希望这个模型能应用到更多领域，帮助普通人更方便，太好了！
网友6 2025-11-03 07

智源的技术突破让人惊叹，多模态学习开启新可能！
网友5 2025-11-03 07

作为科技爱好者，看到多模态世界模型发展，对未来充满希望！
网友4 2025-11-03 07

这个多模态模型太酷了，以后能帮助解决更多现实问题，支持！
网友3 2025-11-03 07

学习AI知识更有动力了，世界模型发展很快，中国科技真进步！
网友2 2025-11-03 07

智源的这个大模型很厉害，标志着AI向物理世界迈进，很期待！
网友1 2025-11-03 07

终于看到AI能理解世界了，以后会有更多智能服务帮助生活！

查看“智源推出Emu3.5多模态世界大模型，开启AI新纪元”相关搜索 >

智源推出Emu3.5多模态世界大模型，开启AI新纪元

精彩评论（10）

最新新闻