智源推出Emu3.5多模态世界大模型,开启AI新纪元
(图片来自网络)
2025年10月30日,智源研究院在北京举办“悟界·Emu系列技术交流会”,正式发布了Emu3.5多模态世界大模型,这一发布标志着AI发展进入新纪元。
模型发布意义:这项工作开启了AI从语言学习向多模态世界学习演进的新纪元,实现了原生多模态的大规模预训练、强化学习与高效推理的新突破,指明了多模态Scaling的新范式,并证明了更简洁、更具扩展性的技术路径可行性,同时标志着AI正加速从数字世界迈向物理世界的关键一步。
核心技术特点:Emu3.5遵循第一性原理,采用单一自回归Transformer架构,实现了端到端的原生多模态世界建模。它基于超过10万亿token的大规模多模态数据训练,视频数据训练量时长从15年跃升至790年,参数量从8B上升至34B。智源提出“离散扩散自适应”(DiDA)技术,在不牺牲性能的前提下,将图片推理速度提升近20倍,让自回归模型的生成效率首次媲美顶尖的闭源扩散模型。
“世界模型”的内涵:智源将Emu3.5称为“世界模型”,是因为它通过单一、统一的“预测下一个状态”训练目标,从海量多模态数据中自发学习并内化物理世界的运行规律、时空连续性及因果关系,而非被硬编码灌输知识。其核心在于“理解、预测与规划”,不仅能生成未来场景,更构建一个关于世界运作的内在模型;区别于专注于内容生成的模型,它致力于构建世界模型的预测系统,具备意图解析、因果推理和多步行动路径规划能力。
核心能力与价值:Emu3.5具备三大特点——从意图到规划(理解高层意并生成行动路径)、动态世界模拟(统一框架内融合理解、规划、模拟)、泛化交互基础(因果推理与规划能力支持具身操控),具备从“理解”到“行动”的全面智能,能生成行动指南、图文编辑等,具备物理直觉,可探索多场景。在多模态叙事、跨场景具身操作等方面展现卓越能力,且在基准测试中表现超越了众多知名闭源模型。
未来发展与展望:智源定位为做高校做不了、企业不愿意做的AI创新型研究,将其作为通往通用AI(AGI)的演进实践路径。未来,智源将逐步面向学术界开放Emu3.5科研体验版,面向产业界和开发者启动邀请制测试,推动多模态世界大模型新范式发展,为探索AGI提供坚实实践路径。
最新新闻
- 2025年11月3日:智元机器人与龙旗科技合作落地真机强化学习技术
- 2025年11月3日:美团开源561B全模态大模型LongCat-Flash-Omni,推出首款AI通用助手App
- 2025年11月3日:我国IPv6活跃用户达8.65亿,规模居世界首位
- 2025年11月3日:华为哈勃+华控基金联合领投极佳视界A1轮,物理AI世界模型成核心技术趋势
- 2025年11月3日:湖人客场击败热火收获3连胜 东契奇三双助力里夫斯、哈克斯精彩表现
- 2025年11月3日:习近平主席韩国会晤 中韩关系翻开新篇章
- 2025年11月3日:AI漫画“拍立得”上线:一句话一张照片生成完整连载
- 2025年11月3日:LongCat-Flash-Omni开源发布,开启全模态实时交互新纪元
- 2025年11月3日:携程美食林升级 海外搜索餐饮关键词涨幅超30%
- 2025年11月3日:神舟二十一号载人飞船发射成功 载人航天再谱新篇
- 2025年11月3日:从体外改造到体内生成,CAR-T疗法变革路径
- 2025年11月3日:北汽新能源全新阿尔法T5上市 力争成为10万级爆款车型
- 2025年11月3日:比亚迪刀片电池与日本市场策略碰撞:新能源车企海外拓展新观察
- 2025年11月3日:体验了一周 ChatGPT 浏览器,我还是把 Chrome 装了回来
- 2025年11月3日:‘垃圾信息’喂AI致“变傻”?研究揭示数据质量成AI发展关键
- 2025年11月3日:我国装机规模最大火力发电厂在宁波顺利投产
- 2025年11月3日:CHERRY XTRFY发布搭载新机械轴体三模机械键盘PIXIU99
- 2025年11月3日:倪光南院士:开源RISC-V为AI算力发展提供新机遇(GOTC峰会聚焦)
- 2025年11月3日:第八届进博会新闻中心开放 助力中外媒体服务创新
- 2025年11月3日:李飞飞呼吁大学推动人工智能研究回归公共利益

精彩评论(10)