人工智能新战场：多模态与世界模型成研发核心方向

2025年12月21日

（图片来自网络）

人工智能新战场：多模态与世界模型成研发核心方向

2025年，全球AI大模型竞争持续提速，底层技术的竞争焦点也逐步转移。作为新型研发机构，北京智源人工智能研究院（BAAI）见证了技术的关键转折。

2020年，智源最早推动了国内大语言模型的研发和开源。2024年初，智源开始全面聚焦多模态、世界模型、具身智能等下一代技术的研发。

近日，《中国新闻周刊》专访了智源研究院院长王仲远，探讨技术转折点上的挑战、机遇与中国路径。

多模态是新战场

《中国新闻周刊》：今年，AI大模型领域发生了哪些变化？

王仲远：今年，大语言模型的竞争已步入相对成熟的阶段，产业化全面推进。上半年，我们清楚地看到，国内从事基础大模型研发，尤其是专注于大语言模型训练的公司在快速收敛，这有助于减少重复投入，避免资源浪费。近期，尤其在10月份之后，国内外涌现出一系列多模态模型，相关技术实现显著突破，引领新一轮发展浪潮。多模态模型已成为新的核心战场，关键挑战在于如何在一个模型内实现跨模态的理解与生成，世界模型也开始涌现。整体看，AI技术仍在加速发展。

这一趋势符合技术演进的规律。可以预见的是，大语言模型在数据使用方面会面临越来越多的约束，模型性能提升的速率也明显放缓。目前，全世界仍有海量图像、音频、视频、3D及传感器数据等多模态数据尚未被有效地开发用于训练。

当前，AI正加速从数字世界迈向物理世界。多模态的发展将为AI下一代的技术带来重大突破，与硬件系统相结合，催生具身智能；与微观世界研究相结合，则推动AI驱动的科学研究（AI4S，AI驱动的科学研究）走向深入。

中美竞争形势

《中国新闻周刊》：多模态模型竞争加剧后，中美竞争形势会如何变化？

王仲远：在谷歌相继推出Gemini 3 Pro、Nano Banana Pro等模型后，谷歌在多模态智能方面展现出较为成熟的能力。这种能力依赖于谷歌强大的数据和工程体系，背后是一个复杂的系统，而非单一模型的结果。在进入垂直领域做定制化应用时，模型仍面临一定的适配难度。坦率地说，中国同美国在多模态模型方面的差距正在被拉大，但我认为这只是短期性的。去年，我们普遍认为中国大模型整体落后于美国2—3年；到今年年初，这一差距就缩短至两三个月。随着国内外顶尖模型的迭代，这种差距是动态变化的。在产业的“水面”之下，中国仍然有众多优秀的科研机构和企业在不断追赶，探索模型架构的创新。这是一场马拉松式的竞赛，需要耐心和持续投入。我们既要正视差距，也要对中国的创新生态有坚定信心。

产业落地挑战

《中国新闻周刊》：产业落地的挑战与机会在哪里？

王仲远：无论是B端（企业级）还是C端（消费级）用户，用户对产品的效果与体验的要求非常敏感。现在已有很多产品在背后集成了Agent（智能体）能力，通过提升用户的工作效率，实现了较高频次的使用。但是，真正意义上的“超级C端应用”尚未出现，这至少需要达到95%的用户满意度。它不能只停留在UI（用户界面）创新上，更需要在模型核心能力、使用体验方面实现实质性突破。对于创业公司而言，关键是要找准自身定位，避免一拥而上、一哄而散。应明确在哪些核心技术或垂直场景上要保持自身特色和竞争优势，聚焦特定领域，清楚规划B端或C端的商业化路径。目前，很多基于大语言模型的Agent产品在能力上仍有不足，多模态模型技术本身尚未收敛，Agent的发展仍处于探索期，真正的爆发时刻尚未到来。

中国开源生态

《中国新闻周刊》：开源怎样改变了中国模型的生态位？

王仲远：今年，中国企业提供的开源生态在全球起到了支柱性作用，尤其是DeepSeek、阿里的通义千问（Qwen）等产品级的大语言模型。以智源研究院为例，过去两年，我们开源了200多款模型，100多个涵盖语言、语音、图像、视频和具身智能等多种模态的数据集，模型的全球下载量达到6.9亿次，刚在11月底开源的一个具身数据集下载量已超百万次。开源生态是否能构建全球影响力，关键在于能否解决用户或开源社区的痛点问题，这是一个更接近市场化的竞争机制。计算机、AI领域的快速发展很大程度上得益于开源开放，从业者往往愿意第一时间公布成果。每个人的工作都可以建立在“巨人的肩膀”上，基于别人的开源工作做改进，再把自己的成果进一步开源，形成良性循环。很多全世界的顶尖科学家都非常支持开源开放，认为这能惠及全行业的发展。由于资本和政策导向，美国的顶尖模型以闭源为主。中国的资源比之海外相对有限，不得不用更加高效能的方式来使用资源、训练模型。开源的选择，是现实环境和工程师优势共同作用的结果。不过，坦诚来说，由于模型训练成本很高，选择开源的企业会面临如何保持竞争优势，怎样影响ROI（投资回报率）等挑战。过去几十年，开源和闭源生态一直是共存的，例如，电脑操作系统Windows是封闭生态，Linux是开放生态；移动操作系统iOS是封闭生态，安卓是开放生态，大模型生态也可能呈现类似格局。

世界模型起跑线

《中国新闻周刊》：李飞飞、杨立昆（Yann LeCun）等巨头都在探讨的世界模型是什么？与传统模型区别的关键是什么？

王仲远：过去几年，随着具身智能、智能驾驶等技术等快速演进，除了理解文本、生成内容，AI还需要具备对真实世界感知和推理的能力。世界模型跟很多技术概念都有相关性，例如多模态、视频生成、空间智能等。回归本源，世界模型应当反映了智能体对在世界中生存的一种基础感知。今年10月底，智源发布了原生多模态世界模型“悟界·Emu3.5”，基于统一的自回归架构，提出了世界模型的一种构建路径。其中展现出的世界模型核心能力包括连贯地推演长时程的视觉叙事、在虚拟探索中保持时空一致性，甚至为开放世界中的具身智能体规划行动。“下一个状态”应如何展示？我们认为它应该是包罗万象的，体现为对全模态输入的统一处理。举个例子，人脑仅凭触觉就可以判断一个人出现了流感相关症状，并据此做出服用药物或去医院的决策，这时，人脑的世界模型处理的是触感这一模态，仅靠视频生成无法达成。由于资源有限，我们目前更多只是在验证并拓展这条技术路线的可行性。世界模型的定义和技术路线还没有形成共识。目前，中国和美国的研究都处于极早期阶段，探索活跃程度都很高，处于同一起跑线上。《中国新闻周刊》：世界模型的研究下一步面临哪些挑战？王仲远：我们提出的多模态世界模型技术路线，可以复用大语言模型的基础设施，但即便如此，研发与训练成本仍然很高。一方面，我们要持续推进训练与推理的效率优化；另一方面，我们要去探索更具颠覆性的模型架构。目前，训练大模型的能耗可能堪比一座小型城市的发电量，这与仅消耗10—20瓦功率的人脑运行机制形成鲜明对比。我们正从神经科学与人脑学习机制中获得启发，探索改变大模型训练方式的新路径，但相关研究仍处于特别早期，距离形成可落地的系统与产品还需要时间。记者：王诗涵（wangshihan@chinanews.com)编辑：闵杰

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-12-21 19

多模态模型应用在生活里，很方便，支持创新
网友9 2025-12-21 19

人工智能发展让生活更美好，很期待
网友8 2025-12-21 19

要平衡科技发展与规范，保障安全
网友7 2025-12-21 19

世界模型的探索很前沿，值得深入研究
网友6 2025-12-21 19

开源生态很厉害，方便大家学习研究
网友5 2025-12-21 19

AI多模态技术对工作有帮助，希望优化更高效
网友4 2025-12-21 19

科技发展速度让我感叹，需要持续关注新动态
网友3 2025-12-21 19

世界模型听起来很先进，期待以后应用到生活中
网友2 2025-12-21 19

AI技术进步这么快，要关注安全方面的问题
网友1 2025-12-21 19

多模态技术发展很快，希望未来能更便捷生活

查看“人工智能新战场：多模态与世界模型成研发核心方向”相关搜索 >

人工智能新战场：多模态与世界模型成研发核心方向

人工智能新战场：多模态与世界模型成研发核心方向

多模态是新战场

中美竞争形势

产业落地挑战

中国开源生态

世界模型起跑线

精彩评论（10）

最新新闻