世界模型开源Emu3.5，多模态SOTA性能超越NanoBanana

2025年10月31日

（图片来自网络）

北京智源人工智能研究院（BAAI）推出最新开源多模态世界模型——悟界·Emu3.5，为AI领域带来重大突破。

Emu3.5作为世界模型基座，实现图、文、视频等多模态任务全覆盖，不仅能生成图片与修改图片，还能生成图文教程，视频任务融入物理真实性，展现出高精度操作能力。

从技术演示来看，它能完成“一句话消除手写痕迹”等复杂操作，以及第一视角动态3D世界漫游，具备极强的连贯性与逻辑性，解决了传统AI在物理世界模拟上的难题。

在文生视频赛道，Emu3.5生成的视频具备连贯性、逻辑性，能模拟动态物理世界，如“整理桌面”任务可按指令逐步实现，构建空间一致的虚拟环境。

性能测试中，在多项权威基准上表现优异，性能媲美甚至超越Gemini - 2.5 - Flash - Image（Nano Banana），在文本渲染与多模态生成任务具备显著优势。

该模型采用标准Decoder - only Transformer框架，参数量仅34B，支持多任务同时完成，且开源后加速AI领域发展进程。

项目主页与技术报告可通过指定链接访问，开发者可申请内测版体验，拓展更多应用场景。