世界模型开源Emu3.5,多模态SOTA性能超越NanoBanana

2025年10月31日
news

(图片来自网络)




世界模型开源Emu3.5,多模态SOTA性能超越NanoBanana


北京智源人工智能研究院(BAAI)推出最新开源多模态世界模型——悟界·Emu3.5,为AI领域带来重大突破。


Emu3.5作为世界模型基座,实现图、文、视频等多模态任务全覆盖,不仅能生成图片与修改图片,还能生成图文教程,视频任务融入物理真实性,展现出高精度操作能力。


从技术演示来看,它能完成“一句话消除手写痕迹”等复杂操作,以及第一视角动态3D世界漫游,具备极强的连贯性与逻辑性,解决了传统AI在物理世界模拟上的难题。


在文生视频赛道,Emu3.5生成的视频具备连贯性、逻辑性,能模拟动态物理世界,如“整理桌面”任务可按指令逐步实现,构建空间一致的虚拟环境。



  • 生成的视频保持主体一致性与风格连贯,可生成分步教学指南,如做菜、画画、种菜等教程,提升学习与创作效率。

  • 性能测试中,在多项权威基准上表现优异,性能媲美甚至超越Gemini - 2.5 - Flash - Image(Nano Banana),在文本渲染与多模态生成任务具备显著优势。

  • 作为开源基座,Emu3.5为开发者提供强大工具,推动AI技术向更智能、更实用的方向发展,促进行业创新。


该模型采用标准Decoder - only Transformer框架,参数量仅34B,支持多任务同时完成,且开源后加速AI领域发展进程。


项目主页与技术报告可通过指定链接访问,开发者可申请内测版体验,拓展更多应用场景。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-31 12
    希望安全可靠,不过目前技术很先进
  • 网友9 2025-10-31 12
    模型能模拟物理世界,未来应用场景很多
  • 网友8 2025-10-31 12
    开源后开发者有机会,技术会更普及
  • 网友7 2025-10-31 12
    视频生成更连贯了,以后做教学视频更方便
  • 网友6 2025-10-31 12
    AI进步很快,这次基座模型的突破不错,值得关注
  • 网友5 2025-10-31 12
    多模态模型对未来工作有帮助,效率会提高
  • 网友4 2025-10-31 12
    开源模型很好,能促进技术发展,期待更多创新
  • 网友3 2025-10-31 12
    能生成3D漫游,以后不用出门就能体验,太有趣了
  • 网友2 2025-10-31 12
    Emu3.5的性能提升让AI视频更真实,对行业帮助很大
  • 网友1 2025-10-31 12
    这模型太厉害了,多模态功能很实用,希望以后应用更广泛
查看“世界模型开源Emu3.5,多模态SOTA性能超越NanoBanana”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙