MiniMax海螺视频团队首次开源VTP:视觉分词器也具备明确Scaling Law

2025年12月22日
news

(图片来自网络)

MiniMax海螺视频团队不藏了!首次开源就揭晓了困扰行业已久的问题——为什么视觉分词器投入大量算力也无法提升第二阶段的生成效果?研究显示,传统视觉分词器因过度追求像素级重建,忽视对图像语义与结构化的理解,导致生成性能难以提升。团队此次开源VTP框架,不仅首次证明视觉分词器(Tokenizer)也具备明确的Scaling Law(缩放规律),还带来一款专为下一代生成模型打造的可扩展视觉分词器预训练框架,助力生成模型突破。


要理解这一现象,首先得认识传统视觉分词器(Tokenizer)的角色与缺陷。以AI生图为例,主流两阶段生成框架依赖视觉分词器(如VAE),负责将原始图像压缩到潜在空间;生成模型再基于此潜在空间工作。视觉分词器堪称让模型在消费级显卡上运行的关键功臣,其潜在表征质量直接决定生成图像的语义保真度与细节丰富度。但传统视觉分词器存在“越追求像素级重建,越无法提升生成效果”的矛盾:在追求“精准重建”时,过度捕捉局部纹理、噪点等低层信息,忽视了生成任务依赖的高层语义与整体结构,导致行业投入大量算力与数据但转化效果不佳。



  • 传统Tokenizer缺陷:过度聚焦像素级重建,忽视语义与结构理解

  • 行业困境:算力投入与生成效果不成正比


针对这一问题,MiniMax海螺团队提出VTP(Visual Tokenizer Pre-training)框架,通过强调“语义理解+结构化表达+必要细节保留”的多任务联合优化,实现了视觉分词器的突破。VTP的设计原则与做法如下:



  • 图文对比学习:让分词器压缩图像时保留与文本对齐的语义结构,实现“压缩即智能”

  • 自监督学习:通过掩码图像建模与自蒸馏,掌握空间结构与视觉常识,理解全局语义与局部结构推理

  • 重建优化:在保留必要底层视觉细节的基础上,避免过度追求像素级重建


VTP的意义在于首次证明了视觉分词器也具备明确的Scaling Law——即随着预训练时投入的计算量、参数量与数据规模增长,生成性能可有效提升。实验显示:在相同算力下,VTP在图像理解、重建、生成方面的表现优于传统分词器,训练收敛速度更快,大幅降低了训练成本。比如在ImageNet零样本分类准确率、重建细节、生成质量等方面均取得了改进,体现了语义理解力是驱动生成性能的核心因素。


VTP的开源为行业带来了新路径——证明视觉分词器是值得长期投入的核心环节,未来可通过分词器缩放来提升整体生成系统性能。团队也开放了VTP的论文、代码与模型权重,方便行业进一步探索。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-12-22 13
    作为普通消费者,期待用上基于VTP的生成工具,图像质量提升,体验更好,这次开源应该会推动应用落地!
  • 网友9 2025-12-22 13
    从教育角度,这类前沿技术开放对教学很有帮助,能让学生了解最新AI发展方向,激发学习兴趣!
  • 网友8 2025-12-22 13
    普通用户视角,希望以后用AI工具时,生图更自然、更符合预期,这次开源应该是往这个方向推进了!
  • 网友7 2025-12-22 13
    年轻技术人员来说,这为未来研究提供了新思路,之前的方向可能需要调整,多关注分词器这类的底层技术!
  • 网友6 2025-12-22 13
    作为老一辈从业者,看到分词器的重要性被再次强调,感觉技术方向又回到基础环节,这波开源对行业很有意义!
  • 网友5 2025-12-22 13
    从科技爱好者角度,VTP的突破打破了传统认知,分词器也成了可优化、可缩放的关键环节,行业未来发展的新方向值得关注!
  • 网友4 2025-12-22 13
    学生党来说,了解这类前沿技术很有启发性,感觉AI领域还有很多值得探索的地方,以后学习可以有新方向了。
  • 网友3 2025-12-22 13
    普通用户角度来说,这应该能让我们用AI生图时获得更高质量、更准确的图像,期待新模型应用!
  • 网友2 2025-12-22 13
    作为程序员,了解到分词器也能做Scaling Law很震撼,之前以为只有主模型能,现在感觉技术方向更开阔了,值得行业投入研究!
  • 网友1 2025-12-22 13
    这个开源太重要了,终于知道为什么算力堆不上去,原来是分词器没做好,现在有了VTP能解决,太期待以后生成模型能更好了!
查看“MiniMax海螺视频团队首次开源VTP:视觉分词器也具备明确Scaling Law”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙