MiniMax海螺视频团队首次开源VTP:视觉分词器也具备明确Scaling Law
(图片来自网络)
MiniMax海螺视频团队不藏了!首次开源就揭晓了困扰行业已久的问题——为什么视觉分词器投入大量算力也无法提升第二阶段的生成效果?研究显示,传统视觉分词器因过度追求像素级重建,忽视对图像语义与结构化的理解,导致生成性能难以提升。团队此次开源VTP框架,不仅首次证明视觉分词器(Tokenizer)也具备明确的Scaling Law(缩放规律),还带来一款专为下一代生成模型打造的可扩展视觉分词器预训练框架,助力生成模型突破。
要理解这一现象,首先得认识传统视觉分词器(Tokenizer)的角色与缺陷。以AI生图为例,主流两阶段生成框架依赖视觉分词器(如VAE),负责将原始图像压缩到潜在空间;生成模型再基于此潜在空间工作。视觉分词器堪称让模型在消费级显卡上运行的关键功臣,其潜在表征质量直接决定生成图像的语义保真度与细节丰富度。但传统视觉分词器存在“越追求像素级重建,越无法提升生成效果”的矛盾:在追求“精准重建”时,过度捕捉局部纹理、噪点等低层信息,忽视了生成任务依赖的高层语义与整体结构,导致行业投入大量算力与数据但转化效果不佳。
- 传统Tokenizer缺陷:过度聚焦像素级重建,忽视语义与结构理解
- 行业困境:算力投入与生成效果不成正比
针对这一问题,MiniMax海螺团队提出VTP(Visual Tokenizer Pre-training)框架,通过强调“语义理解+结构化表达+必要细节保留”的多任务联合优化,实现了视觉分词器的突破。VTP的设计原则与做法如下:
- 图文对比学习:让分词器压缩图像时保留与文本对齐的语义结构,实现“压缩即智能”
- 自监督学习:通过掩码图像建模与自蒸馏,掌握空间结构与视觉常识,理解全局语义与局部结构推理
- 重建优化:在保留必要底层视觉细节的基础上,避免过度追求像素级重建
VTP的意义在于首次证明了视觉分词器也具备明确的Scaling Law——即随着预训练时投入的计算量、参数量与数据规模增长,生成性能可有效提升。实验显示:在相同算力下,VTP在图像理解、重建、生成方面的表现优于传统分词器,训练收敛速度更快,大幅降低了训练成本。比如在ImageNet零样本分类准确率、重建细节、生成质量等方面均取得了改进,体现了语义理解力是驱动生成性能的核心因素。
VTP的开源为行业带来了新路径——证明视觉分词器是值得长期投入的核心环节,未来可通过分词器缩放来提升整体生成系统性能。团队也开放了VTP的论文、代码与模型权重,方便行业进一步探索。
最新新闻
- 2025年12月22日:比亚迪匈牙利生产基地投产 年产30万辆新能源车上市
- 2025年12月22日:Karpathy发布2025年终大语言模型清单,揭示行业范式转变
- 2025年12月22日:商务部官员会见苹果首席运营官 推动在华合作交流
- 2025年12月22日:继CPU、GPU后,又来了个MaPU
- 2025年12月22日:聚焦“AI+医疗”!国家人工智能应用中试基地(医疗)浙江开园
- 2025年12月22日:英超比赛中谢什科两分钟错失双绝佳进球,库尼亚反应无奈
- 2025年12月22日:威少威少!施罗德加时三分绝杀,国王125-124险胜火箭
- 2025年12月22日:詹姆斯谈参加第20次圣诞大战:荣幸也要全力备战
- 2025年12月22日:2025年美国各州畅销车:皮卡、SUV与电动车三足鼎立
- 2025年12月22日:百度发邮件宣布MEG新一轮调整:搜推大融合
- 2025年12月22日:荣耀WIN系列搭载10000mAh电池,国产手机电池跨入万级时代
- 2025年12月22日:计量技术助力湾区发展 黄志铭推动服务港澳企业
- 2025年12月22日:摩尔线程国产GPU硬核路演 展现AI与图形领域技术实力
- 2025年12月22日:软通天枢智能以空间智能重构AI产业新生态——2025数字孪生+具身智能创新发展会议举办
- 2025年12月22日:陈天桥旗下盛大AI东京研究院正式亮相,揭晓数字人与世界模型成果
- 2025年12月22日:名企预见2026|光启技术刘若鹏:AI驱动设计将颠覆传统制造业研发范式
- 2025年12月22日:东风与华为合作打造新品牌奕境首台工程样车下线,全尺寸SUV量产版明年4月发布
- 2025年12月22日:乌加特长传失误致曼联不敌维拉
- 2025年12月22日:火箭加时惜败国王 谢泼德失误连成串 申京关键球再失准
- 2025年12月22日:国家航天局统筹民商遥感卫星资源,打造‘太空打星’提升防灾减灾效率

精彩评论(10)