关于本站登录

OpenVision 2：极简生成式视觉编码器革新多模态学习

2025年9月16日

（图片来自网络）

OpenVision 2：生成式视觉预训练的极简革新是加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作推出的一项重要技术成果，带来视觉编码器预训练领域的突破性变化。

在多模态大模型发展中，视觉模块是关键支撑。过去行业长期依赖对比学习（如CLIP类方法），但OpenVision团队发现其训练管线复杂、成本较高。于是，OpenVision 2以“大道至简”为理念，革新视觉预训练思路。

原有局限与突破方向：

原有模式问题：早期OpenVision虽开源多模型，但训练需复杂对比学习与额外设计，导致计算成本高，扩展受限。

新方案核心：直接移除对比学习与额外文本编码器，仅保留「图像→描述」生成目标，简化为图像编码器+文本解码器，大幅降低训练开销。

技术亮点与效果：

效率提升：训练时间缩短1.5 - 2倍，显存占用减少近一半，单卡批大小从2k扩至8k；

规模扩展：成功将模型扩展到10亿参数规模，保持高效训练；

性能表现：在TextVQA、ChartQA等多模态任务中与OpenVision持平，部分任务表现更优，在OCR等文本相关任务优势明显。

关键创新点：

生成式监督：以生成任务为唯一监督信号，更贴近多模态大模型推理方式；

稀疏提示技巧：预训练阶段随机丢弃2/3视觉token，仅用1/3生成完整描述，既降成本又提升表征抽象能力；

范式挑战：证明对比学习并非视觉预训练必需，生成式框架可达成同等甚至更强性能。

对行业与社区的意义：

OpenVision 2不仅为多模态学习提供新方向，更通过开源25+模型与完整代码，为学术界和产业界提供可复现资源，加速生成式视觉预训练探索，体现“少即是多”的技术理念与革新潜力。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-09-16 09

“大道至简”的理念贯穿始终，技术发展与哲学理念很契合，很有启发性。
网友9 2025-09-16 09

对比以前的方法，现在训练快还能做更多任务，AI落地更方便了。
网友8 2025-09-16 09

10亿参数规模能高效训练，说明方案确实有效，很佩服研究团队。
网友7 2025-09-16 09

感觉这种极简思路未来会更多出现，技术发展越来越注重实用性和效率啦。
网友6 2025-09-16 09

从原理上看，生成式监督比对比学习更贴近实际应用场景，很有道理。
网友5 2025-09-16 09

开源代码和数据太友好了，社区能快速跟进研究，加速进步！
网友4 2025-09-16 09

稀疏提示技巧很巧妙，既降成本又提升能力，值得学习。
网友3 2025-09-16 09

效率提升明显，扩展到10亿参数也很厉害，为行业开了新局！
网友2 2025-09-16 09

对比学习用了这么久，现在有更简单的方案，科技发展真快！
网友1 2025-09-16 09

这波革新太酷了，感觉以后视觉模型训练会越来越简单高效！

查看“OpenVision 2：极简生成式视觉编码器革新多模态学习”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙