OpenVision 2:极简生成式视觉编码器革新多模态学习

2025年9月16日
news

(图片来自网络)

OpenVision 2:生成式视觉预训练的极简革新是加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作推出的一项重要技术成果,带来视觉编码器预训练领域的突破性变化。


在多模态大模型发展中,视觉模块是关键支撑。过去行业长期依赖对比学习(如CLIP类方法),但OpenVision团队发现其训练管线复杂、成本较高。于是,OpenVision 2以“大道至简”为理念,革新视觉预训练思路。


原有局限与突破方向



  • 原有模式问题:早期OpenVision虽开源多模型,但训练需复杂对比学习与额外设计,导致计算成本高,扩展受限。

  • 新方案核心:直接移除对比学习与额外文本编码器,仅保留「图像→描述」生成目标,简化为图像编码器+文本解码器,大幅降低训练开销。


技术亮点与效果



  • 效率提升:训练时间缩短1.5 - 2倍,显存占用减少近一半,单卡批大小从2k扩至8k;

  • 规模扩展:成功将模型扩展到10亿参数规模,保持高效训练;

  • 性能表现:在TextVQA、ChartQA等多模态任务中与OpenVision持平,部分任务表现更优,在OCR等文本相关任务优势明显。


关键创新点



  • 生成式监督:以生成任务为唯一监督信号,更贴近多模态大模型推理方式;

  • 稀疏提示技巧:预训练阶段随机丢弃2/3视觉token,仅用1/3生成完整描述,既降成本又提升表征抽象能力;

  • 范式挑战:证明对比学习并非视觉预训练必需,生成式框架可达成同等甚至更强性能。


对行业与社区的意义


OpenVision 2不仅为多模态学习提供新方向,更通过开源25+模型与完整代码,为学术界和产业界提供可复现资源,加速生成式视觉预训练探索,体现“少即是多”的技术理念与革新潜力。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-16 09
    “大道至简”的理念贯穿始终,技术发展与哲学理念很契合,很有启发性。
  • 网友9 2025-09-16 09
    对比以前的方法,现在训练快还能做更多任务,AI落地更方便了。
  • 网友8 2025-09-16 09
    10亿参数规模能高效训练,说明方案确实有效,很佩服研究团队。
  • 网友7 2025-09-16 09
    感觉这种极简思路未来会更多出现,技术发展越来越注重实用性和效率啦。
  • 网友6 2025-09-16 09
    从原理上看,生成式监督比对比学习更贴近实际应用场景,很有道理。
  • 网友5 2025-09-16 09
    开源代码和数据太友好了,社区能快速跟进研究,加速进步!
  • 网友4 2025-09-16 09
    稀疏提示技巧很巧妙,既降成本又提升能力,值得学习。
  • 网友3 2025-09-16 09
    效率提升明显,扩展到10亿参数也很厉害,为行业开了新局!
  • 网友2 2025-09-16 09
    对比学习用了这么久,现在有更简单的方案,科技发展真快!
  • 网友1 2025-09-16 09
    这波革新太酷了,感觉以后视觉模型训练会越来越简单高效!
查看“OpenVision 2:极简生成式视觉编码器革新多模态学习”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙