OpenVision 2:极简生成式视觉编码器革新多模态学习

(图片来自网络)
OpenVision 2:生成式视觉预训练的极简革新是加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作推出的一项重要技术成果,带来视觉编码器预训练领域的突破性变化。
在多模态大模型发展中,视觉模块是关键支撑。过去行业长期依赖对比学习(如CLIP类方法),但OpenVision团队发现其训练管线复杂、成本较高。于是,OpenVision 2以“大道至简”为理念,革新视觉预训练思路。
原有局限与突破方向:
- 原有模式问题:早期OpenVision虽开源多模型,但训练需复杂对比学习与额外设计,导致计算成本高,扩展受限。
- 新方案核心:直接移除对比学习与额外文本编码器,仅保留「图像→描述」生成目标,简化为图像编码器+文本解码器,大幅降低训练开销。
技术亮点与效果:
- 效率提升:训练时间缩短1.5 - 2倍,显存占用减少近一半,单卡批大小从2k扩至8k;
- 规模扩展:成功将模型扩展到10亿参数规模,保持高效训练;
- 性能表现:在TextVQA、ChartQA等多模态任务中与OpenVision持平,部分任务表现更优,在OCR等文本相关任务优势明显。
关键创新点:
- 生成式监督:以生成任务为唯一监督信号,更贴近多模态大模型推理方式;
- 稀疏提示技巧:预训练阶段随机丢弃2/3视觉token,仅用1/3生成完整描述,既降成本又提升表征抽象能力;
- 范式挑战:证明对比学习并非视觉预训练必需,生成式框架可达成同等甚至更强性能。
对行业与社区的意义:
OpenVision 2不仅为多模态学习提供新方向,更通过开源25+模型与完整代码,为学术界和产业界提供可复现资源,加速生成式视觉预训练探索,体现“少即是多”的技术理念与革新潜力。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月16日:腾讯全面适配国产芯片 推动高性价比AI算力发展
- 2025年9月16日:比特币VS山寨币:企业资产负债表上的千亿美金博弈
- 2025年9月16日:脉脉报告:AI岗位量同比暴涨10倍 简历投递量创新高
- 2025年9月16日:OPPO Find X9 Pro 卫星通信版跑分超404万 刷新纪录
- 2025年9月16日:全球首个AI Agent交易市场‘骡子快跑’正式上线
- 2025年9月16日:华为与广汽丰田合作升级,享界将推鸿蒙智行首款硬派SUV
- 2025年9月16日:AMD锐龙5 7400处理器现身韩国电商平台,加速频率达4.3GHz
- 2025年9月16日:西班牙人前锋米拉赛后怒喷主裁,预计将遭两场禁赛处罚
- 2025年9月16日:西班牙人主帅赛后谈米拉红牌:保持冷静让裁判安心工作
- 2025年9月16日:法国中卫乌姆蒂蒂宣布退役,众多队友好友热情送祝福
- 2025年9月16日:曼联战术争议引关注 阿莫林帅位存变数
- 2025年9月16日:中国羽毛球大师赛混双首轮 丫邦组合直落两局顺利晋级
- 2025年9月16日:豆包月活跃用户超越DeepSeek 成中国原生AI App月活榜首
- 2025年9月16日:冲上热搜!查查你的支付宝,警惕个人信息与支付安全
- 2025年9月16日:腾讯宣布全面适配主流国产芯片 展现科技自主化新进展
- 2025年9月16日:张江人工智能创新小镇链接基金正式发布 高瓴创投与浦东创投共同成立
- 2025年9月16日:抖音副总裁揭露‘字节离职赛道’造假:培训机构引流卖课 造假被查处
- 2025年9月16日:招商局集团与百度签署战略合作协议 探索‘AI+产业’新路径
- 2025年9月16日:星火空间完成5500万元天使轮融资 欲打造全球最大电循环液体火箭
- 2025年9月16日:新型需供关系驱动下的中国AI文旅发展趋势报告2025发布
精彩评论(10)