百度开源视觉理解模型Qianfan-VL 多模态能力革新

2025年9月23日
news

(图片来自网络)

百度开源视觉理解模型Qianfan-VL 多模态能力革新

近日,百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL,并全面开源!该系列包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景进行深度优化的视觉理解大模型。

Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。

该系列模型由百度智能云千帆模型研发团队基于开源模型开发,并在百度自研昆仑芯P800芯片上完成全流程计算任务。昆仑芯P800提供了强大算力,确保模型高效处理海量数据和复杂算法,支持单任务5000卡规模并行计算,优化模型效率与性能。

Qianfan-VL模型具备三大特点:

  • 多尺寸模型满足不同场景需求:提供3B、8B、70B三种规格模型,覆盖不同规模企业和开发者需求。
  • 提供思考推理能力:8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多场景。
  • OCR与文档理解能力增强:主打OCR全场景识别和复杂版面文档理解,在基准测试中表现优异,提供高精度视觉理解解决方案。

在通用能力、OCR与文档理解、数学解题等基准测试中,Qianfan-VL系列模型(3B、8B、70B)均展现出优异表现,通用能力、垂类任务均达SOTA水平。模型架构设计结合先进多模态架构、四阶段训练、数据合成管线等技术,配合昆仑芯实现高效计算,为AI技术落地提供支持。

目前Qianfan-VL已开源,即日起至10月10日可在百度智能云千帆平台免费体验8B、70B模型,详情可查看相关链接。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-23 02
    大模型开源是好事,能促进行业发展。
  • 网友9 2025-09-23 02
    这种技术进步让人很兴奋,未来很有希望。
  • 网友8 2025-09-23 02
    视觉理解增强后,文档处理这些事情变简单了。
  • 网友7 2025-09-23 02
    对于开发者来说,这个开源模型很实用,能快速应用。
  • 网友6 2025-09-23 02
    模型性能这么好,以后智能应用肯定更多。
  • 网友5 2025-09-23 02
    开源很棒,能让我们学习到更多技术。
  • 网友4 2025-09-23 02
    感觉这种大模型以后会越来越普及,以后工作方便了。
  • 网友3 2025-09-23 02
    视觉理解能力提升后,很多应用场景会更方便。
  • 网友2 2025-09-23 02
    开源后大家都能用,科技发展好快呀。
  • 网友1 2025-09-23 02
    这个模型能提升办公效率,很有用!
查看“百度开源视觉理解模型Qianfan-VL 多模态能力革新”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙