百度开源视觉理解模型Qianfan-VL 多模态能力革新

2025年9月23日

（图片来自网络）

近日，百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL，并全面开源！该系列包含3B、8B和70B三个尺寸版本，是面向企业级多模态应用场景进行深度优化的视觉理解大模型。

Qianfan-VL不仅具备出色的基础通用能力，还针对产业落地中的高频需求，如OCR和教育垂直场景做了专项强化，使其在实际应用中表现更加卓越。

该系列模型由百度智能云千帆模型研发团队基于开源模型开发，并在百度自研昆仑芯P800芯片上完成全流程计算任务。昆仑芯P800提供了强大算力，确保模型高效处理海量数据和复杂算法，支持单任务5000卡规模并行计算，优化模型效率与性能。

Qianfan-VL模型具备三大特点：

在通用能力、OCR与文档理解、数学解题等基准测试中，Qianfan-VL系列模型（3B、8B、70B）均展现出优异表现，通用能力、垂类任务均达SOTA水平。模型架构设计结合先进多模态架构、四阶段训练、数据合成管线等技术，配合昆仑芯实现高效计算，为AI技术落地提供支持。

目前Qianfan-VL已开源，即日起至10月10日可在百度智能云千帆平台免费体验8B、70B模型，详情可查看相关链接。