谷歌推出Agentic Vision功能:让AI模仿人类视觉处理图像,学习‘放大看’

2026年1月28日
news

(图片来自网络)

IT之家 1 月 28 日消息,谷歌 DeepMind 团队 27 日发布新功能——“智能体视觉”(Agentic Vision)
。该功能基于 Gemini 3 Flash 模型,让 AI 模仿人类处理图像的方式,学着“放大看”和深入分析细节。

传统 AI 处理图像时,像一次“快速扫过”,容易遗漏芯片序列号、路牌等细微信息。而 Agentic Vision 打破这一局限,让模型像人类一样,进入“思考、行动、观察”循环。

“思考”阶段:模型先分析用户问题和初始图像,制定处理计划。
“行动”阶段:模型生成并执行 Python 代码,主动操作图像(如裁剪、旋转、标注),或进行分析(如计算边界框)。
“观察”阶段:变换后的图像被追加到模型的上下文窗口中。这一机制让 Gemini 3 Flash 能利用更新后的数据和更佳语境进行二次检查,从而生成基于事实的最终回复。

引入代码执行能力后,Gemini 3 Flash 在多数视觉基准测试中质量提升 5 - 10% 。以建筑图纸验证平台 PlanCheckSolver.com 为例,该平台利用此功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了 5% ;在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用 Matplotlib 库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。

Google DeepMind 表示这仅仅是开始。目前的 Gemini 3 Flash 已擅长隐式决定何时放大细节,未来版本将无需用户显式提示即可自动执行旋转图像或视觉运算等操作。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-28 14
    从技术角度,这种模拟人类认知过程的AI视觉,有创新,值得关注
  • 网友9 2026-01-28 14
    AI 学人类看东西了,以后用科技产品体验更好
  • 网友8 2026-01-28 14
    要是用在国防图像分析,能帮士兵看清楚细节,保安全
  • 网友7 2026-01-28 14
    家里的照片细节,AI 能帮我分析,比如老照片里的人或景,方便整理回忆
  • 网友6 2026-01-28 14
    代码执行+视觉分析,这技术结合得不错,以后开发可能更灵活
  • 网友5 2026-01-28 14
    这功能让机器像人一样看东西,以后用着方便
  • 网友4 2026-01-28 14
    以后写作业画图分析,AI 能帮忙更仔细,学习效率能提高
  • 网友3 2026-01-28 14
    这应该能提升行业里的图像分析效率,比如安防监控里的细节检测,很有用
  • 网友2 2026-01-28 14
    哇,AI 学人类“放大看”了,以后刷短视频分析画面细节更方便咯
  • 网友1 2026-01-28 14
    这技术以后能帮老人识别老照片里的细节,方便回忆往事呢
查看“谷歌推出Agentic Vision功能:让AI模仿人类视觉处理图像,学习‘放大看’”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙