谷歌推出Agentic Vision功能:让AI模仿人类视觉处理图像,学习‘放大看’
(图片来自网络)
IT之家 1 月 28 日消息,谷歌 DeepMind 团队 27 日发布新功能——“智能体视觉”(Agentic Vision)
。该功能基于 Gemini 3 Flash 模型,让 AI 模仿人类处理图像的方式,学着“放大看”和深入分析细节。
传统 AI 处理图像时,像一次“快速扫过”,容易遗漏芯片序列号、路牌等细微信息。而 Agentic Vision 打破这一局限,让模型像人类一样,进入“思考、行动、观察”循环。
“思考”阶段:模型先分析用户问题和初始图像,制定处理计划。
“行动”阶段:模型生成并执行 Python 代码,主动操作图像(如裁剪、旋转、标注),或进行分析(如计算边界框)。
“观察”阶段:变换后的图像被追加到模型的上下文窗口中。这一机制让 Gemini 3 Flash 能利用更新后的数据和更佳语境进行二次检查,从而生成基于事实的最终回复。
引入代码执行能力后,Gemini 3 Flash 在多数视觉基准测试中质量提升 5 - 10% 。以建筑图纸验证平台 PlanCheckSolver.com 为例,该平台利用此功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了 5% ;在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用 Matplotlib 库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。
Google DeepMind 表示这仅仅是开始。目前的 Gemini 3 Flash 已擅长隐式决定何时放大细节,未来版本将无需用户显式提示即可自动执行旋转图像或视觉运算等操作。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行
- 2026年1月28日:春晚未启,AI先战!字节、腾讯、百度大厂抢位AI超级入口
- 2026年1月28日:谷歌云上调部分数据传输服务价格 北美地区价格翻倍
- 2026年1月28日:苹果计划维持iPhone 18起售价 面对内存成本上涨
- 2026年1月28日:中国科学家研发‘智能电子衣’ 实现器官精准可控给药
- 2026年1月28日:曦望发布新一代推理GPU芯片S3 2025交付破万片 推动‘百万Token一分钱’落地
- 2026年1月28日:中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?
- 2026年1月28日:泰国U23国脚提拉帕租借加盟J联赛札幌队 比肩中国赛展现才华
- 2026年1月28日:德约科维奇赢9盘进澳网四强?对比2016年美网仅赢8盘,是大满贯最幸运之旅吗?
- 2026年1月28日:蚂蚁GPASS技术与小米智能眼镜合作 推出停车缴费、AI健康等智能服务
- 2026年1月28日:斯坦福联合英伟达提出新方法:测试时强化学习攻克科学难题
- 2026年1月28日:美国宇航局朱诺号探测到木卫二冰壳厚度约29公里 探索宇宙新发现
- 2026年1月28日:真我回归OPPO后首款机型成爆款 真我Neo8销量领先竞品
- 2026年1月28日:成都两会科技亮点:全球首款‘成都造’熊猫人形机器人震撼登场
- 2026年1月28日:销量暴涨190%!新能源重卡狂飙:新势力拿下近12亿融资,传统巨头加速布局
- 2026年1月28日:英伟达产品遇客户落地难题 大客户直言“玩不转”
- 2026年1月28日:生物医药攻克难成药靶点,分子胶药物成研发新宠,前景如何?
- 2026年1月28日:ST柯利达成立智能终端公司 拓展集成电路业务领域
- 2026年1月28日:ASC26世界大学生超算竞赛总决赛5月将举办于无锡

精彩评论(10)