人类读指针式时钟准确率超89%!顶尖AI仅13.3%,视觉推理差距显著

(图片来自网络)
IT之家9月14日消息,一项新研究揭示,人类读取指针式时钟的准确率可达89.1%,而目前最优秀的人工智能(AI)模型准确率仅为13.3%,该结果清晰展现出当前语言模型在视觉推理能力方面与人类存在显著差距。
阿莱克·萨法尔(Alek Safar)推出的“ClockBench”测试中,将11个大型语言模型与5名人类展开对比,该测试包含180个定制指针式时钟和720道测试题,遵循“人类易操作、AI难突破”的设计逻辑,从零构建数据集以确保公平性。
数据集包含36种独特钟面设计,涵盖罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素,每种设计制作5个时钟,共180个。测试围绕读取时间、时间计算等问题展开,结果显示谷歌Gemini 2.5 Pro准确率13.3%、GPT-5为8.4%,表现最佳的AI仍与人类存在明显差距。
研究还发现,AI在处理罗马数字、彩色背景等钟面时准确率较低,且读取时钟的核心挑战在于从视觉信息中提取时间,而非数学运算,这为人工智能视觉推理能力提升提供了方向。萨法尔认为,AI与人类在视觉推理上的差距,既源于罕见钟面设计在训练数据中出现的频率低,也因将钟面视觉信息转化为文字描述对当前AI模型而言是一大难题。
ClockBench作为长期基准测试,其完整数据集暂保密以避免训练数据污染,但AI在视觉任务上的差距也反映出技术突破需创新路径,而非单纯扩大规模。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月14日:中国香港羽毛球公开赛女双冠军:贾一凡/张殊贤击败日本组合夺冠
- 2025年9月14日:16岁小将彭鑫露获女子10米气步枪金牌 创三纪录
- 2025年9月14日:西班牙足协将评议足球裁判红牌误判,当值VAR裁判或停哨
- 2025年9月14日:王楚钦4-0战胜韩国选手挺进WTT澳门冠军赛男单决赛
- 2025年9月14日:梁伟铿/王昶逆转夺冠 终结国羽男双12年无冠魔咒
- 2025年9月14日:深蓝汽车迎来“邓姜配”时代
- 2025年9月14日:明势、BAI和蚂蚁圆桌探讨AI智能体发展:多派观点碰撞
- 2025年9月14日:海马emoji让AI模型语无伦次,技术局限暴露
- 2025年9月14日:科学家发现AI能实现类人社交情境评估 科研效率大幅超越人工
- 2025年9月14日:亚马逊推消费级智能眼镜 配备全彩波导面板 竞争Meta AR产品
- 2025年9月14日:OpenAI称GPT-5达博士级能力?DeepMind CEO回应:无稽之谈
- 2025年9月14日:联影集团健康成果集中亮相服贸会,5T磁共振与医疗级助听器成焦点
- 2025年9月14日:王兴兴、朱啸虎等谈AI创业:商业化与方向关键建议
- 2025年9月14日:“科创校长空间站”果洛分站启动 上海教授为青少年讲解人工智能
- 2025年9月14日:皖南古村从“晒秋”到“售秋”,文旅焕新焕发生机
- 2025年9月14日:全国夏粮收购超1亿吨 粮食市场平稳收官
- 2025年9月14日:奋进的中国‘十四五’:绿电跨越山海,特高压助力能源升级
- 2025年9月14日:文化中国行丨中华第一凤带你穿越长江百万年
- 2025年9月14日:多地遭遇强对流天气 各部门积极应对保障群众安全
- 2025年9月14日:白山黑水间抗战史诗展——‘九·一八’历史博物馆里的历史回响
精彩评论(10)