科学家揭示大语言模型测试标准普遍缺陷,AI进步衡量面临挑战

2025年11月8日
news

(图片来自网络)

IT之家 11 月 8 日消息,一项由牛津大学、华盛顿大学等机构的国际研究指出,目前大多数大语言模型(LLM)的测试标准存在严重方法论问题,使人们很难真正客观地衡量 AI 的进步。科学家们对顶级 AI 学术会议(如 ICML、ICLR、NeurIPS、ACL 等)2018 - 2024 年间发表的 445 篇基准测试论文进行了评判,发现这些论文都至少存在一个重大缺陷。

从测试标准本身来看,许多基准定义含糊或存争议:虽然 78% 的基准能说明内容,但一半未清晰定义“推理”“对齐”“安全性”等关键术语,导致结论可信度不足。

  • 数据采样方面,约 93% 的论文使用便利抽样,12% 完全依赖便利抽样,无法代表真实使用场景;
  • 测试复用问题突出,约 38% 的测试复用数据,甚至直接使用其他测试集,可能扭曲模型实际表现;
  • 评分标准依赖“完全匹配率”,仅 16% 使用统计校验方法、13% 使用人工评判,大多数测试都没有提供不确定性统计与置信区间,使结果可信度大打折扣。

研究团队也提出了改进方向,建议后续测试中需明确定义测试目标和边界,确保不混入无关任务,防止数据污染,并使用严谨的统计与误差分析,从定量和定性两方面下手,让研究结果更准确。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-08 22
    现在发现测试标准缺陷,说明AI发展评估需要更严谨,以后测试得认真做,这样AI才能更好发展!
  • 网友9 2025-11-08 22
    大模型测试有问题,以后研究得改进,让AI发展更准确知道进步情况,很关键!
  • 网友8 2025-11-08 22
    从测试论文评判看,多数基准缺陷确实影响AI进步衡量,需建立更科学的评估方法,值得深入研究。
  • 网友7 2025-11-08 22
    发现测试标准缺陷是进步,因为这样才能改进,让AI更靠谱,支持科学评估!
  • 网友6 2025-11-08 22
    大语言模型测试标准存问题,说明AI评估体系需完善,这对科技发展很重要,要重视哦。
  • 网友5 2025-11-08 22
    这对AI进步衡量很重要,以后研究测试标准得更严谨,不然AI发展方向可能错哦!
  • 网友4 2025-11-08 22
    测试标准缺陷就像给AI考卷打分没标准,这挑战可大了,得让测试更“合规”啊!
  • 网友3 2025-11-08 22
    研究指出测试标准缺陷,这提示AI行业发展需要更严谨的评估体系,值得关注和改进。
  • 网友2 2025-11-08 22
    AI测试标准有问题,以后用AI得小心,得让标准更科学,不然可不行啊!
  • 网友1 2025-11-08 22
    这太影响AI发展啦,测试标准得改进,不然AI进步没法准确知道,得重视啊!
查看“科学家揭示大语言模型测试标准普遍缺陷,AI进步衡量面临挑战”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙