科学家揭示大语言模型测试标准普遍缺陷，AI进步衡量面临挑战

2025年11月8日

（图片来自网络）

IT之家 11 月 8 日消息，一项由牛津大学、华盛顿大学等机构的国际研究指出，目前大多数大语言模型（LLM）的测试标准存在严重方法论问题，使人们很难真正客观地衡量 AI 的进步。科学家们对顶级 AI 学术会议（如 ICML、ICLR、NeurIPS、ACL 等）2018 - 2024 年间发表的 445 篇基准测试论文进行了评判，发现这些论文都至少存在一个重大缺陷。

从测试标准本身来看，许多基准定义含糊或存争议：虽然 78% 的基准能说明内容，但一半未清晰定义“推理”“对齐”“安全性”等关键术语，导致结论可信度不足。

数据采样方面，约 93% 的论文使用便利抽样，12% 完全依赖便利抽样，无法代表真实使用场景；
测试复用问题突出，约 38% 的测试复用数据，甚至直接使用其他测试集，可能扭曲模型实际表现；
评分标准依赖“完全匹配率”，仅 16% 使用统计校验方法、13% 使用人工评判，大多数测试都没有提供不确定性统计与置信区间，使结果可信度大打折扣。

研究团队也提出了改进方向，建议后续测试中需明确定义测试目标和边界，确保不混入无关任务，防止数据污染，并使用严谨的统计与误差分析，从定量和定性两方面下手，让研究结果更准确。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-11-08 22

现在发现测试标准缺陷，说明AI发展评估需要更严谨，以后测试得认真做，这样AI才能更好发展！
网友9 2025-11-08 22

大模型测试有问题，以后研究得改进，让AI发展更准确知道进步情况，很关键！
网友8 2025-11-08 22

从测试论文评判看，多数基准缺陷确实影响AI进步衡量，需建立更科学的评估方法，值得深入研究。
网友7 2025-11-08 22

发现测试标准缺陷是进步，因为这样才能改进，让AI更靠谱，支持科学评估！
网友6 2025-11-08 22

大语言模型测试标准存问题，说明AI评估体系需完善，这对科技发展很重要，要重视哦。
网友5 2025-11-08 22

这对AI进步衡量很重要，以后研究测试标准得更严谨，不然AI发展方向可能错哦！
网友4 2025-11-08 22

测试标准缺陷就像给AI考卷打分没标准，这挑战可大了，得让测试更“合规”啊！
网友3 2025-11-08 22

研究指出测试标准缺陷，这提示AI行业发展需要更严谨的评估体系，值得关注和改进。
网友2 2025-11-08 22

AI测试标准有问题，以后用AI得小心，得让标准更科学，不然可不行啊！
网友1 2025-11-08 22

这太影响AI发展啦，测试标准得改进，不然AI进步没法准确知道，得重视啊！

查看“科学家揭示大语言模型测试标准普遍缺陷，AI进步衡量面临挑战”相关搜索 >

科学家揭示大语言模型测试标准普遍缺陷，AI进步衡量面临挑战

精彩评论（10）

最新新闻