科学家揭示大语言模型测试标准普遍缺陷,AI进步衡量面临挑战
(图片来自网络)
IT之家 11 月 8 日消息,一项由牛津大学、华盛顿大学等机构的国际研究指出,目前大多数大语言模型(LLM)的测试标准存在严重方法论问题,使人们很难真正客观地衡量 AI 的进步。科学家们对顶级 AI 学术会议(如 ICML、ICLR、NeurIPS、ACL 等)2018 - 2024 年间发表的 445 篇基准测试论文进行了评判,发现这些论文都至少存在一个重大缺陷。
从测试标准本身来看,许多基准定义含糊或存争议:虽然 78% 的基准能说明内容,但一半未清晰定义“推理”“对齐”“安全性”等关键术语,导致结论可信度不足。
- 数据采样方面,约 93% 的论文使用便利抽样,12% 完全依赖便利抽样,无法代表真实使用场景;
- 测试复用问题突出,约 38% 的测试复用数据,甚至直接使用其他测试集,可能扭曲模型实际表现;
- 评分标准依赖“完全匹配率”,仅 16% 使用统计校验方法、13% 使用人工评判,大多数测试都没有提供不确定性统计与置信区间,使结果可信度大打折扣。
研究团队也提出了改进方向,建议后续测试中需明确定义测试目标和边界,确保不混入无关任务,防止数据污染,并使用严谨的统计与误差分析,从定量和定性两方面下手,让研究结果更准确。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月8日:美国学校部署AI监控工具 监测学生与聊天机器人对话以预防心理问题
- 2025年11月8日:医疗AI迎来“评审员”!北京启动医疗人工智能应用评测服务
- 2025年11月8日:“10后”职场变革:语音取代键盘或成趋势 研究预测语音沟通主流化
- 2025年11月8日:三星Galaxy S26标准版手机线稿曝光:6.9mm厚度 或成轻薄新标杆
- 2025年11月8日:英超焦点战:曼联2-2绝平热刺 末段绝杀成焦点
- 2025年11月8日:芝加哥大学团队发明「温度调节术」:让AI学会循序渐进思考问题
- 2025年11月8日:Netflix联合创始人坚持周二下午5点下班:用规则守护心理健康
- 2025年11月8日:AI如何赋能千行百业?世界互联网大会企业家畅谈实践路径
- 2025年11月8日:进博会创新产品点亮消费新场景:飞行器、外骨骼等黑科技亮相
- 2025年11月8日:iPhone 18全系配备2400万前摄 苹果史上最强前摄来袭
- 2025年11月8日:SpaceX披露简化版登月舱方案 加速阿尔忒弥斯登月计划
- 2025年11月8日:从高空到近身,大疆DJI Neo 2成现象级爆品!
- 2025年11月8日:央视记者亲历美国联邦政府停摆冲击航空系统
- 2025年11月8日:牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭受越狱攻击
- 2025年11月8日:淘宝霸屏广告遭调查 多地监管部门介入处理
- 2025年11月8日:Google DeepMind 推出 AI 代码人性化评估系统 Vibe Checker:革新代码质量判断方式
- 2025年11月8日:谷歌DeepMind新开发技术让AI检索效率提升4.7倍
- 2025年11月8日:新势力首富何小鹏科技日活动放“大招”:人形机器人等科技突破获马斯克点赞
- 2025年11月8日:山姆APP改版引发争议 新任高管陷入信任周期
- 2025年11月8日:苹果20周年iPhone将推真全面屏:首款无刘海挖孔机型

精彩评论(10)