ByteDance推出AetherCode:揭秘AI编程大赛中人类与AI的真实差距

2025年8月30日
news

(图片来自网络)

ByteDance(字节跳动)与M-A-P团队联合开展的研究于2025年8月25日发布,研究团队由Zihan Wang、Jiaze Chen等多名研究人员组成。若想了解详细信息,可通过项目主页 https://huggingface.co/datasets/m-a-p/AetherCode 访问完整研究数据集和论文。


近年来,大语言模型在编程能力上表现亮眼。在一些知名编程测试中,最先进的AI模型已达到90%以上的正确率,这让人们对AI是否在编程竞赛领域超越人类产生疑问。不过,研究团队指出,当前测试可能无法真实反映AI的编程水平。


ByteDance研究团队决定以“真正考试”的形式评估AI编程能力。他们创建了AetherCode测试基准,该基准采用国际信息学奥林匹克竞赛(IOI)、国际大学生程序设计竞赛(ICPC)等世界顶级编程竞赛题目,而非简单的编程练习题,以此模拟真实编程竞赛环境。


测试结果揭示了AI的真实水平:研究团队通过严格设计的测试用例对当前最先进的AI模型进行了测试。这些测试用例由67名具有丰富竞赛经验的编程专家精心设计,他们其中的许多人.CodeForces评分超过2600分,属于国际编程大师。结果显示,即使是最优秀的AI模型,在面对复杂编程问题时,成功率也大幅下降。例如,表现最好的AI模型在AetherCode测试中的总体通过率仅为35.5%,在极难题目上的通过率甚至低至3.8%。


这些数据清晰表明,在复杂编程能力方面,当前AI与人类顶级程序员仍然存在巨大差距。这种差距不仅体现在通过率上,更反映在AI在处理需要深度逻辑推理、算法设计和创新思维的题目时,远远不如人类程序员。


AetherCode的推出,为AI编程能力的评估树立了新的行业标准,也为我们理解AI的发展现状和未来方向提供了重要参考。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-30 14
    研究很严谨,数据很客观,相信随着技术发展,差距会逐渐缩小。
  • 网友9 2025-08-30 14
    希望未来AI能够突破这些限制,挑战顶级编程竞赛题目,变得更强大。
  • 网友8 2025-08-30 14
    这个测试对于AI发展很重要,让我们更理性看待它的能力。
  • 网友7 2025-08-30 14
    从结果看,AI和人类在编程竞赛上的差距还是很大的,需要时间发展。
  • 网友6 2025-08-30 14
    研究揭示了AI的局限性,但也指出了发展方向,未来要重点训练复杂编程能力。
  • 网友5 2025-08-30 14
    AetherCode是AI测试领域的一个里程碑,让评估更科学了。
  • 网友4 2025-08-30 14
    没想到AI在复杂编程问题上这么弱,人类在逻辑思维和创新上还是强项。
  • 网友3 2025-08-30 14
    研究团队很专业,测试很严谨,结果很有说服力,以后AI编程评估要更严格了。
  • 网友2 2025-08-30 14
    用顶级竞赛题目测试AI,结果很真实,确实有差距,需要加强推理能力。
  • 网友1 2025-08-30 14
    这个研究太有意义了,终于知道AI在编程竞赛上到底啥水平了,以后别被表面数据骗了。
查看“ByteDance推出AetherCode:揭秘AI编程大赛中人类与AI的真实差距”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙