ByteDance推出AetherCode:揭秘AI编程大赛中人类与AI的真实差距
(图片来自网络)
ByteDance(字节跳动)与M-A-P团队联合开展的研究于2025年8月25日发布,研究团队由Zihan Wang、Jiaze Chen等多名研究人员组成。若想了解详细信息,可通过项目主页 https://huggingface.co/datasets/m-a-p/AetherCode 访问完整研究数据集和论文。
近年来,大语言模型在编程能力上表现亮眼。在一些知名编程测试中,最先进的AI模型已达到90%以上的正确率,这让人们对AI是否在编程竞赛领域超越人类产生疑问。不过,研究团队指出,当前测试可能无法真实反映AI的编程水平。
ByteDance研究团队决定以“真正考试”的形式评估AI编程能力。他们创建了AetherCode测试基准,该基准采用国际信息学奥林匹克竞赛(IOI)、国际大学生程序设计竞赛(ICPC)等世界顶级编程竞赛题目,而非简单的编程练习题,以此模拟真实编程竞赛环境。
测试结果揭示了AI的真实水平:研究团队通过严格设计的测试用例对当前最先进的AI模型进行了测试。这些测试用例由67名具有丰富竞赛经验的编程专家精心设计,他们其中的许多人.CodeForces评分超过2600分,属于国际编程大师。结果显示,即使是最优秀的AI模型,在面对复杂编程问题时,成功率也大幅下降。例如,表现最好的AI模型在AetherCode测试中的总体通过率仅为35.5%,在极难题目上的通过率甚至低至3.8%。
这些数据清晰表明,在复杂编程能力方面,当前AI与人类顶级程序员仍然存在巨大差距。这种差距不仅体现在通过率上,更反映在AI在处理需要深度逻辑推理、算法设计和创新思维的题目时,远远不如人类程序员。
AetherCode的推出,为AI编程能力的评估树立了新的行业标准,也为我们理解AI的发展现状和未来方向提供了重要参考。
最新新闻
- 2025年11月9日:极光观测遇挑战 极光猎人在“守株待兔”中等待机会
- 2025年11月9日:进博会创新孵化专区项目数增长超7倍 展现多元创新成果
- 2025年11月9日:陈德亮:科学推动低碳转型深层变革
- 2025年11月9日:特斯拉公布电动重卡Semi工厂内部实景,明年正式量产
- 2025年11月9日:进博会助力女性健康发展 拜耳与京东共建数字化生态合作
- 2025年11月9日:李沁参加《花儿与少年7》后,这趟综艺之旅体验如何?
- 2025年11月9日:《暗河传》结局解析:苏昌河身世、苏喆撒谎与慕雨墨遭遇大揭秘
- 2025年11月9日:2-0!巴萨传奇队击败皇马传奇队 传奇名宿赛场精彩
- 2025年11月9日:浦东南码头路街道社区嘉年华举行,机器人成治理新亮点
- 2025年11月9日:AI技术成为农业创新新引擎 先正达进博会首秀全链条应用
- 2025年11月9日:2025世界互联网大会乌镇峰会:数智科技点亮发展新图景
- 2025年11月9日:零跑Lafa5车型预售发布 10.58万元起
- 2025年11月9日:上海AI再放大招:MiniMax发布“全家桶”,中国AI能否从跟跑到领跑?
- 2025年11月9日:科学家澄清星际彗星3I/ATLAS未多次变色
- 2025年11月9日:谍战剧《隐锋》终于上星央视,5年等待迎来剧集播出
- 2025年11月9日:德云社张鹤伦襄阳演出遇带娃观众,艺术传承引热议
- 2025年11月9日:聂远女儿聂子一发行首支新歌,11岁星二代舞台初探
- 2025年11月9日:李连杰状态回春引争议,脱衣力证清白引发网友热议
- 2025年11月9日:肖战荣获2025年度金天使奖,导演曹译文也获奖,闪耀国际舞台
- 2025年11月9日:单核布克率领太阳终结跨赛季客场12连败 收获客场首胜重回正轨

精彩评论(10)