ByteDance推出AetherCode:揭秘AI编程大赛中人类与AI的真实差距
(图片来自网络)
ByteDance(字节跳动)与M-A-P团队联合开展的研究于2025年8月25日发布,研究团队由Zihan Wang、Jiaze Chen等多名研究人员组成。若想了解详细信息,可通过项目主页 https://huggingface.co/datasets/m-a-p/AetherCode 访问完整研究数据集和论文。
近年来,大语言模型在编程能力上表现亮眼。在一些知名编程测试中,最先进的AI模型已达到90%以上的正确率,这让人们对AI是否在编程竞赛领域超越人类产生疑问。不过,研究团队指出,当前测试可能无法真实反映AI的编程水平。
ByteDance研究团队决定以“真正考试”的形式评估AI编程能力。他们创建了AetherCode测试基准,该基准采用国际信息学奥林匹克竞赛(IOI)、国际大学生程序设计竞赛(ICPC)等世界顶级编程竞赛题目,而非简单的编程练习题,以此模拟真实编程竞赛环境。
测试结果揭示了AI的真实水平:研究团队通过严格设计的测试用例对当前最先进的AI模型进行了测试。这些测试用例由67名具有丰富竞赛经验的编程专家精心设计,他们其中的许多人.CodeForces评分超过2600分,属于国际编程大师。结果显示,即使是最优秀的AI模型,在面对复杂编程问题时,成功率也大幅下降。例如,表现最好的AI模型在AetherCode测试中的总体通过率仅为35.5%,在极难题目上的通过率甚至低至3.8%。
这些数据清晰表明,在复杂编程能力方面,当前AI与人类顶级程序员仍然存在巨大差距。这种差距不仅体现在通过率上,更反映在AI在处理需要深度逻辑推理、算法设计和创新思维的题目时,远远不如人类程序员。
AetherCode的推出,为AI编程能力的评估树立了新的行业标准,也为我们理解AI的发展现状和未来方向提供了重要参考。
最新新闻
- 2025年11月9日:零跑汽车推出Lafa5个性轿跑,布局差异化市场
- 2025年11月9日:消息称苹果iPhone 17系列国内激活销量超825万
- 2025年11月9日:科大讯飞携星火大模型亮相2025世界互联网大会 展现AI创新应用
- 2025年11月9日:《唐诡3》归来,4年24桩诡案能否续写传奇?
- 2025年11月9日:预售仅13万多!配激光雷达+磁悬浮底盘,深蓝L06将于11月18日上市
- 2025年11月9日:比亚迪方程豹钛7首发互联电动滑板首批售罄 意向用户可预定
- 2025年11月9日:美国政府停摆限制商业航天发射时段, SpaceX等公司面临时间调整
- 2025年11月9日:荣耀郭锐解读端侧AI落地:开启消费级新生态
- 2025年11月9日:2025年安阳市第八届青少年航模大赛燃情开赛
- 2025年11月9日:Vlog|乌镇峰会探数智未来:超智能一天的奇妙体验
- 2025年11月9日:荣耀自研耳夹式耳机明年推出,亲选耳机2 Pro功能与外观曝光
- 2025年11月9日:世界技能博物馆开馆两周年 机器人助力“技翼无界”CityWalk
- 2025年11月9日:从敦煌到进博会,博世传感器展技术雄心
- 2025年11月9日:淘宝霸屏广告遭调查 网友吐槽使用体验差
- 2025年11月9日:问界M7等车型通过NESTA六维电安全验证,NESTA新增车型符合电安全标准
- 2025年11月9日:44岁郭晶晶当选亚太最具影响力青年女性
- 2025年11月9日:赵露思27岁生日会痛哭!《许我耀眼》迎新 官宣新工作室成立
- 2025年11月9日:苗侨伟与戚美珍街头争执引离婚传闻事件解析
- 2025年11月9日:《四喜》开播破央八纪录 女星演技排名成焦点
- 2025年11月9日:全红婵全运跳水失利遇网暴:18岁小将通透回应引发广泛讨论

精彩评论(10)