中山大学团队研发智能AI优化工具,解决长思考模型效率难题

(图片来自网络)
中山大学深圳校区的罗昊天、沈利等研究者组成的国际合作团队,完成了一项突破性研究——研发出名为“长度和谐微调(O1-Pruner)”的AI优化方法,针对OpenAI的O1这类“长思考”模型推理冗余问题,优化推理速度与效率。该研究发表于2025年1月29日,已公开在arXiv平台,论文编号为arXiv:2501.12570v2,研究代码即将开源到GitHub。
当谈论AI推理时,OpenAI的O1模型如同“话痨学生”——解题时写长篇思考,却让用户等待超长。研究团队发现其“长度不和谐”问题:简单题却长篇解答,如同厨师做炒鸡蛋写详细烹饪手册。通过测试MATH数学题库等实验,发现最短答案准确率更高,这挑战了“思考越多越好”的传统认知。
核心创新:长度和谐微调(O1-Pruner),像一把智能剪刀,专门修剪模型推理过程中的冗余内容。其通过设计“长度-和谐奖励”机制,平衡答案准确性及推理简洁性,采用近端策略优化(PPO)训练方法,如同师父教徒弟学习高效解题技巧。实验结果显示,优化后Marco-o1-7B模型推理长度缩短了40.5%,准确率从73.4%提升至76.8%;QwQ-32B模型推理长度缩短34.7%,准确率提升至89.3%。
研究团队还提出“准确性-效率得分(AES)”综合评价指标,用于衡量模型在准确性与效率之间的平衡。对比实验表明,O1-Pruner在平衡两项指标上表现卓越。消融实验发现,奖励机制中的平衡参数λ对模型性能影响显著,当λ设置为2时,模型实现最佳准确性与效率平衡。此外,该优化方法通用性强,可扩展至数学、科学等多类推理任务,为AI实际应用降低计算成本提供新思路。研究团队计划进一步优化奖励机制,扩大应用场景。
Q:O1-Pruner是什么?它是如何工作的?
A:O1-Pruner是中山大学团队开发的AI模型优化方法,可解决“长思考”模型推理冗余问题。它如同智能编辑,通过特殊奖励机制引导模型生成既准确又简洁的答案——当模型给出短而正确的答案时获得最高奖励,若为求快而出错则会受到惩罚,从而让模型学会高效推理。
Q:优化后模型效果如何?
A:实验结果令人惊喜。经过O1-Pruner优化的Marco-o1-7B模型,推理长度缩短40.5%,准确率从73.4%提升至76.8%;推理时间也大幅缩短。更大的QwQ-32B模型效果同样显著,推理长度缩短34.7%,准确率提升至89.3%,效率提升对实际应用意义重大。
Q:如何解决“长度不和谐”问题?
A:“长度不和谐”指AI模型推理时产生冗余解答,如同做简单题写长篇大论。研究发现最短答案准确率更高,挑战了“思考越多越好”认知。O1-Pruner通过智能修剪冗余,让模型学会高效解题。
最新新闻
- 2025年9月13日:工信部等八部门有条件批准L3级智能网联汽车生产准入
- 2025年9月13日:马斯克公开力挺AMD:中小型AI模型领域表现获认可
- 2025年9月13日:苹果A19 Pro刷新苹果A系列芯片单核GeekBench跑分纪录
- 2025年9月13日:「创新场景50」年度最佳AI应用场景TOP 15榜单重磅发布
- 2025年9月13日:2025年全国主流媒体看常州:机器人之城崛起,全场景智造进阶
- 2025年9月13日:L3级车型迎来政策利好 工信部等八部门发文推动辅助驾驶
- 2025年9月13日:乃万知三当三风波升级,针对李嘉格惹众怒,三大社媒评论区被网友骂惨
- 2025年9月13日:新华社权威速览|“十四五”财政改革发展六方面显成效亮成绩单
- 2025年9月13日:更牢更实更足更稳更亮 乡村振兴成绩单展现发展成效
- 2025年9月13日:因地制宜 推动城市文脉赓续实践
- 2025年9月13日:共赴光影之约 第二届金熊猫奖在成都举行
- 2025年9月13日:以人民之心为心 以天下之利为利 ——中国展现和平发展担当
- 2025年9月13日:以长江为笔续写人文经济学 湖北文化艺术季展文化新气象
- 2025年9月13日:8.8%高增速!政策合力显效 金融实体经济支撑更稳
- 2025年9月13日:影视带你看成都:街头故事里的烟火与风华
- 2025年9月13日:金熊猫奖:从惊艳到经典的光影文化之旅
- 2025年9月13日:‘十四五’新型工业化展三张‘新’名片 交出五年亮眼答卷
- 2025年9月13日:中芯国际收购预案引资本市场上演分化
- 2025年9月13日:谷歌Chrome无痕模式增强隐私保护功能测试
- 2025年9月13日:谷歌AI技术突破引力波探测难题登上《Science》期刊
精彩评论(10)