判别式监督学习强化推理LLM 消除关键难题获国际认可
(图片来自网络)
德州农工大学博士生李港团队提出新型判别式约束优化(DisCO)框架,采用判别式监督学习技术强化大型推理语言模型(LLM),成功解决难度偏差和熵崩塌难题。该研究获得NeurIPS 2025会议接收,在数学推理任务实验中表现出显著优势。
研究背景与问题分析
在大规模推理模型(LRM)强化学习中,群体相对策略优化(GRPO)等方法存在难度偏差与熵崩塌问题,影响模型推理效果。作者通过分析GRPO优化目标和群体相对优势函数的局限性,提出解决思路。
创新方法:判别式约束优化(DisCO)
- 基于判别式学习原则设计目标函数,增加正确答案得分、减少错误答案得分
- 引入非裁剪评分函数与约束优化,解决熵不稳定性问题
- 结合分布鲁棒性优化(DRO)处理数据不平衡,提升训练稳定性
实验与效果
在1.5B和7B模型的数学基准数据集实验中,使用DisCO的模型在Pass@1等指标上平均优于现有方法(如GRPO、DAPO等),在1.5B模型下平均提升7%,7B模型下也表现优异。训练动态稳定,未出现熵崩塌等不稳定现象。
结论与展望
DisCO框架有效解决大模型推理难题,为强化推理模型提供了新方法,后续将探索更大模型和更多任务场景的应用。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年10月28日:腾势N8L正式发布 售价29.98万起
- 2025年10月28日:中国移动重大人事调整:陈忠岳任董事长、党组书记
- 2025年10月28日:62岁倪夏莲宣布复出 望冲击2028年洛杉矶奥运会
- 2025年10月28日:一图速览‘十五五’时期战略任务和重大举措
- 2025年10月28日:来粤创作,正当其时!广东向全球内容创作者发出邀约
- 2025年10月28日:雄安新区首支AIGC城市主题曲《我们的雄安》发布,科技与音乐奏响未来之城
- 2025年10月28日:十五五民生蓝图:就业、收入、教育等将迎哪些红利?
- 2025年10月28日:前国脚批裁判判罚太牵强 申花比赛争议引热议
- 2025年10月28日:WTT蒙彼利埃冠军赛陈幸同0-3失利遭遇首轮游
- 2025年10月28日:陕西文物焕活力 非遗正青春——高质量发展看陕西
- 2025年10月28日:习主席等十余年前种下的APEC伙伴林今郁郁葱葱,生态合作成果彰显
- 2025年10月28日:渤海湾大国重器:新质生产力推动智能制造新高度
- 2025年10月28日:国际人士点赞纪念台湾光复80周年:意义重大
- 2025年10月28日:党的二十届四中全会将建设现代化产业体系等任务列首位,传递哪些发展信号?
- 2025年10月28日:港澳台人士反响:牢记台湾光复历史 坚决反对分裂
- 2025年10月28日:新华社评论员:牢牢把握高质量发展这个主题——四论学习贯彻党的二十届四中全会精神
- 2025年10月28日:中国-东盟自贸区3.0升级 为区域经济注入新动能
- 2025年10月28日:“十五五”经济发展首位任务:建设现代化产业体系,发展实体经济
- 2025年10月28日:全球媒体聚焦 | 中国-东盟自贸区3.0版议定书签署 外媒关注合作升级
- 2025年10月28日:中国男性健康日:这些‘男’题并不难解

精彩评论(10)