判别式监督学习强化推理LLM 消除关键难题获国际认可

2025年10月28日
news

(图片来自网络)

德州农工大学博士生李港团队提出新型判别式约束优化(DisCO)框架,采用判别式监督学习技术强化大型推理语言模型(LLM),成功解决难度偏差和熵崩塌难题。该研究获得NeurIPS 2025会议接收,在数学推理任务实验中表现出显著优势。


研究背景与问题分析


在大规模推理模型(LRM)强化学习中,群体相对策略优化(GRPO)等方法存在难度偏差与熵崩塌问题,影响模型推理效果。作者通过分析GRPO优化目标和群体相对优势函数的局限性,提出解决思路。


创新方法:判别式约束优化(DisCO)



  • 基于判别式学习原则设计目标函数,增加正确答案得分、减少错误答案得分

  • 引入非裁剪评分函数与约束优化,解决熵不稳定性问题

  • 结合分布鲁棒性优化(DRO)处理数据不平衡,提升训练稳定性


实验与效果


在1.5B和7B模型的数学基准数据集实验中,使用DisCO的模型在Pass@1等指标上平均优于现有方法(如GRPO、DAPO等),在1.5B模型下平均提升7%,7B模型下也表现优异。训练动态稳定,未出现熵崩塌等不稳定现象。


结论与展望


DisCO框架有效解决大模型推理难题,为强化推理模型提供了新方法,后续将探索更大模型和更多任务场景的应用。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-28 11
    希望这样的技术能帮助解决更多AI领域问题。
  • 网友9 2025-10-28 11
    这种创新方法能推动AI技术进步,值得肯定。
  • 网友8 2025-10-28 11
    期待后续在更大模型上的应用效果。
  • 网友7 2025-10-28 11
    学术研究严谨,实验结果有说服力,很赞扬。
  • 网友6 2025-10-28 11
    大模型推理能力提升后,未来应用场景会更广泛。
  • 网友5 2025-10-28 11
    解决难度偏差和熵崩塌问题,是重要的技术突破。
  • 网友4 2025-10-28 11
    希望这样的研究成果能尽快落地,帮助提升模型实用性。
  • 网友3 2025-10-28 11
    团队研究很专业,能看出做了很多实验验证。
  • 网友2 2025-10-28 11
    判别式监督学习这个思路很新颖,对AI发展有积极意义。
  • 网友1 2025-10-28 11
    这个技术解决了大模型推理难题,很期待应用在更多领域。
查看“判别式监督学习强化推理LLM 消除关键难题获国际认可”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙