判别式监督学习强化推理LLM 消除关键难题获国际认可

2025年10月28日

（图片来自网络）

德州农工大学博士生李港团队提出新型判别式约束优化（DisCO）框架，采用判别式监督学习技术强化大型推理语言模型（LLM），成功解决难度偏差和熵崩塌难题。该研究获得NeurIPS 2025会议接收，在数学推理任务实验中表现出显著优势。

研究背景与问题分析

在大规模推理模型（LRM）强化学习中，群体相对策略优化（GRPO）等方法存在难度偏差与熵崩塌问题，影响模型推理效果。作者通过分析GRPO优化目标和群体相对优势函数的局限性，提出解决思路。

创新方法：判别式约束优化（DisCO）

实验与效果

在1.5B和7B模型的数学基准数据集实验中，使用DisCO的模型在Pass@1等指标上平均优于现有方法（如GRPO、DAPO等），在1.5B模型下平均提升7%，7B模型下也表现优异。训练动态稳定，未出现熵崩塌等不稳定现象。

结论与展望

DisCO框架有效解决大模型推理难题，为强化推理模型提供了新方法，后续将探索更大模型和更多任务场景的应用。