大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升

2025年9月20日

（图片来自网络）

高质量数据的不足，一直是限制大语言模型（LLM）持续学习、提升能力的瓶颈。为此，Meta 提出了一个名为“语言自我博弈”（Language Self - Play, LSP）的强化学习新方法，通过让模型在不依赖额外数据的情况下进行自我改进，从而消除了对高质量数据的依赖。

LSP 的核心机制是让同一个预训练大语言模型分别扮演“挑战者”和“解题者”两种角色，形成动态对抗关系。其中，“挑战者”负责生成具有挑战性的查询内容，目标是设计更具挑战性的指令，以“难住”解题者；“解题者”则对挑战者的查询作出回应，目标是给出高质量回答，最大化任务奖励。

角色互动： 预训练 LLM 在挑战者和解题者两种模式下运行，挑战者生成查询，解题者回应，两种模式均由同一模型实现，从而支持持续训练，生成质量不断提升的自动生成数据。

核心技术： 引入群体相对策略优化（GRPO）和 KL 散度正则化。GRPO 用于计算群体价值以评估回答质量与查询难度；KL 散度正则化则防止模型偏离或生成无效查询，保障训练稳定。

版本升级： 从基础的 LSP - Zero（零和博弈模式）升级为 LSP，加入质量自奖励机制，解决原版本的“对抗性无意义游戏”问题，实现长期、稳定的自主训练。

实验表明，使用 Llama - 3.2 - 3B - Instruct 进行的测试显示，在 LSP 方法下，预训练模型可以在无额外数据情况下提升其在挑战性任务上的性能，其整体表现与数据驱动的基线模型相当，甚至在部分任务中表现更优。

这项突破不仅解决了大语言模型训练依赖高质量数据的难题，还为无数据场景下的模型训练提供了新方向，有望推动大模型更自主、高效地发展。