大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升

2025年9月20日
news

(图片来自网络)




大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升


高质量数据的不足,一直是限制大语言模型(LLM)持续学习、提升能力的瓶颈。为此,Meta 提出了一个名为“语言自我博弈”(Language Self - Play, LSP)的强化学习新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了对高质量数据的依赖。


LSP 的核心机制是让同一个预训练大语言模型分别扮演“挑战者”和“解题者”两种角色,形成动态对抗关系。其中,“挑战者”负责生成具有挑战性的查询内容,目标是设计更具挑战性的指令,以“难住”解题者;“解题者”则对挑战者的查询作出回应,目标是给出高质量回答,最大化任务奖励。



  • 角色互动: 预训练 LLM 在挑战者和解题者两种模式下运行,挑战者生成查询,解题者回应,两种模式均由同一模型实现,从而支持持续训练,生成质量不断提升的自动生成数据。

  • 核心技术: 引入群体相对策略优化(GRPO)和 KL 散度正则化。GRPO 用于计算群体价值以评估回答质量与查询难度;KL 散度正则化则防止模型偏离或生成无效查询,保障训练稳定。

  • 版本升级: 从基础的 LSP - Zero(零和博弈模式)升级为 LSP,加入质量自奖励机制,解决原版本的“对抗性无意义游戏”问题,实现长期、稳定的自主训练。


实验表明,使用 Llama - 3.2 - 3B - Instruct 进行的测试显示,在 LSP 方法下,预训练模型可以在无额外数据情况下提升其在挑战性任务上的性能,其整体表现与数据驱动的基线模型相当,甚至在部分任务中表现更优。


这项突破不仅解决了大语言模型训练依赖高质量数据的难题,还为无数据场景下的模型训练提供了新方向,有望推动大模型更自主、高效地发展。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-20 10
    了解后觉得对大模型发展有帮助,解决了一个关键问题,很厉害。
  • 网友9 2025-09-20 10
    科技发展让模型越来越智能,这次方法应该能提升效率,支持一下。
  • 网友8 2025-09-20 10
    无数据也能升级能力,这比之前的技术进了一步,很期待发展。
  • 网友7 2025-09-20 10
    从实验结果看效果不错,希望未来能应用到更多实际场景里。
  • 网友6 2025-09-20 10
    解决了数据瓶颈问题,以后模型训练成本可能降低,对行业很重要。
  • 网友5 2025-09-20 10
    感觉这个方法很独特,挑战者和解题者互动的方式很有意思,技术进步很快。
  • 网友4 2025-09-20 10
    大模型每次都有新突破,这次无数据训练的方法很创新,很期待后续。
  • 网友3 2025-09-20 10
    科研人员真聪明,让模型自我博弈,以后发展更自主了,支持这项成果。
  • 网友2 2025-09-20 10
    看着介绍觉得很厉害,无数据也能提升能力,未来肯定有更多应用。
  • 网友1 2025-09-20 10
    这项技术解决了大模型数据依赖问题,以后训练更灵活了,很实用的创新。
查看“大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙