大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升

(图片来自网络)
高质量数据的不足,一直是限制大语言模型(LLM)持续学习、提升能力的瓶颈。为此,Meta 提出了一个名为“语言自我博弈”(Language Self - Play, LSP)的强化学习新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了对高质量数据的依赖。
LSP 的核心机制是让同一个预训练大语言模型分别扮演“挑战者”和“解题者”两种角色,形成动态对抗关系。其中,“挑战者”负责生成具有挑战性的查询内容,目标是设计更具挑战性的指令,以“难住”解题者;“解题者”则对挑战者的查询作出回应,目标是给出高质量回答,最大化任务奖励。
- 角色互动: 预训练 LLM 在挑战者和解题者两种模式下运行,挑战者生成查询,解题者回应,两种模式均由同一模型实现,从而支持持续训练,生成质量不断提升的自动生成数据。
- 核心技术: 引入群体相对策略优化(GRPO)和 KL 散度正则化。GRPO 用于计算群体价值以评估回答质量与查询难度;KL 散度正则化则防止模型偏离或生成无效查询,保障训练稳定。
- 版本升级: 从基础的 LSP - Zero(零和博弈模式)升级为 LSP,加入质量自奖励机制,解决原版本的“对抗性无意义游戏”问题,实现长期、稳定的自主训练。
实验表明,使用 Llama - 3.2 - 3B - Instruct 进行的测试显示,在 LSP 方法下,预训练模型可以在无额外数据情况下提升其在挑战性任务上的性能,其整体表现与数据驱动的基线模型相当,甚至在部分任务中表现更优。
这项突破不仅解决了大语言模型训练依赖高质量数据的难题,还为无数据场景下的模型训练提供了新方向,有望推动大模型更自主、高效地发展。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月20日:OpenAI大规模招募苹果工程师 推进消费级AI硬件生态
- 2025年9月20日:辉瑞JAK抑制剂引领皮肤科创新,开启特应性皮炎治疗新时代
- 2025年9月20日:英伟达拟5亿美元战略投资Wayve 看好自动驾驶落地前景
- 2025年9月20日:中美就TikTok达成基本框架共识,美联储终于降息丨一周热点回顾
- 2025年9月20日:NASA深空激光通信试验超额完成目标,为未来火星任务铺路
- 2025年9月20日:美媒发布NBA历史百大球星榜单:乔丹居首 詹姆斯登第二 邓肯列第四等
- 2025年9月20日:哈兰德比赛球衣拍卖1.2万欧 捐赠给癌症组织
- 2025年9月20日:知名科学家王大成在京逝世 生命科学领域重大损失
- 2025年9月20日:我国首台15米口径亚毫米波望远镜在青海启动建设
- 2025年9月20日:重庆成全国第七个具备民航发动机全链条维修能力的城市 填补空白
- 2025年9月20日:追忆蛋白质工程开创者王大成院士:中国分子生物物理领域泰斗离世
- 2025年9月20日:特斯拉机器人核心团队负责人加盟Meta,科技巨头人才争夺再升温
- 2025年9月20日:国际灵长类介观脑图谱联盟上海成立 加速脑部疾病研究进程
- 2025年9月20日:淘宝闪购饿了么‘城市骑士之家’创新骑士权益保障
- 2025年9月20日:电影《731》上映引发观影热潮,武汉观众走进历史现场反思
- 2025年9月20日:李雪健之子李亘:不靠父亲资源,凭自身努力成知名导演
- 2025年9月20日:娱乐圈明星友情变迁:刘德华与潘宏彬的绝交与现状
- 2025年9月20日:欧拉全新纯电SUV申报图亮相 或命名“欧拉5”
- 2025年9月20日:丰田将生产两款纯电SUV 厂商电动化新动向
- 2025年9月20日:标致E-308 GT纯电车型解析:法式运动新风格
精彩评论(10)