苹果提出‘清单法’ 用AI大模型指导小模型执行复杂指令
(图片来自网络)
IT之家 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞/点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。
IT之家注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞/点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0 - 100 分逐项评分,用以指导模型优化。
研究团队在强指令跟随模型 Qwen2.5 - 7B - Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:
- FollowBench 硬性满意率提升 4 个百分点
- InFoBench 提高 6 点
- Arena - Hard 胜率增加 3 点
- 某些任务最高提升达 8.2%
这表明清单反馈在复杂、多步骤需求的执行中效果显著。清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5 - 72B - Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。
苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月6日:苹果推出iOS 26‘液态玻璃’设计,设立画廊展示第三方应用实践效果
- 2025年11月6日:东莞滨海湾:人工智能赛事助力青年创业梦,开启创新新篇章
- 2025年11月6日:首次参展进博会,美团买药呈现新服务亮点
- 2025年11月6日:天翎科发布全球首款全尺寸倾转涵道翼eVTOL飞行器L600
- 2025年11月6日:小鹏何小鹏披露人形机器人量产及标准:明年底量产 硬件软件超车规
- 2025年11月6日:小鹏X9超级增程预售启动,鲲鹏技术引领增程新阶段
- 2025年11月6日:世界足球先生11人候选名单出炉:巴黎4巨星+巴萨3人 哈兰德无缘
- 2025年11月6日:斯波尔斯特拉住宅火灾后明日仍执教比赛
- 2025年11月6日:佩莱格里尼赛后阐述比赛与状态:我们正走在正确的道路上
- 2025年11月6日:托纳利续约纽卡很开心;未承诺长期未来仅谈当下心态
- 2025年11月6日:马卡:明年年初皇马将重启吕迪格的续约,双方期待再次合作
- 2025年11月6日:斯肯迪亚1-1雅盖隆 战术交锋精彩,拉蒂菲与洛萨诺各入一球
- 2025年11月6日:WTA年终总决赛单打:萨巴伦卡全胜晋级 高芙出局
- 2025年11月6日:费伦茨瓦罗斯3-1卢多戈雷茨 比赛精彩瞬间与进球亮点
- 2025年11月6日:欧联赛场精彩绽放!25岁球员挑射建功 贝蒂斯4轮不败延续强势
- 2025年11月6日:克拉约瓦大学1-0战胜维也纳快速 罗曼丘克绝杀建功
- 2025年11月6日:OpenAI高管言论争议事件,特朗普顾问发声:AI公司倒闭无需政府救助
- 2025年11月6日:康纳-布拉德利状态回升,利物浦后防稳定性提升
- 2025年11月6日:纽卡斯尔联赛与欧冠表现差异明显:杯赛球队特质显现
- 2025年11月6日:马萨拉谈罗马队备战:每场比赛都要全力竞争 无保留竞技

精彩评论(10)