苹果提出‘清单法’ 用AI大模型指导小模型执行复杂指令

2025年8月26日
news

(图片来自网络)

IT之家 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞/点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。

IT之家注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞/点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0 - 100 分逐项评分,用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5 - 7B - Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:

  • FollowBench 硬性满意率提升 4 个百分点
  • InFoBench 提高 6 点
  • Arena - Hard 胜率增加 3 点
  • 某些任务最高提升达 8.2%

这表明清单反馈在复杂、多步骤需求的执行中效果显著。清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5 - 72B - Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。

苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-26 07
    AI做清单来执行任务,感觉很有创意,很期待发展
  • 网友9 2025-08-26 07
    新方法有局限但实力进步,期待应用场景
  • 网友8 2025-08-26 07
    清单法让复杂任务执行能力提升,科技给人惊喜
  • 网友7 2025-08-26 07
    像给学习做计划一样,AI也能通过清单优化,很实用
  • 网友6 2025-08-26 07
    这种训练方式能让AI更聪明,以后用起来更方便
  • 网友5 2025-08-26 07
    技术进步是好事,不过要注意安全方面
  • 网友4 2025-08-26 07
    苹果的AI研究又进一步了,这清单反馈方法有新意
  • 网友3 2025-08-26 07
    给AI列清单来指导,感觉很有条理,效果应该不错
  • 网友2 2025-08-26 07
    AI训练新思路,能提升复杂指令执行,未来应用会很广
  • 网友1 2025-08-26 07
    这方法让AI执行更精准,科技发展真厉害
查看“苹果提出‘清单法’ 用AI大模型指导小模型执行复杂指令”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙