苹果提出‘清单法’ 用AI大模型指导小模型执行复杂指令

(图片来自网络)
IT之家 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞/点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。
IT之家注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞/点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0 - 100 分逐项评分,用以指导模型优化。
研究团队在强指令跟随模型 Qwen2.5 - 7B - Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:
- FollowBench 硬性满意率提升 4 个百分点
- InFoBench 提高 6 点
- Arena - Hard 胜率增加 3 点
- 某些任务最高提升达 8.2%
这表明清单反馈在复杂、多步骤需求的执行中效果显著。清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5 - 72B - Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。
苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月17日:数字技术让文化遗产“活”在当下——西安世界互联网大会文化遗产数字化论坛探馆
- 2025年9月17日:古老文明数字化焕新:科技激活千年文化遗产
- 2025年9月17日:眼睛发痒红肿?掌握‘避、防、治’三原则应对过敏性结膜炎
- 2025年9月17日:翱翔长空:吉林航空精神传承与产业跃迁解码
- 2025年9月17日:【校馆弦歌】中国人民大学家书博物馆:信笺里的家国情怀
- 2025年9月17日:AI眼中的中国|熊心壮志,守护网安
- 2025年9月17日:港股互联网巨头集体大涨 AI热潮下BAT加大融资布局
- 2025年9月17日:中国队男子跳远再夺奖牌!石雨豪8米33获世锦赛铜牌
- 2025年9月17日:中国女篮逆转尤文图特收获热身赛开门红 杨舒予韩旭表现亮眼
- 2025年9月17日:亚冠首轮上海海港连失3球惨败,中超3强首回合表现欠佳
- 2025年9月17日:复旦宣言馆成新生“第一课” 传承红色文化点亮信念
- 2025年9月17日:文化中国行|听!长江脉动千年‘韵’——2025长江文明论坛举行
- 2025年9月17日:黄河安澜之变:坚定承诺背后的历史与当代治水实践
- 2025年9月17日:0.009秒‘闪送’ 高原‘绿电’点亮湾区未来
- 2025年9月17日:蓝盔无界 | 第二集《万里之诺》——致敬维和英雄
- 2025年9月17日:晶采观察丨守护数字生活!从细节处筑牢网络安全“防火墙”
- 2025年9月17日:‘红星照耀中国·‘两点一存’耀华夏’网络主题宣传活动在甘肃庆阳启动
- 2025年9月17日:远视储备减少近视风险增加!这样做守护孩子视力‘储蓄罐’(科普)
- 2025年9月17日:中国“小电驴”为何“锡”引全球客?| 活力中国调研行
- 2025年9月17日:砥砺奋进七十载 天山南北谱华章——以人民为中心推进新疆富民兴疆事业
精彩评论(10)