首页 > 爱酱攻略 >苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

2025-08-26爱酱手游网

本站 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。

本站注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞 / 点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0-100 分逐项评分,用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:

    FollowBench 硬性满意率提升 4 个百分点

    InFoBench 提高 6 点

    Arena-Hard 胜率增加 3 点

    某些任务最高提升达 8.2%。

    这表明清单反馈在复杂、多步骤需求的执行中效果显著。

    清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。

    苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

8689
568

同类推荐更多

YSL水蜜桃86色号适合满十八岁女生吗?使用后会导致肤色变黑吗?

YSL水蜜桃86色号适合满十八岁女生吗?使用后会导致肤色变黑吗?

最火的爱酱攻略

2024-12-25

YSL水蜜桃86色号是许多化妆爱好者心目中的热门口红之一。其色泽明亮、气味清新,不仅适合日常使用,还能提升整体气质。很多人关心的一个问题是,满十八岁的女生使用YSL水蜜桃86色号后,是否会导致肤色变黑或不适合自己的肤色。这个问题涉及的因素有很多,包括肤色的差异、口红的成分、以及个人的使用习惯等。接下