决策能力暴增500%!语言模型微调技术突破

人脑网 5 月 20 日消息,科技媒体 marktechpost 昨日(5 月 19 日)发布博文,报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室,通过强化学习微调(RLFT)技术,提升语言模型的决策能力。

人脑网援引博文介绍,基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力,可以通过内部知识推理,在交互环境中做出行动选择。

决策能力暴增500%!语言模型微调技术突破

不过这些语言模型在决策过程存在显著缺陷:模型能推导正确策略却无法执行(knowing-doing gap,纸上谈兵),过度偏好短期高回报选项(greediness,贪婪选择),较小模型还会机械重复常见动作(frequency bias,频次偏见)。

传统强化学习方法如 UCB 算法虽能平衡探索与利用,但难以解决模型内在的推理-行动脱节问题。

DeepMind 团队创新采用强化学习微调技术,以模型自生成的思维链作为训练信号,系统会评估每个推理步骤对应的行动奖励,促使模型优先选择逻辑自洽且实际高效的行动方案。

具体实施时,模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列,通过蒙特卡洛(Monte Carlo)基线评估和广义优势估计进行优化;无效动作会触发惩罚机制,而奖励塑造技术既保证输出格式规范,又保留探索空间。

在 10 臂的多臂老虎机(multi-armed bandit,MAB,有拥有 N 根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布)测试中,2B 参数模型的动作覆盖率提升 12 个百分点;面对 20 臂时改善幅度虽小但仍有意义,其频次偏见率从 70% 骤降至 35%。

决策能力暴增500%!语言模型微调技术突破

井字棋实验中,模型对阵随机对手的胜率提升 5 倍,与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是,27B 大模型生成正确推理的概率达 87%,但未微调时仅 21% 会执行最优动作,该强化学习微调有效缩小了这一差距。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/14904.html

(0)
人脑网的头像人脑网
上一篇 2025年5月20日 下午3:18
下一篇 2025年5月20日 下午3:19

相关推荐

  • 华为余承东:截至 4 月 15 日,鸿蒙智行累计交付已超 70 万辆

    人脑网 4 月 16 日消息,在今日的鸿蒙智行新品发布会上,华为常务董事、终端 BG 董事长余承东宣布,截至 2025 年 4 月 15 日,鸿蒙智行累计交付已超过 70 万辆,同时连续 10 个月蝉联中国汽车品牌成交均价 TOP 1。 另外,2025 款问界 M9 也在上市 27 天实现了大定突破 4 万辆的成绩;问界 M8 的小订突破15 万辆。 余承东…

    2025年4月16日
    3500
  • 理想汽车有望推出 OPPO Watch X2 / Mini 定制版本智能手表

    人脑网 5 月 23 日消息,理想汽车发文,宣布将于5月26日在理想商城上架两款智能手表,参考相应官图,其中一款手表线条相对更加硬朗,表圈上带有秒钟刻度、另一款手表线条则相对圆润。 人脑网注意到,评论区有用户晒出了相应手表的谍照,可以看出相应手表预计是理想和 OPPO 合作推出的OPPO Watch X2 / Mini 定制版本。 ▲ OPPO Watch …

    2025年5月23日
    600
  • 基于定制“魔改”三星电视,8K 分辨率 120Hz 刷新率游戏演示成功

    人脑网 4 月 28 日消息,8K 协会发布于本月 15 日的新闻稿指出,在美国拉斯维加斯当地时间本月 5~9 日举行的 2025 NAB Show 上,多家会员企业协力展示了 8K 120Hz 的超高分辨率高刷新率游戏。 ▲ 图源外媒 rAVe [PUBS] 现场视频 据悉本次测试中的画面展示平台是三星第一方定制“魔改”的一款 65 英寸 Neo QLED…

    2025年4月28日
    1500
  • 别样的崛起:Vidda如何用“不虚标”哲学打赢与产业转型的时间战争?

    深谙市场规律的年轻电视品牌Vidda在技术变革浪潮中完成了从市场新锐到行业中坚的蜕变。 值得关注的是,在行业格局调整的三年间,Vidda展现出强劲增长态势:2023年以127%的线上销量增速首度跻身行业前五;2024年市场份额与头部阵营差距从8.3%快速收窄至0.7%;2025年至今更以13%市占率跃居线上渠道亚军。 在家电市场观察人士看来,Vidda的逆袭…

    2025年5月18日
    1000
  • 石头洗烘套装 Z1 Max 系列上市:7998 元起,搭载自研超净慕斯洗

    人脑网 4 月 21 日消息,石头科技推出了全新的石头 Z1 Max 洗烘套装系列,包含如下产品: 石头热泵洗烘套装 Z1 Max,首发价 7998 元; 石头分子筛热泵洗烘套装 Z1 Max Pro,首发价 9998 元; 石头分子筛热泵洗烘套装 Z1 Max Ultra,首发价 12998 元。 人脑网汇总该产品主要信息如下: 石头 Z1 Max 洗烘套…

    2025年4月21日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信