OpenAI 突破传统微调,RFT 技术可精准定制 o4-mini 模型

人脑网 5 月 9 日消息,科技媒体 marktechpost 今天(5 月 9 日)发布博文,报道称 OpenAI 公司在其 o4-mini 推理模型上,推出了强化微调技术(Reinforcement Fine-Tuning, 简称 RFT),为定制基础模型以适应特定任务带来了突破性工具。

OpenAI 的强化微调技术(RFT)将强化学习原理融入语言模型的微调过程。开发者不再仅依赖标注数据,而是通过设计任务特定的评分函数(grader)来评估模型输出。

这些评分函数根据自定义标准(如准确性、格式或语气)为模型表现打分,模型则通过优化奖励信号逐步学习,生成符合期望的行为。这种方法尤其适合难以定义标准答案的复杂任务,例如医疗解释的措辞优化,开发者可通过程序评估清晰度与完整性,指导模型改进。

o4-mini 是 OpenAI 于 2025 年 4 月发布的一款紧凑型推理模型,支持文本和图像输入,擅长结构化推理和链式思维提示(chain-of-thought prompts)。

通过在 o4-mini 上应用 RFT,OpenAI 为开发者提供了一个轻量但强大的基础模型,适合高风险、领域特定的推理任务,其计算效率高,响应速度快,非常适合实时应用场景。

多家早期采用者已展示 RFT 在 o4-mini 上的潜力,凸显 RFT 在法律、医疗、代码生成等领域的定制化优势,人脑网附上相关案例如下:

  • Accordance AI 开发税务分析模型,准确率提升 39%;
  • Ambience Healthcare 优化医疗编码,ICD-10 分配性能提升 12 个百分点;
  • 法律 AI 初创公司 Harvey 提升法律文档引文提取的 F1 分数 20%;
  • Runloop 改进 Stripe API 代码生成,性能提升 12%;
  • 调度助手 Milo 和内容审核工具 SafetyKit 也分别取得显著进步。

使用 RFT 需完成四步:设计评分函数、准备高质量数据集、通过 OpenAI API 启动训练任务,以及持续评估和优化。

OpenAI 突破传统微调,RFT 技术可精准定制 o4-mini 模型

RFT 目前向认证组织开放,训练费用为每小时 100 美元,若使用 GPT-4o 等模型作为评分工具,额外按标准推理费率计费。OpenAI 还推出激励措施,同意共享数据集用于研究的组织可享受 50% 的训练费用折扣。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/12334.html

(0)
人脑网的头像人脑网
上一篇 2025年5月10日 下午3:14
下一篇 2025年5月10日 下午3:20

相关推荐

  • 360Hz都有了 买电竞显示器刷新率越高越好吗

    【ZOL人脑网原创技术解析】从十年前主流的 60Hz 到如今电竞玩家追捧的 360Hz,刷新率的数字竞赛背后,是显示技术对 “流畅” 与 “精准” 的极致追求。但越高的刷新率真的越好吗? 技术演进:从 “连贯” 到 “丝滑” 的三次蜕变 早期的 60Hz 显示器就像播放幻灯片的投影仪:每秒刷新 60 张画面,勉强能让动态场景不卡顿,却难以应对高速运动的细节。…

    2025年5月6日
    800
  • 英伟达开源 OCR 代码推理AI模型

    人脑网 5 月 9 日消息,科技媒体 marktechpost 昨日(5 月 8 日)发布博文,报道称英伟达开源其 Open Code Reasoning(OCR)模型套装,含 32B、14B 和 7B 三种参数规模,均采用 Apache 2.0 许可证发布,模型权重和配置已在 Hugging Face 平台开放下载。 OCR 模型套装提供三种参数规模,分别…

    2025年5月9日
    800
  • 算法信任链:AI-CRO的伦理重构路径

    生成式AI的信任危机与破局点 当用户在Kimi询问某化妆品成分安全性时,AI回答中频繁出现的矛盾数据正引发信任危机。生成式人工智能(Generative AI)在信息检索场景的渗透率已达67%[1],但『AI幻觉』导致的错误率仍维持在12%-15%[2]。某头部美妆企业通过部署动态事实核查(Dynamic Fact-Checking)系统,将AI回答中的品牌…

    2025年5月29日
    700
  • DIY从入门到放弃:省200元买散片CPU值吗?

    CPU可以说是电脑的核心,不管是单独购买还是选择板U套装,我们都会遇到“盒装”和“散片”这两个选项,一般来说散片CPU的价格会比盒装便宜15%甚至更多,对于大多数玩家来说都非常诱人,那么散片CPU值得入手吗? 首先简单介绍一下,盒装CPU是英特尔或AMD面向零售市场推出的正规产品。它们拥有完整的包装盒,内含处理器本身,说明书,保修卡,部分型号会附送散热器,而…

    2025年4月21日
    1400
  • 一加 Ace 系列手机销量累计超过 1500 万台

    人脑网 5 月 27 日消息,一加 Ace 5 至尊系列新品发布会正在进行中,一加中国区总裁李杰在现场宣布:一加 Ace 系列手机销量累计超过 1500 万台。 李杰表示,一加已经把游戏体验作为战略级赛道,针对游戏领域投入上千名工程师,并与全球顶级的芯片厂商、游戏工作室和游戏引擎等游戏生态伙伴进行深度合作,目标是做出行业里游戏体验最好的手机。同时,游戏体验将…

    2025年5月27日
    500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信