大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

大模型竞技场的可信度,再次被锤。

最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如:

  • 少数大厂可以私下测试多个模型版本,Llama4在发布前甚至测了27个版本,然后只公开最佳表现。
  • 数据访问不平等,专有模型获得的用户反馈数据显着多于开源模型。
  • 使用Arena数据训练,可提升模型性能高达112%
  • 205个模型被悄悄静默弃用,远超过官方列出的47个。

大神卡帕西也站出来表示,他个人也察觉出了一些异样。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应:

  • 确实帮助厂商进行测试,最后发布最受欢迎的版本;
  • 但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

快速刷榜不符合模型进步实际情况

具体来看这项研究,它收集了243个模型的200+万场竞技场battle,并结合私人真实测试,通过模拟实验确定了不同情况下对模型排名的影响。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

主要挖掘出了4方面问题。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

第一,私人测试和有选择性的结果报告。

少数大模型厂商(如Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。

比如,Meta在Llama 4发布前曾私下测试27个变体,加上多模态、代码等榜单,Meta可能一共测试过43个变体。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

这种“最佳N选1”策略导致排名膨胀。

例如,当测试5个变体时,期望分数增加了约20分;当测试20个变体时,增加了约40分;当测试50个变体时,增加了约50分。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

研究团队认为,当多个大模型厂商采用这种策略时,他们实际上是在相互竞争各自变体分布的最大值,而非真实的模型能力

这种排行榜的快速变化不太可能反映真实的技术进步,因为开发和完善一个全新的基础模型通常需要数月时间。

相反,这很可能是多个大模型厂商同时使用“最佳N选1”策略的结果,每个提供商都试图优化自己变体池中的最大值。

此外,团队还发现大模型厂商可以撤回表现不好的模型。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

第二,数据访问不平等。专有模型获得的用户反馈数据显着多于开源模型。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

Google和OpenAI分别获得了约19.2%和20.4%的所有测试数据,而全部83个开放权重模型仅获得约29.7%的数据。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

第三,大模型厂商使用竞技场数据进行训练,排名可以显着提升。

第四,研究发现,许多模型被”静默弃用”(减少采样率至接近0%)。

在243个公开模型中,有205个被静默弃用,远超过官方列出的47个。这种做法特别影响开源和开放权重模型,会导致排名不可靠。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

在提出问题后,研究团队还给出了5点改进建议:

  • 禁止提交后撤回分数
  • 限制每个提供商的非正式模型数量
  • 公平应用模型弃用政策,所有模型一视同仁
  • 实施公平采样方法
  • 提高模型弃用透明度,即时通知被淘汰模型

这项研究由Cohere团队、普林斯顿大学、斯坦福大学等机构研究人员共同提出。

其中Cohere也是一家大模型厂商,由Transformer作者Aidan Gomez等人创办,推出了Command R+系列模型。

“竞技场不应该是唯一基准参考”

大模型竞技场诞生2年来,因为机制的特殊性,其参考价值越来越高,大厂发模型也必来这里打榜,甚至是将未发布模型提前在此预热造势。

它最大的优势在于基于人类偏好评估,用户可以在同一平台上同时运行多个聊天机器人模型,如GPT-4、ChatGPT-3.5等,并针对相同的问题或任务进行比较分析,可以更直观感受不同模型的差异。

最近一段时间,由于Llama4刷榜风波,给竞技场的可信度也造成了一定影响。

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

对于这篇质疑论文,官方现在已做出回应。反驳了一些问题:

  • LMArena模拟的缺陷:图7/8中的模拟存在问题。这就像说:NBA球员的平均三分命中率是35%。斯蒂芬·库里拥有NBA球员最高的三分命中率42%。这不公平,因为他来自NBA球员的分布,而所有球员都有相同的潜在平均水平。
  • 数据不实:文章中的许多数据并不反映现实:请参阅几天前发布的博客了解来自不同提供商测试模型数量的实际统计数据。例如,开放模型占比为40%,而非文章声称的8.8%!
  • 112%性能提升的误导性说法:这一说法基于LLM评判基准而非竞技场中的实际人类评估。
  • 政策并非“不透明”:我们设计并公开分享了政策,且这一政策已存在一年多。
  • 模型提供商并非只选择“最佳分数披露”:任何列在公共排行榜上的模型都必须是向所有人开放且有长期支持计划的生产模型。我们会继续使用新数据对模型进行至少一个月的测试。这些要点一直在我们的政策中明确说明。
  • 展示非公开发布模型的分数毫无意义:对于通过API或开放权重不公开可用的预发布模型显示分数没有意义,因为社区无法使用这些模型或自行测试。这会违反我们一年多前就制定的政策。我们制定该政策正是为了明确这一规则:如果模型在排行榜上,它应该可供使用。
  • 模型移除不平等或不透明的说法不实:排行榜旨在反映社区兴趣,对最佳AI模型进行排名。我们也会淘汰不再向公众开放的模型,这些标准在我们与社区进行私人测试的整个期间都已在政策中公开说明。

至于情况到底如何,可能还要等子弹飞一会儿。

不过这倒是也给AI社区提了个醒,或许不能只参考一个榜单了。

卡帕西就给出了一个备选项:OpenRouter。

OpenRouter可以提供一个统一API接口来访问使用不同模型,而且更加关注实际使用案例。

[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/10488.html

(0)
人脑网的头像人脑网
上一篇 2025年5月2日 下午3:27
下一篇 2025年5月2日 下午3:28

相关推荐

  • GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化

    专为GitHub打造的免费百科全书来了—— DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开…

    2025年4月27日
    900
  • 字节新推理模型逆袭DeepSeek,200B战胜671B,豆包史诗级加强?

    字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。 对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。 目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。 字节Seed团队聚焦大规…

    2025年4月11日
    2000
  • 腾势N9以180km/h鱼钩测试成绩刷新世界纪录!中国SUV安全性能登顶

    4月16日,腾势N9通过权威机构中国汽研测试认证,以180km/h的速度再次刷新全球鱼钩测试纪录,实现高速下稳定操控。腾势N9也成为国内首款获得权威机构鱼钩测试认证的车型。 真实的鱼钩测试,每天都在上演 鱼钩测试,又被称为“死亡弯道”,是目前最大化模拟高速避障紧急转向工况的测试,也是最严苛的车辆操稳性能及防侧翻能力验证标准。简单来说,鱼钩测试就是车辆在高速行…

    2025年4月16日
    2200
  • 宇树机器人上演好莱坞《铁甲钢拳》!网友激动表示:比CG还CG

    好莱坞科幻大片《铁甲钢拳》就这样被宇树机器人实现了?! 官方划重点:全程完全实拍,无任何加速。 和一名成年男子对打,出拳那叫一个稳准狠: 被一脚踢倒后,一个手撑地就立马自己起来了: 除了和人类对战,两个机器人也能打得热火朝天: 与此同时,宇树科技还剧透最近一个月左右,将开启机器人格斗直播。 而看完最新演示,有网友激动表示: 宇树机器人又整新活儿 从官方视频来…

    2025年4月11日
    2100
  • 不用等R2了!第三方给新版DeepSeek V3添加深度思考

    DeepSeek即将发布R2??坊间传闻越来越多了,且难辨真假。 1.2T万亿参数,5.2PB训练数据,高效利用华为芯片……只能说如果有一半是真的都很牛了。 HuggingFace创始人此时推荐“以不变应万变”,打开官方认证账号的更新提醒,就能第一时间获取通知。 抛开具体泄露数据是否准确,大家似乎有一个共识:如果真的有R2,它的基础模型会是新版DeepSee…

    2025年4月29日
    1000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信