大模型基准测试有了 ITU 国际标准,中国信通院牵头制定

人脑网 4 月 11 日消息,据中国信通院今日消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

大模型基准测试有了 ITU 国际标准,中国信通院牵头制定

近些年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试(Benchmark)通过设计合理的测试任务和评价数据集来客观、公正、量化的评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。

当前已有数百个基准测试方法和数据集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,特联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界 500 余项基准测试系统性研究,一方面确立了大模型基准测试的 4 项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

人脑网从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。

自 2024 年以来,参照已发布的 ITU 大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。国际标准 ITU-T F.748.44 的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4500.html

(0)
人脑网的头像人脑网
上一篇 2025年4月11日 下午3:26
下一篇 2025年4月11日 下午3:28

相关推荐

  • 谷歌诠释 Pixel 9a 手机设计:相机“圆顶”方案,探索美学新方向

    人脑网 4 月 12 日消息,科技媒体 Android Authority 今天(4 月 12 日)发布博文,报道称谷歌回应 Pixel 9a 手机相机模块灵感来自 Pixel Watch 的“水滴造型”,内部将其称为“圆顶”设计。 谷歌 Pixel 9a 手机发布后,但其设计选择引发热烈讨论,尤其是取消了 Pixel 系列标志性的相机凸起条。 谷歌最新分享…

    2025年4月12日
    1400
  • 微软 CEO 纳德拉:公司 20%-30% 的代码由 AI 生成

    人脑网 4 月 30 日消息,在本周二举行的 Meta LlamaCon 大会上,微软首席执行官萨提亚・纳德拉(Satya Nadella)在与 Meta 首席执行官马克・扎克伯格的对话中透露,微软公司代码库中有 20% 至 30% 的代码是由人工智能写的。 纳德拉表示,在不同编程语言中使用人工智能生成代码的效果存在差异。在 Python 语言中,人工智能生…

    2025年4月30日
    300
  • 华硕推出天选 RTX 5070 显卡:白色系外观,三风扇 2.5 槽厚度

    人脑网 4 月 21 日消息,华硕官网现已上线天选 RTX 5070 12GB 显卡,可选标准和超频版本。这也是华硕在 GeForce RTX 50 世代推出的首张非联名款天选系列显卡。 该显卡采用三风扇 + 镜面直触的散热设计,单 12V-2×6 供电,三维 305×126×50 (mm),厚度约 2.5 槽,略微超出英伟达定义的 SFF-Ready 尺寸…

    2025年4月21日
    900
  • HKC首款14英寸轻薄本开启预约,酷睿Ultra5搭配2.8K高刷屏幕

    【ZOL人脑网原创新闻】在轻薄本市场中,14英寸是一个巧妙的平衡点,不仅轻薄便携,还能提供不错的视野,成为了不少移动办公人群的首选尺寸。作为国内显示器老牌厂商,HKC在近日公布了旗下首款轻薄笔记本电脑—惊鸿14AI,它不仅只有15.9mm薄,更轻约1.09kg,大大缓解了移动办公时的重量焦虑。 HKC的首款轻薄本在配置方面可以说是诚意满满,得益于自己在专业显…

    2025年4月27日
    600
  • 摩托罗拉 XT2557-1 手机通过 3C 认证,支持 68W 有线快充

    人脑网 4 月 24 日消息,型号为“XT2557-1”的摩托罗拉手机通过中国强制性产品认证(3C 认证),页面信息显示该机搭配 MC-688N 充电器,支持 68W 有线快充。 人脑网查询公开资料,这款手机还获得了无线电发射设备型号核准代码(CMIIT ID),显示支持多个频段的 5G 网络。 摩托罗拉于今年 4 月在海外市场推出了 Moto Tag 蓝牙…

    2025年4月24日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信