谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒

人脑网 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。

谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒

而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异,确保测试跨平台无缝运行。

LMEval 不仅支持文本评测,还涵盖图像和代码等领域的基准测试,且新输入格式可轻松扩展,框架支持是非题、多选题和自由文本生成等多种评估类型。同时,该框架能识别模型采用的“规避策略”,即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分,展示模型规避有害内容的表现,百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中,确保数据本地化且不会被搜索引擎索引,兼顾了隐私与便捷。

LMEval 具备增量评估功能,无需在新增模型或问题时重新运行整个测试,仅执行必要的新增测试即可,并采用多线程引擎并行处理多项计算,有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具,通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务,精准定位模型错误,并直接比较多个模型在特定问题上的差异,图形化展示一目了然。

谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒

谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/16741.html

(0)
人脑网的头像人脑网
上一篇 2025年5月27日 下午3:03
下一篇 2025年5月27日 下午3:04

相关推荐

  • 砺算科技首颗自研架构 GPU 芯片已成功点亮

    人脑网 5 月 27 日消息,砺算科技昨日宣布其首颗自研架构全自主知识产权 GPU 芯片在封装回片后已于 2025 年 5 月 25 日成功点亮,截至目前结果符合预期。 该企业下一步将根据台式机、笔记本、图形工作站等设备的需求,继续进行详细全面的软硬件测试和驱动优化工作。 人脑网从官网资料获悉,砺算科技是一家致力于研发多层次(可扩展)高性能图形渲染 GPU …

    2025年5月27日
    700
  • 眼馋超级漂亮的实况照片?618预算千元就能满足

    在如今这个“看脸”的时代,手机早已不只是通讯工具,更是年轻女性记录生活、彰显个性的时尚单品。“颜值高、拍照强、体验好”成为了女生们购机的核心诉求,但有限的预算与对品质的追求常常难以平衡。别担心,618年中大促OPPO Reno13优惠力度超大,正是入手的绝佳时机。 OPPO Reno13不仅颜值出众,更凭借“AI高清实况照片”功能重新定义动态影像体验,用亲民…

    2025年5月30日
    600
  • 109.8 万元起,东风猛士 917 蛟龙战甲加长版硬派 SUV 上市

    人脑网 4 月 23 日消息,上海车展期间,东风猛士 917 蛟龙战甲加长版硬派中大型 SUV 正式上市,官方指导价为 109.8 万元起,全球限量 199 台。新车在猛士 917 蛟龙战甲标轴版的基础上进行了车身加长,并继续搭载增程式混合动力系统。 人脑网注意到,猛士 917 蛟龙战甲加长版延续了标轴版车型的设计。前脸采用了独特的“龙牙仿生中网”和“碳纤维…

    2025年4月23日
    2500
  • 鸿蒙电脑新技术:自然、无缝、无感的跨设备互联体验

    华为鸿蒙电脑技术与生态沟通会盛大召开,首款鸿蒙电脑正式亮相,依托分布式软总线技术,鸿蒙电脑带来了自然、无缝、无感的跨设备互联体验。它支持与华为手机、电脑、平板实现三设备键鼠共享,用户只需一套键鼠,就能在不同设备间自由切换操作,大大提升了使用的便捷性。 同时,通过手眼同行、跨设备互通、应用接续、华为分享等功能,华为手机、平板与电脑之间实现了无缝衔接。用户在手机…

    2025年5月8日
    900
  • 英伟达推出 Cosmos-Reason1 系列模型,让 AI 理解物理常识

    人脑网 5 月 21 日消息,科技媒体 marktechpost 昨日(5 月 20 日)发布博文,报道称英伟达针对物理推理任务,设计推出了 Cosmos-Reason1 系列模型,提升了 AI 在物理常识和具身推理方面的表现,为机器人、自动驾驶车辆等领域带来实际应用潜力。 Physical AI 挑战 人工智能(AI)在语言处理、数学和代码生成领域取得显著…

    2025年5月21日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信