谷歌发布开源 LMEval 框架：打破 AI 模型比较壁垒

人脑网 • 2025年5月27日下午3:03 • 行业 • 阅读 9

人脑网 5 月 27 日消息，科技媒体 The Decoder 昨日（5 月 26 日）发布博文，报道称谷歌推出开源框架 LMEval，为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置，导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点，研究人员和开发者只需设置一次基准，就能展开标准化的评测流程，大幅简化了评测工作，节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异，确保测试跨平台无缝运行。

LMEval 不仅支持文本评测，还涵盖图像和代码等领域的基准测试，且新输入格式可轻松扩展，框架支持是非题、多选题和自由文本生成等多种评估类型。同时，该框架能识别模型采用的“规避策略”，即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分，展示模型规避有害内容的表现，百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中，确保数据本地化且不会被搜索引擎索引，兼顾了隐私与便捷。

LMEval 具备增量评估功能，无需在新增模型或问题时重新运行整个测试，仅执行必要的新增测试即可，并采用多线程引擎并行处理多项计算，有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具，通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务，精准定位模型错误，并直接比较多个模型在特定问题上的差异，图形化展示一目了然。

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/16741.html

赞 (0)

0 0

iGame GeForce RTX 5060 Ultra W OC显卡评测嘻哈炸场1080p 200帧！

上一篇 2025年5月27日下午3:03

苹果被曝正测试2亿像素传感器 iPhone 18 Pro能用上吗？

下一篇 2025年5月27日下午3:04

行业

砺算科技首颗自研架构 GPU 芯片已成功点亮

人脑网 5 月 27 日消息，砺算科技昨日宣布其首颗自研架构全自主知识产权 GPU 芯片在封装回片后已于 2025 年 5 月 25 日成功点亮，截至目前结果符合预期。该企业下一步将根据台式机、笔记本、图形工作站等设备的需求，继续进行详细全面的软硬件测试和驱动优化工作。人脑网从官网资料获悉，砺算科技是一家致力于研发多层次（可扩展）高性能图形渲染 GPU …

人脑网
2025年5月27日
7000
行业

眼馋超级漂亮的实况照片？618预算千元就能满足

在如今这个“看脸”的时代，手机早已不只是通讯工具，更是年轻女性记录生活、彰显个性的时尚单品。“颜值高、拍照强、体验好”成为了女生们购机的核心诉求，但有限的预算与对品质的追求常常难以平衡。别担心，618年中大促OPPO Reno13优惠力度超大，正是入手的绝佳时机。 OPPO Reno13不仅颜值出众，更凭借“AI高清实况照片”功能重新定义动态影像体验，用亲民…

人脑网
2025年5月30日
6000
行业

109.8 万元起，东风猛士 917 蛟龙战甲加长版硬派 SUV 上市

人脑网 4 月 23 日消息，上海车展期间，东风猛士 917 蛟龙战甲加长版硬派中大型 SUV 正式上市，官方指导价为 109.8 万元起，全球限量 199 台。新车在猛士 917 蛟龙战甲标轴版的基础上进行了车身加长，并继续搭载增程式混合动力系统。人脑网注意到，猛士 917 蛟龙战甲加长版延续了标轴版车型的设计。前脸采用了独特的“龙牙仿生中网”和“碳纤维…

人脑网
2025年4月23日
25000
行业

鸿蒙电脑新技术：自然、无缝、无感的跨设备互联体验

华为鸿蒙电脑技术与生态沟通会盛大召开，首款鸿蒙电脑正式亮相，依托分布式软总线技术，鸿蒙电脑带来了自然、无缝、无感的跨设备互联体验。它支持与华为手机、电脑、平板实现三设备键鼠共享，用户只需一套键鼠，就能在不同设备间自由切换操作，大大提升了使用的便捷性。同时，通过手眼同行、跨设备互通、应用接续、华为分享等功能，华为手机、平板与电脑之间实现了无缝衔接。用户在手机…

人脑网
2025年5月8日
9000
行业

英伟达推出 Cosmos-Reason1 系列模型，让 AI 理解物理常识

人脑网 5 月 21 日消息，科技媒体 marktechpost 昨日（5 月 20 日）发布博文，报道称英伟达针对物理推理任务，设计推出了 Cosmos-Reason1 系列模型，提升了 AI 在物理常识和具身推理方面的表现，为机器人、自动驾驶车辆等领域带来实际应用潜力。 Physical AI 挑战人工智能（AI）在语言处理、数学和代码生成领域取得显著…

人脑网
2025年5月21日
7000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信