GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

医疗大模型知识覆盖度首次被精准量化!

在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。

他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2日。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

背景

大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。

当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限:

1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差;

2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量;

3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。

为解决这些问题,本文提出基于医疗知识图谱(KG)的多层级评估框架MedKGEval。

医疗KG通过结构化存储复杂实体关系网络,为评估提供天然基准。框架创新性地设计三级评估体系:实体层评估医学概念理解,关系层检验医学关联区分能力,子图层验证结构化推理水平。

通过真伪判断和多选题形式,同时实现任务导向(task-oriented)的粗粒度性能评估与知识导向(knowledge-oriented)的细粒度三重覆盖度测量(实体/关系/知识三元组)。

医疗知识覆盖度评估框架MedKGEval

在MedKGEval中研究团队设计了多层级的任务体系,其中包含3个层级的9项核心任务,通过真伪判断(TFQ)与多选题(MCQ)任务形式,实现任务导向与知识导向的双重评测。

具体评估流程框架见下图。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

任务架构设计

基于医疗知识图谱的实体、关系、三元组结构,构建三级评估体系:

实体层面(3项任务):验证医学概念理解

  • 实体类型标注(ET):通过多选题识别“糖尿病”等实体的分类标签(如疾病/症状)
  • 实体聚类(EC):从5个实体中辨识类型异常项(如混入症状类别的药物实体)
  • 实体消歧(ED):判断两个实体是否等价,比如“阿司匹林”与“乙酰水杨酸”是否为等价实体

关系层面(3项任务):检验医学关联认知

  • 关系类型标注(RT):选择“并发症”关系可连接的实体类型对(如疾病→疾病)
  • 事实核验(FC):判断三元组的真伪,比如“布洛芬-治疗-偏头痛”
  • 关系预测(RP):补全实体之间缺失的关系,比如“冠状动脉硬化→(?)→心肌梗死”

子图层面(3项任务):评估结构化推理

  • 错误识别(ER):从5个三元组中检测异常项(如错误药物禁忌关系)
  • 子图推理1(R1):基于多跳关系推理,比如基于“高血压→并发症→脑出血→影像检查→CT”路径,推断“高血压→影像检查→CT”是否成立
  • 子图推理2(R2):在相同推理链中,从候选关系中选择正确关联

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

随着利用的KG信息增多,任务难度也在逐渐升高,这样阶梯式、多层级的评估更有利用全面了解LLMs的性能。

任务导向和知识导向的评估机制

在每项任务中均配备评估核心实体/关系映射(如上图 core E and R),实现细粒度知识覆盖分析:

任务导向评估:计算准确率指标

知识导向评估:

  • 实体覆盖率:实体正确率均值(CovAvg-E)、引入节点中心度加权(CovDeg-E)
  • 关系覆盖率:关系正确率均值(CovAvg-R)、按关系出现频次加权(CovDeg-R)
  • 三元组覆盖率Cov-T:反映知识单元整体掌握度
实验及评估结果

MedKGEval选用中文医疗领域主流知识图谱CPubMedKG和CMeKG作为基准,经下采样构建实验数据集。

评估模型涵盖三大类:1)开源通用模型;2)医疗垂类模型;3)闭源模型。

下表展示了11个LLM的任务导向评估结果,可以看到:GPT-4o以70.65%平均准确率领先;同架构LLM参数量翻倍带来3-5%准确率提升;大多LLM在实体层面任务上表现优于关系和子图层面;通用模型性能超越医疗垂类模型(归因分析:垂类模型微调数据侧重具体任务(如用药咨询、医患对话摘要),导致医学知识广度受限)。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

下表展示了11个LLM的知识导向评估结果,可以看到:GPT-4o在CPubMedKG (small)上覆盖了65.66%的实体、55.60%的关系、62.31%的三元组;更大的参数量通常会带来更高的知识覆盖度;CovAvg 和 CovDeg 的对比体现出了LLM对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)的偏好性:CovAvg < CovDeg 说明 LLM 在高关联度实体的上表现更好、反之说明 LLM 在低关联度实体上表现更好。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

接下来,研究团队使用MedKGEval评估框架对四个示例LLM在关联度最高的15个实体和最高频的15个关系上的知识覆盖情况进行分析。

以常用临床实体“超声”为例,可以看到GPT-4o以94.16%正确率领先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

在医学关系覆盖度上,4个LLM也表现出了类似的特点。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

分析结果表明,MedKGEval能有效定位LLM在特定医学知识领域的认知缺陷。

这些发现对模型优化具有重要指导价值:如上图所示,WiNGPT在“肺结核”实体相关问答中表现欠佳、Baichuan2-13B在“相关(转换)”关系中存在明显短板。

因此,在下轮微调中建议针对性补充结核病诊疗指南和病理转化机制相关数据,通过基于知识缺陷诊断的定向增强策略,可显着提升医疗领域LLM的整体性能。

总结

本文提出的MedKGEval框架通过医疗KG视角,构建了评估LLM医学知识覆盖度的多维度体系。

该框架在实体、关系和子图三个层级展开评估,系统揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。

研究团队提出的的任务导向与知识导向双轨评估机制,不仅能够精准定位模型的知识薄弱环节,更为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。


论文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代码地址:https://github.com/ZihengZZH/MedKGEval

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9872.html

(0)
人脑网的头像人脑网
上一篇 2025年4月30日 下午3:25
下一篇 2025年4月30日 下午3:26

相关推荐

  • 宝马秀起汽车科技来,哪有其他汽车什么事…

    这届上海车展,黑科技浓度爆表。 有人,有机器人 不光有地上跑的,也有天上飞的 还有“不归牛顿管”的:BMW新世代驾趣概念车。 科技正在改善出行,从内到外重塑出行工具,甚至改变了产品的展出方式。 电动车时代的出行应该是怎样的,舒适取向的车型扎堆上市,电动车时代如何获得驾驶乐趣,上海车展给出了最新答案。 上海车展的性能怪兽 上海车展越来越有想象力了,连展台都能如…

    2025年4月26日
    700
  • MSRA首席研究员刘炜清:为每位研究员提供AI科研助理

    编辑部 发自 凹非寺 2025,随着大语言模型技术的迅猛发展,数据科学领域正经历一场静默的革命。传统的特征工程、模型训练与迭代优化流程,正被智能化的研发助手所改变。 在第三届AIGC产业峰会上,微软亚洲研究院(MSRA)首席研究员刘炜清带来了一项引人瞩目的研究成果——RD-Agent,一个旨在“自动化、增强到重塑”数据科学研发流程的智能系统。 这项研究源于一…

    2025年4月25日
    800
  • 7B小模型写好学术论文,新框架告别AI引用幻觉

    学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。 现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCop…

    2025年4月11日
    2400
  • 挤爆字节服务器的Agent到底啥水平?一手实测来了

    “字节版Manus”有多能打?量子位实测在此。 △扣子智能体生成的活动介绍网页 我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。 结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。 不过在指令遵循方面,还是比较“有自己的想法”。…

    2025年4月23日
    600
  • 榨干3000元显卡,跑通千亿级大模型的秘方来了

    书接上回,用几块3000元显卡作为加速主力的一体机,就能跑通671B的DeepSeek。 放在个把月前,你敢想象这样的场景么? 正在埋头苦干,希望有更多样化产品交付的一体机厂商们,pick英特尔锐炫™ 显卡 + 至强® W 处理器这套组合拳,首要原因就是它的成本确实诱人——基本算是砍掉了一个数量级(下线可以控制在10万元以内)。 其次就是这套组合也很能打,上…

    2025年4月15日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信