GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

医疗大模型知识覆盖度首次被精准量化!

在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。

他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2日。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

背景

大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。

当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限:

1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差;

2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量;

3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。

为解决这些问题,本文提出基于医疗知识图谱(KG)的多层级评估框架MedKGEval。

医疗KG通过结构化存储复杂实体关系网络,为评估提供天然基准。框架创新性地设计三级评估体系:实体层评估医学概念理解,关系层检验医学关联区分能力,子图层验证结构化推理水平。

通过真伪判断和多选题形式,同时实现任务导向(task-oriented)的粗粒度性能评估与知识导向(knowledge-oriented)的细粒度三重覆盖度测量(实体/关系/知识三元组)。

医疗知识覆盖度评估框架MedKGEval

在MedKGEval中研究团队设计了多层级的任务体系,其中包含3个层级的9项核心任务,通过真伪判断(TFQ)与多选题(MCQ)任务形式,实现任务导向与知识导向的双重评测。

具体评估流程框架见下图。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

任务架构设计

基于医疗知识图谱的实体、关系、三元组结构,构建三级评估体系:

实体层面(3项任务):验证医学概念理解

  • 实体类型标注(ET):通过多选题识别“糖尿病”等实体的分类标签(如疾病/症状)
  • 实体聚类(EC):从5个实体中辨识类型异常项(如混入症状类别的药物实体)
  • 实体消歧(ED):判断两个实体是否等价,比如“阿司匹林”与“乙酰水杨酸”是否为等价实体

关系层面(3项任务):检验医学关联认知

  • 关系类型标注(RT):选择“并发症”关系可连接的实体类型对(如疾病→疾病)
  • 事实核验(FC):判断三元组的真伪,比如“布洛芬-治疗-偏头痛”
  • 关系预测(RP):补全实体之间缺失的关系,比如“冠状动脉硬化→(?)→心肌梗死”

子图层面(3项任务):评估结构化推理

  • 错误识别(ER):从5个三元组中检测异常项(如错误药物禁忌关系)
  • 子图推理1(R1):基于多跳关系推理,比如基于“高血压→并发症→脑出血→影像检查→CT”路径,推断“高血压→影像检查→CT”是否成立
  • 子图推理2(R2):在相同推理链中,从候选关系中选择正确关联

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

随着利用的KG信息增多,任务难度也在逐渐升高,这样阶梯式、多层级的评估更有利用全面了解LLMs的性能。

任务导向和知识导向的评估机制

在每项任务中均配备评估核心实体/关系映射(如上图 core E and R),实现细粒度知识覆盖分析:

任务导向评估:计算准确率指标

知识导向评估:

  • 实体覆盖率:实体正确率均值(CovAvg-E)、引入节点中心度加权(CovDeg-E)
  • 关系覆盖率:关系正确率均值(CovAvg-R)、按关系出现频次加权(CovDeg-R)
  • 三元组覆盖率Cov-T:反映知识单元整体掌握度
实验及评估结果

MedKGEval选用中文医疗领域主流知识图谱CPubMedKG和CMeKG作为基准,经下采样构建实验数据集。

评估模型涵盖三大类:1)开源通用模型;2)医疗垂类模型;3)闭源模型。

下表展示了11个LLM的任务导向评估结果,可以看到:GPT-4o以70.65%平均准确率领先;同架构LLM参数量翻倍带来3-5%准确率提升;大多LLM在实体层面任务上表现优于关系和子图层面;通用模型性能超越医疗垂类模型(归因分析:垂类模型微调数据侧重具体任务(如用药咨询、医患对话摘要),导致医学知识广度受限)。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

下表展示了11个LLM的知识导向评估结果,可以看到:GPT-4o在CPubMedKG (small)上覆盖了65.66%的实体、55.60%的关系、62.31%的三元组;更大的参数量通常会带来更高的知识覆盖度;CovAvg 和 CovDeg 的对比体现出了LLM对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)的偏好性:CovAvg < CovDeg 说明 LLM 在高关联度实体的上表现更好、反之说明 LLM 在低关联度实体上表现更好。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

接下来,研究团队使用MedKGEval评估框架对四个示例LLM在关联度最高的15个实体和最高频的15个关系上的知识覆盖情况进行分析。

以常用临床实体“超声”为例,可以看到GPT-4o以94.16%正确率领先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

在医学关系覆盖度上,4个LLM也表现出了类似的特点。

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

分析结果表明,MedKGEval能有效定位LLM在特定医学知识领域的认知缺陷。

这些发现对模型优化具有重要指导价值:如上图所示,WiNGPT在“肺结核”实体相关问答中表现欠佳、Baichuan2-13B在“相关(转换)”关系中存在明显短板。

因此,在下轮微调中建议针对性补充结核病诊疗指南和病理转化机制相关数据,通过基于知识缺陷诊断的定向增强策略,可显着提升医疗领域LLM的整体性能。

总结

本文提出的MedKGEval框架通过医疗KG视角,构建了评估LLM医学知识覆盖度的多维度体系。

该框架在实体、关系和子图三个层级展开评估,系统揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。

研究团队提出的的任务导向与知识导向双轨评估机制,不仅能够精准定位模型的知识薄弱环节,更为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。


论文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代码地址:https://github.com/ZihengZZH/MedKGEval

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9872.html

(0)
人脑网的头像人脑网
上一篇 2025年4月30日 下午3:25
下一篇 2025年4月30日 下午3:26

相关推荐

  • 首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能

    Qwen3强势刷新开源模型SOTA,但如何让其在资源受限场景中,既能实现低比特量化,又能保证模型“智商”不掉线? 来自北京航空航天大学、西安电子科技大学和苏黎世联邦理工学院的联合研究团队找到了破局关键。 团队对Qwen3的5种后训练量化技术进行了首次系统性评估,涵盖从1比特到8比特的位宽和多个数据集,此外还与LLaMA3进行了量化比较。 研究发现,Qwen3…

    2025年5月10日
    1200
  • o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果

    OpenAI“最新最强版”推理模型o3-pro,实际推理能力到底有多强? 全球首位全职提示工程师Riley Goodside来给它上难度: 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测,o3只能做对个大概,通常只能把最后几个字母凑对。 该测试引来OpenAI前AGI Readiness团队负责人M…

    2025年6月13日
    700
  • 多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

    多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。 而RBench-V系统性评估了当前主流大模型基于“画图”的视觉推理能力: 比如在图中画出辅助线、描点连线、绘制光线路…

    2025年5月28日
    900
  • GPT-4o“最谄媚”!斯坦福牛津新基准:所有大模型都在讨好人类

    不只GPT-4o,原来所有大模型都在讨好人类! 上个月,GPT-4o更新后化身马屁精引来一片差评,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.…

    2025年5月23日
    800
  • Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?

    好家伙,机器人进厂打工原视频流出,整整60分钟,完全未剪辑。 前几天Figure 02晒1分钟物流分拣视频,网友们完全没看够啊。 于是Figure创始人立马60分钟进厂打工vlog(未删减版)奉上。 可灵活处理更多类型包裹,更接近人类水平的硬件运动,仔细看机器人在工作时,还会实时查看新数据来观察学习。 可以很轻松地从一堆非结构化的杂乱对象中抽出包裹,并在推走…

    2025年6月14日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信