医疗大语言模型的评价现状及思考

邢倩; 何达

doi:10.12458/HDPR.202407099

健康发展与政策研究 >

2025 , Vol. 28 >Issue 1: 65 - 72

DOI: https://doi.org/10.12458/HDPR.202407099

数智健康

医疗大语言模型的评价现状及思考

邢倩 ,
何达

展开

上海市卫生和健康发展研究中心（上海市医学科学技术情报研究所），上海 200031

何达，heda@shdrc.org

邢倩，研究实习员，硕士，主要从事卫生经济学和政策评估的研究，xingqian@shdrc.org。

Office editor: 王瑾

收稿日期: 2024-07-24

修回日期: 2024-10-09

网络出版日期: 2025-05-19

基金资助

上海市加强公共卫生体系建设三年行动计划（2023-2025年）重点学科建设项目——健康教育与健康促进(GWVI-11.1-44)

收起

Current status and considerations for evaluating medical large language models

XING Qian ,
HE Da

Expand

Shanghai Health Development and Research Centre, Shanghai, 200031, China

Received date: 2024-07-24

Revised date: 2024-10-09

Online published: 2025-05-19

Fold

摘要

医疗大语言模型有望通过提供新的工具来提高现代医学服务的效率和质量，合理的评价方法是实现医疗决策科学化的重要技术工具。国内医疗大语言模型发展紧跟国际前沿，但评价方法的相关研究和实践经验尚不充分。文章梳理现有医疗大语言模型的评价工具开发进展，总结评价方法，分析评价难点，以期为完善评价体系提供相应的依据。

关键词： 大语言模型; 医疗保健; 评价

本文引用格式

邢倩 , 何达 . 医疗大语言模型的评价现状及思考[J]. 健康发展与政策研究, 2025 , 28(1) : 65 -72 . DOI: 10.12458/HDPR.202407099

Abstract

Medical large language models (LLMs) are expected to improve the efficiency and quality of modern medical services by offering new tools. Robust and rational evaluation methodologies are essential to support scientific medical decision-making. Although the development of the domestic medical LLMs has closely follows the international advancements, research and practical experience in their evaluation method remains limited. This study reviews the current progress of the LLMs’ evaluation tools, summarizes the evaluation approaches, and analyzes key difficulties, aiming to provide a foundation for improving the evaluation framework.

Key words： large language model; healthcare; evaluation

随着人工智能（artificial intelligence，AI）技术在自然语言处理领域的发展和应用，深度学习模型（generative pre-trained transformer，GPT）和双向编码器（bidirectional encoder representations from transformers，BERT）等大型语言模型（large language model，LLM）发生了重大变革^[1]，以上下文学习、逐步推理等能力展示出许多过往模型不具备的作用，其先进的语言理解和生成能力已成为各个领域智能化提升的重要方向，亦显示出改变医疗领域的潜力和价值^[2]。

医疗被认为是最适合发展大模型的行业之一，医疗领域数字化建设也是“十四五”时期的重要任务^[3]。2010年—2020年，医疗数据以40%的年增长率快速增长^[4]。诊疗及科学研究过程中产生的大量数据，包括病历、检查报告、生理参数、影像等多种形式的数据，蕴含着丰富的信息，但由于数据量太大、结构复杂、质量参差不齐等问题，很难直接被医生和研究人员利用^[5]。LLM虽然能够提供更加高效和智能化的支持^[6]，但也面临着模型固有的挑战，比如深度学习缺乏透明度、概率性而非确定性输出、有限的推理能力以及知识覆盖的潜在偏见等问题^[7]。因此，需要对实际应用环境中的LLM进行严格评价，确保其可靠性、安全性、效率和道德完整性，避免其带来的潜在风险，并为其不断改进提供指导。

国内针对医疗LLM开展的研究较少，国际研究主要关注利用医疗LLM评估特定卫生技术并生成报告^[8-10]，或者对基于LLM的健康技术的成本效益等进行评价^[11-12]，大多围绕专业领域能力展开，针对医疗LLM本身进行分析的研究较少。本文探讨医疗LLM的现有评价工具和评价方法的不足，并对后续研究和临床实践提出发展建议，以期为我国医疗大语言模型全面、科学、有效的评价提供参考，从而促进医疗大语言模型的深度持续发展。

1 医疗LLM概述

1.1 应用架构

LLM的构建包括预训练、微调、强化学习等关键阶段。预训练指利用海量数据集和无监督学习方法学习通用特征和知识，并迁移到其他具体任务，用于增强模型的泛化能力^[13]。LLM依托计算机视觉、自然语言处理、多模态技术，具有强大的创作能力、交互能力、孪生能力、推理决策能力^[14]，为下游具体场景应用奠定基础，并通过微调、提示工程覆盖医疗管理的全周期，包括诊前、诊中、诊后环节，模拟药物试验等医学研究，以及提供情感交互的医疗元宇宙^[15]，具体数据利用过程及应用架构见图1。

显示原图|下载原图ZIP|生成PPT

图1 医疗大语言模型应用架构

1.2 评价特殊性

对于通用LLM的评价，以可靠性、安全性、公平性、抵抗滥用、解释性和推理、遵循社会规范和稳健性七大维度为代表^[16]。部分国内外学者借鉴了传统软件和深度学习模型的评估体系，将LLM的的评估维度归纳为功能评估、性能评估、对齐评估、安全性评估等4个方面^[17-18]，并总结了评估中关注的要点。功能性评估包括自然语言理解、推理能力、文本代码生成；性能评估包括时间和空间（吞吐量、浮点运算次数等）；对齐评估包括道德和伦理、偏见性、毒性、事实性；安全性评估包括鲁棒性和风险。通用LLM评估框架可以作为医疗LLM评价的参照基础。

与通用LLM相比，医疗LLM应用场景较为独特，从前端的数据来源、数据处理重点、伦理考量^[19]，到结果应用端的输出审核与责任归属等方面^[20]，都比通用LLM具有更高的要求，具体差异见表1。

表1 通用大语言模型与医疗大语言模型的差异

对比维度	医疗大语言模型	通用大语言模型
数据来源	医学文献、病例报告、临床指南、医疗数据库、医学相关数据	多领域网页、论坛、书籍等文本数据
数据处理重点	去识别化处理，保护患者隐私，避免泄露敏感信息	数据过滤，去除低质量、重复、偏见或有害内容
伦理敏感性	高度敏感，涉及患者隐私保护，需严格遵守伦理规范	相对较低，但仍需考虑内容的偏见、歧视以及有害信息的去除
准确性要求	极高，错误诊断或建议可能导致严重医疗后果	相对较低，无直接的生命健康风险
可靠性要求	极高	相对宽泛
评价标准	以准确性、建议的合理性、临床决策支持的有效性为主	以自然语言理解、生成的流畅性、上下文相关性等通用语言能力
法律责任	责任归属尚不明确	一般无重大法律责任
更新频率	需随研究进展定期更新	更新频率相对灵活
输出审核	需经过医疗专家审核	通常不需要专家审核
潜在风险	可能危及患者生命健康，带来伦理和法律风险	影响用户体验

国内医疗LLM发展紧跟国际前沿，但多数模型仍处于探索开发阶段，因此还未有标准化评价手段。现有研究表明，最新一代的LLM在医学问答上的表现大幅提升，如Med-PaLM 2和GPT-4在医学问题测试中分别取得了85.4%和90.2%的准确率，但在实际临床环境中，基准测试中的假设可能并不适用^[21]。因此，结合实际临床应用场景进行更加全面的评价具有重大意义。

2 医疗LLM的开发及评价现状

2.1 开发进展

国内各类机构对医疗LLM的开发进行了广泛探索，医疗LLM工具涵盖疾病预测、辅助诊断、个性化治疗、药物发现等多个方面^[22]，同时还可用于医疗咨询和患者教育，提供相关信息和建议。LLM的开发和应用以企业机构为主导，因其具有丰富的资源和数据储备，更利于结合技术研发能力进行创新，同时医疗LLM具有产学研结合的特征，以便技术整合和资源共享。

早期互联网医疗具备的问诊对话、药品知识问答、病历生成功能仍是LLM应用最多的场景，见表2。医疗影像数据模态由于其开发难度，应用较为少见，整体呈现专业细分的发展态势。

表2 国内主要医疗大语言模型工具

发布时间	机构名称	医疗大语言模型名称	应用场景
2023年2月	微脉	依托文心一言	全病程管理
2023年2月	深睿医疗	Deepwise MetAl	医疗影像数智化
2023年5月	科大讯飞	星火认知	诊后康复管理
2023年5月	智云健康	ClouDGPT	辅助诊断、药物/器械研发
2023年5月	上海联通	Uni-talk	文献搜索、辅助诊断
2023年5月	云知声	山海	病历撰写、病历生成、商保智能理赔系统
2023年5月	医联	MedGPT	全流程智能化诊疗
2023年6月	深圳市大数据研究院	华佗 GPT	问诊对话
2023年6月	浙江大学	启真	药品知识问答，问诊对话、病历生成
2023年6月	华南理工	扁鹊、灵心健康	问诊对话
2023年6月	润达医疗	基于华为云	检验报告解读、互联网检验、全周期健康管理
2023年6月	东软	添翼	辅助医生问诊、患者健康服务、医院管理
2023年6月	叮当健康	HealthGPT	用户健康
2023年7月	上海人工智能实验室	OpenMEDLab 浦医	医疗多模态基础模型群
2023年7月	上海交通大学	明医MING、DoctorGLM	问诊对话
2023年7月	京东健康	京医千问	提供导诊、健康咨询、辅助诊断
2023年7月	百度灵医智惠	灵医 Bot	文档理解、病历理解、医疗问答
2023年10月	卫宁健康	WiNEx Copilot	医疗问答、互联网问诊、医疗报告小结
2023年10月	医渡科技	YiduCore	医疗问答、辅助诊断、健康管理

2.2 评测框架应用

医疗LLM评价要点包括性能、偏见与公平性、有害内容防范、准确性与真实性、语言与风格、用户体验与满意度、可解释性、可扩展性以及开发与维护，特别是安全性评估^[23]；具体的评价指标以通用LLM的功能性评估为主。部分机构在对LLM进行应用场景开发的同时，推进构建面向中文医疗LLM的开放评测体系建设^[24]，依托专业医疗机构的知识储备，纳入大量的医疗专业试题，以选择题和复杂病历问诊问答的形式进行测试，生成评测结果以供临床更好地参考。主要评测工具的评价方法见表3，其他多样化的医疗数据集还包括cMedQA2、cMedQA-KG、MD-EHR、MEDQA-MCMLE和MedDialog等，一般基于中国多中心、大型医院的电子健康记录或者中文医学考试的选择题目训练而成^[25]，以供实际评测应用。

表3 国内主要医疗大语言模型评测框架

开发机构	评测工具	数据来源	评价维度	评价指标
上海人工智能实验室	GenMedicalEval	近4万道医学考试真题和近6万份病历	3个维度：基础知识、临床应用、安全规范（医疗反事实、毒害伦理、患者知情权等角度）	查准率、召回率、F1值和Bert score
上海市数字医学创新中心	MedBench	30万道中文医疗专业测评题目	5个维度：医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理	BLEU、ROUGE-L、F1值
中文信息学会	CBLUE	20万条临床问答网站、医疗对话语料库	4个维度：准确性、流畅性、信息完整性、专业性	准确率、召回率、F1值、BLEU、信息覆盖率、语义相关性等
深圳市大数据研究院	CMB	30万道中文医疗专业测评题目和74个复杂病例	4个维度：流畅性、相关性、完整性、医学知识专业性	准确率、相似性及适用性

注：F1值为精确率和召回率的调和平均数，用于测量准确度；Bertscore是用于评估文本生成的自动评价指标；BLEU和ROUGE指生成文本与参考文本的相似度，用于评估翻译质量。

3 医疗LLM评价具体方法

3.1 运用客观量表进行质量评价

当前，研究者对于医疗LLM的评价分散在不同学科^[26]，客观量表的使用使得评价标准透明化，通过提供一套标准化的评价指标，使得对模型输出质量的评估更加一致和可重复性^[27]。通常由资深临床专家使用客观量表评估LLM响应质量，包括Likert量表、Flesch阅读量表、分级Coleman-Lia指数和DISCERN评分系统等，量表评估内容与评分标准见表4。此类评价工具较多应用于社会科学研究和文本质量评估，通过关键问题的判断结果给予质量评分^[28-29]。例如，使用DISCERN工具评估LLM生成的医疗信息的质量、相关性和信息公平性，该工具包含一系列问题，比如“该信息是否有明确的目标?”“该信息是否提供了各种治疗方案的详细信息?”“该信息是否公平地呈现了各种观点?”，根据标准对每个问题进行评分，总分16~80分，分值越高，表示信息质量越高。

表4 医疗大语言模型质量评估工具

评估工具	评估内容	分值范围
Likert量表	评估响应准确性、信息量和可理解性	5种分类等级变量（强烈不同意、不同意、不置可否、同意、强烈同意
Flesch阅读量表	评估模型输出文本的可读性，分值越高代表可读性越强	0~100分
Flesch-Kincaid分级Coleman-Lia指数	理解文本需要的教育水平，或文本复杂性；分值高代表内容复杂	/
DISCERN评分系统	评估响应质量、相关性、信息公平性；分值高代表信息质量高，内容表述充分	16~80分

运用客观量表进行质量评价操作相对便捷和规范，值得注意的是，量表评价通常针对特定的场景，在实际应用中，需要根据评估目的与其他评估工具结合使用。

3.2 根据应用转化能力综合评估

随着医疗LLM模型应用场景的不断扩展，传统的评价方法不能完全满足需求，上述评测框架使用的评估指标并未涉及性能、实用性和伦理方面，也就未纳入通用LLM性能评估、对齐评估、安全性评估的考量。近年来，已有较多针对医疗AI模型的评估和治理框架的探索^[30-31]。2021年，一个由医学研究人员和数据科学家组成的国际团队开发了AI转化评估（translational evaluation of healthcare AI，TEHAI）框架，基于卫生技术评估的基本原则引入了一个多阶段、全面的评估框架^[30]，强调模型开发后的实际转化和伦理学评估。评估框架的核心层包括能力、实用性和适用性3个部分，治理层包括公平性、透明度、可信度和问责机制，每个步骤都有明确的操作流程，在此不展开赘述，TEHAI简化版的框架见图2。

显示原图|下载原图ZIP|生成PPT

图2 医疗人工智能转化评估简化版框架

TEHAI框架适用于各种类型的医疗LLM模型，特别是在诊断支持、公共健康监测场景中^[30]。如在公共健康监测任务中，其能力评估和适用性评估能够确保模型在不同地区和人群中普遍适用，并能应对数据的多样性和复杂性。

3.3 任务处理导向进行对比测试

基于应用场景探索新维度的评价方法，旨在针对具体应用场景的特殊需求，提出新的评价指标和方法。现有医疗LLM评估的综述显示^[32]，当前研究者在神经内科、皮肤科、整形科及临床药学领域进行特定应用场景下的评估。通常情况下，按照任务界定、选择标准参考、指标设置、测试与数据收集、结果分析与对比5个步骤进行，参考标准一般是与标准临床指南、人工回答、系统评价对照，比较特定指标的差异以评估性能，见表5。

表5 医疗大语言模型对比测试的代表性研究

代表性研究	提问内容	对照	评价指标
2024年 Li等^[33]	腹部整形手术问题	PubMed/Cochrane	有效性、准确性
2023年Moskatel等^[34]	47种预防偏头痛药物的效果	FDA适应证、美国神经病学学会循证指南	可靠性、准确性
2023年Liu等^[35]	50个神经外科领域问题	国家卫生健康委指南	相关性
2023年Singhal等^[36]	临床知识问答	临床指南或共识、医生人工答案	1)一致性；2) 阅读理解、检索和推理能力；3) 不正确或遗漏的内容； 4) 临床危害；5) 医疗人口统计的偏见；6)有用性；7) 解决问题的意图
2023年Lam Hoai等^[37]	中重度银屑病的药物评价	meta分析/网状meta分析	内容重复性、可接受性、相似性及适用性
2024年Liu等^[38]	患者咨询问诊	初级保健医生人工答案	准确性、有用性、同理心、响应能力
2023年Singhal等^[36]	临床知识问答	临床指南或共识、医生人工答案	1)一致性；2) 阅读理解、检索和推理能力；3) 不正确或遗漏的内容； 4) 临床危害；5) 医疗人口统计的偏见；6)有用性；7) 解决问题的意图

这些评估方法不仅关注模型的准确性，还考虑了其他关键因素如一致性、可靠性、同理心和响应能力等。随着LLM模型在医疗领域的应用不断扩大，研究者们也开始关注模型输出的潜在危害和偏见问题，以确保其在临床实践中的安全性和公平性。任务处理导向的对比测试是一种全面且灵活的评价方法，能够根据不同应用场景的特殊需求，提出新的评价指标并对模型进行多维度测试，更适用于有明确目标的临床任务。

4 医疗LLM评价的挑战

4.1 场景异质性难以标准化管理

当前研究者在不同学科背景和应用场景中探索多维度的评价方法，旨在满足具体诊断、治疗推荐、病历生成、患者问答等多种任务场景的特殊需求。然而，这种多样性也带来了显著的挑战，尤其是在构建标准化评价流程方面^[39]。不同临床场景的术语、诊疗流程、知识体系和患者疾病表现差异较大，固定评价体系往往难以涵盖所有可能的变量。以某医疗机构应用情况为例^[19]，其利用MultiMedQA评测基准评估PaLM模型，在药物推荐场景中，基于量化指标如准确率和推荐药物种类多样性，未检测到其在特殊病例推荐中的失误，但在多种并发症的复杂病例中，PaLM推荐了不适当的药物组合，导致潜在的医疗风险。可见，构建统一的、标准化的评价体系几乎无法实现，上述现有的评测工具未能兼顾学科特性，对固定医疗场景评测的指标也存在差异。

此外，尽管医疗数据量很多，但大多数都需要经过广泛的伦理、法律和隐私程序才能访问，导致不同机构数据集的知识覆盖面存在差异。目前最先进的方法倾向于在较小的开源数据集上进行微调，以提高LLM的领域特定性能，但是数据规模限制和数据偏见也造成了评价标准和评价结果应用的局限性^[40]。

4.2 预训练的基准质量有待提升

从应用本质来看，医疗LLM的生成内容与训练数据高度相关，能否基于充足的知识库和海量训练数据进行机器学习，是医疗LLM能否承担辅助医学决策作用的决定性因素。目前的评测数据是基于中国多中心、大型医院的电子健康记录或者中文医学考试的选择题目训练而成，大多基于预先收集的客观问题，这种“题海战术”设计缺乏对主观问答能力的评估。

训练与分析的特定数据集是由研究人员选定与编制，使用不一致或低质量的数据进行预训练会导致LLM在生成医学信息时出现不准确或不可靠的结果^[40]。目前临床数据质量有待进一步优化^[41]，训练基准也需要适合的模型设计和选择、持续的模型优化和验证以及专业的临床理解，数据的代表性、数据质量以及泛化能力需要经过反复验证。

4.3 模型价值输出存在潜在隐患

LLM一个重要的评估维度是对齐评估，用来判断模型与人类价值观一致的程度，能够提前预知大模型带来的负面影响，以便提前采取措施消除伦理价值未对齐等问题。虽然自动化评价方法能够快速处理大量数据并提供初步评估，但医疗领域的复杂性和细微差异往往需要结合专家的人工审查。一项神经医学问答的研究显示，GPT-4的最佳准确率为61.6%，加权F1得分为0.617，与人类准确率71.6%相比仍有差距^[42]。

从法律角度看，LLM缺乏人类的法律地位，人类使用医疗LLM和评价LLM都需要接受培训，因此使用者对其应用负有最终责任^[43]。有些 LLM 存在提供误导性或潜在危险建议的风险，这凸显了临床环境中谨慎采用的必要性，特别是在评价结果失真而导致患者或医务人员受到实际利益损害的情况下，确定法律责任是复杂的问题，需要明确的法规和法律限制来适当分配责任和保护用户^[44]。

5 医疗LLM评价的优化建议

5.1 匹配医疗应用场景，注重个性化管理与评价

由于不同研究的评估需求、所采用的对照标准、评价指标各不相同，导致难以形成统一的评估框架，建议今后探索验证医疗LLM使用合成数据的有效性，匹配生成定制化的医疗场景，在模拟环境中进行训练和测试，并建立与之相匹配的评价标准。首先，可以结合真实医疗场景，考虑健康的社会决定因素如经济状况和社会支持网络等，确保模型输出的建议在不同社会背景下都具备实用性和可行性^[44]。其次，考虑引入多层次评估框架，开发模块化评估工具，设计包括基础层（如准确性、召回率、F1分数等通用指标）、应用层（领域特定指标）、用户层（临床医生或患者反馈）和监管层（问责机制）的评价体系，综合考虑不同维度的评估需求^[30,33]。

5.2 推进数据结构化，利用真实世界数据充分迭代

为提升训练基准的时效性，建议引入基于真实世界数据的充分迭代评价机制，以提升LLM的知识积累，保障评价的高质量和时效性。在数据采集与清洗方面，应确保收集的数据来自可靠、合规、多元化的数据源，如医疗机构的电子健康记录、医学文献数据库和临床试验数据，同时涵盖临床诊疗中的罕见问题，以提高其在复杂和开放性问题上的表现^[45]。

在处理数据时，系统化清洗是关键步骤，需剔除噪声、冗余和错误数据，合理处理缺失值和异常值，以提高数据的准确性和一致性。同时，通过哈希算法或相似度计算等技术，避免偏差和过拟合问题，确保数据集的独立性和多样性。为减少数据中的潜在偏见，需识别并处理性别、种族或地域等方面的偏差，通过重新采样、调整权重或引入公平性约束等方法进行校正。此外，提升模型的泛化能力还依赖于选择多样化的数据集，涵盖结构化数据、非结构化文本、图像和时间序列数据等多种类型。通过定期进行偏见检测与校正，确保模型在不同群体中的公平性与准确性，从而在应用中保持稳健性和广泛适用性^[46]。

2023年7月，国家卫生健康委员会发布了《医疗机构临床决策支持系统应用管理规范（试行）》，对计算机辅助信息系统的临床知识来源权威性、知识库更新性和使用的审计与溯源等方面提出了要求，规范了结构化数据的生成与应用^[47]。管理端的政策支持一定程度上可以推动训练基准的规范化，使用标准化的基准数据集进行测试，可以更加公平地对比不同模型在相同任务上的表现，促进评价工作的顺利实施。

5.3 结合人工审查，定期提供反馈

人工审查成本高、可扩展性差，但一定程度上可以产生可靠的结果。例如某些临床场景中的病情描述和治疗建议，可能涉及复杂的病史、症状组合和个体化差异，这些细节往往是自动化系统难以完全捕捉和准确评估的^[48]。人工审查可以与循证证据、指南共识等有机结合，识别出模型输出中的细微差异和潜在问题，提供更为精细和可靠的评估结果。

此外，LLM是医疗提供端向患者提供服务的工具，用于辅助管理决策的效率、效果、响应能力和问责性，服务提供方享有最终的话语权。为了在特定应用程序中更好地评估模型的性能和相关性，在未来一段时间内，仍需结合人工审查，检验测试数据集生成的输出，并提供定性或定量反馈，以提高LLM在医疗领域的应用质量。双重审查机制不仅可以保障服务质量和患者信任，还确保了医疗决策中的安全性和责任性。

5.4 强化法律和伦理考量，优化监管环境

医疗LLM评价的主要伦理原则旨在指导开发者、用户和监管机构改进和监督技术的设计和使用。为确保模型的安全性和合规性，必须从政策制定、法律框架以及伦理审查流程等多方面采取措施，以解决患者隐私、数据安全、算法偏见、责任归属等隐患。

政策制定是确保LLM使用安全和合规的基础，监管机构应制定针对医疗LLM的专门政策，进一步规定LLM在临床决策中的使用场景和范围，明确LLM在数据获取和使用、隐私保护和责任分配等方面的要求，确保其符合数据保护法的规定。国际上，欧盟《通用数据保护条例》（General Data Protection Regulation, GDPR），美国的《健康保险可携性和责任法案》（Health Insurance Portability and Accountability Act, HIPAA）等，都明确了医疗健康数据的保护路径^[49]。我国也应在《数据安全法》《生物安全法》等制度基础上^[50]，进一步明确医疗健康数据内涵，对数据共享和跨境传输等敏感领域做出明确规定。此外，法律制度还应要求LLM开发者和应用者定期进行安全性评估和更新，以应对技术进步带来的新风险。

6 结语

医疗LLM在临床诊疗和医学研究中的应用是一个前沿且有前景的领域。构建系统的评价体系和标准，可以确保医疗LLM生成的信息准确、可靠，更好地提高诊断、治疗和预防的效率，也可以帮助医学研究人员发现新的知识和方法。未来还需要找到高频的刚需场景，通过优化法律和伦理监管环境，标准化数据处理机制，完成模型能力迭代以及运转的闭环，并结合人工审查定期反馈，以完善医疗LLM评价体系。

·作者贡献：邢倩负责原稿写作，资料整理与管理；何达负责概念提出，研究设计，审查和编辑写作。

·利益冲突：所有作者声明本文无实际或潜在的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	SECINARO S, CALANDRA D, SECINARO A, et al. The role of artificial intelligence in healthcare: a structured literature review[J]. BMC Med Inform Decis Mak, 2021, 21(1): 125.

[2]	YAO Y F, DUAN J H, XU K D, et al. A survey on large language model (LLM) security and privacy: the good, the bad, and the Ugly[J]. High-Confidence Computing, 2024, 4(2): 100211.

[3]	胡善联. 保障健康权益促进卫生改革发展[J]. 健康发展与政策研究, 2024, 27(1):7-10. DOI

[4]	韦玮, 郑秉文. 我国医保支付方式本土化改革历程与价值导向完善建议[J]. 中国医疗保险, 2023(12): 13-20.

[5]	吴琼, 杨宝晨, 郭娜, 等. 人工智能大数据时代医学数据保护的思考[J]. 人工智能, 2022(1): 54-61.

[6]	陈润生. 医疗大数据结合大语言模型的应用展望[J]. 四川大学学报: 医学版, 2023, 54(5): 855-856.

[7]	李忠民, 王思慧, 陈先来, 等. 国内医学数据安全治理法律法规建设探析[J]. 图书馆, 2022(3): 70-76.

[8]	赵锐, 石秀园, 钟雪然, 等. 基于卫生技术评估构建医学人工智能技术临床应用评估路径的探讨[J]. 中国卫生政策研究, 2022, 15(2): 78-82.

[9]	LIANG H Y, TSUI B Y, NI H, et al. Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence[J]. Nat Med, 2019, 25(3): 433-438. DOI PMID

[10]	ZEMPLÉNYI A, TACHKOV K, BALKANYI L, et al. Recommendations to overcome barriers to the use of artificial intelligence-driven evidence in health technology assessment[J]. Front Public Health, 2023, 11: 1088121.

[11]	VAN LEEUWEN K G, MEIJER F J A, SCHALEKAMP S, et al. Cost-effectiveness of artificial intelligence aided vessel occlusion detection in acute stroke: an early health technology assessment[J]. Insights Imaging, 2021, 12(1): 133.

[12]	VERVOORT D, TAM D Y, WIJEYSUNDERA H C. Health technology assessment for cardiovascular digital health technologies and artificial intelligence: why is it different?[J]. Can J Cardid, 2022, 38(2): 259-266.

[13]	THIRUNAVUKARASU A J, TING D S J, ELANGOVAN K, et al. Large language models in medicine[J]. Nat Med, 2023, 29(8): 1930-1940. DOI PMID

[14]	DASH S, SHAKYAWAR S K, SHARMA M, et al. Big data in healthcare: management, analysis and future prospects[J]. J Big Data, 2019, 6(1): 54.

[15]	郑琰莉, 韩福海, 李舒玉, 等. 人工智能大模型在医疗领域的应用现状与前景展望[J]. 医学信息学杂志, 2024, 45(6): 24-29.

[16]	LIU Y, YAO Y, TON J, et al. Trustworthy LLMs: a survey and guideline for evaluating large language models' alignment[J]. arXiv: 2308.05374, 2023.

[17]	赵睿卓, 曲紫畅, 陈国英, 等. 大语言模型评估技术研究进展[J]. 数据采集与处理, 2024, 39(3): 502-523.

[18]	GUO Z, JIN R, LIU C, et al. Evaluating large language models: a comprehensive survey[J]. arXiv: 2310.19736, 2023.

[19]	HUANG Y, TANG K, CHEN M. A Comprehensive survey on evaluating large language model applications in the medical industry[J]. arXiv: 2404.15777, 2024.

[20]	陈剑锋. 大语言模型在临床医学的可应用性探讨[J]. 医学与哲学, 2023, 44(21): 1-6.

[21]	NESS R O, MATTON K, HELM H, et al. MedFuzz: exploring the robustness of large language models in medical question answering[J]. arXiv: 2406.06573, 2024.

[22]	胡振生, 杨瑞, 朱嘉豪, 等. 大语言模型在医学领域的研究与应用发展[J]. 人工智能, 2023(4): 10-19.

[23]	邢倩, 何达, 符雨嫣, 等. 数字健康技术评估与应用的国际经验[J]. 健康发展与政策研究, 2024, 27(1): 29-35. DOI

[24]	WANG X, CHEN G H, SONG D, et al. Cmb: a comprehensive medical benchmark in chinese[J]. arXiv: 2308.08833, 2023.

[25]	WANG G, YANG G, DU Z, et al. Clinical GPT: large language models finetuned with diverse medical data and comprehensive evaluation[J]. arXiv: 2306.09968, 2023.

[26]	李戈, 吴涛, 章萌, 等. 大语言模型在循证实践和医学教育中的应用现状及对循证医学教学的启示[J]. 数字医学与健康, 2024, 2(2): 102-107.

[27]	罗旭飞, 吕晗, 史乾灵, 等. 大语言模型在循证医学领域的应用[J]. 中国循证医学杂志, 2024, 24(4): 373-377.

[28]	谭晓文, 陈文芳, 王娜娜, 等. 国内不同大型语言模型对前列腺癌围术期护理与健康教育相关问题的查询响应与效果评价[J]. 中华男科学杂志, 2024, 30(2): 151-156.

[29]	TANG L Y, SUN Z Y, IDNAY B, et al. Evaluating large language models on medical evidence summarization[J]. NPJ Digit Med, 2023, 6(1): 158. DOI PMID

[30]	REDDY S, ALLAN S, COGHLAN S, et al. A governance model for the application of AI in health care[J]. J Am Med Inform Assoc: JAMIA, 2020, 27(3): 491-497.

[31]	REDDY S, ROGERS W, MAKINEN V P, et al. Evaluation framework to guide implementation of AI systems into healthcare settings[J]. BMJ Health Care Inform, 2021, 28(1): e100444.

[32]	YU P, XU H, HU X, et al. Leveraging generative AI and large language models: a comprehensive roadmap for healthcare integration[J]. Healthcare, 2023, 11(20): 2776.

[33]	ZHAO J, DU H. Exploring the potential of chatgpt-4 in responding to common questions about abdominoplasty: an AI-based case study of a plastic surgery consultation. Aesthetic Plast Surg, 2025, 49(1): 440-441.

[34]	MOSKATEL L S, ZHANG N. The utility of ChatGPT in the assessment of literature on the prevention of migraine: an observational, qualitative study[J]. Front Neurol, 2023, 14: 1225223.

[35]	LIU J Y, ZHENG J Q, CAI X T, et al. A descriptive study based on the comparison of ChatGPT and evidence-based neurosurgeons[J]. iScience, 2023, 26(9): 107590.

[36]	SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.

[37]	LAM HOAI X L, SIMONART T. Comparing meta-analyses with ChatGPT in the evaluation of the effectiveness and tolerance of systemic therapies in Moderate-to-Severe plaque psoriasis[J]. J Clin Med, 2023, 12(16): 5410.

[38]	LIU S R, MCCOY A B, WRIGHT A P, et al. Leveraging large language models for generating responses to patient messages-a subjective analysis[J]. JAMIA, 2024, 31(6): 1367-1379.

[39]	颜见智, 何雨鑫, 骆子烨, 等. 生成式大语言模型在医疗领域的潜在典型应用与面临的挑战[J]. 医学信息学杂志, 2023, 44(9): 23-31.

[40]	YU K H, HEALEY E, LEONG T Y, et al. Medical artificial intelligence and human values[J]. N E J M, 2024, 390(20): 1895-1904.

[41]	闫温馨, 胡健, 曾华堂, 等人工智能大语言模型在基层医疗卫生服务中的应用与挑战[J]. 中国全科医学, 2025, 28(1): 1-6.

[42]	LIU J, ZHOU P, HUA Y, et al. Benchmarking large language models on cmexam-a comprehensive chinese medical exam dataset[J]. Adv Neural Inf Process Syst, 2024, 36.

[43]	SHAH N H, ENTWISTLE D, PFEFFER M A. Creation and adoption of large language models in medicine[J]. JAMA, 2023, 330(9): 866-869. DOI PMID

[44]	PRICE W N 2, GERKE S, COHEN I G. potential liability for physicians using artificial intelligence[J]. JAMA 2019, 322(18): 1765-1766.

[45]	钱晨嗣, 夏寒, 夏天, 等. 基于机器学习的公共卫生数据可靠性评估系统的研究与设计[J]. 中国卫生资源, 2023, 26(3): 244-248.

[46]	吴信东, 董丙冰, 堵新政, 等. 数据治理技术[J]. 软件学报, 2019, 30(9):2830-2856.

[47]	国家卫生健康委员会. 关于印发《医疗机构临床决策支持系统应用管理规范(试行)》的通知: 国卫办医政函[2023]268号[A]. 2023.

[48]	GOODMAN R S, PATRINELY J R J, OSTERMAN T, et al. On the cusp: considering the impact of artificial intelligence language models in healthcare[J]. MED, 2023, 4(3): 139-140. DOI PMID

[49]	赵安琪, 付少雄, 冯亚飞. 国外健康科学数据管理实践及启示[J]. 图书情报知识, 2020(1): 105-114.

[50]	李赞梅, 刘懿, 蔡妙芝, 等. 我国健康医疗科学数据权属管理现状、问题与对策研究[J]. 医学信息学杂志, 2022, 43(11): 2-7.

Options

文章导航

模态框（Modal）标题

摘要