健康发展与政策研究

欢迎访问《健康发展与政策研究》官方网站，今天是

图/表详细信息

医疗大语言模型的评价现状及思考

邢倩, 何达

健康发展与政策研究, 2025, 28(1): 65-72. DOI: 10.12458/HDPR.202407099

开发机构	评测工具	数据来源	评价维度	评价指标
上海人工智能实验室	GenMedicalEval	近4万道医学考试真题和近6万份病历	3个维度：基础知识、临床应用、安全规范（医疗反事实、毒害伦理、患者知情权等角度）	查准率、召回率、F1值和Bert score
上海市数字医学创新中心	MedBench	30万道中文医疗专业测评题目	5个维度：医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理	BLEU、ROUGE-L、F1值
中文信息学会	CBLUE	20万条临床问答网站、医疗对话语料库	4个维度：准确性、流畅性、信息完整性、专业性	准确率、召回率、F1值、BLEU、信息覆盖率、语义相关性等
深圳市大数据研究院	CMB	30万道中文医疗专业测评题目和74个复杂病例	4个维度：流畅性、相关性、完整性、医学知识专业性	准确率、相似性及适用性

表3 国内主要医疗大语言模型评测框架

本文的其它图/表