欢迎访问《健康发展与政策研究》官方网站,今天是

图/表 详细信息

医疗大语言模型的评价现状及思考
邢倩, 何达
健康发展与政策研究, 2025, 28(1): 65-72.   DOI: 10.12458/HDPR.202407099

开发机构 评测工具 数据来源 评价维度 评价指标
上海人工智能实验室 GenMedicalEval 近4万道医学考试真题和近6万份病历 3个维度:基础知识、临床应用、安全规范(医疗反事实、毒害伦理、患者知情权等角度) 查准率、召回率、F1值和Bert score
上海市数字医学创新中心 MedBench 30万道中文医疗专业测评题目 5个维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理 BLEU、ROUGE-L、F1值
中文信息学会 CBLUE 20万条临床问答网站、医疗对话语料库 4个维度:准确性、流畅性、信息完整性、专业性 准确率、召回率、F1值、BLEU、信息覆盖率、语义相关性等
深圳市大数据研究院 CMB 30万道中文医疗专业测评题目和74个复杂病例 4个维度:流畅性、相关性、完整性、医学知识专业性 准确率、相似性及适用性
表3 国内主要医疗大语言模型评测框架
本文的其它图/表