健康发展与政策研究

医疗大语言模型的评价现状及思考

邢倩, 何达

健康发展与政策研究, 2025, 28(1): 65-72. DOI: 10.12458/HDPR.202407099

代表性研究	提问内容	对照	评价指标
2024年 Li等^[33]	腹部整形手术问题	PubMed/Cochrane	有效性、准确性
2023年Moskatel等^[34]	47种预防偏头痛药物的效果	FDA适应证、美国神经病学学会循证指南	可靠性、准确性
2023年Liu等^[35]	50个神经外科领域问题	国家卫生健康委指南	相关性
2023年Singhal等^[36]	临床知识问答	临床指南或共识、医生人工答案	1)一致性；2) 阅读理解、检索和推理能力；3) 不正确或遗漏的内容； 4) 临床危害；5) 医疗人口统计的偏见；6)有用性；7) 解决问题的意图
2023年Lam Hoai等^[37]	中重度银屑病的药物评价	meta分析/网状meta分析	内容重复性、可接受性、相似性及适用性
2024年Liu等^[38]	患者咨询问诊	初级保健医生人工答案	准确性、有用性、同理心、响应能力
2023年Singhal等^[36]	临床知识问答	临床指南或共识、医生人工答案	1)一致性；2) 阅读理解、检索和推理能力；3) 不正确或遗漏的内容； 4) 临床危害；5) 医疗人口统计的偏见；6)有用性；7) 解决问题的意图

表5 医疗大语言模型对比测试的代表性研究

本文的其它图/表