欢迎访问《健康发展与政策研究》官方网站,今天是

图/表 详细信息

医疗大语言模型的评价现状及思考
邢倩, 何达
健康发展与政策研究, 2025, 28(1): 65-72.   DOI: 10.12458/HDPR.202407099

代表性研究 提问内容 对照 评价指标
2024年 Li等[33] 腹部整形手术问题 PubMed/Cochrane 有效性、准确性
2023年Moskatel等[34] 47种预防偏头痛药物的效果 FDA适应证、美国神经病学学会循证指南 可靠性、准确性
2023年Liu等[35] 50个神经外科领域问题 国家卫生健康委指南 相关性
2023年Singhal等[36] 临床知识问答 临床指南或共识、医生人工答案 1)一致性;2) 阅读理解、检索和推理能力;3) 不正确或遗漏的内容;
4) 临床危害;5) 医疗人口统计的偏见;6)有用性;7) 解决问题的意图
2023年Lam Hoai等[37] 中重度银屑病的药物评价 meta分析/网状meta分析 内容重复性、可接受性、相似性及适用性
2024年Liu等[38] 患者咨询问诊 初级保健医生人工答案 准确性、有用性、同理心、响应能力
2023年Singhal等[36] 临床知识问答 临床指南或共识、医生人工答案 1)一致性;2) 阅读理解、检索和推理能力;3) 不正确或遗漏的内容;
4) 临床危害;5) 医疗人口统计的偏见;6)有用性;7) 解决问题的意图
表5 医疗大语言模型对比测试的代表性研究
本文的其它图/表