健康发展与政策研究

医疗大语言模型的评价现状及思考

邢倩, 何达

健康发展与政策研究, 2025, 28(1): 65-72. DOI: 10.12458/HDPR.202407099

评估工具	评估内容	分值范围
Likert量表	评估响应准确性、信息量和可理解性	5种分类等级变量（强烈不同意、不同意、不置可否、同意、强烈同意
Flesch阅读量表	评估模型输出文本的可读性，分值越高代表可读性越强	0~100分
Flesch-Kincaid分级Coleman-Lia指数	理解文本需要的教育水平，或文本复杂性；分值高代表内容复杂	/
DISCERN评分系统	评估响应质量、相关性、信息公平性；分值高代表信息质量高，内容表述充分	16~80分

表4 医疗大语言模型质量评估工具

本文的其它图/表