开发机构 | 评测工具 | 数据来源 | 评价维度 | 评价指标 |
---|---|---|---|---|
上海人工智能实验室 | GenMedicalEval | 近4万道医学考试真题和近6万份病历 | 3个维度:基础知识、临床应用、安全规范(医疗反事实、毒害伦理、患者知情权等角度) | 查准率、召回率、F1值和Bert score |
上海市数字医学创新中心 | MedBench | 30万道中文医疗专业测评题目 | 5个维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理 | BLEU、ROUGE-L、F1值 |
中文信息学会 | CBLUE | 20万条临床问答网站、医疗对话语料库 | 4个维度:准确性、流畅性、信息完整性、专业性 | 准确率、召回率、F1值、BLEU、信息覆盖率、语义相关性等 |
深圳市大数据研究院 | CMB | 30万道中文医疗专业测评题目和74个复杂病例 | 4个维度:流畅性、相关性、完整性、医学知识专业性 | 准确率、相似性及适用性 |