PeMeBench：中文儿科医疗问答基准测试方法

张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖

doi:10.11959/j.issn.2096-0271.2024058

大数据 (Sep 2024)

PeMeBench：中文儿科医疗问答基准测试方法

张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖

Affiliations

张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖

DOI: https://doi.org/10.11959/j.issn.2096-0271.2024058
Journal volume & issue: Vol. 10, no. 5
pp. 28 – 44

Abstract

Read online

大语言模型在医疗领域显现出巨大的应用潜力，如何评估其在医疗领域中的性能成为挑战。现有医疗评测基准测试多为选择题形式，难以全面和精准地评估模型在儿科医疗场景中的性能。为此，提出首个中文儿科医疗问答基准测试方法——PeMeBench。该方法基于双视角评估维度，参考来自10个儿科疾病系统的诊疗规范类书籍，将儿科医疗问答任务细分为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个儿科医疗问答子任务，构建超1万个开放式的问答题目，引入一种融合实体召回和检测语句幻觉的多粒度自动化评估方案，旨在对大语言模型在儿科基础医疗领域中的性能进行全面、准确的评估，深入剖析其潜在局限性，为提升医疗服务的智能化水平奠定坚实的基础。

Published in 大数据

ISSN: 2096-0271 (Print)
Publisher: China InfoCom Media Group
Country of publisher: China
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://www.infocomm-journal.com/bdr/EN/2096-0271/home.shtml

About the journal

Abstract

Keywords