面向自然语言理解的多教师BERT模型蒸馏研究

石佳来, 郭卫斌

doi:10.11959/j.issn.2096-0271.2023039

大数据 (May 2024)

面向自然语言理解的多教师BERT模型蒸馏研究

石佳来, 郭卫斌

Affiliations

石佳来, 郭卫斌

DOI: https://doi.org/10.11959/j.issn.2096-0271.2023039
Journal volume & issue: Vol. 10, no. 3
pp. 119 – 132

Abstract

Read online

知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法，可以进一步提高学生模型的表现，而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃。提出了一种“单层对多层”的映射方式，解决了知识蒸馏时中间层无法对齐的问题，帮助学生模型掌握教师模型中间层中的语法、指代等知识。在GLUE中的若干数据集的实验表明，学生模型在保留了教师模型平均推断准确率的93.9%的同时，只占用了教师模型平均参数规模的41.5%。

Published in 大数据

ISSN: 2096-0271 (Print)
Publisher: China InfoCom Media Group
Country of publisher: China
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://www.infocomm-journal.com/bdr/EN/2096-0271/home.shtml

About the journal

Abstract

Keywords