大数据 (May 2024)

面向自然语言理解的多教师BERT模型蒸馏研究

  • 石佳来, 郭卫斌

DOI
https://doi.org/10.11959/j.issn.2096-0271.2023039
Journal volume & issue
Vol. 10, no. 3
pp. 119 – 132

Abstract

Read online

知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法,可以进一步提高学生模型的表现,而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃。提出了一种“单层对多层”的映射方式,解决了知识蒸馏时中间层无法对齐的问题,帮助学生模型掌握教师模型中间层中的语法、指代等知识。在GLUE中的若干数据集的实验表明,学生模型在保留了教师模型平均推断准确率的93.9%的同时,只占用了教师模型平均参数规模的41.5%。

Keywords