一种针对 BERT 模型的多教师蒸馏方案

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无 法学习较大教师模型的负面结果。为了获得在不同任务上均拥有较好表现的学生模型,深入研 究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的来自 Transformers 的双 向编码器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 师蒸馏方案,即使 用 BERT、鲁棒优化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、语言理解的广义自回归预训练模型(XLNET)等多个拥有 BERT 结构的教师模型对 其进行蒸馏,同时修改了对教师模型中间层知识表征的蒸馏方案,加入了对 Transformer 层的 蒸馏。(剩余13352字)

monitor