基于自蒸馏与自集成的问答模型

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:知识蒸馏结合预训练语言模型是构建问答模型的主要方法之一,然而,这类方法存在知识转移效率低下、训练教师模型耗时严重、教师模型和学生模型能力不匹配等问题。针对上述问题,提出了一种基于自蒸馏与自集成的问答模型SD-SE-BERT。其中:自集成基于滑窗机制设计;学生模型采用BERT;教师模型由训练过程中得到的若干学生模型基于其验证集性能进行加权平均组合得到;损失函数利用集成后的输出结果和真实标签指导当前轮次的学生模型进行训练。(剩余17304字)

目录
monitor