• 打印
  • 收藏
收藏成功
分享

面向Transformer 模型的轻量化方法研究


打开文本图片集

摘要:随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的BERT模型(Bidirectional Encoder Representation from Transformers) 作为教师模型,设计学生模型卷积神经网络(Convolutional NeuralNetwork,CNN) ,加入注意力机制的循环神经网络(Recurrent Neural Network,RNN) 和全連接神经网络(Full Connect Neu⁃ral Network,DNN) ,并采用logits和matching logits两种蒸馏方法,实现模型的轻量化。(剩余282字)

网站仅支持在线阅读(不支持PDF下载),如需保存文章,可以选择【打印】保存。

目录
monitor