面向Transformer 模型的轻量化方法研究

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：随着Transformer模型的改进与发展，模型的参数数量显著增加，使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法：使用预训练好的BERT模型（Bidirectional Encoder Representation from Transformers）作为教师模型，设计学生模型卷积神经网络（Convolutional NeuralNetwork，CNN），加入注意力机制的循环神经网络（Recurrent Neural Network，RNN）和全连接神经网络（Full Connect Neu⁃ral Network，DNN），并采用logits和matching logits两种蒸馏方法，实现模型的轻量化。（剩余282字）

试读结束

购买全文3.00元下一篇智能导游机器人的设计与应用探析

电脑知识与技术

2024年04期

¥21.00/本