基于交替语言数据重构方法的跨语言文本相似度模型

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要: 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低, 导致跨语言上下文学习能力不足, 进而产生语言偏差的问题, 提出一种基于交替语言数据重构方法的跨语言文本相似度模型. 该方法通过对称地替换平行语料中的中英文词语, 形成重构的预训练文本对, 并利用上述文本对对多语言大模型mBERT((剩余14136字)

目录
monitor