基于预训练Transformer语言模型的源代码剽窃检测研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要: 为解决源代码剽窃检测的问题, 以及针对现有方法需要大量训练数据且受限于特定语言的不足, 提出了一种基于预训练Transformer 语言模型的源代码剽窃检测方法, 其结合了词嵌入、相似度计算和分类模型。该方法支持多种编程语言, 不需要任何标记为剽窃的训练样本, 即可达到较好的检测性能。实验结果表明,该方法在多个公开数据集上取得了先进的检测效果, F1 值接近。(剩余6625字)

monitor