一种融合D_BBAS方法的重复缺陷报告检测

打开文本图片集
收稿日期:2022-05-14;修回日期:2022-07-06 基金项目:科技部高端外国专家引进计划资助项目(G2021186002L);四川省科技计划资助项目(2022JDGD0011);西南民族大学中央高校基本科研业务费专项资金资助项目(2021NYYXS44)
作者简介:曾方(1995-),男,重庆忠县人,硕士研究生,主要研究方向为软件缺陷、日志重复检测;谢琪(1983-),女(通信作者),四川成都人,副教授,硕导,博士,主要研究方向为服务计算、深度学习、日志重复检测(qi.xie.swun@gmail.com);崔梦天(1972-),女(蒙古族),内蒙古乌兰浩特人,教授,硕导,博士,主要研究方向为可信软件、复杂系统、软件缺陷预测.
摘 要:为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。(剩余20096字)