关于凸显少数类样本范围的过采样方法的研究

打开文本图片集
摘 要:在不平衡数据集中,过采样的主要目的是通过增加少数类样本的数量来平衡数据集,而现有的过采样方法,只考虑了少数类样本之间的分布规律,并在少数类样本之间进行样本合成,这样会导致少数类样本的范围比实际范围小。针对上述问题,对凸显少数类样本范围的过采样方法进行研究。基于3种分类器(SVM、KNN、随机森林)与5种过采样算法(SMOTE、Borderline、KmeansSMOTE、SVMSMOTE、ADASYN)在4种不平衡数据集上开展实验,实验结果表明,应用凸显少数类样本范围的过采样算法在最优和第二优分类结果中占最高比例,因此在数据处理中应用该算法具有较好的效果。(剩余10523字)