物联网海量不均衡数据组内方差SNM清洗算法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要: 由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。(剩余8395字)

monitor