基于K-means的大数据相似重复记录检测

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：目前大型企业存储了大量的数据，但是数据质量令人担忧，集中表现在相似重复冗余的数据特别多，以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题，文章提出了一种基于k-means分组聚类的检测算法，实验分析表明，该方法在确保精度不变的情况下提高了检测效率。（剩余5588字）

试读结束

购买全文4.00元下一篇基于H-KNN的藏文字符的识别研究

现代信息科技

2022年08期

¥18.00/本

关于龙源 关于我们联系我们龙源大事记诚聘英才用户守则 购刊指南 电子刊购买流程会员介绍常见问题 客服中心 联系客服开具发票 商务合作 商务合作 网络信息举报
违法和不良信息举报电话：400-106-1235

举报邮箱：longyuandom@163.com
网上有害信息举报专区 支付方式 支付宝在线支付公司转账邮局汇款 特色服务 刊社入口友情链接

关注微信公众号
获取更多资讯
北京龙源网通电子商务有限公司
（署）网出证（京）字第188号丨京公网安备 11011302003690号丨京ICP备18053758号-2