基于字符串相似度的URL聚类方法研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要: 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K⁃means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。(剩余6039字)

monitor
客服机器人