• 注册
  • 礼品卡激活

主题网络爬虫研究综述

  摘要:首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。

  关键词:主题网络爬虫;信息检索;Web挖掘

  中图分类号:TP391文献标志码:A

  文章编号:1001-3695(2007)10-0026-04

  0引言

  随着网络上海量信息的爆炸式增长,通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战[1,2]。面对这些挑战,适应特定主题和个性化搜索的主题网络爬虫(focused crawler or topical crawler)应运而生[3,4]。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web 信息挖掘中的一个研究热点和难点。

  通用网络爬虫的目标就是尽可能多地采集信息页面,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这需要消耗非常多的系统资源和网络带宽,并且对这些资源的消耗并没有换来采集页面的较高利用率。(剩余2616字)

龙源期刊网

收录3000种正版杂志,种类遍及时政、财经、文学、生活、娱乐、教育、学术等诸多门类,并同时以互联网和无线方式发行。

全国免费客服电话:400-6565-456

版权所有© 1997-2012 龙源期刊网

互联网出版许可证:新出网证(京)字066号

京公海网安备110108901919

电信与信息服务业务经营许可证:京ICP证060024   

关注龙源官方微博,热点期刊精彩分享: