摘要:首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
关键词:主题网络爬虫;信息检索;Web挖掘
中图分类号:TP391文献标志码:A
文章编号:1001-3695(2007)10-0026-04
0引言
随着网络上海量信息的爆炸式增长,通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战[1,2]。面对这些挑战,适应特定主题和个性化搜索的主题网络爬虫(focused crawler or topical crawler)应运而生[3,4]。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web 信息挖掘中的一个研究热点和难点。
通用网络爬虫的目标就是尽可能多地采集信息页面,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这需要消耗非常多的系统资源和网络带宽,并且对这些资源的消耗并没有换来采集页面的较高利用率。(剩余2616字)