• 注册
  • 礼品卡激活

基于大规模中文搜索引擎的搜索日志挖掘

  摘要:从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。

  关键词:搜索引擎; 数据挖掘; 搜索日志; 分词

  中图分类号:TP391文献标志码:A

  文章编号:1001-3695(2008)06-1663-03

  0引言

  随着互联网信息的急剧膨胀,搜索引擎已经成为互联网用户必不可少的助手。目前几大主要的搜索引擎都采用如下的工作原理:用户输入搜索关键字,搜索引擎将关键字与预先存储的网页倒排文档进行匹配;然后按照一定的算法输出网页URL集合。这种简单地采用搜索关键字匹配的方法往往无法反映用户的真实需求。因此,对用户的搜索行为进行深层次的分析将有助于提高搜索引擎的质量。

  国内外有不少对搜索引擎用户行为分析的研究成果。文献[1]通过分析用户点击的URL类型,对用户的搜索需求进行分类;文献[2]对大型英文搜索引擎日志进行分析,总结了一些英文用户的搜索规律;文献[3~5]着重分析了中文搜索引擎用户的一些搜索规律。(剩余2698字)

龙源期刊网

收录3000种正版杂志,种类遍及时政、财经、文学、生活、娱乐、教育、学术等诸多门类,并同时以互联网和无线方式发行。

全国免费客服电话:400-6565-456

版权所有© 1997-2012 龙源期刊网

互联网出版许可证:新出网证(京)字066号

京公海网安备110108901919

电信与信息服务业务经营许可证:京ICP证060024   

关注龙源官方微博,热点期刊精彩分享: