摘要:从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。
关键词:搜索引擎; 数据挖掘; 搜索日志; 分词
中图分类号:TP391文献标志码:A
文章编号:1001-3695(2008)06-1663-03
0引言
随着互联网信息的急剧膨胀,搜索引擎已经成为互联网用户必不可少的助手。目前几大主要的搜索引擎都采用如下的工作原理:用户输入搜索关键字,搜索引擎将关键字与预先存储的网页倒排文档进行匹配;然后按照一定的算法输出网页URL集合。这种简单地采用搜索关键字匹配的方法往往无法反映用户的真实需求。因此,对用户的搜索行为进行深层次的分析将有助于提高搜索引擎的质量。
国内外有不少对搜索引擎用户行为分析的研究成果。文献[1]通过分析用户点击的URL类型,对用户的搜索需求进行分类;文献[2]对大型英文搜索引擎日志进行分析,总结了一些英文用户的搜索规律;文献[3~5]着重分析了中文搜索引擎用户的一些搜索规律。(剩余2698字)