融合相似性判断的网络新词发现算法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏。针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法。首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得具有高成词概率的候选新词集合;再利用基于句法与语义的改进相似性计算模型,得到语句相似度,过滤无效新词。(剩余13782字)

monitor