融合相似性判断的网络新词发现算法

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：新词的有效识别是文本预处理过程中一项非常重要的任务，关系到分词效果的好坏。针对传统新词发现方法未考虑单字新词的识别，且忽略了上下文句法结构与语义信息对新词识别结果的影响，提出一种统计量计算结合相似性判断的网络新词发现算法。首先，基于字的粒度，依次计算单字词频、最大增强互信息和加权左右邻接熵，从左向右逐字扩展多字词，获得具有高成词概率的候选新词集合;再利用基于句法与语义的改进相似性计算模型，得到语句相似度，过滤无效新词。（剩余13782字）

试读结束

购买全文6.00元下一篇特征漂移约束算法在推荐系统中的优化

西北大学学报（自然科学版）

2022年02期

¥30.00/本