基于数据词典的中文分词算法优化实现

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要:中文分词算法是中文自然语言理解的基础,文章运用C#语言实现了正向、逆向、最长词、最短词的分词算法,通过大量样本实例分析,对不同算法进行了比较,介绍了分词算法在新词发现、歧义发现中的应用,重点阐述了关系型数据库、文本文件等不同数据结构的数据词典对中文分词算法速度的影响,创新性地引入一种非常规的数据词典索引表,大大提升了分词算法的速度。(剩余8122字)

目录
monitor