面向信息处理的《古籍汉字分级字表(7000字)》的研制

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要 分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉字表示为基于计量特征学习优先级的字向量,借助相似度计算,实现了古籍汉字学习优先级别的3级划分,得到《古籍汉字分级字表(7000字)》。(剩余13495字)

monitor