基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要: 针灸古籍中含有大量通假字、歧义词和专业术语。基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能。为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务。(剩余8859字)

monitor
客服机器人