基于决策树算法的专利发明人姓名消歧研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题。本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估。(剩余5088字)

试读结束

monitor