中文多字体古籍数据集多任务融合识别

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:针对中文古籍数字化处理中大规模高质量数据集匮乏的问题,本文提出了一种新颖的2级古籍数据集建设方法:一是构建了包含119.5万张图片、覆盖6 610个字符类别的多字体古籍单字数据集CACID;二是基于古籍文献内容合成了包含86 667列古籍文字图片的古籍篇章数据集CASID,这是目前报道的最大中文古籍合成数据集。(剩余8916字)

monitor