基于多粒度表征藏文古籍文档版面分析方法研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:藏文古籍文档版面分析是对文档图像中插图、文本段、文本行、标题等区域信息进行分析并提取的一种方法,是古籍数字化的重要研究课题。相较其他语种的历史文档,藏文古籍文档版面布局呈现出版面结构更加复杂、字体形状和大小风格多样化等特点。该文针对藏文古籍文献特征,构建手写体、印刷体、木刻雕版三种版面结构及字体不同的藏文古籍图像数据集,并将基于CNN和VIsion Transformer并行架构的AFFormer通用语义分割模型迁移到藏文古籍版面分析任务上。(剩余5831字)

目录
monitor
客服机器人