基于深度学习的护照文本信息识别

打开文本图片集
摘要:应用基于深度学习的场景文本检测和场景文本识别的算法,实现对多国护照图片中关键文本信息的结构化输出具有重要意义。该文针对检测算法难以处理极端长宽比和小尺度文字的问题,使用了基于像素分割的检测方法,并且进行多尺度特征融合获得不同尺度的特征图;针对字符像素受干扰的情况,使用循环神经网络进行图像特征的上下文关系建模,以减轻污损干扰;针对无关文本干扰的情况,使用了基于文本和布局信息的多模态Transformer进行建模,获取关键信息的多模态模式,滤去无关信息,进行关键词匹配和提取,获得了较好的实验结果。(剩余6357字)