基于综合几何关系稀疏自注意力机制的图像标注方法研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:针对基于Transformer框架的图像标注任务中提取视觉特征容易引入噪声问题且为了进一步提高视觉的上下文信息,提出了一种基于综合几何关系稀疏自注意力机制的图像标注方法。首先通过结合图像区域的绝对位置、相对位置和空间包含关系提取详细全面的视觉表示,获取图像中潜在的上下文信息;其次提出了注意力层权重矩阵的稀疏化方法,该方法解决了Transformer忽略图像区域的局部性并引入噪声信息的问题;最后,采用了强化学习方法作为指导策略,实现模型在句子级别优化目标序列。(剩余14206字)

目录
monitor