基于视觉-语言特征编码的跨模态融合视觉问答方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:现有的视觉问答方法采用相同编码器编码视觉-语言特征,忽略了视觉-语言模态之间的差异,从而在编码视觉特征时引入与问题无关的视觉干扰特征,导致对关键视觉特征关注不足。提出一种基于视觉-语言特征编码的跨模态融合视觉问答方法:采用一种动态注意力编码视觉特征以实现根据问题动态调整视觉特征的注意力范围;设计了一种具有双门控机制的引导注意力以过滤多模态融合过程带入的干扰信息,提升多模态特征融合的质量,并增强多模态特征的表征能力。(剩余17162字)

monitor