动态多视图推理分层相似性的图文检索算法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:跨模态图像文本检索通常指的是可见光图像和正常文本。其中,基于标量的图文相似度具有局限性,无法全面表示跨模态对齐。同时,局部区域—单词相关性和全局图像—文本依赖性之间存在复杂的相互作用,所以用于推理两种模态特征的模块存在一定程度的不确定性。针对上述问题,文章提出了一种基于层次相似网络的图文匹配动态多视图推理方法。(剩余11348字)

目录
monitor
客服机器人