融合全局语义的CLIP-GPT图像描述模型

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要:图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时,跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自由的跨模态关联,突破了有限视觉特征分类的限制;联合运用掩码学习和图文特征匹配两个损失函数,挑选高难度负样本训练跨模态跳接网络提取一致性全局语义,提高了子空间邻域内高相似度图文特征点匹配的准确度。(剩余17488字)

monitor