基于图文交互和深层特征融合的多模态讽刺检测方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:多模态讽刺检测是在多模态场景下识别用户的讽刺言语。现有的多模态讽刺识别方法大多对编码之后的特征直接融合,并未关注图像和文本的深层特征以及图像和文本之间的交互。针对上述问题,本文提出基于图文交互和深层特征融合的多模态讽刺检测框架。首先,使用具有长文本能力的对比语言-图像预训练模型(Contrastive Language-Image Pre-training  model with Long text capability,Long-CLIP),对图像和文本进行编码,获得图像和文本的特征表示,进一步引入跨模态注意力机制,建立图像和文本特征之间的交互表示;其次,利用多个卷积神经网络从不同角度分别获得图像和文本的深层特征表示,并利用Key_less Attention 机制融合图像和文本的深层特征;最后,通过多层感知机实现多模态讽刺检测。(剩余7121字)

monitor