基于多模态特征频域融合的零样本指称图像分割

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题，提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征，但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP（contrastive language-image pre-training）是一个强大的预训练视觉语言跨模态模型，能够有效提取图像与文本特征，因此提出一种在频域融合CLIP编码后的多模态特征方法。（剩余18803字）

试读结束

购买全文6.00元下一篇结合细粒度自注意力的实例图像着色

计算机应用研究

2024年05期

¥12.00/本