融合全局语义的CLIP-GPT图像描述模型

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时，跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自由的跨模态关联，突破了有限视觉特征分类的限制；联合运用掩码学习和图文特征匹配两个损失函数，挑选高难度负样本训练跨模态跳接网络提取一致性全局语义，提高了子空间邻域内高相似度图文特征点匹配的准确度。（剩余17488字）

试读结束

购买全文6.00元下一篇基于特征与数据增强的城市街景实例分割算法

哈尔滨理工大学学报

2024年02期

¥9.00/本