基于CLIP的视频时刻检索预训练模型

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：视频时刻检索作为下游任务，依赖预训练模型提取特征的能力。近年的研究表明，以CLIP为代表的图像-语言预训练模型在大规模数据集下能学习到有效且通用的语义知识，从而在图像分类等任务上表现出强大的迁移能力和零样本能力。然而其迁移到视频时刻检索任务仍效果不佳。为解决上述难题，提出了视频时刻检索网络VMRNet，该网络以CLIP预训练模型为骨干，并设计了用于增强CLIP模型时序建模能力和跨模态交互能力的视频时序增强模块VTEMo。（剩余20417字）

试读结束

购买全文6.00元下一篇基于多尺度视觉信息和非局部目标挖掘的肿瘤分割

计算机应用研究

2024年12期

¥12.00/本