基于ＣＬＩＰ的多模态视频文本检索系统

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：计算机视觉（Computer Vision，CV）与自然语言处理（Natural Language Processing，NLP）技术已逐渐趋于成熟，结合视觉和语言的多模态领域技术将成为学界和业界的研究热点。文章使用CLIP 预训练模型，结合图像与语言两种模态信息，进一步将图像拓展至视频，利用 Fmpeg 处理视频，并对视频与文本信息进行嵌入（embedding）和余弦相似度匹配，从而实现利用纯文本检索视频中符合该文本语义的片段。（剩余3260字）

试读结束

购买全文4.00元下一篇基于ＰｏｓｔＧＩＳ获取人员地理活动信息的设计与实现

计算机应用文摘

2023年15期

¥9.00/本

基于ＣＬＩＰ 的多模态视频文本检索系统

基于ＣＬＩＰ的多模态视频文本检索系统