• 打印
  • 收藏
收藏成功
分享

基于CLIP 的多模态视频文本检索系统


打开文本图片集

摘 要:计算机视觉(Computer Vision,CV)与自然语言处理(Natural Language Processing,NLP)技术已逐渐趋于成熟,结合视觉和语言的多模态领域技术将成为学界和业界的研究热点。文章使用CLIP 预训练模型,结合图像与语言两种模态信息,进一步将图像拓展至视频,利用 Fmpeg 处理视频,并对视频与文本信息进行嵌入(embedding)和余弦相似度匹配,从而实现利用纯文本检索视频中符合该文本语义的片段。(剩余3260字)

网站仅支持在线阅读(不支持PDF下载),如需保存文章,可以选择【打印】保存。

畅销排行榜
目录
monitor