• 打印
  • 收藏
收藏成功
分享

基于多模态数据融合的短视频分类研究


打开文本图片集

摘要:文章通过对短视频领域真实场景多模态的数据进行分析研究,对短视频中的标题、音频转文本识别结果以及视频OCR识别结果采用多种不同的拼接方式并展开消融实验。同时,对基线模型进行改进,将文本特征和视频特征分别在权重共享的Embedding和非权重共享的Embedding上将合并的文本模态特征和视频模态特征一起传入BERT网络实现Early-Fusion。(剩余5189字)

网站仅支持在线阅读(不支持PDF下载),如需保存文章,可以选择【打印】保存。

畅销排行榜
目录
monitor