基于多模态数据融合的短视频分类研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:文章通过对短视频领域真实场景多模态的数据进行分析研究,对短视频中的标题、音频转文本识别结果以及视频OCR识别结果采用多种不同的拼接方式并展开消融实验。同时,对基线模型进行改进,将文本特征和视频特征分别在权重共享的Embedding和非权重共享的Embedding上将合并的文本模态特征和视频模态特征一起传入BERT网络实现Early-Fusion。(剩余5189字)

目录
monitor