注册帐号丨忘记密码?
1.点击网站首页右上角的“充值”按钮可以为您的帐号充值
2.可选择不同档位的充值金额,充值后按篇按本计费
3.充值成功后即可购买网站上的任意文章或杂志的电子版
4.购买后文章、杂志可在个人中心的订阅/零买找到
5.登陆后可阅读免费专区的精彩内容
打开文本图片集
摘 要:针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题,文章提出了一种基于图像情景文本融合的多模态特征提取方法,并构建了图像情景文本融合的视觉语言多模态网络模型,简称OCR-ViLT,通过引入预训练加微调的迁移学习方案,降低模型训练成本。并经过大量实验探究模型的输入策略,文章建议,在跨模态检索任务中,采取图文比例2:3能够获得最优的召回率。(剩余6656字)
登录龙源期刊网
购买文章
图像情景文本融合的多模态模型性能策略研究
文章价格:5.00元
当前余额:100.00
阅读
您目前是文章会员,阅读数共:0篇
剩余阅读数:0篇
阅读有效期:0001-1-1 0:00:00