图像情景文本融合的多模态模型性能策略研究

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题，文章提出了一种基于图像情景文本融合的多模态特征提取方法，并构建了图像情景文本融合的视觉语言多模态网络模型，简称OCR-ViLT，通过引入预训练加微调的迁移学习方案，降低模型训练成本。并经过大量实验探究模型的输入策略，文章建议，在跨模态检索任务中，采取图文比例2：3能够获得最优的召回率。（剩余6656字）

试读结束

购买全文5.00元下一篇基于改进FCM算法的乳腺肿瘤图像分割研究

现代信息科技

2023年09期

¥18.00/本

关于龙源 关于我们联系我们龙源大事记诚聘英才用户守则 购刊指南 电子刊购买流程会员介绍常见问题 客服中心 联系客服开具发票 商务合作 商务合作 网络信息举报
违法和不良信息举报电话：400-106-1235

举报邮箱：longyuandom@163.com
网上有害信息举报专区 支付方式 支付宝在线支付公司转账邮局汇款 特色服务 刊社入口友情链接

关注微信公众号
获取更多资讯
北京龙源网通电子商务有限公司
（署）网出证（京）字第188号丨京公网安备 11011302003690号丨京ICP备18053758号-2