基于空间关系聚合与全局特征注入的视觉问答模型

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：现有视觉问答模型缺乏视觉对象间关系的理解能力，导致复杂问题的答案预测准确率较差；针对该问题，提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征，将其转换为视觉全局特征，并将这些特征注入网络；然后引入双边门控机制进行特征融合，使模型能够根据不同的问题输入，自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度；最后将融合特征输入分类网络，得到预测结果。（剩余16103字）

试读结束

购买全文6.00元下一篇坐标变换下平面解析系统单值轨道的不变性

浙江理工大学学报

2023年12期

¥12.00/本