基于ResNet-50视觉特征与Wav2Vec2语音特征多尺度融合抑郁症回归算法

打开文本图片集
摘 要:很多抑郁症检测算法都是基于单模态特征来预测抑郁症,或使用了多模态方法,但特征融合方法有待优化。因此,提出一种新的多模态特征融合方法,从视觉模态和语音模态预测贝克抑郁量表(BDI-Ⅱ)得分,双模态融合后的网络平均绝对误差(MAE)和均方根误差(RMSE)分别为5.83和6.92。在特征融合方面,引入多尺度通道注意力机制模块与特征简单拼接(SimpleConcatenation)和加权融合(WeightedFusion)对比,MAE和RMSE分别降低了0.49和0.46,0.43和0.20。(剩余84字)