基于自注意力机制的航空林火图像识别方法

打开文本图片集
摘要:【目的】针对航空林火图像火点目标小、环境复杂等特点,提出一种基于自注意力机制的图像识别方法FireViT,以提高航空林火图像识别的准确率和鲁棒性。【方法】以张家口市崇礼区无人机采集的林火视频为数据源,通过数据预处理构建数据集。然后,选用10层Vision Transformer(ViT)为主干网络,采用交叠滑动窗格方式序列化图像,嵌入位置信息后作为第1层ViT的输入,将前9层ViT提取的区域选择模块通过多头自注意力和多层感知器机制批量嵌入第10层ViT,有效放大子图间的微差异以获取小目标特征。(剩余17553字)