基于多模态大语言模型的变电站复杂场景异常检测研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:为了提升变电站复杂场景的图像理解和异常检测结果的准确性,本文提出了基于多模态大语言模型的变电站复杂场景理解与异常检测方法。该方法的输入包含变电站图像和提示文本2种模态的信息,首先,分别使用视觉模型和文本模型提取变电站图像特征和提示文本的特征;然后,将图像特征和文本特征进行融合,并将融合后的特征作为大语言模型的输入;最后,对大语言模型生成的结果进行后处理,进而得到场景理解结果和异常检测结果。(剩余6826字)

试读结束

目录
monitor