基于多模态深度神经网络的Web网页攻击重定向混淆检测

  • 打印
  • 收藏
收藏成功


打开文本图片集

中图分类号:TP364 文献标志码:A 文章编号:1671-5489(2025)06-1731-06

Web Page Attack Redirection Confusion Detection Based on Multimodal Deep Neural Network

YAN Peiling,LIU Junjuan,GAO Zhiyu (School of Information Technology,Henan University of Chinese Medicine, Zhengzhou 45O046,China)

Abstract: Aiming at the problem that malicious Web page links and plugins could be attached to other files through constant confusion and deformation, traditional detection methods were difficult to achieve accurate detection,we proposed a Web page attack redirection confusion detection method based on multimodal deep neural networks. Firstly,we extracted the features of Web page attacks: attribute class,keyword class,var class,and word class,and converted them into 8-dimensional sensitive feature vectors to calculate their corresponding real values. Secondly,the Web page and real values were input together into a multimodal deep neural network for training. Finally,accurate attack redirection confusion detection results were obtained through the output of the Web page classifier. The experimental results show that the detection rate of the proposed method is about 98% ,which can effectively detect redirection confusion in Web page attacks while ensuring a high detection rate.

Keywords: multimodal deep neural network; Web page attack redirection confusion detection;

TF-IDF algorithm;nonlinear excitation unit;loss function

随着网络技术的飞速发展,Web应用已成为现代生活不可或缺的一部分,但同时也成为网络攻击的主要目标.重定向混淆攻击作为一种隐蔽性强、危害性大的攻击手段,通过篡改网页链接、嵌入恶意脚本等方式,诱骗用户访问恶意网站或下载恶意软件,严重威胁用户的数据安全、隐私保护及财产安全.因此,进行Web 网页攻击重定向混淆检测研究十分必要.其目的是开发高效、准确的检测方法和技术,以实现对重定向混淆攻击的实时监测和识别,从而及时阻断攻击行为,保护用户免受侵害.

目前该项研究已取得许多成果.例如,周桥等[1]以特征融合为基础,构建了用于检测恶意 Web请求的卷积门控循环单元神经网络,分别对网络事件的高阶特征和局部特征、网络事件的时间维度特征进行采集,并利用Word2Vec模型增强特征的原始特征.将所有特征输人到卷积门控循环单元神经网络中,经过一系列的训练后输出得到恶意Web请求.但该算法实现较复杂,在一些特定环境下可能无法应用.马琪灿等[2]利用状态偏离分析算法实现对Web网页中的漏洞检测,将状态偏离分析算法与白盒测试技术相结合,得到Web网页预期访问策略,并利用动态分析技术得到Web 网页实际访问策略,根据状态偏离程度即可分析Web网页中是否存在漏洞.该算法对常见的黑客攻击可满足检测需求,但对于变异和混淆的网页链接无法实现精准检测.Nandhini等[3]利用增强型等级攻击检测算法对Web 网页中的信息请求和信息对象分别进行控制,并利用速率限制技术对攻击者产生的危害程度进行判定和等级划分,以采取不同的防御机制.该算法通常情况下处于默认防御机制,所以很容易遗漏部分攻击者,对Web网页的安全造成一定威胁.Narasimhan 等[4]设计了一种主动检测方法,通过选取合适的控制参数后,增加算法整体的攻击检测能力.该方法还给出了切换条件,达到了攻击检测能力与闭环性能之间的平衡,但却未考虑攻击可能会发生变形和混淆,使算法的检测效果不理想.

在上述算法的基础上,本文提出一种基于多模态深度神经网络的Web网页攻击重定向混淆检测方法.该方法将多模态特征向量与Web网页内容同时输人到多模态深度神经网络中进行训练,充分利用了神经网络的自动特征提取和分类能力.实验结果表明,该方法的检测率约为 98% ,说明模型能自适应地学习和适应攻击模式的变化,从而提高检测的准确性和时效性.

1 Web网页重定向混淆攻击特征提取

Web 网页本质上是一种文本,对Web网页攻击检测的过程就是判断其为正常还是异常的文本分类问题.因此,可从文本分类的角度[5]出发,对重定向混淆攻击特征进行提取,构成特征向量集,以便后续进行更精准且高效的重定向混淆检测.

本文利用 TF-IDF(term frequency_inverse document frequency)算法实现 Web 网页攻击特征提取.TF-IDF算法的权重计算公式为

其中 tfij 表示文档 di 中特征项 ti 出现的次数, idfj 表示含有 Φti 的 di 的倒数, N 表示文档总数,nj 表示含有 ti 的 di 总数.

Web 网页由不同形式的超文本标记语言(hyper text markup language,HTML)标记的有机组合构成.因此,可将网页特征因子代人TF-IDF算法中,得到基于网页特征6的TF-IDF算法,表达式为

其中 TFj 和 TFmax 分别表示出现 ti 的次数和最大次数, TWj 和 TWmax 分别表示作用于 ti 的网页标记格式权重和最大权重, D 表示网页总数量, DFj 表示含有 ti 的 web 网页数量

对于 Web 网页重定向混淆攻击特征,本文将其分为4类,分别为attribute类、keyword类、var类[7-8]和word类.attribute类具有混淆字符特征.假设 ℑ 为一段混淆的字符串,利用函数 z 对其进行处理,使字符串中所有的“Z"字符变为“ %′′ ,并在前边加一个空格.最后由eval函数对剩余字符串解码,从而可得 attribute类Web 网页攻击特征.keyword 类的攻击特征以“class”,“case”,“catch”和“break"等一些函数名为主.var类和 word类的攻击特征以Pattern文件[9]为主,具有灵活性和可变性等特征.该类攻击特征的更新方式非常简单,只需更改文件名即可.得到不同类型的Web网页攻击特征后,利用式(2)计算出对应的 TF-IDF值,用于后续多模态深度神经网络进行训练.

2方法设计

2.1多模态深度神经网络

多模态深度神经网络(multimodal deep neural network,MM-DNN)是一种利用深度学习技术,整合并处理来自不同模态信息的神经网络模型.它旨在通过融合多种模态的特征,实现更全面、准确的信息理解和分析,从而在各种任务中表现出色,尤其是在处理复杂、多源数据时具有显著优势.多模态深度神经网络能学习不同模态之间的关联和互补性,从而提高模型在复杂和多变环境下的适应性和泛化能力.在Web网页攻击重定向混淆检测中,这种适应性使模型能应对不断变化的攻击方法和模式.因此,本文选用多模态深度神经网络进行攻击重定向混淆检测.

Web 网页攻击重定向混淆检测本质上是对Web网页中有敏感特征的异常信息进行检测,从而判断Web网页的异常程度.给出一个维数为8的敏感特征向量 V 和位于区间[0,1]内的实数值 e♭ ,利用多模态深度神经网络提取出有敏感特征的Web网页正常状态模型,作为Web 网页攻击重定向混淆检测模型.多模态深度神经网络的训练离不开损失函数,通过随机梯度下降法求解后,即可确定网络参数值[10-11],计算公式为

Q=q-μ∇qJ(q;x(i),y(i)),

其中 μ 表示网络学习速率, J 表示损失函数, x(i) 和 y(i) 表示用于训练的Web 网页攻击特征样本, ablaq 表示待优化的网络参数[12], q 表示网络参数向量.

设多模态深度神经网络的输入层节点个数与敏感特征向量 u 维数相同,输出层的节点数量为1,输出内容为 e⋅P ,说明Web 网页的异常程度[13-14],则其他层次的节点个数计算公式为

其中 Ni 和 分别表示输入层和输出层的节点数量.

为提高多模态深度神经网络的训练效率,将 算法代人多模态深度神经网络中作为学习算法使用.将提取得到的 web 网页攻击特征生成维数为8的敏感特征向量 V=(v1,v2,v3,v4,v5,v6,v7,v8) 代人多模态深度神经网络 S 中,得到的输出为

e♭=S(v1,v2,v3,v4,v5,v6,v7,v8).

实数值 e⋅P 的本质是一个模糊数[15-16],代表了 web 网页的异常程度,从侧面反映了Web网页是否被攻击,也可作为Web网页攻击重定向混淆检测的依据. e⋅P 的值越接近1,表明待检测Web网页的异常程度越高,被攻击的可能性越大; e♭ 的值越接近0,表明Web网页的异常程度越低,可能没有被攻击.

2.2 Web页面检测分类器

为进一步提高 Web 网页攻击重定向混淆检测的精度,利用Web页面分类器[17-18]对上述得到的结果进行分析和判断.将 e♭ 和 web 网页 ϕP 作为输人内容输入到多模态深度神经网络中,总的输出内容为 c♭ .当 cϕ=0 时,说明Web网页 p 为正常页面,未受攻击;当 cϕ=1 时,说明 Web 网页 p 为异常页面,受到攻击.因此,Web页面分类器可给出精准的Web网页攻击重定向混淆检测结果.

将得到的敏感特征向量 V 与 e⋅P 相结合,构成分类特征向量 H ,传入前向线性模型 [19]L 中,得

其中: n 表示从Web网页 p 中提取得到的攻击特征数量,本文取值为4,对应上文的4类 Web 网页

攻击; L(x) 表示前向线性特征; hi 表示当前 Web 网页中的攻击特征数量; x 表示前向线性模型系数;(204号 ri 表示分量权值[20],计算公式为

effi 表示分量评价指标, RTi 和 RFi 分别表示算法检测的正确率和误判率.

经过上述计算后,即可分析得到 c♭ 值,通过判断其值为0还是1,完成对Web网页攻击重定向的混淆检测.

3 实验测试

3.1 实验数据集

为验证本文方法在实际应用中是否可实现对Web网页攻击的重定向混淆检测,将其与卷积门控循环单元神经网络和状态偏离分析算法进行对比实验测试.

实验数据为TIP(威胁情报平台)和NGSOC(态势感知与安全运营平台)中的HTML文件,利用Web威胁扫描程序对其进行扫描.实验中还引用了标记策略,即Web威胁扫描程序判定为。(剩余8564字)

monitor
客服机器人