创新点说明:恶意跨站脚本导致的用户信息泄露是非常严重的。本文使用URL属性分析和YARA规则来处理跨站点脚本编写的数据。
研究目的:
利用机器学习及深度学习等方法,采集恶意攻击脚本数据并分析跨站脚本语句,实现恶意跨站脚本分类,做到预防 XSS 攻击,对于网络攻击防御有一定的现实意义。
研究方法:
1、从自然语言处理的角度对 XSS 脚本进行分析、建模,用深度学习方法研究 XSS 识别规则和分类模式,并验证分类效果
2、提出基于 URL 属性的分析和基于 YARA 规则的分析方法,根据收集到的数据的文本特征,使用定义的数据预处理流程对恶意跨站脚本数据进行预处理。通过恶意脚本代码注入检测的策略和绕过检测的策略,分析得出其文本特征。
研究结果:
1、LSTM模型在100轮左右的实验中,准确率达到98%,召回率达到96%。在相同条件下,它比MLP模型和CNN模型的速度快约2倍。
2、机器学习的决策树方法在模型训练上比神经网络模型训练花费的时间少。但神经网络模型的准确率普遍高于机器学习决策树算法。
3、机器学习的决策树方法在模型训练上比神经网络模型训练花费的时间少。但决策树方法不能反映损失值。
4、本文的LSTM方法准确率较低,但loss值较低,recall rate和F1得分最高。此外,召回率和F1评分可以反映模型识别恶意脚本的能力,可以证明本文采用的方法具有良好的效果。
5决策树的机器学习方法相结合的研究,表明决策树处理大样本的能力较弱,和树结构形成时,数据量太大不适合数据集的计算。因此,深度学习可以训练大数据样本,获得更准确的结果。
结论:
本文通过属性分析和YARA规则分类来分析跨站点脚本。本文从自然语言处理的角度分析跨站点脚本。此外,将单词编码集的计算添加到LSTM神经网络模型中,对实验数据进行分类,取得了良好效果,有利于一定程度上提高网络数据通信安全。
文中编写的YARA规则并不全面。针对收集到的数据,有必要在后续的研究中对恶意脚本语句的攻击形式进行总结和细化,不断优化语句处理逻辑,进而提高脚本检测能力。
关键词:跨站点脚本;网络通信;网络安全;自然语言处理