Markov改进演化博弈评估ICPS的动态风险
doi: 10.11918/202405063
孙奕1 , 孙子文1,2
1. 江南大学物联网工程学院,江苏 无锡 214122
2. 物联网技术应用教育部工程研究中心,江苏 无锡 214122
基金项目: 国家自然科学基金(61373126) ; 中央高校基本科研业务费用专项资金(JUSRP51310A) ; 江苏省自然科学基金(BK20131107)
Assessment of dynamic risks in ICPS using Markov-improved evolutionary game theory
SUN Yi1 , SUN Ziwen1,2
1. School of Internet of Things Engineering, Jiangnan University, Wuxi 214122 , Jiangsu, China
2. Engineering Research Center of Internet of Things Technology Applications Ministry of Education, Wuxi 214122 , Jiangsu, China
摘要
为评估网络攻击下工业信息物理系统(ICPS)的动态风险,研究Markov改进演化博弈模型。根据ICPS中各个漏洞节点,设计从信息域到物理域的系统攻防状态转移图,为Markov改进演化博弈分析提供依据。首先,在单阶段攻防过程中,研究加入参数机制的攻防演化博弈模型,求解拥有不同理性程度和探索程度的攻防主体博弈后的收益。其次,在多阶段攻防中,根据单阶段攻防博弈模型,引入转移概率和折现因子,根据攻防状态转移图求解不同漏洞节点的攻击收益,实现对多阶段攻防对抗的动态推演。最后,利用攻击收益大小对ICPS的动态风险进行评估。本研究分别进行了数值实验分析以及工业信息物理系统模型仿真,使用沸水发电厂作为仿真对象,通过Matlab对Markov改进演化博弈评估方法进行仿真,根据攻击收益评估ICPS的动态风险。结果表明,研究模型重视攻防双方的差异性,能依据攻防双方理性程度及探索程度的不同,合理求出ICPS中攻击者的收益,为ICPS遭受网络攻击下的动态风险评估提供理论基础,对提高工业信息物理系统的安全性提供重要参考依据。
Abstract
To evaluate the dynamic risks of industrial cyber-physical saystems (ICPS) under cyber attacks, this study investigates a Markov-improved evolutionary game model. Based on the vulnerability nodes within the ICPS, a system attack-defense state transition diagram from the information domain to the physical domain is designed, providing a foundation for the Markov-improved evolutionary game analysis. First, in the single-stage attack-defense process, an evolutionary game model incorporating a parameter mechanism is studied to determine the payoffs of attack and defense entities with varying degrees of rationality and exploration after the game. Second, in the multi-stage attack-defense process, based on the single-stage attack-defense game model, transition probabilities and discount factors are introduced. The attack payoffs of different vulnerability nodes are calculated according to the attack-defense state transition diagram, enabling dynamic deduction of multi-stage attack-defense confrontations. Finally, the dynamic risks of ICPS are assessed based on the magnitude of attack payoffs. This study conducts numerical experiments and simulations of an industrial cyber-physical system model, using a boiling water power plant as the simulation object. The Markov-improved evolutionary game evaluation method is simulated using Matlab, and the dynamic risks of ICPS are evaluated based on the attack payoffs. The results demonstrate that the proposed model emphasizes the differences between the attack and defense sides, reasonably calculates the attacker’s payoffs in ICPS based on the varying levels of rationality and exploration of both parties. This provides a theoretical foundation for the dynamic risk assessment of ICPS under cyber attacks and offers significant reference value for enhancing the security of industrial cyber-physical systems.
信息物理系统(cyber-physical systems,CPS)将网络与物理紧密连接,具有通信、计算、远程协同控制等功能。近年来,随着计算机、通信、工业自动化控制等技术的进一步深度融合,CPS被广泛运用于工业环境,工业信息物理系统(industrial cyber-physical systems,ICPS)应运而生。ICPS监督、控制和管理现实世界的物理基础设施,是构建现实世界网络化工业基础设施的核心[1]。然而,由于ICPS信息系统和嵌入式设备无线网络的结合,以及复杂多变的工业环境影响下,ICPS容易受到网络攻击,进而造成巨大的损失[2]。合理评估网络攻击给ICPS造成的风险[3],可以帮助了解ICPS的安全状况,缓解网络攻击对ICPS造成的危害。
风险评估方法一般分为静态风险评估和动态风险评估。常见的静态风险评估利用攻击图和攻击树等方法对系统风险程度进行评估,文献[4]根据原子攻击概率结合贝叶斯攻击图建立静态风险评估;文献[5]采用基于对列车控制系统功能架构的攻击树建模对漏洞进行评估。静态风险评估方法大多缺乏灵活性和适应性[4-5],无法应对不同的风险场景和变化。相比之下,动态风险评估往往更灵活,可以根据实时数据和变化情况及时调整并更新应对策略。常见的动态风险评估利用Petri网和博弈论等方法对系统风险进行量化评估,文献[6]利用随机博弈Petri网对配电网进行风险评估;文献[7]使用基于动态攻击和防御的信息网络脆弱性威胁评估模型,实现对信息网络漏洞威胁的定量评估;文献[8]使用隐马尔可夫模型来评估网络安全风险;文献[9-10]分别利用Stackelberg博弈和演化博弈理论,研究拥有3个参与者的博弈,同时考虑了防御收益和服务效果,对策略进行了评估。但文献[6]对跨域攻击分析不够充分,对物理损失的定义过于简单;文献[7-9]对于攻防收益量化仅仅考虑ICPS遭受网络攻击后的信息损失,没有结合物理损失;文献[10]的研究仅建立在单阶段中的研究,而ICPS的攻防过程本质上是多阶段、多状态攻防对抗动态过程,研究ICPS动态风险不应就某一特定漏洞节点展开分析,而是要考虑到不同漏洞节点的关联性。
为解决跨域攻击和多阶段攻防博弈研究中的不足,本文改进复制动态方程[11-13],采用Markov改进演化博弈计算漏洞节点攻击收益,最终评估ICPS动态风险。
1 ICPS动态风险评估框架
1.1 模型框架
ICPS的结构通常分为:应用层、传输层和物理层。物理层和应用层之间通过传输层中各种网络协议和网关组件来传输数据信号,传输层包括传输网络和网络节点,主要负责应用层与物理层之间的数据交换和处理。
图1所示沸水发电(boiling water power plant,BWPP)信息物理系统结构图,应用层包含应用服务器、数据库服务器、控制服务器等,物理层包含压力传感器Se2、液位传感器Se1、电流传感器Se3、水位控制PLC1、进料控制PLC2、蒸汽排放控制PLC3、进水阀V1、进料阀V2以及排气阀V3。
1ICPS动态风险评估框架
Fig.1ICPS dynamic risk assessment framework
为评估ICPS的动态风险,本文建立攻防博弈模型,该模型包含3个模块:1)攻防状态转移图模块。用以描述攻击者从信息域到物理域对漏洞节点进行跨域攻击行为的路径及跳转概率;2)单阶段演化博弈模块。设计了攻防双方基于不同理性与探索程度的改进演化博弈;3)Markov计算攻击收益模块。在求出单阶段攻防双方收益的基础上,结合Markov决策,得到系统各个漏洞节点的攻击收益,最后通过攻击收益评估ICPS动态风险。
1.2 演化博弈
在ICPS演化博弈过程中,攻防双方能在一定时间内通过使用不同的策略到达演化平衡的状态,但是这种平衡状态往往会因为攻防双方博弈目标、策略偏好等的改变而被破坏。在ICPS中,攻击和防御行为通常是针对系统整体和不同类型节点的多阶段攻防,攻击者对于防御者信息的掌握通常相对有限,需要根据攻防收益对各个策略的选择概率做出调整,直到概率选择趋于稳定。
攻击者在漏洞节点之间的攻击选择过程可以分为单阶段和多阶段演化博弈两种情况。在单阶段演化博弈中,攻击者攻击一个漏洞节点并达到稳定状态。然而,攻击者通常不会满足于当前状态,而是会选择攻击周边的漏洞节点。这样,漏洞节点之间形成了联系,攻击者会进行多阶段演化博弈。在每个漏洞节点上,攻击者和防守者通过演化博弈过程寻找稳定状态。一旦稳定状态被打破,攻击者会以不同的概率跳转到下一个状态,继续演化博弈,这种过程会持续进行,从而形成多阶段的演化博弈[14]。此时系统处于不断“演化—跳变—演化”的动态过程见图2
2多阶段演化博弈过程
Fig.2Multi-stage evolutionary game process
2 博弈设计
2.1 博弈模型
定义1   单阶段工业信息物理系统攻防演化博弈模型可以用一个四元组(Q,M,P,U)表示,其中:Q=(QA,QD)为参与者的集合(QA为攻击者集合,QD为防御者集合);M=(MAMD)为博弈过程中的策略集(MA为含有I个策略的攻击策略集,MD为含有J个策略的防御策略集); P=(PAiPDj)为博弈过程中攻防两方的策略概率集(PAi为攻击者选择第i个攻击策略的概率,PDj为防御者选择第j个防御策略的概率,i=1I PAi=1j=1J PDj=1PAi∈[0,1],PDj∈[0,1]);U=(UAUD)为博弈过程中的收益集(UA为攻击者的收益集,UD为防御者的收益集)。
2.2 信息域到物理域漏洞节点的攻防收益量化
用公共漏洞评分体系2.0定义可利用性α
α=2×AV×AC×Au
(1)
式中:AV、AC、Au分别为访问向量、访问复杂度和认证,量化方法见表1
1可利用性决定因素量化表
Tab.1 Quantitative table of determinants of availability
参考文献[7-9],结合漏洞的特点和ICPS的框架构建不同漏洞攻击下攻防收益矩阵,见表2。表中:Aprofit为攻击者在漏洞成功攻击后的获益,Acost为攻击者利用漏洞攻击所付出的成本,Dprofit为防御者在成功修复漏洞后的获益,Dcost为防御者成功修复漏洞后付出的成本,-Acost为在攻击者选择攻击且防御者选择防御下的攻击收益,Aprofit-Acost+(1-α)×ELoss为攻击者攻击且防御者防御时的防御收益,1.25(Dprofit-Dcost)+α×ELoss为攻击者攻击且防御者不防御时的攻击收益,-Aprofit-α×ELoss为攻击者攻击且防御者不防御时的防御收益,Dcost为攻击者不攻击且防御者防御时的攻击收益,-Dcost为攻击者不攻击且防御者防御时的防御收益,当不攻击不防御时,攻防双方收益均为0。
2漏洞节点攻防收益
Tab.2 Vulnerable node attack and defense benefits
通过对效益损失的计算,量化遭受攻击下的系统物理损失,得到系统效益函数[15]Et)。t时刻的系统效益函数Et)为t时刻的产品产量xt)和产品质量yt)的函数为
E(t)=f(x(t),y(t))
(2)
某一物理组件被攻击成功后性能下降导致的物理效益损失ELoss
ELoss =E(0)×tend -t0-t0tend E(t)d(t)
(3)
式中:E(0)为ICPS正常工作时的系统效益,t0tend分别为效益开始下降、效益完全恢复的时间节点。
效益函数曲线见图3
3效益函数曲线
Fig.3Benefit function curve
2.3 加入参数机制的演化博弈计算推导
演化博弈能体现出攻防双方在长期对抗过程中的最优决策,即当到某一阶段时任意一方改变策略选择概率,攻防两方都不能获取更多收益时,就到达演化稳定阶段,此时攻防两方的收益视为最优收益,攻防两方的策略选择概率看作最优策略选择概率。
图4中3条曲线Y1Y2Y3分别为攻防博弈双方策略选择概率在不同初始状态下的演化轨迹,截取博弈过程中不同时间节点t0t1tn上攻防二者的轨迹状态可以看出,即便双方最初策略选择概率不一致,也能在足够的演化时间内到达稳定的状态,此时PAi*PDj*为最优策略选择概率。
4攻防演化博弈原理
Fig.4Principle of offensive and defensive evolutionary game theory
由于攻防复制动态方程推导类似,本文仅从防御者的角度研究演化博弈。
2.3.1 一般演化博弈
一般演化博弈为:
j=1J PDj=1
(4)
UDj=i=1T PAibij
(5)
UD¯=j=1 PDjUDj
(6)
dPDjdt=PDjUDj-UD¯
(7)
式中:bijaij分别为防御者和攻击者在选择攻击策略i和防御者策略j时对应的防御和攻击收益,UDj为防御策略j的期望防御收益,UD¯为平均防御收益,dPDjdt为防御者策略j的选择概率随时间变化率,引入Boltzmann概率分布[16],加入探索因子τ可得
PDj(k)=expτUDj(k)l=1J expτUDl(k)
(8)
式中:PDjk)为防御者在某一博弈阶段的第k次攻防博弈中选择策略j的概率,UDjk)为防御方在某一阶段的第k次攻防对抗中选择防御策略j所获得的期望收益,由式(7)、(8)可推导出[17]
dPDjdt=PDjτUDj-UD¯+PDjl=1J PDllnPDlPDj
(9)
设置步长参数=1τ,可得
dPDjdt=PDjUDj-U0¯一般复制动态方程 +1τPDjl=1J PDllnPDlPDj突变方程
(10)
式中:第1项为一般复制动态方程,表示仅在当前信息条件下所能选择的最优策略;第2项为突变方程,体现攻防双方在未知信息中尝试各种新策略,不断尝试进行调整的探索过程,凸显出现实条件下攻防的不确定性和多样性[17]
2.3.2 加入参数机制的演化博弈
虽然一般复制动态方程下的演化博弈基于有限理性的假设出发,但是没有考虑到现实世界中攻防双方理性程度存在差异性这一问题[13-18]。本文采用加入参数机制的复制动态方程来解决这一问题(见式(14)),合理设置了攻防双方本身理性程度参数λA(0≤λA),λD(0≤λD)来定义防御者认知能力,以此主导博弈结果。
加入参数机制的复制动态方程考虑了博弈中的攻防双方拥有着一定的理性程度的情况,但攻防双方个体之间还存在着学习能力上的区别,因此不同攻防双方达到纳什均衡的过程和结果有着差异。加入参数机制的复制动态方程没有抹杀掉攻防双方间的认知差异和选择偏好,于是引入条件转移概率CljClj为策略l到策略j的条件转移概率,描述着策略选择的更新规则[16]
dPDjdt=l=1J PDlclj-y=1J PDjcjy
(11)
ICPS系统的攻防博弈涉及到攻击者和防御者之间复杂的互动。而Boltzmann概率考虑了双方在不同环境和条件下的行为适应性和动态变化[16],能够准确描述防御者在不同情境下选择策略的概率变化,非常符合ICPS博弈的特性,于是再次引入Boltzmann概率分布,可得
Clj=expλDUDjl=1J expλDUDl
(12)
式中:λD越大,防御者越理性;λD越小,防御者越不理智。将式(12)代入式(11),结合式(4)可得
(13)
将式(10)中的一般复制动态方程加入含攻防双方理性程度的参数λD,结合式(13)可得
dPDjdt=expλDi=1I PAibijl=1J expλDi=1I PAibil-PDj+1τPDjl=1J PDllnPDlPDj
(14)
同理可得
dPAidt=expλAj=1J PDjaijl=1I expλAj=1J PDjalj-PAi+1τPAil=1I PAllnPAlPAi
(15)
2.4 演化博弈稳定均衡求解
当单阶段演化达到稳定均衡状态时,攻防群体选择不同策略随时间的变化率应为0,即dPAidt=0且dPDjdt=0。在单阶段演化博弈中,(SA*SD*)为该阶段的演化博弈均衡策略,此时攻防双方对应的攻防博弈收益最高,即
UDSA*,SD*UDSA,SD*UASA*,SD*UASA*,SD
(16)
单阶段演化博弈均衡解求解公式为
PDj[0,1],PAi[0,1]j=1J PDj=1,i=1I PAi=10=expλDi=1l PAibijl=1J expλDi=1I PAibil-PDj+1τPDjl=1J PDllnPDlPDj0=expλAj=1J PDjaijl=1I expλAj=1J PDjalj-PAi+1τPAil=1I PAllnPAlPAi
(17)
在Markov改进演化博弈中,多阶段博弈由每个阶段中各自独立的单阶段演化博弈组成,是属于有限博弈,因此一定存在混合策略下的纳什均衡[13]
采用动态规划法,求解多阶段演化博弈均衡解如下:
(18)
式中:RAST0ST1RDST0ST1分别为T阶段下博弈后攻击者和防御者的目标函数,其中TZ作为角标时表明对应符号处于TZ阶段,Z为最终阶段;Se0为在漏洞节点e上单阶段演化博弈开始前的初始状态,Sh1为在漏洞节点h上单阶段演化博弈稳定后的状态,ηSh1Sh0为状态Sh1到状态Sh0的转移概率。
设计目标函数R,用于判断攻防双方策略的优劣[18]。如图2所示的多阶段下演化博弈过程所示,引入漏洞节点h上的贴现因子ξh(0≤ξh≤1)计算未来折扣收益值,将未来收益折算成基于初始阶段的折扣收益。攻防双方的目标是使各自的目标函数达到最大值,在此基础上,采用动态规划法[13]求解多阶段演化博弈均衡解,多阶段博弈均衡求解见式(18)。
由Markov决策准则,一定存在(SDT*SAT*)可得[13]
SD,T*argmaxRDST0,ST1SA,T*argmaxRAST0,ST1
(19)
式中,SAT*SDT*分别为对应攻击者和防御者在T阶段中的最优防御策略。
本文的Markov改进演化博弈研究方法对比分析见表3
3对比分析
Tab.3 Comparative analysis
3 仿真与分析
3.1 数值实验分析加入参数机制的博弈模型
定义攻防收益矩阵为,由式(17)可得
expλAPDla11+1-PAla12expλAPDl1a11+1-PD1a12+expλAPD1a21+1-PDla22-PAl+1τPAl1-PAlln1-PAlPAl=0expλDPAlb11+1-PAlb21expλDPAlb11+1-PAlb21+expλDPAlb12+1-PA1b22-PD1+1τPD11-PDlln1-PD1PD1=0
(20)
设攻击者和防御者分别有两个策略,其对应的攻防收益矩阵为,设置初始攻防双方对于自身两个策略的初始选择概率都为0.5。
图5所示为分析加入参数机制的博弈模型中初始状态对策略选择的影响,模拟不同初始攻防策略选择下双方对策略的选择概率演化过程,此时令λA=λD=1,τ=100,改变PA1PD1的初始值。由图5可以看出,无论初始攻防策略如何选择,防御者与攻击者的稳定策略都是相同的。
5不同初始概率下策略选择概率演化图
Fig.5Evolution diagram of strategy selection probabilities under different initial probabilities
为进一步分析探索因子对策略选择概率的影响,令λA=λD=1,改变τ的值使其从0.010 0~1 000,不同τ下演化博弈稳定状态时策略选择概率随着τ的改变而改变的轨迹(见图6)。从图6中可以看出,在τ=0.010 0时,攻击者对策略1的策略选择概率为0.502 9,防御者对策略1的策略选择概率为0.497 3,这是因为初始的时候探索因子较小,代表着攻防双方对彼此的信息处于很不了解的状态,以探索行为为主。随着探索因子的增大,探索行为的比重减小,此时攻防双方对彼此信息的了解比较全面,对策略的选择也逐渐稳定下来,可以看出当τ≥80时,攻防双方的最终策略选择概率不再改变。
6不同探索因子下攻防双方博弈均衡时的策略选择概率
Fig.6Probabilities of strategy selection in game equilibrium between offense and defense under different exploration factors
设置τ=100,λA=5,改变防御方的理性程度使其从0上升至350(见图7)。在λD=0时,此时防御者没有理性主导选择,丧失了对自己两个策略的优劣判断能力,因而对所拥有的策略进行随机选择,即两个策略的选择概率都为0.500 0。随着防御者理性程度的上升,防御者对其策略的概率选择有一个大的变动,且固定理性程度下的攻击者会根据防御者的理性程度对自己的策略进行修改,但最终的策略选择概率会趋于稳定。在λD=300时,防御者对其策略1的选择概率变为0.270 0,并且随着理性程度的攀升,概率趋于稳定,这是因为在λD≥300之后,防御者的理性程度相较于攻击者来说足够大,很难再作为博弈均衡时策略选择概率变化的主导因素。
设置τ=1 000,即仅考虑理性程度的影响时,当λA=λD≥100时,攻防双方具有高度理智,此时攻击者纳什均衡解(1,0)与完全理性纳什均衡解一致[19],但比起完全理性下的博弈,本文更加强调参与者的理性特征,反应真实的策略选择规律。
7防御者不同理性程度下博弈均衡时的策略选择概率
Fig.7Probabilities of strategy selection in game equilibrium under different rationality levels of defenders
为研究收益矩阵对博弈的影响,设置λA=λD=1,忽略探索因子的影响,使τ=100,改变b11的数值(见图8)。可见随着b11的增加,防御者对策略1的策略选择概率也随之上升。
8防御策略1的选择概率与b11的关系
Fig.8Relationship between the selection probability of defense strategy 1 and b11
在一般演化博弈下,由式(4)~(7)可以求出防御者对于策略2的选择概率为0,而当攻防双方理性程度较高时,设λA=λD=10,防御者对于策略2的选择概率为0.058 0,接近一般演化博弈下的结果,但一般演化博弈未能直观的用数据体现攻防双方的理性程度,而是以一个较高理智的两方博弈者的角度来进行策略的选择,不贴近于现实。在不了解对方理性程度的情况下盲目使用一般演化博弈来判断,很可能造成自己收益的亏损。从防御者的视角进行举例,λA=1,λD=10,τ=100时,一般演化博弈下防御者会认为攻击者以(1,0)的概率选择攻击策略,就用(0.300 0,0.700 0)的概率选择防御策略,实际上攻击者受于理性程度的制约,会用(0.823 4,0.176 6)的概率进行策略选择,此时防御收益UD=1.947 0。当知道攻击者的理性程度并对双方策略做出判断之后,防御者的策略选择概率为(0.148 3,0.851 7),此时防御者收益UD=1.973 8。由此可见,改进后的防御收益大于前者,当攻防收益矩阵中的数值更大的时候,差距就会更加明显。这是因为防御者理性程度高于攻击者,在大致了解假定双方理性程度并假定好参数的前提下使用改进演化博弈,求出的均衡解下的收益必然比不考虑攻防双方理性程度差异性的一般演化博弈要高,符合ICPS攻防博弈逻辑。
在风险评估中,改进演化博弈能让双方参与者基于对对方行为习惯(理性程度的判断和探索程度)的深入理解做出策略选择,有效地评估和预测对手可能的反应,从而更准确地制定出优化自身利益的策略,在不确定性和变化中保持相对稳定的收益水平。
3.2 评估BWPP动态风险的实验仿真与分析
采用沸水发电系统作为实验对象,以验证本文评估方法的有效性[20]。假设有一个网络攻击者,根据攻防状态转移图实现攻击,每个节点各有一个防御者选择防御策略。攻击者攻击ICPS时,不仅仅只考虑其中某个组件,而是会根据受攻击系统特性以及自己的攻击目的,设计影响链路,建立信息域到物理域的跨域攻击路径。本文通过Nessus扫描实验信息系统,结合国家信息安全漏洞库信息,参考文献[1318]的方法在分析路由文件、漏洞信息的基础上,根据攻击在信息层和物理层的传播特点,构建跨域攻击下各阶段的攻防状态转移图(见图1)。其中,各个状态间的转移概率见表4
4阶段间的状态转移概率表
Tab.4 State transition probability table between stages
表5列举沸水发电系统中常见的4个漏洞信息[21],为攻防收益量化做准备。
5BWPP常见漏洞信息表
Tab.5 BWPP common vulnerability information table
在ICPS信息域的漏洞节点中,攻击者往往在成功利用漏洞后不立即采取措施,并等待一段时间,以此提高攻击的效果和成功率,同时减少被发现的风险。此外,攻击者会通过利用信息域中漏洞实现提升权限和获取更多信息的目的,这些目的在单阶段下可看作只有信息方面的损失而与物理域中各类物理器件的运作无关,因此令信息域中漏洞节点的物理效益损失ELoss=0;在物理域的漏洞节点中,一般认为控制器节点难以被网络入侵,因此图1中攻防状态转移图不出现控制器相关状态,即控制器处不进行攻防博弈。而传感器和阀门被网络攻击者利用漏洞攻击,导致了阀门产生了不同程度的脱离正常运转的情况,造成了不同的物理效益损失。
在阀门和传感器遭受攻击的情况下考虑到6种攻击场景:1)进水阀关闭;2)排气阀关闭;3)进料阀全开;4)液位传感器测量数据被修改为0;5)压力传感器测量数据被修改为0;6)电流传感器测量数据被修改为0。
参考文献[22]中V1、V2和V3的数学模型,仿真得出BWPP物理组件遭受攻击后压力动态变化图,见图9。系统效益函数Et)包含的产品产量xt)和质量yt)分别用发电电量和质量表示。在BWPP中,假设遭受攻击时系统的发电质量仍能保持稳定,即yt)不变,在攻击下电量输出和压力的变化趋势相同,因此用压力来体现Et)。t0时刻BWPP中的3个液位传感器分别开始遭受攻击,此时压力为108 kg/cm2tend时刻根据压力程度来选择,罐内能承受的最大压力值为250 kg/cm2,超过最大压力值即会有爆炸的可能性,此时系统运行会中断,中断时刻作为tend。当没有超过250 kg/cm2时,取1 000 s作为攻击测试结束时间tend。根据式(2)、(3)求出物理效益损失ELoss,见表6
9BWPP物理组件遭受攻击后压力动态变化
Fig.9Dynamic changs in pressure after BWPP physical components are attacked
6不同攻击下系统的物理效益损失
Tab.6 Physical benefit loss of the system under different attacks
参考文献[23]中对AprofitAcostDprofitDcost的定义方式,结合防御策略库的信息,根据表2中的定义方式,针对表4中不同位置存在的常见漏洞信息,计算不同漏洞节点下的攻防收益数值,生成攻防收益矩阵,见表7。表中,攻击收益矩阵和防御收益矩阵的横坐标自上到下分别表示攻击者利用漏洞攻击和不攻击,纵坐标自左到右分别表示防御者选择防御和不防御措施。
7不同漏洞节点攻防收益量化矩阵
Tab.7 Quantification matrix of attack and defense benefits for different vulnerability nodes
假设攻防双方理性程度相等,即λA=λD=1。BWPP比较成熟,可认为攻防双方对彼此了解,令探索因子τ=100。同等对待现在和未来攻防收益的价值,即令ξh=0.5,这些参数与表6中已经求得的BWPP常见漏洞节点中的攻防收益数值一起代入式(18),迭代1 000次求出表8中的攻防策略及收益。
表8可以看出,在物理域中,攻击者的收益UV1UV2USe1UV3USe3USe2,一般情况下认为攻击者收益与漏洞节点风险程度成正相关,即攻击者攻击漏洞节点收益越大,该漏洞节点越容易遭受攻击,风险越大。可以评估物理域中漏洞节点的风险程度为:V1<V2<Se1<V3<Se3<Se2。由此可见,压力传感器遭受攻击的可能性较大,应适时做好BWPP中压力传感器的防御措施。
8均衡策略收益
Tab.8 Equilibrium strategy benefits
本文设置如下两条沸水发电系统中的常见攻击路径,其中:路径1为Sw0Sw1SD0SD1SSel0SSel1Sv10Sv11,路径2为SM0SM1SD0SD1SSel0SSel1Sv10Sv11。对比两条路径可以发现,其仅有第1阶段不相同,计算出第1条路径中攻击者收益为96.55,第2条路径攻击者收益为94.51,第1条路径攻击收益大于第2条,更符合攻击者的期望,显然第1条路径中SW节点应该更值得防御者关注。对攻击者来说,路径1的收益更高,这是由于网络服务器的重要程度通常比较高,一旦被攻陷,整个网络系统都将处于被动的局面。为降低第1条路径的发生概率,应当尽量减小其他漏洞节点到SW的状态转移概率,若能使得概率为0,则路径1便不可能实现,就可以满足防御方期望。
以BWPP系统为例,对ICPS的漏洞节点进行评估,可以对系统中容易遭受攻击的漏洞节点进行合理预测,同时对其进行针对性的防范。相比于一些风险评估方案[10],不再是把漏洞节点看成独立的个体,而是考虑攻击者攻击每一个漏洞节点之间的联系,再加入考虑攻防双方理性程度和探索程度的改进演化博弈,得到ICPS中各漏洞节点的攻击者收益,以此评估动态风险,能对系统的防护起到真实全面的指导作用。
4 结论
1)从ICPS实际出发,根据系统组件,构建了从信息域到物理域的ICPS攻防状态转移图。
2)设计了加入参数机制的复制动态方程来改进一般演化博弈,能让单阶段中攻防双方的决策和收益与双方理性程度和探索程度相关;
3)引入了Markov的无后效性,开展研究多阶段下的演化博弈,得到攻击路径下各个漏洞节点的攻击收益,从而评估节点。
4)本文构建了自定义理性程度和探索程度下攻防双方随时间变化的策略演化微分方程,通过单阶段数值实验结果验证了方法的合理性,与一般演化博弈中不区分理性程度相比,对ICPS的攻防博弈研究更有普适性。并且通过沸水发电系统进行实验分析,结果表明,Markov改进演化博弈能根据各个漏洞节点的攻防双方理性和探索程度不同求出攻击收益,从而评估风险情况,且结果符合现实情况。
1ICPS动态风险评估框架
Fig.1ICPS dynamic risk assessment framework
2多阶段演化博弈过程
Fig.2Multi-stage evolutionary game process
3效益函数曲线
Fig.3Benefit function curve
4攻防演化博弈原理
Fig.4Principle of offensive and defensive evolutionary game theory
5不同初始概率下策略选择概率演化图
Fig.5Evolution diagram of strategy selection probabilities under different initial probabilities
6不同探索因子下攻防双方博弈均衡时的策略选择概率
Fig.6Probabilities of strategy selection in game equilibrium between offense and defense under different exploration factors
7防御者不同理性程度下博弈均衡时的策略选择概率
Fig.7Probabilities of strategy selection in game equilibrium under different rationality levels of defenders
8防御策略1的选择概率与b11的关系
Fig.8Relationship between the selection probability of defense strategy 1 and b11
9BWPP物理组件遭受攻击后压力动态变化
Fig.9Dynamic changs in pressure after BWPP physical components are attacked
1可利用性决定因素量化表
2漏洞节点攻防收益
3对比分析
4阶段间的状态转移概率表
5BWPP常见漏洞信息表
6不同攻击下系统的物理效益损失
7不同漏洞节点攻防收益量化矩阵
8均衡策略收益
IRRAM F, ALI M, NAEEM M,et al. Physical layer security for beyond 5G/6G networks:emerging technologies and future directions[J]. Journal of Network and Computer Applications,2022,206:103431. DOI:10.1016/j.jnca.2022.103431.
LANGNER R. Stuxnet:dissecting a cyberwarfare weapon[J]. IEEE Security & Privacy,2011,9(3):49. DOI:10.1109/MSP.2011.67.
CHERDANTSEVA Y, BURNAP P, BLYTH A,et al. A review of cyber security risk assessment methods for SCADA systems[J]. Computers & Security,2016,56:1. DOI:10.1016/j.cose.2015.09.009.
罗智勇, 杨旭, 刘嘉辉, 等. 基于贝叶斯攻击图的网络入侵意图分析模型[J]. 通信学报,2020,41(9):160. LUO Zhiyong, YANG Xu, LIU Jiahui,et al. Network intrusion intention analysis model based on Bayesian attack graph[J]. Journal on Communications,2020,41(9):160. DOI:10.11959/j.issn.1000-436x.2020172.
DONG Huiyu, WANG Hongwei, TANG Tao. An attack tree-based approach for vulnerability assessment of communication-based train control systems[C]//2017 Chinese Automation Congress(CAC). Jinan: IEEE,2017:6407. DOI:10.1109/CAC.2017.8243932.
QIAN Jiawei, SHI Pengcheng, MU Qiang. Based on random game Petri net model CPS risk assessment and defense decision of distribution network[C]//2021 4th International Conference on Advanced Electronic Materials, Computers and Software Engineering(AEMCSE). Changsha: IEEE,2021:764. DOI:10.1109/AEMCSE51986.2021.00158.
XIONG Juxia, WU Jinzhao. Construction of information network vulnerability threat assessment model for CPS risk assessment[J]. Computer Communications,2020,155:197. DOI:10.1016/j.comcom.2020.03.026.
HU Jingjing, GUO Shuangshuang, KUANG Xiaohui,et al. I-HMM-based multidimensional network security risk assessment[J]. IEEE Access,2019,8:1431. DOI:10.1109/ACCESS.2019.2961997.
陈子涵, 程光. 基于Stackelberg-Markov非对等三方博弈模型的移动目标防御技术[J]. 计算机学报,2020,43(3):512. CHEN Zihan, CHENG Guang. Moving target defense technology using Stackelberg Markov asymmetrical trilateral game model[J]. Chinese Journal of Computers,2020,43(3):512. DOI:10.11897/SP. J.1016.2020.00512.
YANG Pengxi, GAO Fei, ZHANG Hua. Multi-player evolutionary game of network attack and defense based on system dynamics[J]. Mathematics,2021,9(23):3014. DOI:10.3390/math9233014.
ZHANG Hengwei, TAN Jinglei, LIU Xiaohu,et al. Cybersecurity threat assessment integrating qualitative differential and evolutionary games[J]. IEEE Transactions on Network and Service Management,2022,19(3):3425. DOI:10.1109/TNSM.2022.3166348.
CHEN Fang, GOU Chengling, GUO Xiaoqian,et al. Prediction of stock markets by the evolutionary mix-game model[J]. Physica A: Statistical Mechanics and its Applications,2008,387(14):3594. DOI:10.1016/j.physa.2008.02.023.
MA Runnian, ZHANG Enning, WANG Gang,et al. Network defense decision-making method based on improved evolutionary game model[J]. Journal of Electronics & Information Technology,2023,45(6):1970. DOI:10.11999/JEIT220585.
张恒巍, 黄健明. 基于Markov演化博弈的网络防御策略选取方法[J]. 电子学报,2018,46(6):1503. ZHANG Hengwei, HUANG Jianming. Network defense strategy selection method based on Markov evolutionary game[J]. Acta Electronica Sinica,2018,46(6):1503. DOI:10.3969/j.issn.0372-2112.2018.06.033.
WEI Dong, JI Kun. Resilient industrial control system(RICS):concepts,formulation,metrics,and insights[C]//2010 3rd international Symposium on Resilient Control Systems. Idaho Falls: IEEE,2010:15. DOI:10.1109/ISRCS.2010.5603480.
GABETTA G, TOSCANI G, WENNBERG B. Metrics for probability distributions and the trend to equilibrium for solutions of the Boltzmann equation[J]. Journal of Statistical Physics,1995,81(5):901. DOI:10.1007/BF02179298.
TUYLS K, VERBEECK K, LENAERTS T,et al. A selection-mutation model for q-learning in multi-agent systems[C]//Proceedings of the Second International Joint Conference on Autonomous Agents and Multiagent Systems. Melbourne: ACM,2003:693. DOI:10.1145/860575.860687.
张勇, 谭小彬, 崔孝林, 等. 基于Markov博弈模型的网络安全态势感知方法[J]. 软件学报,2011,22(3):495. ZHANG Yong, TAN Xiaobin, CUI Xiaolin,et al. Network security situation awareness approach based on Markov game model[J]. Journal of Software,2011,22(3):495. DOI:10.3724/SP. J.1001.2011.03751.
LI Yuzhe, QUEVEDO D E, DEY S,et al. A game-theoretic approach to fake-acknowledgment attack on cyber-physical systems[J]. IEEE Transactions on Signal and Information Processing Over Networks,2017,3(1):1. DOI:10.1109/TSIPN.2016.2611446.
OROJLOO H, AZGOMi M A. A stochastic game model for evaluating the impacts of security attacks against cyber-physical systems[J]. Journal of Network and Systems Management,2018,26(4):929. DOI:10.1007/s10922-018-9449-0.
HUANG Kaixing, ZHOU Chunjie, TIAN Yuchu,et al. Assessing the physical impact of cyberattacks on industrial cyber-physical systems[J]. IEEE Transactions on Industrial Electronics,2018,65(10):8153. DOI:10.1109/TIE.2018.2798605.
周翔荣, 孙子文. 工业信息物理系统漏洞节点的攻击图评估方法[J]. 控制工程,2024,31(12):2256. ZHOU Xiangrong, SUN Ziwen. Attack graph evaluation method for vulnerable nodes in industrial cyber physical systems[J]. Control Engineering of China,2024,31(12):2256. DOI:10.14107/j.cnki.kzgc.20220418.
杨林. 动态网络环境下攻防博弈威胁预测和防御方法研究[D]. 长沙: 国防科技大学,2020.YANG Lin. Research on threat prediction and defensemethod of dynamic network attack anddefense game[D]. Changsha: National University of Defense Technology,2020. DOI:10.27052/d.cnki.gzjgu.2020.000644.