2. 深圳地铁运营集团有限公司,广东 深圳 518040;
3. 国网湖南省电力有限公司检修公司,长沙 410004
2. Shenzhen Metro Operation Group Co., Ltd., Shenzhen 518040, Guangdong, China;
3. State Grid Hunan Electric Power Company Limited Maintenance Company, Changsha 410004, China
换流阀是直流输电工程的核心设备,陡度大、扩散速度不均匀的开通电流导致换流阀局部形成高电流密度和局部温度上升[1],产生大量的热。多年服役的换流阀由于发热导致的故障时有发生,造成较大的经济损失。据不完全统计,国内换流站由于TFM/TE板过热导致了5次停运,由于电抗器管头锈蚀或过热造成二次停运,其他阀塔内过热及光纤槽放电等导致了二次停运[2]。为保证元件的正常使用并防止其老化,需合理选择冷却方式并设计相应的冷却系统[3]。目前,大多数文献集中在对系统进行故障分析和改造等方面[4-6],而鲜有围绕换流阀冷却方式选择所展开的相关研究。冷却方式的选择一般需调研分析当地气候与水源供给,分析计算散热效率、成本等来选择最为适宜的冷却方式,并对冷却系统进行优化[7],人为地分析与计算调研数据,会消耗大量的时间与人力成本。以上难点激发了基于数据驱动下机器学习算法在该场合上应用的可能性,可通过对换流站冷却系统设计的经验案例进行离线分析,来构建冷却方式的分类模型,为换流阀冷却系统的最终设计提供参考依据。
集成学习算法通过将异构或同构的多个模型结合起来,获得一个联合学习方法,通过克服模型过拟合和初始化敏感性来提高学习持久性[8]。堆叠异构[9]是集成学习的一种,其利用元分类器集成多类基础分类器的输出结果,同时,丰富了模型多样性,综合判断最终类别:堆叠的目的是最小化泛化误差[10],因此堆叠方式与分类器的选择十分重要。文献[11]利用交叉验证的方式确定每个聚类中性能最优异的基础分类器输送给元分类器,元分类器的选择则通过图像领域相关文献调研获得。此外,基础分类器模型的预测结果可直接作为元分类器的输入特征[12-14],或采用多标签堆叠(multi-label stacking,MLS)方法完成分类任务[15-17]。为进一步完成基础分类器与元分类器的选择,文献[18]建立了两个堆叠模型,采用两种不同的非线性元分类器进行综合预测;文献[19]探索6种分类算法,构建的3种堆叠组合中逐一对比预测精度来选择最合适的分类器;文献[20]所构建的元分类器能增加更优分类器的权重,完成最终预测。
实际上,除上述应用较为广泛的基础分类器外,有监督学习分类器,如判别子空间法(discriminant subspace,DS)[21]、朴素贝叶斯(Naïve Bayes,NB)[22]在小样本、包含非线性特征的多分类任务上表现较好;除此之外,无监督聚类算法,k中心点聚类(k-Medoids)、基于密度的空间聚类(DBSCAN)和谱聚类(SC)等能有效提高分类的性能[23]。综上所述,采用交叉验证后所获得的置信分数进行堆叠,并通过已有研究或试验对比来选择表现较优的分类器作为模型的基础分类器的方法更为普遍,元分类器则是选择更能适应非线性分类特点的算法。但针对冷却方式分类仍需面临一些难点:1)已有研究成果大多基于复杂的计算过程与工程师经验,鲜有文献提供基于数据驱动的方法来对冷却方式进行选择;2)为了便于冷却系统设计,该冷却方式的分类模型应具备一定的可解释性,然而,单一分类器的难以保证模型良好的可解释性与较高的预测精度;3)目前,已获得的经验数据集较少,样本间同标签的特征值差异较大。
面对以上亟待解决的问题,本文提出了一种冷却方式分类方法:将多种异构分类器堆叠于残差网络(residual network,ResNet)中,构建基于堆叠异构分类器的残差网络模型(stacked heterogeneous-residual network,SH-ResNet),深度挖掘基础分类器输出结果之间的联系,进一步增强模型的泛化能力,提高其分类准确率。
1 冷却方式选型的重要参考因素换流阀所产生的大部分热量需要由冷却介质通过热交换带走,所以换流阀稳定性和使用寿命很大程度上取决于冷却系统散热能力的好坏,为了使晶闸管元件的运行温度不高于80 ℃,以保证元件的正常使用并防止其老化,选择适当的冷却方式,并进行合理的设计,是使晶闸管阀的潜力得到充分发挥、提高系统可靠性不可缺少的重要环节之一[24]。
换流阀冷却方式主要分为水冷却、风冷却和风串水冷却[25]。换流阀的冷却系统应考虑采用水冷却的水源条件与采用风冷却的气象条件是否满足。
1.1 冷却方式的优劣水冷却与风冷却是最为常用的两种冷却方式,其主要的区别见表 1。水冷却方式利用水与空气接触蒸发吸热来降温,相较于利用室外空气与管内水换热降温的风冷却方式,其最主要的优点是换热效率高。
前期资源占比与成本上,水冷却装置数量少,占地面积小,前期投资较低;但须配备水处理设备,对水源要求高、站外输水管线较长、敷设水源较为困难、喷淋水的水质要求较高。风冷却系统仅由变频调速风机和换热盘管组成,系统部件少,结构简单,但设备体积大,占地面积大。
后期系统运维上,水冷却塔换热盘管外壁表面易结垢、运行管理维护较复杂、存在排污问题等;但是,其运行时噪声较低,运行费用少。风冷却维护工作少,但安装的冷却风机台数多,运行时噪声大,运行费用高。
此外,在寒冷地区水冷却装置冬季运行易结冰,堵塞喷嘴,且风机运行时,会将水汽混合物吹出。而风冷却装置冬季运行时不会出现结冰的危害,适于北方寒冷地区应用。因此换热效率、设备占地的面积、耗水耗电量等设备条件因素往往是决定冷却方式的主要原因。
1.2 气候环境因素除了南北方气候差异外,部分极端地区酷寒的冬季可能会使换热面积较大的冷却器结冻,导致阀冷却系统可靠性降低。因此,阀冷却系统在设计时不仅要考虑冷却容量、进出阀水温度、冷却介质类型及额定流量等参数,还要考虑环境条件对阀冷却系统的影响。
1.2.1 温度由于换流阀对进阀水温有着严格的要求,温度过高或过低都将影响换流阀的正常运行。以风冷却为例,其有效传热温差ΔT=Ft×ΔTm,其中ΔTm表示对数平均温差;Ft为温差修正系数。若已知换热面积A与传热系数K,则换热量Q由Q=A×K×ΔT得到。此外,排除其他降温因素,在直流满负荷、风扇工频运行时,换热冗余量[26]为
$ Q^{\prime}=\frac{T_{i d}-T_{w d}}{T_i-T_w}-1 $ | (1) |
式中:Tid和Twd分别表示设计进阀温度和冷却塔进风设计湿球温度;Ti和Tw分别表示进阀温度和进风湿球温度。
可见,环境温升必然会影响冷却器出水温度,在炎热的夏季,仅使用风冷无法将冷却水温降至环境温度以下,并且会导致阀冷却系统能耗剧增;相反,酷寒的冬季则可能会使换热面积较大的冷却器结冻,导致阀冷却系统可靠性降低,同时给换流阀的正常运行带来极大风险。因此,温度是冷却方式选择与系统设计的重要参考因素之一,而温度则可以使用干、湿球温度、平均气温、极端温度、最大温差等来详细描述。
1.2.2 湿度大气的相对湿度主要影响着环境的湿球温度,因此,湿度与温度相互作用进而影响冷却系统的冷却效率。以水冷为例:不同温度下冷却水出水温度均随着相对湿度的增加而升高;此外,随着环境温度增加,相对湿度对冷却水温降的影响越明显[27]。
1.2.3 海拔与气压海拔主要影响大气压力和空气密度。高度每升高1 000 m,相对大气压力降低约12%,空气密度降低约10%[28]。空气密度下降,风冷的散热效率下降。在风冷系统选型计算过程中,应充分考虑空气密度变化所带来的影响,如传热系数、空气质量、空气流量、风机外压等。随着海拔的上升,大气压力下降,空气稀薄,散热能力大幅下降。
在高海拔地区空气的密度小,空气性质的改变导致传热系数减小,此时工作中设备的运行温度比一般海拔环境下温升增加。对于风冷却来说,风机压力随着海拔高度的变化而变化,其压力大小和风扇的转速比的平方成正比,和密度成正比,因此,随着海拔高度上升,空气密度下降,冷却风扇的压力降低,散热能力降低。综上所述,海拔高度与当地气压值同样是冷却方式选择的关键因素。
1.3 设备条件除了考虑到气候条件以及不同环境下冷却方式的适应度,成本及设备运行条件也是在方式选择中至关重要的一环。在设计完整的冷却系统时,系统的需求参数与设备布置参数须根据换流站自身条件所设置,因此,在选择合适的冷却方式时,需综合考虑诸如冷却介质流量、进阀水温的设置、所要求的额定冷却容量、用电负荷量、喷水池容积、补水量以及设备占地面积等。
1.4 冷却方式分类关键特征总结通过前文分析,气候条件因素包含温度、湿度、气压、海拔高度等,这些因素由当地多年平均气温、极端最高气温(包含干、湿球温度)、极端最低气温、最大日温差、多年平均气压、多年最高气压、多年最低气压、多年平均相对湿度,多年平均风速、平均最大风速和海拔高度来确定。
设备条件参考额定冷却容量、额定进阀流量、冷却塔进塔水温、用电负荷、补水量、喷淋水池容积和设备占地空间来确定站点设施是否能满足水源的供给和系统设备功率的要求。
2 SH-ResNet理论与方法 2.1 SH-ResNet模型的框架由于缺少在冷却方式分类模型建立上的一些先例,难以确定哪类分类器适合该数据,因此,本文考虑采用一种堆叠集成的方法,从提高模型分类精确度、增强模型泛化能力、赋予模型可解释性等多个角度出发,构建SH-ResNet对冷却系统数据集进行分类,以满足冷却方式分类应用上的需求。
堆叠框架包括两个学习阶段。第1阶段使用了一个基础分类器库,为了使元分类器在解决方案空间上获得更多信息,库中的分类器基本工作原理是不同的。然后,在第2阶段使用元分类器,将基础分类器的输出与减少泛化误差相结合。对于每个类别,堆叠异构分类器将更大的权重分配给较优的分类器,避免了由于样本间同标签的特征值差异较大所导致的单个模型预测不准确问题,以改善最终的预测。
在SH-ResNet模型中,第1阶段包含了多个异构基础分类器C1, C2, ⋯, CL,为了进一步提高最终输出不同观测结果的不确定性[29],这些分类器涵盖了有监督的机器学习算法与无监督的聚类算法,以提高最终模型的泛化能力,保证对不同站点相关特征差异较大时模型能分类正确。
假设数据集D = {xi, yi}i=1N表示N个训练样本,其中xi为第i个样本的特征向量,即对应影响冷却方式选择的气候环境因素与设备条件因素数值,yi则是第i个样本对应的Qj类标签,定义yi∈{Q1, ⋯, Qj, ⋯, QJ},对应冷却系统中的冷却方式;训练集D被输至基础分类器后,采用可训练组合方法,即k折交叉验证,为了扩充元分类器的输入数据,取H个不同kh折交叉验证的结果进行堆叠,其中h={1, 2, ⋯, H},获得L×J×H×N元数据集合为
$ S_{l, j}^{\left( {{k_h}, i} \right)} = \left\{ {\left[ {\begin{array}{*{20}{l}} {S_{1, 1}^{\left( {{k_h}, i} \right)}, S_{1, 2}^{\left( {{k_h}, i} \right)}, \cdots , S_{1, J}^{\left( {{k_h}, i} \right)}}\\ {S_{2, 1}^{\left( {{k_1}, i} \right)}, S_{2, 1}^{\left( {{k_1}, i} \right)}, \cdots , S_{2, J}^{\left( {{k_h}, i} \right)}}\\ {\begin{array}{*{20}{c}} \vdots & \vdots & \vdots \\ {S_{L, 1}^{\left( {{k_h}, i} \right)}, S_{L, 2}^{\left( {{k_h}, i} \right)}}&{ \cdots , S_{L, J}^{\left( {{k_h}, i} \right)}}&{} \end{array}} \end{array}} \right]_{h = 1}^H} \right\}_{i = 1}^N $ | (2) |
其中Sl, j(kh, j)表示第i个样本通过Cl分类器kh折交叉验证所获得的相对于第Qj类的置信分数。
在第2阶段中,为充分利用基础分类器预测概率特征,元分类器应具备更强的非线性表达[30]:本文选择具有优异的非线性特征提取能力,且在深度学习中有效避免由于网络深度加深而产生的学习效率变低与准确率无法提升等问题的残差网络(ResNet)[31]。这样在基础分类器库的输出复杂化后,加速网络的收敛过程并提高训练过程的稳定性。此阶段,每个样本对应的分数集与类标签yi将训练元分类器ResNet。在ResNet中,具有分数集映射的残差学习块可以表述为
$ u_\lambda=g\left(v_\lambda\right)+F\left(v_\lambda, w_\lambda\right) $ | (3) |
其中: vλ为残差网络第λ层的输入;函数g为恒等映射函数,即g(vλ) = vλ。
将第λ层的输入与训练权重wλ代入损失函数F中便可求出此层输出uλ。最后通过(rectified linear unit,ReLU)f计算出λ+1层的输入,则vλ+1的表达式为
$ v_{\lambda+1}=f\left(u_\lambda\right) $ | (4) |
由此,可知第1层输入v1 = Sl, j(kh, i),在具有Λ层的ResNet中,最后一层输出uΛ则为类标签yi所对应的最终分类分数。在求解过程中随着残差结构的引入,网络梯度变为
$ \frac{\partial v_{\lambda+1}}{\partial v_\lambda}=1+\frac{\partial F\left(v_{\lambda+1}, w_{\lambda+1}\right)}{\partial v_\lambda} $ | (5) |
不难看出,随着网络深度增加,梯度消失的问题得以解决。
2.2 网络结构的优化为了更加高效地训练深层的ResNet结构,随机梯度下降(stochastic gradient descent,SGD)将被应用于快速求解包含权重w与偏置值b的网络参数向量θ={w, b};但是,随机梯度下降算法可能会沿着最陡的下降路径向最优方向振荡。因此,在参数更新过程中加入动量项能缓解这一问题。则带动量的随机梯度下降(stochastic gradient descent with momentum,SGDM)参数更新过程为
$ \theta_{t+1}=\theta_t-\alpha \nabla J\left(\theta_t\right)+\gamma\left(\theta_t-\theta_{t-1}\right) $ | (6) |
其中t表示迭代次数,学习率α > 0,J(θ)为损失函数,参数γ决定了前一个梯度步骤对当前迭代的贡献值。可见,α、γ的设置影响着整个网络的训练效率与结果。
因此,本文采用贝叶斯优化(Bayesian optimization,BO)[32]来寻找最合适的超参数。BO是一种智能寻优算法,相较于遗传算法、粒子群算法以及网格寻优等,它在少量样本点的情况下优化效率更高,更加适合模型的超参数寻优。假设一组超参数为B = {β1, β2, ⋯, βm},在设置的区间内寻找使得式(7)成立的最优参数β*:
$ \beta^*=\operatorname{argmin}q(\beta), \beta \in B $ | (7) |
由于ResNet的输入数据为分数集,因此BO的数据集D′ = {Sl, j(kh, i), ri}i=1N,其中ri = q(β),函数q表示该组超参数下,模型训练得到的先验误差计算函数。通过对D′进行拟合得到的Gauss过程模型计算得到后验分布P(r|B, D′),就此寻找使得基于期望提高E的采集函数最大的超参数β:
$ E(\beta, P)=E_P\left[\max \left(0, \mu_P\left(\beta^*\right)-q(\beta)\right)\right] $ | (8) |
其中μP(β*)定义为后验均值的最小值,EP表示P分布下的期望函数。
本文选取α、γ以及卷积滤波器的数量作为BO方法所需寻找的网络结构超参数。
2.3 模型的评价指标为了进一步对所建模型评价,并与基础模型进行比较,本文引入了预测精度AC、灵敏度SN、调和平均数F1、马修斯相关系数MC和特异性SP[33],以上5类分类评价指标计算公式分别为
$ A_{\mathrm{C}}=\frac{T_{\mathrm{N}}+T_{\mathrm{P}}}{T_{\mathrm{N}}+T_{\mathrm{P}}+F_{\mathrm{N}}+F_{\mathrm{P}}} $ | (9) |
$ S_{\mathrm{N}}=\frac{T_{\mathrm{P}}}{T_{\mathrm{P}}+F_{\mathrm{N}}} $ | (10) |
$ F 1=\frac{2 T_{\mathrm{P}}}{\left(2 T_{\mathrm{P}}+F_{\mathrm{N}}+F_{\mathrm{P}}\right)} $ | (11) |
$ M_{\mathrm{C}}=\frac{T_{\mathrm{P}} \times T_{\mathrm{N}}-F_{\mathrm{P}} \times F_{\mathrm{N}}}{\sqrt{\chi}} $ | (12) |
$ S_{\mathrm{P}}=\frac{T_{\mathrm{N}}}{T_{\mathrm{N}}+F_{\mathrm{P}}} $ | (13) |
其中: TP、TN分别表示被模型分了正确的正样本与负样本;FP、FN分别表示被模型分类错误的正、负样本;χ表达式为
$ \begin{aligned} \chi=&\left(T_{\mathrm{P}}+F_{\mathrm{N}}\right) \times\left(T_{\mathrm{N}}+F_{\mathrm{P}}\right) \times\left(T_{\mathrm{P}}+F_{\mathrm{P}}\right) \times \\ &\left(T_{\mathrm{N}}+F_{\mathrm{N}}\right) \end{aligned} $ | (14) |
值得注意的是,正、负样本是针对二分类问题而言,冷却方式分类属于多分类范畴,因此,在定义正、负样本时可以视某类标签样本为正,其余类别样本为负,而分类器的整体评价指标则采用算术平均的方式来计算。
3 基于SH-ResNet的换流阀外冷却系统最优选型方法设计 3.1 换流阀外冷却系统数据特征选择本文调研了近年来湘潭、武汉、新松等不同地区站点的气候环境、换流阀冷却系统需求、设备布置情况以及最终设计使用的冷却方式,总计209个样本数据对所提出模型进行训练与评估。样本均取自通过工程师综合分析与大量计算后得到的典型地区的换流阀外冷却系统设计方案,不同地区换流阀本身存在一定差异,这些差异为后续模型提供了更全面的特征训练。通过前文分析,取方案中影响冷却方式选型的特征:当地多年平均气温(℃)、极端最高气温(包含干、湿球温度,℃)、极端最低气温(℃)、最大日温差(℃)、多年平均气压(hPa)、多年最高气压(hPa)、多年最低气压(hPa)、多年平均相对湿度(%),多年平均风速(m/s)、平均最大风速(m/s)和海拔高度(m)共计12个气候环境参数;额定冷却容量(kW)、额定进阀流量(m3/h)、冷却塔进塔水温(℃)、用电负荷(kW)、补水量(m3/h)、喷淋水池容积(m3)和设备占地空间(m3)共计7个设备条件参数,以及通过经验和计算所确定的对应冷却方式。
3.2 基础分类器库的选择由于缺少基于数据驱动对冷却方式进行分类的先例,模型在选择分类器时需利用数据集对每个分类器进行交叉验证,选择精度最高的多个分类器作为SH-ResNet模型的基础分类器库,通过调研可知,常作为基础分类器的包括SVM、RF以及KNN,另外本文增加NB与DS两种异构分类器,适用于小样本问题,以提高模型整体预测精度,就此,模型的有监督分类器包括:基于Linear核函数的SVM(SVML)、基于Gauss核函数的SVM(SVMG)、NB、RF、KNN和DS。
由于交叉验证中训练数据与测试数据随机划分,因此,在对整个样本进行测试时,分类器可能学习到了所有地区不同的冷却方式选择标准,但受到数据量的限制,不同地区气候环境与设备条件差异较大,分类器若不能在有限的样本中学习到特征参数与类标签之间深层次的关系,则该模型在除训练数据所包含地区外的其他站点进行分类时,会显得尤为乏力。为了进一步分析模型的泛化能力,本文通过基于Mahalanobis距离的t-分布随机邻域嵌入法(t-SNE)将19维特征参数降至2维,将冷却方式的分布可视化,包含映射特征Y1和Y2聚类效果如图 1所示,可见,部分样本出现在聚类边界上,聚类特征不明显,存在歧义,随机将这些“歧义点”中的一部分挑选出来并与另外一些具备明显聚类特征的点组合作为模型的测试集,其余的样本作为训练集,这样可进一步分析模型在有限训练样本下的预测精度和泛化能力。
采用5倍交叉验证的方式分别针对整个样本以及挑选出“歧义点”后的训练集进行评估,这些分类器分类错误率见表 2,实验结果表明所有分类器均取得了优异的分类效果,分类误差小于10%,难以通过先验知识证明哪些分类器在包含“歧义点”的测试集上取得更优的结果。
因此,将这6类分类器均作为SH-ResNet模型的基础分类器,此外,为了进一步体现特征参数间的深层次联系,在原有分类器基础上增加无监督的聚类方法,包括k中心点聚类(K-Medoids)、基于密度的空间聚类(DBSCAN)和谱聚类(SC)。在K-Medoids中,每个样本离聚类中心点的马氏距离作为该样本对每一类的置信分数,距离越短分数越高;在DBSCAN中,能识别某些噪声样本,进而弱化这些样本对分类器影响;对于SC,计算的特征向量对应于Laplace矩阵的3个最小特征值分别作为3类标签的置信分数。
3.3 SH-ResNet冷却方式分类模型的构建流程至此,基于SH-ResNet的冷却方式分类模型构建流程如图 2所示,分成三步完成。
步骤1 训练集与测试集通过t-SNE聚类进行筛选;t-SNE聚类将19维数据降至2维,可视化了各历史案例冷却方式选择的分布情况,便于随机挑选聚类不明显的“歧义点”与部分聚类明显的样本共同组成测试集,其余的历史案例样本组成训练集,通过此方法综合评价模型的预测精度与泛化能力。
步骤2 基础分类器总数L=6+3=9;定义yi∈{1, 2, 3}分别代表“水冷”、“风串水冷”和“风冷”3个类别的编码,标签数J= 3;将样本代入9个基础分类器中:有监督分类器输入为包含19个关键特征向量xi,输出为冷却方式编码yi,训练过程中,分别通过k= 3、4、5倍交叉验证获得有监督的分类器置信分数;无监督分类器输入同为xi,分别设置聚类数为J=3,聚类结果对应输出yi,且随机进行3次聚类。将9类分类器所获得结果的置信分数进行堆叠组合形成9×3×3×N的四维数组输入至基于BO算法通过训练集的交叉验证所确定好的ResNet结构中。
步骤3 ResNet输入为9×3×3×N的四维特征数组,网络输出同样为yi,通过随机梯度下降法求解使得损失函数最小的各连接层权重值,完成网络的训练;将测试集代入训练好的网络中,并计算各评价指标,完成对模型的评估。
4 实验结果与应用 4.1 实验结果将209个样本代入模型中,通过经验分析和计算所选择的冷却方式与各模型的分类结果的对比,分析模型对“水冷”、“风串水冷”和“风冷”3种冷却方式的分类错误情况,图 3展示了SVML、NB、RF、SVMG、KNN、DS和所提出的SH-ResNet模型在分别取训练集大小N=125、146、155、170时模型的5类评价指标大小,表 3展示了上述模型4次分类结果的平均值以及SH-ResNet模型相对于其他6个分类器相应指标的提升率Ir和平均提升率Er。可见,当测试集中出现“歧义点”时,分类错误率明显增加了,由于“歧义点”分类特征不明显,分类器在训练过程中出现了过拟合现象,训练结果显著优于测试结果。
当N= 125时,RF与SH-ResNet分类效果相当,均取得了较高的正确率;而其他3次分类结果表明SH-ResNet模型的评价指标均高于其他的基础分类器。从4次分类平均结果上来看,SH-ResNet模型的AC值为0.97,相较于基础分类器中表现最优的RF提高了2.95%,相较于其他分类器提高了4.33%~23.69%;在SN与SP的表现上,SH-ResNet模型值分别为0.963 6和0.982 8,对比NB分别提升了29.90%和12.87%,而对比RF同样取得了少量提升(0.82%,1.17%);SH-ResNet模型的F1值为0.969 1,同样是7个分类器中最高值,相较于其他6种提升了2.1%~25.56%;对于MC值,相较于NB模型SH-ResNet提升了36.29%,相较于其他分类器提高了3.17%~25.37%。总体而言,SH-ResNet模型在AC、SN、SP、F1和MC上,较基础分类器平均取得了11.46%、14.45%、6.11%、13.71%和18.14%的提升,证明该模型在分类精度与泛化能力上均具有显著提高。
4.2 冷却方式推荐系统交互式设计为便于设计人员后续对不同站点换流阀冷却系统进行设计,同时对已集成分类器拓扑可视化解释,集成SH-ResNet的冷却方式推荐系统交互窗口初步设计构思如图 4所示,该系统的输入为当地气候因素参数、设备条件参数以及历史案例,历史数据由“载入历史数据”执行。
系统包含了集成冷却方式推荐百分比,即由SH-ResNet模型分类结果,和SH-ResNet中所堆叠的聚类方法推荐百分比。前者是整个系统对输入参数分析后作出的冷却方式选择判断,以百分比形式给出,后者可理解为不确定因素,因为聚类方法在学习过程中不涉及给定的标签,该过程不会考虑历史案例中人为的选择,也就消除了由人为设计所带来的不确定性,设计这一过程的目的也是尽量从数据中挖掘冷却方式与输入参数的潜在联系。图 4是冷却方式的推荐结果示例,在图示输入条件下系统以86%推荐水冷,14%推荐风冷,不推荐风串水冷,其中存在50%的不确定因素。
此外,系统集成了多个可视化模块:1)输入特征与基础分类器的部分依赖性,图 4中,随着多年平均气压的增加,SVML认为是水冷方式的概率随多年平均气压的升高而增加,风冷则正好相反;2)基于基础分类器中效果最优的RF,采用Out-of-Bag的方式对历史数据中输入特征的重要性进行排列,图 4中多年最高气压、多年平均相对湿度和极端最低气温是影响冷却方式分类的最主要3个特征;3)分别基于Mahalanobis、Minkowski、Hamming和Jaccard算法构建的t-SNE将数据集映射至两类特征,可视化输入点在历史数据中所处在的位置。这些方法可协助研究人员参考不同特征对冷却方式的影响和输入点与历史案例间的关联性,进而更加全面地分析设计整个冷却系统,以保障换流阀安全、高效运行。
5 结论1) SH-ResNet模型集成了SVML、NB、RF、SVMG、KNN和DS共计6个有监督的基础分类器,以及K-Medoids、DBSCAN、谱聚类3个无监督聚类算法,使用ResNet作为元分类器综合9种分类方法结果。这是基于数据驱动方式结合机器学习算法对冷却系统设计方向的一次创新,通过学习历史案例,模型挖掘了气候环境因素和设备条件对冷却方式的深层影响,给予设计初期冷却方式选择的依据,避免了冗长且复杂的计算过程来确定设计方向。
2) 通过挑选环境因素或设备条件与模型训练集案例差异较大的“歧义点”,验证了模型的分类准确率、普适性和泛化能力。多次选择不同大小的训练集和测试集对模型进行验证后,分类正确率仍能达到97%,相较于基础分类器,提高了11.46%,在已有的数据支撑下取得了优异的分类效果。此外,ResNet降低了基础分类器的选择对模型最终分类结果的影响,因此,该模型能集成多个或多类异构分类器,强大的泛化能力和较高的预测精度更好地适应了类似于冷却系统选型中样本间同标签的特征值差异较大的应用场景,利于模型的后续推广与拓扑。
3) 基于该模型的冷却方式推荐系统设计集成了多个可视化模块,包含不同分类器上特征与类标签的依赖性、特征的重要性以及待推荐点所处历史案例中的位置,为研究人员在后续的对该站点换流阀冷却系统的设计时提供更为全面分析。
[1] |
袁洪亮, 任孟干, 赵东旭, 等. 华东电网500 kV故障电流限制器晶闸管阀浪涌电流试验方法研究[J]. 中国电机工程学报, 2011, 31(12): 7. YUAN Hongliang, REN Menggan, ZHAO Dongxu, et al. Surge current test of fault current limiter thyristor valve in the 500 kV east China power grid[J]. Proceedings of the CSEE, 2011, 31(12): 7. DOI:10.13334/j.0258-8013.pcsee.2011.12.003 |
[2] |
李旭升, 范彩云, 刘堃, 等. 直流输电换流阀防火及灭火系统方案设计研究[J]. 电工技术, 2021(12): 175. LI Xusheng, FAN Caiyun, LIU Kun, et al. Design and research of fire prevention and fire extinguishing system of HVDC converter valve[J]. Electric Engineering, 2021(12): 175. DOI:10.19768/j.cnki.dgjs.2021.12.065 |
[3] |
刘辉. 换流站换流阀冷却系统的选型研究[J]. 吉林电力, 2012, 40(1): 218. LIU Hui. Research on cooling system selection of convert valve in convert station[J]. Jilin Electric Power, 2012, 40(1): 218. |
[4] |
闫迎, 晏桂林, 郝剑波. 高压直流换流阀水冷却系统常见缺陷分析及对策[J]. 湖南电力, 2017, 37(4): 56. YAN Ying, YAN Guilin, HAO Jianbo. Analysis and countermeasure of the water cooling system fault for HV DC converter valve[J]. Hunan Electric Power, 2017, 37(4): 56. DOI:10.3969/j.issn.1008-0198.2017.04.016 |
[5] |
张健, 何世洋, 孙三祥, 等. 适合严寒地区直流换流站外冷却系统的研究[J]. 电力科技与环保, 2014, 4(30): 53. ZHANG Jian, HE Shiyang, SUN Sanxiang, et al. Study of outdoor watercooling system suitable for cold regions[J]. Electric Power Technology and Environmental Protection, 2014, 4(30): 53. |
[6] |
马晓红, 许逵, 张露松, 等. 一种大功率风冷直流融冰装置冷却系统仿真分析[J]. 电力电子技术, 2020, 54(9): 44. MA Xiaohong, XU Kui, ZHANG Lusong, et al. Simulation analysis of a cooling system of a high-power air-cooling DC ice-melting device[J]. Power Electronics, 2020, 54(9): 44. |
[7] |
杨柏森, 任海莹, 孔德卿, 等. ±500 kV柔性直流换流阀冷却系统方案设计[J]. 电气应用, 2021, 40(1): 83. YANG Bosen, REN Haiying, KONG Deqing, et al. Scheme design for cooling system of ±500 kV flexible DC converter valve[J]. Electrotechnical Application, 2021, 40(1): 83. |
[8] |
YANG Y, JIANG J. Adaptive bi-weighting toward automatic initialization and model selection for HMM-based hybrid meta-clustering ensembles[J]. IEEE Transactions on Cybernetics, 2019, 49: 1657. DOI:10.1109/TCYB.2018.2809562 |
[9] |
VELUSAMY D, RAMASAMY K. Ensemble of heterogeneous classifiers for diagnosis and prediction of coronary artery disease with reduced feature subset[J]. Computer Methods and Programs in Biomedicine, 2021, 198: 105770. DOI:10.1016/j.cmpb.2020.105770 |
[10] |
YI H C, YOU Z H, WANG M N, et al. RPI-SE: a stacking ensemble learning framework for ncRNA-protein interactions prediction using sequence information[J]. BMC Bioinformatics, 2020, 21: 60. DOI:10.1186/s12859-020-3406-0 |
[11] |
AGARWAL S, CHOWDARY C R. A-Stacking and A-Bagging: adaptive versions of ensemble learning algorithms for spoof fingerprint detection[J]. Expert Systems with Applications, 2020, 146: 113160. DOI:10.1016/j.eswa.2019.113160 |
[12] |
秦静, 左长青, 汪祖民, 等. 基于堆叠分类器的心电异常监测模型设计[J]. 计算机应用, 2021, 41(3): 887. QIN Jing, ZUO Changqing, WANG Zumin, et al. Design of abnormal electrocardiograph monitoring model based on stacking classifier[J]. Journal of Computer Applications, 2021, 41(3): 887. DOI:10.11772/j.issn.1001-9081.2020060760 |
[13] |
CHEN C, ZHANG Q, YU B, et al. Improving protein-protein interactions prediction accuracy using XGBoost feature selection and stacked ensemble classifier[J]. Computers in Biology and Medicine, 2020, 123: 103899. DOI:10.1016/j.compbiomed.2020.103899 |
[14] |
ZHANG Q, LIU P, WANG X, et al. StackPDB: predicting DNA-binding proteins based on XGB-RFE feature optimization and stacked ensemble classifier[J]. Applied Soft Computing, 2021, 99: 106921. DOI:10.1016/j.asoc.2020.106921 |
[15] |
HAGHIGHI F, OMRANPOUR H. Stacking ensemble model of deep learning and its application to Persian/Arabic handwritten digits recognition[J]. Knowledge-Based Systems, 2021, 220: 106940. DOI:10.1016/j.knosys.2021.106940 |
[16] |
RABINEZHADSADATMAHALEH N, KHATIBI T. A novel noise-robust stacked ensemble of deep and conventional machine learning classifiers (NRSE-DCML) for human biometric identification from electrocardiogram signals[J]. Informatics in Medicine Unlocked, 2020, 21: 100469. DOI:10.1016/j.imu.2020.100469 |
[17] |
TSOUMAKAS G, DIMOU A, SPYROMITROS-XIOUFIS E, et al. Correlation-based pruning of stacked binary relevance models for multi-label learning[C]// ECML/PKDD 2009 Workshop on Learning from Multi-label Data. Bled: [s. n. ], 2009: 101
|
[18] |
PAPOUSKOVA M, HAJEK P. Two-stage consumer credit risk modelling using heterogeneous ensemble learning[J]. Decision Support Systems, 2019, 118: 33. DOI:10.1016/j.dss.2019.01.002 |
[19] |
MISHRA A, POKHREL P, HOQUE M T. StackDPPred: a stacking based prediction of DNA-binding protein from sequence[J]. Bioinformatics, 2019, 35: 433. DOI:10.1093/bioinformatics/bty653 |
[20] |
KANG H, KANG S. A stacking ensemble classifier with handcrafted and convolutional features for wafer map pattern classification[J]. Computers in Industry, 2021, 129: 103450. DOI:10.1016/j.compind.2021.103450 |
[21] |
ZHANG M, LUO X. Novel dynamic enhanced robust principal subspace discriminant analysis for high-dimensional process fault diagnosis with industrial applications[J]. ISA Transactions, 2020, 114: 1. |
[22] |
KIM H C, PARK J H, KIM D W, et al. Multilabel Naïve Bayes classification considering label dependence[J]. Pattern Recognition Letters, 2020, 136: 279. DOI:10.1016/j.patrec.2020.06.021 |
[23] |
CUI S, WANG Y, YIN Y, et al. A cluster-based intelligence ensemble learning method for classification problems[J]. Information Sciences, 2021, 560: 386. DOI:10.1016/j.ins.2021.01.061 |
[24] |
黄延平. 电器空气冷却系统受海拔影响的理论分析[J]. 机械工程学报, 2015(12): 153. HUANG Yanping. Theoretical analysis of the impact of altitude on electrical equipment of air cooling system[J]. Journal of Mechanical Engineering, 2015(12): 153. DOI:10.3901/jme.2015.12.153 |
[25] |
邓晓, 何勇, 余波. ±800 kV新松换流站换流阀外冷却系统选型与设计[J]. 四川电力技术, 2018, 41: 5. DENG Xiao, HE Yong, YU Bo. Type selection and design for outside cooling system of converter valve in ±800 kV Xinsong converter station[J]. Sichuan Electric Power Technology, 2018, 41: 5. DOI:10.16527/j.cnki.cn51-1315/tm.2018.05.009 |
[26] |
蒋峰伟, 廖毅, 张思光. 高压直流换流阀冷却系统冷却能力评估方法和提升措施研究[J]. 电气工程与自动化, 2019(33): 16. JIANG Fengwei, LIAO Yi, ZHANG Siguang. Research on cooling capacity evaluation method and improvement measures of cooling system of HV DC converter valve[J]. Electrical Engineering and Automation, 2019(33): 16. DOI:10.19514/j.cnki.cn32-1628/tm.2019.33.009 |
[27] |
刘江, 韩丹阳, 白路平, 等. 环境参数对冷却塔性能影响的综合分析[J]. 汽轮机技术, 2017, 59(5): 345. LIU Jiang, HAN Danyang, BAI Luping, et al. Comprehensive analysis of the impact of environmental parameters on the performance of cooling tower[J]. Turbine Technology, 2017, 59(5): 345. |
[28] |
温玉婷, 冷明全, 吴健超. 高海拔地区换流阀冷却系统设计及选型[J]. 广西电力, 2013, 36(2): 32. WEN Yuting, LENG Mingquan, WU Jianchao. Design and type choice of converter valve cooling system in high altitude area[J]. Guangxi Electric Power, 2013, 36(2): 32. DOI:10.16427/j.cnki.issn1671-8380.2013.02.014 |
[29] |
NGUYEN T T, NGUYEN M P, PHAM X C, et al. Heterogeneous classifier ensemble with fuzzy rule-based meta learner[J]. Information Sciences, 2018, 422: 144. DOI:10.1016/j.ins.2017.09.009 |
[30] |
XIA Y, LIU C, DA B, et al. A novel heterogeneous ensemble credit scoring model based on bstacking approach[J]. Expert Systems with Applications, 2018, 93: 182. DOI:10.1016/j.eswa.2017.10.022 |
[31] |
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770
|
[32] |
GELBARTM A, SNOEK J, ADAMS R P. Bayesian optimization with unknown constraints[C]// 30th Conference on Uncertainty in Artificial Intelligence 2014. Quebec City: AUAI, 2014: 250. DOI: 10.48550/arXiv.1403.5607
|
[33] |
LUO F, WANG M, LIU Y, et al. DeepPhos: prediction of protein phosphorylation sites with deep learning[J]. Bioinformatics, 2019, 35: 2766. DOI:10.1093/bioinformatics/bty1051 |