近年来,中国各大城市地铁线网不断扩张,轨道交通在城市综合交通系统中的作用愈发重要. 在乘客出行需求日趋多样化的背景下,大型文体赛事、庆典活动、道路交通管制等外部因素可能引发大量乘客于短时间内涌入车站,如果组织不当,可能导致乘客服务体验下降、运行风险升高,引发站内、车厢过饱和甚至乘客人身安全事故. 因此,有必要形成一套适应城市轨道交通客流特性的异常状态识别方法,以填补运营管理中异常信息的不对称性,健全客运组织的风险预警机制.
异常识别(又称异常检测)是数据挖掘的一个重要分支,其目的在于发现数据集中与其他数据有显著差异的样本,如入侵检测[1]、医疗诊断[2]、工业损检[3]等. 在城轨运营管理领域,同类技术主要体现在车辆设备和工控系统的硬件安全检查等方面[4-5],客运部门往往以基础的统计分析或阈值判断方法来识别客流的异常状态,存在时间滞后性、误判率高、难以适应客流的长期演化规律等不足. 相关研究中,文献[6]系统地分析了城市轨道交通运营事故的特点及风险因素;文献[7]基于时间序列相似性度量的思想,分析了进站量时间序列中的突发客流现象. 整体上,现有研究尚未形成关于城轨客流异常识别的成熟理论和方法,本研究从自动售检票系统实时采集的刷卡数据中提取分钟进站量时间序列,实现对客流状态异常值的同步量化,主要内容包括特征提取和异常判定两个部分.
广义上的特征提取通常依托于机器学习算法,尤其是深度学习模型,利用深层次的非线性结构网络模型获取观测样本中的高阶相关性信息,现已广泛应用于模式识别领域[8-9]. 典型地,卷积神经网络采用非全连接和权值共享的网络结构,擅长从局部特征逼近整体特征,在图像识别方面应用广泛;堆叠自编码器与深度置信网络(deep belief network, DBN)都是以逐层训练的方式提取训练集特征,前者利用非线性变换寻找主特征方向,后者基于样本概率分布获取高层特征表示,在手写识别、语音识别等方面有较好表现. 在以时间序列为对象的研究中[10-11],通常以多项式曲线拟合、离散傅里叶变换、连续小波变换、分段聚合近似等手段实现时间序列的降维、降噪表示,进而实现对隐含信息的深层挖掘.
异常判定按实现原理可大致分为4类:1)基于统计与数据分布的方法[12],通过假设数据集服从某种分布模式(如多元正态分布)来识别异常点,但对于包含非线性动态特征的复杂问题适用性较差. 2)基于阈值判断的方法[13-14],依据客观规律或人工经验对异常事件的关键特征设置诊断条件,此类方法较为依赖对异常事件及其影响的先验知识. 3)基于划分思想的方法[15-16],如孤立森林算法利用随机超平面切割每个子空间,将落在稀疏区域内的样本判定为异常;单类支持向量机通过学习机制构建一个能够围绕全体正常样本的几何支撑域,将之以外的样本视为异常. 该类方法的建模机理决定其仅适用于特定结构的数据集,且易受到噪音维度或无关维度的干扰;4)基于距离或密度的方法[17],如局部异常因子(local outlier factor, LOF)算法,通过衡量样本点与其邻域内其他样本点的分隔程度来判定异常状态,在方法效率及扩展性能上具有优势,但当样本集内簇群分布过于复杂时,存在灵敏度下降的现象.
本文在综合考虑数据获取条件与检测需求的基础上,提出一种基于DBN和LOF的异常识别方法,实现以数据特征为导向的特征提取与模式划分,为异常判定提供精细、可靠的样本子集,进而实现对异常客流状态的有效判别.
1 城轨客流数据特征城市轨道交通作为公共交通系统的重要组成,其客流不仅会受到外部异常因素的影响,自身也处于长期的动态变化之中. 因此,异常识别应建立在充分考虑客流常态变化的基础之上,进而准确判定由外部因素引起的异常变化. 以广州地铁某站为例,分别选择工作日、双休日和节假日下的客流样本进行对比,如图 1所示.
图 1中,该站工作日的晨间通勤高峰强度大、持续时间短,双休日与节假日白天的客流强度相对较高,但节假日不存在晚高峰现象. 上述客流样本均应视为相应场景下的正常客流状态,即异常识别应兼容的常态客流变化. 此外,对于不同车站,在受到节假日等因素影响时,其客流也会呈现出不同的变化规律,此类变化也应为异常识别方法所兼容.
进一步,结合典型案例分析由外部因素引发的客流异常变化. 案例1,2017年6月3日、6月17日,广州国际体育演艺中心举办文艺演出活动,晚间散场客流规模超出预期,萝岗站内付费区发生乘客滞留现象;案例2,2017年8月1日、9月12日,广州天河体育馆举办大型体育赛事,体育中心站呈现不同强度的夜间高峰. 同时,选择与案例日期客流规律相近的正常样本作为参照,如图 2所示.
在本质上,客流异常变化源于各类事件对乘客出行行为的影响,映射到客流层面,表现形式往往复杂多变,加之各类影响因素对客流的耦合效应,使得传统的人工检测、阈值判别的识别方法难以应对复杂多变的现实环境,呈现出较高的误检率、漏检率. 由此,本文引入与客流数据特征相适应的深度学习方法,以提升异常识别的精细化、智能化水平.
2 客流异常状态识别方法图 3为客流异常状态识别流程图. 首先,建立考虑客流时变规律的滑动时间窗口机制,以追踪进站客流的动态变化;其次,基于深度学习模型实现对窗口内客流特征的提取与模式识别;然后,依据模式划分结果确定历史样本集范围,根据所获取的客流特征对样本的异常状态进行量化.
滑动时间窗口的长度是影响识别效果的重要因素. 当窗口长度较大时,包含充足的采样信息,但易导致判别滞后;当窗口长度较小时,对客流变化的感知更为细致,但易发生信息不足条件下的误判. 因此,窗口长度应与客流数据的时变规律相适应. 由于进站客流的变化具有时间关联性,故采用相关性分析方法挖掘历史客流的时变规律,以符合关联性约束的最大时间跨度作为窗口长度. 车站分时进站量的自相关性系数计算公式[18]为
$ \gamma_{s, d}^{u}=\frac{\sum\limits_{g=1}^{G-u}\left(Q_{s, d}^{g}-\bar{Q}_{s, d}\right)\left(Q_{s, d}^{g+u}-\bar{Q}_{s, d}\right)}{\sum\limits_{g=1}^{G}\left(Q_{s, d}^{g}-\bar{Q}_{s, d}\right)^{2}} , $ | (1) |
$ \bar{Q}_{s, d}=\frac{1}{G} \sum\limits_{g=1}^{G} Q_{s, d}^{g} . $ | (2) |
式中:γs, du为站点s于日期d中相隔u个时段分时进站量间的自相关系数;Qs, dg、Qs, dg+m分别为站点s于日期d中时段g、g+m的分时进站量;Qs, d为站点s于日期d的分时进站量均值;G为样本内的有效时段数.
以2018年广州地铁进站客流数据为样本集,将每日每站有效时段的15 min粒度进站量序列视为1条样本,根据式(1)、(2)逐阶计算自相关系数. 根据时间序列相关性检验基本原理,当样本服从γs, du≥0.5时,认为序列中间隔u个时段的进站量相关性显著,即可将相应时长划入同一窗口. 分别统计u取1~6时,符合γs, du≥0.5的样本比例,结果分别为99.51%,98.71%,92.19%,66.04%,15.98%和7.07%. 可见,进站客流的时间关联性显著;随着时间跨度增大,相关性逐渐降低. 当u增至3时,仍有90%以上的样本符合相关性约束,可认为当前时段与邻近的前3个时段具有较强相关性,故确定滑动窗口长度为60 min.
2.2 异常识别模型构建针对分钟进站量时间序列特征维数高、分类复杂度高的特点,为提升检测性能,在异常判定前对样本进行特征提取与模式划分处理. 采用预训练和微调相结合的训练机制,构建如图 4所示的DBN模型.
DBN模型自文献[19]提出后广泛用于模式识别领域. 具体地,DBN由受限玻尔兹曼机(restricted boltzmann machine, RBM)堆叠而成,RBM包含可视层V和隐含层H,层间采用全连接形式,层内无连接. 定义V层包含M个节点,即V=(v1, v2, ..., vm),H层包含N个节点,即H=(h1, h2, ..., hn). 对于一组给定状态的(v, h),RBM的能量为
$ E(v, h \mid \theta)=-\sum\limits_{m=1}^{M} b_{m}^{v} v_{m}-\sum\limits_{n=1}^{N} b_{n}^{h} h_{n}-\sum\limits_{m=1}^{M} \sum\limits_{n=1}^{N} w_{m n} v_{m} h_{n} . $ | (3) |
式中:θ=(wmn, bmv, bnh)是RBM的三类参数;wmn为节点vm与节点hn间的连接权值;bmv和bnh分别为vm和hn的偏置值.
在给定可视层节点状态时,隐含层节点hn的激活概率可表示为
$ P\left(h_{n}=1 \mid v\right)=\sigma\left(b_{n}^{h}+\sum\limits_{m=1}^{M} v_{m} w_{m n}\right), $ | (4) |
式中
同理,在给定隐含层节点状态时,可视层节点vm的激活概率为
$ P\left(v_{m}=1 \mid h\right)=\sigma\left(b_{m}^{v}+\sum\limits_{n=1}^{N} h_{n} w_{m n}\right). $ | (5) |
采用对比散度(k-step contrastive divergence)算法进行参数训练[20],权值与偏置的更新规则为
$ \Delta w_{m n}=\varepsilon\left[E\left(v_{m}, h_{n}\right)-{\bar E}\left(v_{m}, h_{n}\right)\right] , $ | (6) |
$ \Delta b_{m}^{v}=\varepsilon\left[P\left(v_{m}=1 \mid h\right)-P\left(h_{n}=1 \mid v\right)\right] , $ | (7) |
$ \Delta b_{n}^{h}=\varepsilon\left[P\left(h_{n}=1 \mid v\right)-P\left(v_{m}=1 \mid h\right)\right] . $ | (8) |
式中:ε为预训练阶段的学习率;E为样本数据的期望;E为重构后模型输出的样本期望.
顶端BP层作为一种有监督的分类器,根据预训练获取的隐含特征对样本进行类别划分,并通过误差反向传播微调DBN网络参数. 定义样本z于参数θ条件下的输出为f(z, θ),类别y∈{1, ..., i, ..., C},预测结果属于第i类的条件概率为
$ \begin{array}{*{20}{l}} {P(y = i\mid z) = {f_i}(z,\theta ),}\\ {{\rm{ s}}{\rm{.t}}{\rm{. }}\left\{ \begin{array}{l} {f_i}(z,\theta ) \in [0,1],\\ \sum\limits_{i = 1}^C {{f_i}} (z,\theta ) = 1. \end{array} \right.} \end{array} $ | (9) |
将fy(z, θ)视为真实类别y的似然函数,通过极大似然估计确定参数. 具体地,以最小化负的对数似然方法来确定参数,即交叉熵损失函数为
$ L[y, f(z, \theta)]=-\ln f_{y}(z, \theta). $ | (10) |
以独热编码向量y表示目标类别c,yi表示真实类别的分布,即仅存在yc=1,其余向量元素均取0,损失函数可表示为
$ L[y, f(z, \theta)]=-\sum\limits_{i=1}^{c} y_{i} \ln f_{y}(z, \theta). $ | (11) |
如前述客流长期处于动态变化之中,不存在绝对标准的正常样本,故根据样本间的相对分布界定异常状态. 因此,在获得DBN模型输出的样本特征和模式划分结果后,将待检样本与相同模式的历史样本映射至多维特征空间,以样本的特征向量为依据,进行如下基于密度的异常判定[17].
对于特征空间Φ中的任一客流样本p,定义k邻近距离dk(p)为p与距离p第k远的样本q间的欧式距离d(p, q),则q至少存在k个样本x, x∈Φ且x≠p,满足d(p, x)≤d(p, q);且存在至多k-1个样本不满足该条件. 基于此,定义p的第k距离邻域Fk(p)为到p距离在dk(p)以内的全部样本,即
$ {F_k}(p) = \{ x|d(p,x) \le {d_k}(p)\} . $ | (12) |
由此,样本p对于样本x的可达距离dkreach(p, x) 至少为x的第k邻近距离,可表示为
$ d_{k}^{\text {reach }}(p, x)=\max \left[d_{k}(x), d(p, x)\right]. $ | (13) |
进一步,计算样本p的局部可达密度φk(p),即p的第k邻域Fk(p)内样本点到p的平均可达距离dkreach(p, x)的倒数,即
$ \varphi_{k}(p)=\left[\frac{1}{\left|F_{k}(p)\right|} \sum\limits_{x \in F_{k}(p)} d_{k}^{\text {reach }}(p, x)\right]^{-1}, $ | (14) |
由此可得样本p的LOF值χk(p)的计算方法,计算公式为
$ \chi_{k}(p)=\frac{1}{\left|F_{k}(p)\right|} \sum\limits_{x \in F_{k}(p)} \frac{\varphi_{k}(x)}{\varphi_{k}(p)}. $ | (15) |
由式(15)可知,χk(p)为样本p邻域样本的局部可达密度与自身局部可达密度比的均值. 当一组样本的特征向量相等时,χk(p)=1;当χk(p)的取值越大于1,说明样本p的密度越小于其邻域样本密度,即p为异常的可能性越大.
3 案例分析 3.1 数据描述以2018年3月份至6月份广州地铁早高峰(7:00—9:00)的分钟进站量数据为实验对象. 在前3个月内,采集5 000条样本构成训练集,用于标定模型参数;在最后1个月内,采集1 000条样本构成测试集,用于检验模型精度. 经归一化处理,限制样本振幅于[0, 1],即实验所用的分钟进站量时间序列样本.
综合考虑采样时段客流特性、分类命中率以及异常识别准确率等因素,结合实验测试结果,建立样本标签体系见表 1,从客流的波动特性和变化趋势两个方面描述样本的形态特征,并采用数值规则与人工判别相结合的方式对样本集进行标注.
经实验测试,确定DBN模型参数如下:节点结构为{60-30-20-20-15-8},批训练的块大小取100,学习率取0.05,迭代轮次取120. 为评价模式划分效果,定义混淆矩阵H,其元素hij表示属于i类样本被划分到j类的数目,总体精度η表达式[21]为
$ \eta = \frac{1}{R}\sum\limits_{i = 1}^{\left| C \right|} {{h_{ii}}} , $ | (16) |
式中:|C|为类别数目,取12;R为测试样本数,
经统计,表 2为测试样本集的模式划分结果. 此外,对比传统反向传播神经网络以及二、三、四隐含层DBN的模式划分效果,取得的整体精度分别为83.1%,63.7%,92.5%和87.6%. 可见,三隐含层DBN的表现较优,也表明该模型能够在降低样本数据维度的同时,有效提取客流特征,为异常判定匹配合理的参考样本.
为全面检验异常识别方法的有效性,在测试集中正常样本的基础上,引入不同的干扰策略以模拟典型的客流异常状态,规则见表 3. 为直观展示异常识别过程,以测试集中的一组样本为例,按分钟进站量同步计算LOF值的变化情况,如图 5所示.
利用策略Ⅰ下的测试集测试此方法的误检率,利用策略Ⅱ、Ⅲ、Ⅳ和Ⅴ下的测试集测试此方法的准确率. 以训练集中97%可靠度下的LOF值控制限为标准,取反应时间为5 min. 具体地,对于策略Ⅰ,若任意连续5 min内LOF均值超出控制限,则认为发生误判;对于策略Ⅱ、Ⅲ、Ⅳ和Ⅴ,若干扰引入后5 min内LOF均值达到控制限,则认为识别准确. 测试集异常识别结果见表 4.
可见,识别效果与异常状态的形式和程度相关,且受到合格条件中反应时效要求的影响. 整体上,该方法的平均误检率为3.98%,对于4类策略下异常样本的平均识别准确率分别为87.53%、91.74%、92.07%和96.17%,能够在保证较低误检率的情况下,实现对各类异常状态的准确识别.
4 结论1) 通过分析分时进站量时间序列的自相关性,建立了与客流时变特性相适应的滑动时间窗口机制,确定最佳窗口长度为60 min,为异常状态动态识别奠定了基础.
2) 设计了解决待检样本特征提取与模式划分的DBN模型,确定了三隐层的模型结构,实现了精确率为92.5%的客流样本模式划分,为异常判定提供了精细化的样本分类结果.
3) 引入了4类干扰策略模拟客流的异常状态,通过计算时间窗口内待检样本的LOF值,实现了对各类异常状态的灵敏识别,平均准确率为91.9%,为城轨车站大客流预警提供了有效的解决方案.
[1] |
KABIR E, HU J, WANG H, et al. A novel statistical technique for intrusion detection systems[J]. Future Generation Computer Systems, 2018, 79: 303. DOI:10.1016/j.future.2017.01.029 |
[2] |
CHEN L, REN J, HAO Y, et al. The diagnosis for the extrasystole heart sound signals based on the deep learning[J]. Journal of Medical Imaging and Health Informatics, 2018, 8(5): 959. DOI:10.1166/jmihi.2018.2394 |
[3] |
WANG Y, LIU M, BAO Z, et al. Stacked sparse autoencoder with PCA and SVM for data-based line trip fault diagnosis in power systems[J]. Neural Computing and Applications, 2019, 31: 6719. DOI:10.1007/s00521-018-3490-5 |
[4] |
刘建强, 赵治博, 任刚, 等. 基于小波包分解和集合经验模态分解的列车转向架轴承智能故障诊断方法[J]. 铁道学报, 2015, 37(7): 40. LIU Jianqiang, ZHAO Zhibo, REN Gang, et al. An intelligent fault diagnosis method for bogie bearings of train based on wavelet packet decomposition and EEMD[J]. Journal of the China Railway Society, 2015, 37(7): 40. DOI:10.3969/j.issn.1001-8360.2015.07.007 |
[5] |
杨连报, 李平, 薛蕊, 等. 基于不平衡文本数据挖掘的铁路信号设备故障智能分类[J]. 铁道学报, 2018, 40(2): 59. YANG Lianbao, LI Ping, XUE Rui, et al. Intelligent classification of faults of railway signal equipment based on imbalanced text data mining[J]. Journal of the China Railway Society, 2018, 40(2): 59. DOI:10.3969/j.issn.1001-8360.2018.02.009 |
[6] |
徐田坤. 城市轨道交通网络运营安全风险评估理论与方法研究[D]. 北京: 北京交通大学, 2012 XU Tiankun. Study on risk assessment theory and methods on urban rail transit network operation[D]. Beijing: Beijing Jiaotong University, 2012 |
[7] |
李晓峰. 基于数据挖掘的城市轨道交通车站突发客流预测研究[D]. 北京: 北京交通大学, 2017 LI Xiaofeng. Research on forecast passenger flow bursted in urban rail station on data mining[D]. Beijing: Beijing Jiaotong University, 2017 |
[8] |
ALOTAIBI A, MAHMOOD A. Deep face liveness detection based on nonlinear diffusion using convolution neural network[J]. Signal Image and Video Processing, 2017, 11(4): 713. DOI:10.1007/s11760-016-1014-2 |
[9] |
SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2014, 22(4): 778. DOI:10.1109/TASLP.2014.2303296 |
[10] |
DENG W, WANG G, XU J. Piecewise two-dimensional normal cloud representation for time-series data mining[J]. Information Sciences, 2016, 374: 32. DOI:10.1016/j.ins.2016.09.027 |
[11] |
MURGUIA J S, ROSU H C, REYES L E, et al. Wavelet characterization of hyper-chaotic time series[J]. Revista Mexicana de Fisica, 2018, 64(3): 283. DOI:10.31349/RevMexFis.64.283 |
[12] |
赵瀚玮, 丁幼亮, 李爱群, 等. 大跨多线高速铁路钢桁拱桥车——桥振动安全预警研究[J]. 中国铁道科学, 2018, 39(2): 28. ZHAO Hanwei, DING Youliang, LI Aiqun, et al. Research on safety early warning of vehicle-bridge vibration for long-span multi-track steel-truss arch bridge of high speed railway[J]. China Railway Science, 2018, 39(2): 28. DOI:10.3969/j.issn.1001-4632.2018.02.04 |
[13] |
徐瑞华, 叶剑鸣, 潘寒川. 列车运行延误条件下城市轨道交通网络换乘站大客流预警方法[J]. 中国铁道科学, 2014, 35(5): 127. XU Ruihua, YE Jianming, PAN Hanchuan. Method for early warning of heavy passenger flow at transfer station of urban rail transit network under train delay[J]. China Railway Science, 2014, 35(5): 127. DOI:10.3969/j.issn.1001-4632.2014.05.18 |
[14] |
楚杨杰, 陈春红, 刘昭, 等. 道路交通拥堵自动检测的改进加州算法及仿真[J]. 数学杂志, 2012, 32(4): 740. CHU Yangjie, CHEN Chunhong, LIU Zhao, et al. Road traffic congestion automatic detection of improvement of the algorithm of California and the simulation[J]. Journal of Mathematics, 2012, 32(7): 740. |
[15] |
PUGGINI L, MCLOONE S. An enhanced variable selection and isolation forest based methodology for anomaly detection with OES data[J]. Engineering Applications of Artificial Intelligence, 2017, 67: 126. |
[16] |
AMRAEE S, VAFAEI A, JAMSHIDI K, et al. Abnormal event detection in crowded scenes using one-class SVM[J]. Signal, Image and Video Processing, 2018, 12: 1115. DOI:10.1007/s11760-018-1267-z |
[17] |
BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: identifying density-based local outliers[C]// Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: Association for Computing Machinery, 2000: 93
|
[18] |
谢俏, 李斌斌, 何建涛, 等. 基于非参数回归的城轨实时进出站客流预测[J]. 都市快轨交通, 2017, 30(2): 32. XIE Qiao, LI Binbin, HE Jiantao, et al. Real-time forecasting of entrance and exit passenger flows for urban rail transit station: a non-parametric regression approach[J]. Urban Rapid Rail Transit, 2017, 30(2): 32. DOI:10.3969/j.issn.1672-6073.2017.02.007 |
[19] |
HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527. DOI:10.1162/neco.2006.18.7.1527 |
[20] |
HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2014, 14(8): 1771. |
[21] |
吕启, 窦勇, 牛新, 等. 基于DBN模型的遥感图像分类[J]. 计算机研究与发展, 2014, 51(9): 1911. LV Qi, DOU Yong, NIU Xin, et al. Remote sensing image classification based on DBN model[J]. Journal of Computer Research and Development, 2014, 51(9): 1911. |