多源非平衡交通检测数据的异常识别方法

引用本文

邢雪, 于德新, 周户星, 田秀娟. 多源非平衡交通检测数据的异常识别方法[J]. 哈尔滨工业大学学报, 2019, 51(9): 165-170. DOI: 10.11918/j.issn.0367-6234.201803092.

XING Xue, YU Dexin, ZHOU Huxing, TIAN Xiujuan. A method of abnormal data recognition of multi-source traffic with non-equilibrium feature[J]. Journal of Harbin Institute of Technology, 2019, 51(9): 165-170. DOI: 10.11918/j.issn.0367-6234.201803092.

基金项目

国家科技支撑计划(2014BAG03B03)

作者简介

邢雪(1983—)，女，博士研究生;
于德新(1972—)，男，教授，博士生导师

通信作者

邢雪, patricia_xx@126.com

文章历史

收稿日期: 2018-03-28

Abstract Full text Figures/Tables PDF

多源非平衡交通检测数据的异常识别方法

邢雪^1,2, 于德新^2,3, 周户星^2,3, 田秀娟²

1. 吉林化工学院信息与控制工程学院，吉林吉林 132022;
2. 吉林大学交通学院，长春 130022;
3. 吉林省智能交通工程研究中心，长春 13002

收稿日期: 2018-03-28

基金项目: 国家科技支撑计划(2014BAG03B03)

作者简介: 邢雪(1983—)，女，博士研究生; 于德新(1972—)，男，教授，博士生导师

通信作者: 邢雪, patricia_xx@126.com

摘要: 为保证交通检测数据的准确性并服务于实时的交通状态判别和预测，交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中，为消除单一检测源数据的离群现象，训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中，通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本，增强了AdaBoost决策过程中训练决策树规则的代表性，提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标，其中改进模型与原模型相比，准确率提高了5.547%，误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高，可有效调整由非平衡数据导致的分类误差.

关键词: AdaBoost 数据异常识别多源交通数据非平衡检测数据机器学习

A method of abnormal data recognition of multi-source traffic with non-equilibrium feature

XING Xue^1,2, YU Dexin^2,3, ZHOU Huxing^2,3, TIAN Xiujuan²

1. College of Information and Control Engineering, Jilin Institute of Chemical Technology, Jilin 132022, Jilin, China;
2. Transportation College, Jilin University, Changchun 132002, China;
3. Jilin Engineering Research Center for Intelligent Transportation System, Changchun 132002, China

Abstract: The identification and prediction of real-time traffic conditions rely on data processing. Abnormal data recognition in traffic big data uses machine learning methods with multi-source traffic to ensure the accuracy of traffic detection data. The recognition of anomaly detection data is based on AdaBoost method in machine learning. To eliminate the outlier phenomenon of the single detection source data, the training dataset of the training process selected datasets provided by multiple detection sources on the same road section. The cost-sensitive method optimizes the decision-making process of the improved algorithm. Experimental results show that the improved AdaBoost model forced the classifier to pay more attention to abnormal class samples, which enhanced the representation of training decision tree rules in the AdaBoost and improved the classification accuracy of abnormal samples. The highway test dataset verified the detection accuracy, false detection rate, false alarm rate, and other indicators of the improved algorithm and related classical algorithms. The accuracy rate of the improved algorithm was increased by 5.547%, and the false detection rate was reduced by 6.792%. The comparison of ROC curves shows that the improved AdaBoost method is more reliable in identifying abnormal samples of traffic detection and can effectively adjust the classification error caused by non-equilibrium data.

Keywords: AdaBoost abnormal data recognition multi-source traffic data non-equilibrium detection data machine learning

交通状态信息的采集可以通过磁频、波频、视频和安装在车内GPS等移动定位设备等技术来完成，另外基于RFID技术和手机信令技术也可以起到补充采集作用，因而交通领域产生了大量时空数据集.为进行高效的交通状态识别^[1-2]和预测^[3-4]，需要掌握精准的交通实时数据，获取交通感知数据集的过程中会出现离群数据^[5-6]，即所得交通信息数据里存在部分数据，与其他数据相比较明显不一致.离群数据产生的主要原因：1)采集周期较短；2)采集设备不够完善；3)检测数据的传输错误；4)环境因素突变造成.在交通状态判别流程若忽略离群数据的存在，将导致无意义的离群数据和交通事件的重要隐含信息混在一起.为保障交通事件的评判精度性和预测交通态势的时效性，有效地通过多维数据特征在数据集中剥离出离群数据，已成为交通信息处理中所面临的基本问题.对于交通检测动态数据的识别，文献[7-8]利用阈值法对交通中异常数据进行筛选和识别，文献[9-10]则针对交通管理系统中出现的缺失数据提出组合参数识别法.最近几年不少国内学者将动态交通数据中的离群数据分为错误数据和不精确数据，并运用交通流理论建立数据的判别规则.文献[11]利用粗糙集-模糊识别技术对交通数据预处理后进行状态识别.文献[12-13]以多源检测数据预处理方法为基础实现交通评价.文献[14-15]提出灰色理论和近邻聚类方法处理具有异常数据的交通流数据.本文针对交通数据检测中无意义的离群数据，结合先进的机器学习方法，在准确度高、运算速度快的迭代分类算法AdaBoost的基础上，利用代价敏感方法的优势，提出了一种基于AdaBoost优化决策的筛选离群样本的方法.

1 检测离群数据的决策树构建 1.1 AdaBoost的基本理论

AdaBoost分类器是机器学习中比较流行的分类算法^[16]，在给定特征空间X和分类标识y∈{+1, －1}，AdaBoost的核心思想是针对同一个训练集训练不同的弱分类器h_t(x), 其中x∈X，然后组合这些弱分类器形成强分类器H(x)，即

$ H(x) = {\mathop{\rm sign}\nolimits} (f(x)) = {\mathop{\rm sign}\nolimits} \left( {\sum\limits_{t = 1}^T {{\alpha _t}} {h_t}(x)} \right). $

(1)

从一个包含n个元素的训练集{x_i}开始，对每个元素分类.通过每轮弱分类器h_t(x)的分类结果为训练集元素分配权重D_t(x).每轮学习根据分类和权重选择最优的弱分类器h_t(x)，一旦弱分类器选定即可获取通过分类标识y_t与分类器结果h_t确定本轮的优度系数a_t，同时根据系数a_t更新的权值分配D_t(x).最后通过不断迭代训练T次之后完成强分类器H(x)分类过程.

1.2 适应交通数据特征的模型

模型需要整个数据集被分为两个部分，一个训练集和一组测试集，前者用于构建模型，后者用于测试模型的检测能力.首先将选定数据集随机分成训练集和测试集，并对训练集数据进行多次迭代分类；之后不断利用训练集的分类结果对训练集元素进行权重的变化；更新迭代分类中的权重系数，在有限次的训练后完成强分类的组合，其中在本研究中弱分类器选用决策树分类器.

在交通检测数据集中，每个交通检测点数据可获取大量感知数据即由多种检测源的数据组成，假设有n个数据源，每个数据源均通过多个交通参数对检测对象进行描述，则每个时段均能得到一组多源感知数据.为分析道路截面检测器采集的数据方便，提取数据集中常用的3种检测来源(感应线圈数据、地磁数据、卡口数据)的数据，提取其中交通流参数即流量、速度以及占有率进行数据分析，为异常识别数据某采集时间某检测器的交通参数，例如异常识别数据采集时间t_i感应线圈得到交通流量q_Ci、地点平均速度v_Ci、时间占有率o_Ci，则另需提取空间相关的其他检测器数据.根据上述分析交通特征选择属性分别为交通数据采集时间t_i，感应线圈得到交通流量q_Ci，感应线圈得到地点平均速度v_Ci，感应线圈得到时间占有率o_Ci，地磁得到交通流量q_Ui，地磁得到地点平均速度v_Ui，地磁得到时间占有率o_Ui，卡口数据交通流量q_Ki，卡口数据地点平均速度v_Ki，卡口数据时间占有率o_Ki，交通数据质量标志y_i，i=1, 2, …, n，其中y_i取值属于{+1, －1}，表示由检测数据集评判的数据信息为正常数据或是离群数据的判决标签.

根据上述交通数据属性，确定交通检测数据特征空间X的特征数为10，给定自变量数据集合X和数据变量Y的矩阵分别描述为

$ \begin{array}{l} \mathit{\boldsymbol{X}} = \left[ {\begin{array}{*{20}{l}} {{x_1}}&{{x_2}}& \cdots &{{x_{10}}} \end{array}} \right] = \\ \left[ {\begin{array}{*{20}{c}} {{t_1}}&{{q_{C1}}}&{{v_{C1}}}&{{o_{C1}}}&{{q_{U1}}}&{{v_{U1}}}&{{o_{U1}}}&{{q_{K1}}}&{{v_{K1}}}&{{o_{K1}}}\\ {{t_2}}&{{q_{C2}}}&{{v_{C2}}}&{{o_{C2}}}&{{q_{U2}}}&{{v_{U2}}}&{{o_{U2}}}&{{q_{K2}}}&{{v_{K2}}}&{{o_{K2}}}\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ {{t_n}}&{{q_{Cn}}}&{{v_{Cn}}}&{{o_{Cn}}}&{{q_{Un}}}&{{v_{Un}}}&{{o_{Un}}}&{{q_{Kn}}}&{{v_{Kn}}}&{{o_{Kn}}} \end{array}} \right], \end{array} $

(2)

$ \boldsymbol{Y}=\left[\begin{array}{llll}{y_{1}} & {y_{2}} & {\cdots} & {y_{n}}\end{array}\right]^{\mathrm{T}}. $

(3)

式中：X_i为一组数据单元，n为选择输入样本的样本数目；y_i∈{+1, -1}为对应数据异常识别的结果.

2 交通数据检测改进模型 2.1 实时交通检测数据中离群数据特征

道路交通检测器获取的数据包含交通数据采集时间、检测器所属类型、流量、地点平均速度、时间占有率等数据属性.以下3种情况表现为实时道路数据的离群表象：1)道路交通状态检测获取的数据值与实际道路交通状态值偏离较大；2)获取的道路交通状态数据为错误数据，超出了道路交通状态值的合理范围或违背了道路交通的相关规律；3)道路交通状态为异常状态，导致数据出现偏离常规数据趋势.本文分析了提取到的山东高速公路2014年11月5日在同一截面165个时间点的3类交通检测器的数据，图 1为对相同路段的多源参数(以流量、地点平均速度、时间占有率三参数确定数据点位置)综合散点图.分析数据可知，一方面交通状态的异常性体现为多检测源的同时或相邻时段内的同步异常；另一方面通过数据对比发现存在不符合交通状态的离群样本存在，且数目明显少于其他类样本的数目(非平衡数据)^[17].针对交通数据多源同步特性，通过多源交通数据特征剥离出离群数据而不影响交通异常状态数据分析，从而有效保障交通事件的评判度和预测交通态势的效率.

图 1 对相同路段检测时间序列的多源综合散点图 Fig. 1 Scatterplot of multi-source parameters data in the same section

2.2 针对交通数据异常识别的改进AdaBoost模型

交通数据中非平衡数据的识别具有现实意义，而数据稀缺和极端值可导致AdaBoost分类方法性能下降，基于此问题本文提出通过在弱分类器中侧重少数类样本赋予更大的权重，避免由于原训练集中的少数类数据量较少，导致训练得到的决策树规则没有代表性的缺点，迫使分类器更加关注少数类样本，提高少数类样本的分类准确率，从而能够很好地解决非平衡数据集分类问题，这样就迫使最终强分类器对少数类样本具有更高的准确率.由于AdaBoost算法中指数误差界没有任何直接依赖分类，所以之后的文献^[18-19]主要针对分类非对称(class-conditional)直接修改权重更新规则.更新规则是在错误的结果约束极小化过程中，这些变化是真正影响的理论属性而AdaBoost演算本身无法保证.针对非平衡数据特性提高分类代价敏感度，描述为

$ \begin{array}{l} J(f) = E\left( {[y = 1]{{\rm{e}}^{ - {C_{\rm{P}}}f\left( {{x_i}} \right)}} + [y = - 1]{{\rm{e}}^{ - {C_{{\rm{N}}f\left( {{x_i}} \right)}}}}} \right), \\ f(x) = \frac{1}{{{C_{\rm{P}}} + {C_{\rm{N}}}}}\log \frac{{{C_{\rm{P}}}P(y = 1|x)}}{{{C_{\rm{N}}}P(y = - 1|x)}}. \end{array} $

式中C_P和C_N表示对于正类和负类错误分类的代价.

为了清晰描述改进AdaBoost模型，给定N为训练集(X, Y)中个体数目，其中训练集每个(x_i, y_i)的y_i表示为

$ y_{i}=\left\{\begin{aligned} 1, & 1 \leqslant i \leqslant m; \\-1, & m <i \leqslant n .\end{aligned}\right. $

针对交通离群数据的改进AdaBoost模型训练过程如下.

步骤1 对原始训练集上的样本，给定每个分类初始分布为

$ D(i)=\left\{\begin{array}{ll}{\frac{1}{2(n-m)}, } & {1 \leqslant i \leqslant m}; \\ {\frac{1}{2 m}, } & {m <i \leqslant n}.\end{array}\right. $

步骤2 初始化循环轮数t=1.

步骤3 计算

$ \begin{array}{*{20}{l}} {{T_{\rm{P}}} = \sum\limits_{i = 1}^m D (i), }\\ {{T_{\rm{N}}} = \sum\limits_{i = m + 1}^n D (i).} \end{array} $

步骤4 初始化分类器变量f=1.

步骤5 在第f个弱分类器h_f(X)中计算

$ D(i) = \left\{ {\begin{array}{*{20}{l}} {\sum\limits_{i = 1}^m D (i)\left\| {{y_i} \ne {h_f}\left( {{x_i}} \right)} \right\|;}\\ {\sum\limits_{i = m + 1}^n D (i)\left\| {{y_i} \ne {h_f}\left( {{x_i}} \right)} \right\|}. \end{array}} \right. $

步骤6 计算满足等式的α_{t, f}，满足的假设为

$ \begin{array}{l} 2{C_{\rm{P}}}B\cosh \left( {{C_{\rm{P}}}{\alpha _{t, f}}} \right) + 2{C_{\rm{N}}}D\cosh \left( {{C_{\rm{N}}}{\alpha _{t, f}}} \right) = \\ {C_1}{T_{\rm{P}}}{{\rm{e}}^{ - {C_{\rm{P}}}{\alpha _t}f}} + {C_2}{T_{\rm{N}}}{{\rm{e}}^{ - {C_{\rm{N}}}{\alpha _{t, f}}}}. \end{array} $

步骤7 计算弱学习器的损失为

$ \begin{array}{l} {L_{t, f}} = B\left( {{{\rm{e}}^{{C_{\rm{P}}}{\alpha _{t, f}}}} - {{\rm{e}}^{ - {C_{\rm{P}}}{\alpha _{t, f}}}}} \right) + {T_{\rm{P}}}{{\rm{e}}^{ - {C_{\rm{P}}}{\alpha _{t, f}}}} + \\ D\left( {{{\rm{e}}^{{C_{\rm{N}}}{\alpha _{t, f}}}} - {{\rm{e}}^{ - {C_{\rm{N}}}{\alpha _{t, f}}}}} \right) + {T_{\rm{N}}}{{\rm{e}}^{ - {C_{\rm{N}}}{\alpha _{t, f}}}}, \end{array} $

式中C_P和C_N为代价参数.

步骤8 累计f=f+1，若f≤F，重复步骤5.

步骤9 在本轮中比较得到最小损失的弱分类器$\left( {{h_t}(X), {\alpha _t}(X)} \right) $为$ \mathop {{\rm{argmin}}}\limits_f {\rm{ }}\left[ {{L_{t,f}}} \right]$.

步骤10 更新D(i)权重为

$ D(i) = \left\{ {\begin{array}{*{20}{l}} {D(i){{\rm{e}}^{ - {C_{\rm{P}}}{\alpha _t}{h_t}\left( {{X_i}} \right)}},}&{1 \le i \le m;}\\ {D(i){{\rm{e}}^{{C_{\rm{N}}}{\alpha _t}{h_t}\left( {{X_i}} \right)}},}&{m < i \le n.} \end{array}} \right. $

步骤11 累计t=t+1，若t≤T，重复步骤3.

步骤12 确定的分类器为

$ H(x) = {\mathop{\rm sign}\nolimits} (f(x)) = {\mathop{\rm sign}\nolimits} \left( {\sum\limits_{t = 1}^T {{\alpha _t}} {h_t}(x)} \right), $

式中h_t(x)为弱分类器联合.

评估数据异常识别算法功能性能时，选用检测准确度D_acc、误检率R_FP和误警率R_FN指标来衡量，计算公式分别为

$ D_{\mathrm{acc}}=\frac{N_{\mathrm{CN}}+N_{\mathrm{CG}}}{N_{\mathrm{CN}}+N_{\mathrm{CG}}+N_{\mathrm{EN}}+N_{\mathrm{EG}}}, $

(4)

$ R_{\mathrm{FP}}=\frac{N_{\mathrm{EN}}}{N_{\mathrm{CG}}+N_{\mathrm{EN}}}, $

(5)

$ R_{\mathrm{FN}}=\frac{N_{\mathrm{EG}}}{N_{\mathrm{EG}}+N_{\mathrm{CN}}}. $

(6)

式中N_CN为检测出的交通离群样本数目；N_EG为未检测出的交通离群样本数目；N_CG为检测出的一般交通样本数目；N_EN为未检测出的一般交通样本数目.

给定概率代价函数F_PC和标准期望代价E_c的定义，概率代价函数主要采用检测样本的先验概率、检测样本数和未检测出的样本数来联合定义，描述为

$ F_{\mathrm{PC}}=\frac{p(+) N_{\mathrm{EG}}}{p(+) N_{\mathrm{EG}}+p(—) N_{\mathrm{CG}}}, $

式中p(+)和p(－)为检测出交通离群样本和检测出的一般交通样本的先验概率.

标准期望代价E_c表示为

$ E_{\mathrm{c}}=N_{\mathrm{CG}} \cdot F_{\mathrm{PC}}+N_{\mathrm{EG}}. $

3 实验结果与分析 3.1 实验数据采集

为了检验改进AdaBoost模型的实际应用性能，首先对提出的模型和相关经典算法在随概率代价函数变化下各个指标进行对比，指标包括检测准确度、误检率、误警率和标准期望代价等.研究选取了山东高速公路检测数据集中2014年11月5日13个监测点的感应线圈数据、地磁数据和卡口数字化处理后数据进行检测器数据异常识别，采集数据集的特征描述见表 1.

表 1 不平衡采集数据集的特征描述 Tab. 1 Properties description of the non-equilibrium datasets

3.2 实验数据分析

本实验针对检测准确度、误检率、误警率和标准期望代价指标分析不同方法在高速公路检测数据集的异常识别效果.比较济北站数据集和高塘站数据集的实验结果，图 2为基于高速公路检测数据集(济北站)在改进AdaBoost方法、AdaBoost方法和Bayes方法中检测指标对比图, 图 3为基于高速公路检测数据集(高唐站)在改进AdaBoost方法、AdaBoost方法和Bayes方法中检测指标对比图.图 2、3中均以概率代价函数F_PC为横坐标比较各检测指标，其中图 2(a)、3(a)表示误检率R_FP随概率代价函数的变化曲线，图 2(b)、3(b)表示误警率R_FN随概率代价函数的变化曲线，图 2(c)、3(c)表示分类错误率1-D_acc随概率代价函数的变化曲线，图 2(d)、3(d)表示标准期望代价E_c随概率代价函数的变化曲线.本实验使用不同方式的训练构造决策规则，对相同数据集分类中，不同算法效果相差明显；而对于不通数据集综合，相同算法的特征可以延续.首先对相同数据集分析，在图 2对比Bayes方法、AdaBoost方法和改进的AdaBoost方法体现的R_FP、R_FN指标曲线中，AdaBoost方法和改进的AdaBoost方法性能接近并明显优于Bayes方法，而3种方法在图 2(d)的E_c中差别不大.同理在图 3中对比Bayes方法、AdaBoost方法和改进的AdaBoost方法体现的R_FP、R_FN指标曲线中，在图 3(b)、3(c)中改进的AdaBoost方法略优于AdaBoost方法，并明显优于Bayes方法，而3种方法在图 3(d)的E_c中差别不明显.另一方面综合两个组数据指标曲线可以发现，对图 2和图 3实例验证的检测数据集，随着数据集规模的加大，改进的AdaBoost方法在1-D_acc、R_FP两个指标上优于AdaBoost方法，前者比后者平均低5.547%和6.792%.其原因是分类样本例的比例不均衡，AdaBoost侧重考虑非均衡的数据特性，被错误分类的离群数据降低了检出率，而改进的AdaBoost算法整体的误检率降低，充分体现了算法中引入代价参数针对性地提高了检测准确性.另外研究通过ROC曲线表征比较各类方法的检测性能，如图 4采用ROC曲线全面评价各类识别方法的优劣，以误检率R_FP为横轴，以检出率(1-R_FN)为纵轴，从曲线变化可以看出改进的AdaBoost方法明显优于其他算法，ROC曲线比较更为直观全面.

图 2 基于高速公路检测数据集(济北站)检测指标对比 Fig. 2 Detection index comparisons of highway detection dataset (Jibei Station)

图 3 基于高速公路检测数据集(高唐站)检测指标对比 Fig. 3 Detection index comparisons of highway detection dataset (Gaotang Station)

图 4 改进的AdaBoost与其他算法的ROC曲线图 Fig. 4 Comparison of ROC curves between the improved AdaBoostalgorithm and other algorithms

4 结论

1) 针对交通检测数据中非平衡的离群数据剥离数据集的问题，提出了具有针对性的交通检测数据异常识别模型.该改进模型保留原始AdaBoost算法中训练加权优势；另外模型引入代价敏感方法来强化非平衡特性，改进AdaBoost的决策过程.模型避免了非平衡检测数据导致的分类性能下降问题.

2) 实例数据验证模型的D_acc、R_FP、R_FN和E_c等指标，并利用ROC曲线全面评价提出模型的优劣，实验结果表明改进的AdaBoost方法在1-D_acc、R_FP两个指标上优于AdaBoost方法，前者比后者平均低5.547%和6.792%，采用改进的AdaBoost筛选交通检测样本可提供一个可靠度更高的分类筛选结果，有效调整了非平衡数据导致的分类误差.

3) 比较改进算法与其他相关模型的适用性，采用分类指标评价本方法的优劣.实验表明针对交通检测数据集的离群数据提出的改进AdaBoost方法可以减少测试误检率.然而本算法以非均衡的高速公路交通数据样本集为研究的出发点，所以本方法对检测数据集有一定的限制，进一步的研究重点将集中在改善方法的局限性上面.

参考文献

[1]	黄艳国, 许伦辉, 邝先验. 基于模糊C均值聚类的城市道路交通状态判别[J]. 重庆交通大学学报(自然科学版), 2015, 34(2): 102. HUANG Yanguo, XU Lunhui, KUANG Xianyan. Urban road traffic state identification based on fuzzy C-mean clustering[J]. Journal of Chongqing Jiaotong University (Natural Science), 2015, 34(2): 102.
[2]	吴志勇, 丁香乾, 鞠传香. 一种基于深度学习的离散化交通状态判别方法[J]. 交通运输工程与信息学报, 2017, 17(5): 129. WU Zhiyong, DING Xiangqian, JU Chuanxiang. A method of discrete traffic state identification based on deep learning[J]. Journal of Transportation Engineering and Information, 2017, 17(5): 129. DOI:10.16097/j.cnki.1009-6744.2017.05.018
[3]	邴其春, 龚勃文, 杨兆升, 等. 一种组合核相关向量机的短时交通流局域预测方法[J]. 哈尔滨工业大学学报, 2017, 49(3): 144. BING Qichun, GONG Bowen, YANG Zhaosheng, et al. A short-term traffic flow local prediction method of combined kernel function relevance vector machine[J]. Journal of Harbin Institute of Technology, 2017, 49(3): 144.
[4]	邢雪, 于德新, 田秀娟, 等. 基于数据挖掘的高速公路行程时间预测[J]. 华中科技大学学报(自然科学版), 2016, 44(8): 36. XING Xue, YU Dexin, TIAN Xiujuan, et al. Freeway travel time prediction based on clustering method with data mining[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2016, 44(8): 36. DOI:10.13245/j.hust.160808
[5]	陈淑燕, 王炜, 瞿高峰. 服务于智能交通系统的离群交通数据识别[J]. 东南大学学报(自然科学版), 2008, 38(4): 723. CHEN Shuyan, WANG Wei, QU Gaofeng. Outlier detection in traffic data sets serving for intelligent transportation system[J]. Journal of Southeast University (Natural Science Edition), 2008, 38(4): 723. DOI:10.3321/j.issn:1001-0505.2008.04.035
[6]	XING Xue, YU Dexin, ZHANG Wei. Data calibration based on multisensor using classification analysis: a random forests approach[J]. Mathematical Problems in Engineering, 2015, 2015(708467): 1. DOI:10.1155/2015/708467
[7]	NAM D H, DREW D R. Traffic dynamics: method for estimating freeway travel times in real time from flow measurements[J]. Journal of Transportation Engineering, 1996, 3: 185.
[8]	陈淑艳, 王炜, 李文勇. 实时交通数据的噪声识别和消噪方法[J]. 东南大学学报(自然科学版), 2006, 36(2): 322. CHEN Shuyan, WANG Wei, LI Wenyong. Noise recognition and noise reduction of real time traffic data[J]. Journal of Southeast University (Natural Science Edition), 2006, 36(2): 322. DOI:10.3321/j.issn:1001-0505.2006.02.030
[9]	VANAJAKSHI L, RILETT L R. Loop detector data diagnostics based on conservation of vehicles principle[J]. Transportation Research Record, 2004, 1870: 162. DOI:10.3141/1870-21
[10]	SMITH B L, SCHERER W L, CONKLIN J H. Exploring imputation techniques for missing data in transportation management systems[J]. Transportation Research Record: Journal of the Transportation Research Board, 2003, 1836: 132. DOI:10.3141/1836-17
[11]	蒲世林, 李瑞敏, 史其信. 基于粗糙集-模糊识别技术的交通流状态识别算法研究[J]. 武汉理工大学学报(交通科学与工程版), 2010, 34(6): 154. PU Shilin, LI Ruimin, SHI Qixin. Study on auto-identification algorithm of traffic flow state based on rough set and fuzzy theory[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2010, 34(6): 154.
[12]	LIN Dayang, STEVEN B, VARUNRAJ V, et al. Reliability assessment for traffic data[J]. Journal of the Chinese Institute of Engineers, 2012(35): 285. DOI:10.1080/02533839.2012.655466
[13]	MORGUL E F, OZBAY K, IYER S, et al. Commercial vehicle travel time estimation in urban networks using GPS data from multiple sources[C]// Transportation Research Board 92nd Annual Meeting. Washington DC: Transportation Research Board, 2013: 13
[14]	郭敏, 蓝金辉, 李娟娟, 等. 基于灰色残差GM(1, N)模型的交通流数据恢复算法[J]. 交通运输系统工程与信息, 2012, 12(1): 42. GUO Min, LAN Jinhui, LI Juanjuan, et al. Traffic flow data recovery algorithm based on gray residual GM(1, N) model[J]. Journal of Transportation Engineering and Information, 2012, 12(1): 42. DOI:10.16097/j.cnki.1009-6744.2012.01.019
[15]	章渺.高速公路基本路段实时交通状态识别方法[D].西安: 长安大学, 2017 ZHANG Miao. Research on method of highway basic section real-time traffic status identification[D]. Xi'an: Chang'an University, 2017 http://cdmd.cnki.com.cn/Article/CDMD-11941-1011185489.htm
[16]	张亮, 李智星, 王进. 基于动态权重的AdaBoost算法研究[J]. 计算机应用研究, 2017(11): 1. ZHANG Liang, LI Zhixing, WANG Jin. Research on dynamic weights based AdaBoost[J]. Application Research of Computers, 2017(11): 1. DOI:10.3969/j.issn.1001-3695.2017.11.007
[17]	郭乔进, 李立斌, 李宁. 一种用于不平衡数据分类的改进AdaBoost算法[J]. 计算机工程与应用, 2008, 44(21): 217. GUO Qiaojin, LI Libin, LI Ning. Novel modified AdaBoost algorithm for imbalanced data classification[J]. Computer Engineering and Applications, 2008, 44(21): 217. DOI:10.3778/j.issn.1002-8331.2008.21.059
[18]	MASNADI S H, VASCONCELOS N. Cost-sensitive boosting[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 33: 294. DOI:10.1109/tpami.2010.71
[19]	SUN Y, KAMEL M, WONG A, et al. Cost-sensitive boosting for classification of imbalance data[J]. Pattern Recognition, 2007, 40: 3358. DOI:10.1016/j.patcog.2007.04.009