[0004] 本发明旨在解决以上现有技术的问题。提出了一种基于多目标回归的高速公路收费站车流量大数据预测方法。本发明的技术方案如下:
[0005] 一种基于多目标回归的高速公路收费站车流量大数据预测方法,其包括以下步骤:
[0006] 101.对历史车流量数据和天气数据进行包括清洗异常值在内的预处理操作;
[0007] 102.获取8点到10点累计20分钟的总车流量,对20分钟的总车流量求和作为对数据进行的打标操作;
[0008] 103.对数据进行特征工程构建操作从而得到最终的训练集和测试集,特征工程主要采用特征群的方法构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群;
[0009] 104.构建结合目标特定特征和目标相关性的多目标回归模型;在多目标回归模型中,需要对每个目标构建其特定特征从而更好地区别每个目标,但同时,目标间是存在相互关联的,所以需要考虑目标相关性关联每个目标,结合了目标特定特征和目标相关性才能更全面地学习到数据中所包含的信息;
[0010] 105.通过已建立的模型,根据收费站历史车流量数据、天气数据信息,预测8点到10点两小时每20分钟的车流量。
[0011] 进一步的,所述步骤101历史车流量数据包括收费站ID、收费站容量等级、收费站是否使用电子收费系统、车辆通过该收费站的方向、车辆通过该收费站的时间点、该车辆是客车还是货车,所述天气数据包括日期、小时、大气压、海平面压力、风向、风速、温度、相对湿度、降雨量。
[0012] 进一步的,所述步骤101预处理操作包括:
[0013] 对异常值进行清洗,国庆期间车流量明显增大,属于异常数据,删除国庆期间的样本.
[0014] 进一步的,所述步骤102累计20分钟的总车流量对数据进行打标操作,具体为累加8点到10点两小时每20分钟的车流量,构造6个目标。
[0015] 进一步的,所述步骤103特征工程构建包括构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群。
[0016] 进一步的,所述流量特征群包括:7天历史车流量、6点到8点的车流量,以及车流量的均值、方差、中位数、最值在内的统计特征;
[0017] 所述时间特征群包括:预测当天是周几,是否为周末,是当天的第几小时;
[0018] 所述天气特征群包括:大气压、海平面压力、风向、风速、温度、相对湿度、降雨量;
[0019] 所述离散特征群包括:收费站ID、车辆通过收费站的方向、当天是周几、当天的第几个小时进行one‑hot离散;
[0020] 所述交叉特征群包括:上述特征群的两两交叉,
[0021] 进一步的,所述步骤104构建一种结合目标特定特征和目标相关性的多目标回归模型,具体包括:
[0022] 给定训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},即
[0023]
[0024] 表示训练样本集D有n条样本,d维特征,6个目标;其中,(x1,y1)表示第1条样本,x1表示第1条样本的特征向量,y1表示第1条样本的目标向量,…,(xn,yn)表示第n条样本,xn表示第n条样本的特征向量,yn表示第n条样本的目标向量;
[0025] 原始特征矩阵X=(x1,x2,...,xn)T,即
[0026]
[0027] 其中xi=(xi1,xi2,...,xid)T表示第i个样本的原始特征,1≤i≤n;X·,j=(x1j,Tx2j,...,xnj) 表示第j个原始特征列,1≤j≤d;
[0028] 目标矩阵Y=(y1,y2,...,yn)T,即
[0029]
[0030] 其中yi=(流量i1,流量i2,…,流量i6)T表示第i个样本的目标,1≤i≤n;Y·,j=(流T量1j,流量2j,...,流量nj) 表示第j个目标列,1≤j≤6。
[0031] 进一步的,步骤104考虑目标特定特征的具体步骤为:
[0032] ①对原始特征进行归一化得到 构成归一化后的训练样本集 对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}
作为输入进行kmeans聚类,其中1≤j≤6,2≤K≤20。即从2到20之间找到最佳聚类簇数bestk;
[0033] ②对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,K=bestk。由此数据集Dj′被聚为bestk个类,即:
[0034]
[0035] 其中 1≤K≤bestk,表示第K个簇中特征归一化后的所有样本,对应的特征归一化前的所有样本表示为 X′K表示第K个簇中所
有样本归一化后的特征,对应的归一化前的原始特征则表示为XK;
[0036] ③对 进行kmeans聚类,聚为k类:
[0037]
[0038] 其中1≤K≤bestk,ratio是模型的参数,用以控制目标特定特征的规模,设定为0<ratio≤1,由此 进行kmeans聚类后得到k个中心点:
[0039] centersjK=(CjK1,CjK2,...,CjKk)T
[0040] 其中CjKq=(CjK1q,CjK2q,...,CjKdq)T表示DjK的第q个中心点,1≤q≤k[0041] 由此数据集Dj={(X,Y·,j)}就得到了s个中心点centersj,其中s=bestk*k,有[0042]
[0043] 即:
[0044]
[0045] 简化为
[0046]
[0047] ④对于数据集Dj={(X,Y·,j)},计算X与centersj的欧式距离得到s个目标特定特sp sp sp sp T征X j=(x j1,x j2,...,x jn) ;
[0048] 第i个样本的目标特定特征为xspji=(xspji1,xspji2,...,xspjia)T,对于其第t个分量,即第i个样本的第t个目标特定特征值,有
[0049]
[0050] 其中1≤i≤n,1≤t≤s。Cjtd表示第j个目标的第t个聚类中心点的第d个元素;
[0051] 进一步的,步骤104训练过程所述考虑目标间相关性的具体步骤为:
[0052] ①对数据集Dj={(X,Y·,j)},训练模型fj(X)≈Y·,j。其中1≤j≤6;
[0053] ②计算Y·,j与Y·,~j的相关性,给定阈值tkreshold,算出与Y·,j的相关性大于threshold的目标值集合Y·,c,即
[0054] Y·,c={y|corr(Y·,j,Y·,~j)>threshold}
[0055] 其中threshold=0.7。
[0056] ③调用模型fj,得到Y·,c的预测值矩阵为
[0057] 进一步的,所述结合目标特定特征和目标间相关性的具体步骤为:
[0058] 对数据集Dj={(X,Y·,j)},训练模型
[0059] 对新样本xnew=(xnew1,xnew2,...,xnewd)T,首先根据中心点centersj算出其目标特定特征,即
[0060] xnewspj=(xnewspj1,xnewspj2,...,xnewspjd)T
[0061] 对于其第t个分量,即第t个目标特定特征值,有
[0062]
[0063] 其中1≤i≤n,1≤t≤s;
[0064] 再调用模型fj,得到Y·,c的预测值矩阵为
[0065] 最后调 用模 型fj ′,得到新 样本xnew的 第j个目标的预 测值 为
[0066] 本发明的优点及有益效果如下:
[0067] 本发明弥补了传统机器学习算法无法完全考虑到多个目标,也就是多个时段车流量的差异以及关联的问题。突出的创新点在于:
[0068] ①采用分特征群的方式提取特征,使特征提取得更全面;
[0069] ②预测收费站车流量时考虑到了天气因素,更符合现实场景,使预测更为准确;
[0070] ③提出一种多目标回归算法,更好地解决了多个时段车流量的预测问题;
[0071] ④提出的多目标回归算法同时考虑到了目标特定特征和目标间关联性,很好地学习到了目标间的差异以及联系;
[0072] ⑤现有方法对于每个目标都使用同一套特征,本发明通过无监督学习,对每个目标进行划分,找到每个目标下每个划分的代表性样本点,从而通过计算原始样本与代表性样本点的距离找到每个目标的特定特征;
[0073] ⑥现有方法未考虑到目标间的相关性,本发明通过计算相关系数,找到了每个目标相关的目标预测值,进一步挖掘出了数据所包含的信息。