[0003] 本发明的目的是对流程工业系统中关键指标进行预测,针对流程工业数据变量的复杂关联性以及变量选择中的基于知识手动选择变量的方法的局限性,考虑到流程工业生产过程的时滞性及基于数据建模方法的优越性,提出了一种基于交叉相关性时滞灰色关联分析的流程工业系统预测模型。本发明解决其技术问题所采用的技术方案是:
[0004] 步骤1:计算各候选变量与目标变量之间的相关联度;
[0005] 从流程工业企业的监控与数据采集系统中获取被预测的指标以及与被预测的指标相关的同一时段连续的特征变量,特征变量即为时间序列;考虑工业生产过程变量间的非线性和时滞性以及数据采集的方式,在对采集数据进行误差消除后,用基于交叉相关性时滞计算的方法确定目标变量与候选变量的相对延迟时间,并将延迟时间作为输入参数引入到考虑延时的灰色关联分析法中分别计算各候选变量与目标变量之间的相关联度。通过各变量与指标的逐一分析并以绝对关联度的降序方式对变量进行排序,与关联度阈值比较,最终得到变量集合S={s(1),s(2),...,s(n)}。
[0006] 具体方法和相关公式如下:
[0007] 1.1消除显著误差以及随机误差。
[0008] 首先消除显著误差,设实测数据x1,x2,...,xn的均值 偏差为显著误差判别条件如下:
[0009]
[0010] 若某一实测数据的xi偏差vi大于δ,则认为该点是显著误差点,应剔除。
[0011] 然后消除随机误差,采用一阶数据平滑过滤法消除数据中的随机误差,具体数学表达式如下:
[0012] yi=Pyi‑1+Qxi+1+(1‑P‑Q)xi
[0013] 式中,yi表示当前时刻的处理值;yi‑1表示前一时刻的处理值;xi+1表示下一时刻的实测值;P,Q为加权参数,并且需满足P+Q<1。
[0014] 最后将所有剔除的数据用样本数据的平均值补偿。
[0015] 1.2交叉相关法计算时滞。
[0016] 设有m个候选变量X1,X2…,Xm,目标变量为Y,变量的采样周期为T;计算Y(t)和候选变量Xi(t+l)间的相对时滞。采集到的样本分别为:Y(t)和Xi(t+l),t=0…N,其中t为采样时刻,N为最大滞后步长,l为时间窗长度;那么Xi(t+l)相对于Y(t)的时滞τi由下式表示。
[0017]
[0018] 其中:
[0019]
[0020]
[0021] RY=E{(Y(t)‑μY(t))2}
[0022]
[0023] 式中μY(t), 分别为Y(t)和Xi(t+l)的平均值,E{·}表示期望值;
[0024] 1.3考虑时滞的灰色关联分析法分析变量间的相关性。
[0025] 设Xi(t)=[Xi(1),…Xi(n)]为与被预测的指标相关的候选变量,即比较序列,i表示标号,n是样本量。而目标变量Y(t)=[y(1),…y(n)],n为样本量。先对序列进行无量纲化处理,表达式如下:
[0026] X′i=XiD=[x′i(1),…,x′i(n)]=[xi(1)c,…,xi(n)c]
[0027] Y′=YD=[y′(1),…,y′(n)]=[y(1)c,…,y(n)c]
[0028] 其中xi(k)=xi(k)c=xi(k)‑xi(1),y(k)=y(k)c=y(k)‑y(1),D称为始点零化算子。
[0029] 而X′i(t)在k时刻的标准增量表示为:
[0030]
[0031] 式中
[0032] 同理,Y在k时刻的标准增量表示为:
[0033]
[0034] 式中
[0035] 时间延迟为d的情形下,X′i与Y′的灰色关联度为:
[0036]
[0037] 式中,μ(k,d)表示增量相关系数,υ(k,d)表示变化率相关系数,分别用以下公式表示:
[0038]
[0039] 其他
[0040] 从而,伴随着延迟时间d,候选变量序列X′i和目标变量序列Y′相关联度表示为:
[0041]
[0042] 两变量的相关联度可能为正也可能为负,这取决于Δsi(k)·Δsy(k+d)的符号。当两个变量信号在一定的时间结构上有相同的增量和变化率,那么他们的相关联度为1。
[0043] 1.4候选变量与目标变量逐一通过1.3的考虑时滞的灰色关联分析法的计算,得到各候选变量与目标变量间对应的关联度。根据关联度的绝对值降序排序,以生产过程实际情况和关联度的平均值设置关联度阈值。将各候选变量与目标变量的关联度值与关联度阈值比较,取关联度大于关联度阈值的变量,得到特征变量集合S={s(1),s(2),...,s(n)}。
[0044] 步骤2:通过步骤1挑选出与被预测指标最相关的特征变量集合S={s(1),s(2),...,s(n)}。以特征变量集合S作为指标预测模型的输入变量,并将特征变量对应的相对延迟时间融合到模型建立的过程。目前大部分基于相关性分析的特征选择方法仅仅只分析了候选特征与被预测指标之间的关联性,而未考虑各输入特征之间可能存在的联系,从而导致选出的特征中存在冗余信息,在一定程度上影响预测模型的效率和预测精度。以递进式选择策略融合指标预测模型中,采用基于数据建模的且具有较强的非线性拟合性的人工神经网络对指标或指标变化趋势进行预测,训练预测模型,以最小化预测误差为目标,去除无关和冗余特征变量,选择出最优的输入特征,也建立了相对稳定、预测精度良好的指标预测模型。
[0045] 具体方法和相关公式如下:
[0046] 2.1初始化最优输入特征子集,即A={s(1)},令i=1。s(1)来自于步骤1选择出的与被预测指标最相关的特征变量集合S={s(1),s(2),...,s(n)}。
[0047] 2.2初始化人工神经网络隐含层神经元个数和学习率。最优输入特征子集A结合当前时刻t和延迟时间d的值以及历史时刻r的真实指标值作为人工神经网络的输入来预测系统输出,并以此预测输出值反馈到系统输入端以滚动优化。t时刻的预测指标值表示为:计算预测值与真实值的差值
y(t)为t时刻待预测指标的真实值,并根据差值D调整人工神经网络的参
数,对每个时刻重复上述过程,直到差值D不超过设定的范围。
[0048] 以指标预测误差ε(i)定量评价预测性能,其定义如下:
[0049]
[0050] 其中:n为样本量,yi为观测值, 为预测值。
[0051] 2.3更新最优输入特征子集A=A+{s(i+1)},使用更新后的最优输入特征子集对生产过程的目标变量进行预测,得到指标变量预测误差ε(i+1);
[0052] 2.4比较ε(i)与ε(i+1)的大小,若ε(i)>ε(i+1),则认为第i+1个变量为有效变量,保留第i+1个变量,同时令i=i+1,返回2.2;否则,令A=A‑{s(i+1)}。这样便得到与被预测指标的最相关的且去除无关和冗余特征变量的最优输入特征子集,同时也建立了稳定的、预测精度良好的指标或指标变量趋势的预测模型。
[0053] 步骤3:将最优输入特征子集中的特征变量的不同时段的时间序列结合延迟时间作为指标预测模型的输入,测试模型,将测试结果与同一时段目标变量的真实值做比较,定量评价预测性能。若不能达到满意的预测效果,则返回步骤2,调整人工神经网络的参数,重新训练测试指标预测模型,直至达到满意的预测效果。
[0054] 本发明相对现有技术具有的效果:不仅能够选择合适的相关特征变量,并采用数学解析式的方法确定目标变量与相关变量的延迟时间,再将延迟时间与灰色关联分析法结合来确定目标变量与相关变量的关联程度,筛选特征子集建立预测模型,以递进选择策略去除冗余变量,优化模型参数,提高了模型整体的精确度,最终实现对流程工业关键指标的有效预测。