[0005] 本发明针对现有技术的不足,提供一种基于时序校正卷积的视频预测方法,一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数,另一方面能利用时序上下文融合机制加强对历史时空特征的利用,并使当前视频帧和历史时空特征进行充分交互,以挖掘上下文无关帧图像和历史时空特征之间的潜在关系,从而生成画面更清晰的预测视频帧。
[0006] 本发明方法首先获取原始视频数据集合,依次进行如下操作:
[0007] 步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
[0008] 步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
[0009] 步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
[0010] 步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
[0011] 步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
[0012] 进一步,步骤(1)具体是:
[0013] (1‑1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列其中, 表示实数域,Xt表示第t帧,t=1,2,…,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
[0014] (1‑2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
[0015] (1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合,得到强化外观特征图 X′t=2σ(Conv1(Ht‑3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t‑1个时空编码特征图Ht‑1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图 H′t‑1=2σ(Conv2(X′t))⊙Ht‑1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
[0016] (1‑4)将强化外观特征图X′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合,得到融合外观特征图 X″t=2σ(Conv1(Ht‑2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t‑1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图 H″t‑1=2σ(Conv2(X″t))⊙H′t‑1。
[0017] 更进一步,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列 和长期历史视频帧序列 生成卷积校正张量,具体是:
[0018] (2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列 和长期历史视频帧序列 当不足5帧时,长短期视频帧序列元素由全0初始化补全;
[0019] (2‑2)将短期历史视频帧序列 在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征 Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
[0020] (2‑3)将长期历史视频帧序列 在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
[0021] (2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量 其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
[0022] 再进一步,步骤(3)具体是:
[0023] (3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
[0024] (3‑2)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt输入自适应卷积时空编码器,获得卷积长短时记忆模块的第t个输入门
[0025] It=σ((Broadcast(Rt) ⊙W1)*X″t+(Broadcast(Rt) ⊙W2)*H″t‑1);其中,和 为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
[0026] (3‑3)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个遗忘门 和第t个输入调制门
[0027] Ft=σ((Broadcast(Rt) ⊙W3)*X″t+(Broadcast(Rt) ⊙W4)*H″t‑1);其中,和 为二维卷积对应的卷积核;
[0028] Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1);其中,tanh(·)为双曲正切函数, 和 为二维卷积对应的卷积核;
[0029] (3‑4)计算得到时空记忆状态 Mt=It⊙Gt+Ft⊙Mt‑1;当t=1时,M0由全0初始化得到;
[0030] (3‑5)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个输出门
[0031] Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1);其中,和 为二维卷积对应的卷积核;
[0032] (3‑6)获得预测时空编码特征图 Ht=Ot⊙tanh(Mt)。
[0033] 又进一步,步骤(4)具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t‑1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧 其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
[0034] 还进一步,步骤(5)具体是:
[0035] (5‑1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
[0036] (5‑2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧数量,获得预测视频帧 再将 依次输入视频预测模型,t″=M,…,(N‑1),得到预测视频帧
[0037] (5‑3)将均方损失作为视频帧 和预测视频帧 之间的损失函数,均方误差损失 t″′为取值范围为2≤t″′≤N的视频帧时刻;
[0038] (5‑4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
[0039] (5‑5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5‑2)依次输出指定数量的预测视频帧序列作为最终结果。
[0040] 本发明提出了基于时序校正卷积的视频预测方法,该方法具有以下几个特点:1)利用时序卷积校正模块对不同时刻的卷积核进行校正,针对不同的输入视频帧模型采用不同的卷积参数提取特征,以适应视频帧序列中空间特征不断变化的特点;2)相比现有的动态卷积方法校正高维特征,本发明直接对卷积核进行校正,降低了模型的计算开销;3)通过时序上下文融合模块将历史视频编码特征分别与当前视频帧及其时空编码特征进行融合,使得输入自适应卷积时空编码器中的视频帧包含更多的历史时空特征,增强模型对长时依赖关系捕捉的能力。
[0041] 本发明适用于预测多个未来视频帧的情况,有益效果包括:1)自适应卷积时空编码器根据校正后的卷积核对视频帧进行特征提取,增强模型对空间特征的刻画能力,以提高预测视频帧的清晰度;2)时序卷积校正模块直接对卷积核本身进行校正而非对高维特征进行校正,极大地减少动态卷积带来的计算开销;3)时序上下文融合模块通过将历史时空编码特征分别与当前视频帧及对应时空编码特征进行融合,增强模型挖掘上下文无关图像和历史时空编码特征之间关系的能力,有助于加强模型对长时依赖捕捉的能力,从而指导模型生成更加清晰的预测结果。本发明所具有的自适应校正卷积机制和时序上下文融合机制,可显著提高视频预测模型的性能,有期望被应用于雷达回波预测、城市交通情况预测等实际任务中。