首页 > 专利 > 杭州电子科技大学 > 基于时序校正卷积的视频预测方法专利详情

基于时序校正卷积的视频预测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2022-04-28

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2022-08-02

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-12-06

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2042-04-28

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202210463423.1	申请日	2022-04-28
公开/公告号	CN114758282B	公开/公告日	2022-12-06
授权日	2022-12-06	预估到期日	2042-04-28
申请年	2022年	公开/公告年	2022年
缴费截止日
分类号	G06V20/40 、G06V10/80 、G06V10/82 、G06K9/62 、G06N3/04 、G06N3/08 、H04N19/136	主分类号	G06V20/40
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	0
引用专利数量	3	被引证专利数量	0
非专利引证
引用专利	CN114067251A、CN113422952A、CN112700475A	被引证专利
专利权维持	0	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、张陈翰、王涛	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

陈炜

摘要

本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列，并将该序列输入时序上下文融合模块，得到融合外观特征图和融合时空编码特征图，同时将该序列输入时序卷积校正模块得到卷积校正张量；然后，将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图；最后将预测时空编码特征图通过时空记忆解码器进行解码，输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正，还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模，从而生成更高视觉质量的预测视频帧序列。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-12-06	授权
2	2022-08-02	实质审查的生效	IPC(主分类): G06V 20/40 专利申请号: 202210463423.1 申请日: 2022.04.28
3	2022-07-15	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于时序校正卷积的视频预测方法，其特征在于，首先获取原始视频数据集合，然后依次进行如下操作：
步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；
步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；
所述的时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量，具体是：
(2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足
5帧时，长短期视频帧序列元素由全0初始化补全；
(2‑2)将短期历史视频帧序列在空间维度上进行全局平均池化后，通过三维卷积得到短期上下文时空特征 Pooling(·)为空
间维度上的全局平均池化，Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×
1×1的三维卷积层；
(2‑3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后，通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、
空间维度上的全局平均池化操作，Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层；
(2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt＝δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数，Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数；
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；
步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤(1)～(4)得到后续预测视频序列。

2.如权利要求1所述基于时序校正卷积的视频预测方法，其特征在于，步骤(1)具体是：
(1‑1)对原始视频以采样率为每秒5～10帧进行采样，得到数量为N的视频帧序列其中，表示实数域，Xt表示第t帧，t＝1,2,…,N，H表示视频帧高度，W表示视频帧宽度，3表示RGB通道数量；
(1‑2)构建由两个二维卷积层组成的时序上下文融合模块，卷积核尺寸为5×5，填充为
2，步长为1，两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征；
(1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列
C表示通道维度，当不足3帧时，该序列的元素均由全0
初始化补全；将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合，得到强化外观特征图 X′t＝2σ(Conv1(Ht‑3))⊙Xt，符号⊙表示逐元素乘积，σ(·)表示Sigmoid激活函数；再将第t‑1个时空编码特征图Ht‑1和强化外观特征图X′t经过卷积和逐元素相乘操作融合，得到强化时空编码特征图 H′t‑1＝2σ(Conv2(X′t))⊙Ht‑1，Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层；
(1‑4)将强化外观特征图X′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合，得到融合外观特征图 X″t＝2σ(Conv1(Ht‑2))⊙X′t；再将融合外观特征图X″t与强化时空编码特征图H′t‑1经过卷积和逐元素相乘操作融合，得到融合时空编码特征图 H″t‑1＝2σ(Conv2(X″t))⊙H′t‑1。

3.如权利要求2所述基于时序校正卷积的视频预测方法，其特征在于，步骤(3)具体是：
(3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器，所述的卷积长短时记忆模块是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块；
(3‑2)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt输入自适应卷积时空编码器，获得卷积长短时记忆模块的第t个输入门
It＝σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t‑1)；其中，和为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数，Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等，*表示卷积操作；
(3‑3)将融合外观特征图X″t、融合时空编码特征图Ht″‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个遗忘门和第t个输入调制门
Ft＝σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t‑1)；其中，和为二维卷积对应的卷积核；
Gt＝tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1)；其中，tanh(·)为双曲正切函数，和为二维卷积对应的卷积核；
(3‑4)计算得到时空记忆状态 Mt＝It⊙Gt+Ft⊙Mt‑1；当t＝1时，M0由全0初始化得到；
(3‑5)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个输出门
Ot＝σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1)；其中，和为二维卷积对应的卷积核；
(3‑6)获得预测时空编码特征图 Ht＝Ot⊙tanh(Mt)。

4.如权利要求3所述基于时序校正卷积的视频预测方法，其特征在于，步骤(4)具体是：
利用一个二维卷积层构建时空记忆解码器，将融合时空编码特征图和预测时空编码特征图Ht输入时空记忆解码器，由卷积操作得到预测视频帧
其中Conv3(·)表示卷积核尺寸为1×1二维卷积层，[·，·]表示
在通道维度上的拼接操作。

5.如权利要求4所述基于时序校正卷积的视频预测方法，其特征在于，步骤(5)具体是：
(5‑1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型；
(5‑2)将视频帧序列的前t′帧依次输入视频预测模型，t′＝1,2,…,M，M＜N，其中M作为上下文视频帧数量，获得预测视频帧将再依次输入视频预测模
型，得到预测视频帧 t″＝M,…,(N‑1)；
(5‑3)将均方损失作为视频帧和预测视频帧之间的损失函数，
均方误差损失 t″′为取值范围为2≤t″′≤N的视频帧时刻；
(5‑4)利用随机梯度下降算法优化上述视频预测模型，迭代训练该模型直至收敛，获得优化的视频预测模型；
(5‑5)对于新的视频通过采样得到M个视频帧，输入上述优化的视频预测模型，依照(5‑
2)依次输出指定数量的预测视频帧序列作为最终结果。

说明书

技术领域

[0001] 本发明属于计算机视觉技术领域，尤其是视频理解中的视频预测领域，涉及一种基于时序校正卷积的视频预测方法。

背景技术

[0002] 近几年，随着移动互联网的飞速发展和视频感知设备的广泛普及，海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题，即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下，生成未来时刻的视频帧，可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如，雷达回波图像能反映当地的降雨情况，视频预测方法通过刻画雷达回波历史图像的潜在变化规律，生成能准确反映短期气象变化趋势的视频，提升灾害天气的短期预报精度。此外，根据城市交通GPS数据，视频预测能够对城市的高峰期交通状况进行预判，从而帮助用户规划更合理的驾驶路线。

[0003] 传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等，但这些方法难以表示真实复杂场景视频的潜在结构。近几年来，深度学习在计算机视觉领域获得巨大的成功，特别是在视频理解领域较大地提升了任务性能，其已被应用于视频预测模型的研发。例如，为了对视频中的时空特征进行建模，研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点，提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM：Convolutional Long Short‑Term Memory)，以增强视频数据的表征与预测能力。进一步，为了刻画预测视频帧的底层细节特征(如纹理、边缘)，现有工作在ConvLSTM的基础上增加时空记忆单元，实现更有效的时空特征建模。但是，这些方法容易出现梯度消失问题，难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此，后续工作重用历史时空特征，即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新，以缓解梯度消失现象，从而增强模型对长时依赖关系捕捉的能力。

[0004] 上述方法存在的不足点主要表现在三个方面：1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域，然而视频序列中的空间特征随时间而变化，不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画；2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积)，需要较大的计算开销以校正高维特征表示使之适应当前视频帧；3)若当前视频帧包含上下文无关的目标(如新物体)时，使得该帧的外观特征和历史帧的时空特征不相似，导致难以有效利用历史时空特征。因此，为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题，迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法，从而提高预测视频的清晰度。

发明内容

[0005] 本发明针对现有技术的不足，提供一种基于时序校正卷积的视频预测方法，一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数，另一方面能利用时序上下文融合机制加强对历史时空特征的利用，并使当前视频帧和历史时空特征进行充分交互，以挖掘上下文无关帧图像和历史时空特征之间的潜在关系，从而生成画面更清晰的预测视频帧。

[0006] 本发明方法首先获取原始视频数据集合，依次进行如下操作：

[0007] 步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；

[0008] 步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；

[0009] 步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；

[0010] 步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；

[0011] 步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤(1)～(4)得到后续预测视频序列。

[0012] 进一步，步骤(1)具体是：

[0013] (1‑1)对原始视频以采样率为每秒5～10帧进行采样，得到数量为N的视频帧序列其中，表示实数域，Xt表示第t帧，t＝1,2,…,N，H表示视频帧高度，W表示视频帧宽度，3表示RGB通道数量；

[0014] (1‑2)构建由两个二维卷积层组成的时序上下文融合模块，卷积核尺寸为5×5，填充为2，步长为1，两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征；

[0015] (1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度，当不足3帧时，该序列的元素均由全0初始化补全；将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合，得到强化外观特征图 X′t＝2σ(Conv1(Ht‑3))⊙Xt，符号⊙表示逐元素乘积，σ(·)表示Sigmoid激活函数；再将第t‑1个时空编码特征图Ht‑1和强化外观特征图X′t经过卷积和逐元素相乘操作融合，得到强化时空编码特征图 H′t‑1＝2σ(Conv2(X′t))⊙Ht‑1，Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层；

[0016] (1‑4)将强化外观特征图X′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合，得到融合外观特征图 X″t＝2σ(Conv1(Ht‑2))⊙X′t；再将融合外观特征图X″t与强化时空编码特征图H′t‑1经过卷积和逐元素相乘操作融合，得到融合时空编码特征图 H″t‑1＝2σ(Conv2(X″t))⊙H′t‑1。

[0017] 更进一步，步骤(2)所述时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量，具体是：

[0018] (2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足5帧时，长短期视频帧序列元素由全0初始化补全；

[0019] (2‑2)将短期历史视频帧序列在空间维度上进行全局平均池化后，通过三维卷积得到短期上下文时空特征 Pooling(·)为空间维度上的全局平均池化，Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层；

[0020] (2‑3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后，通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、空间维度上的全局平均池化操作，Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层；

[0021] (2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt＝δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数，Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。

[0022] 再进一步，步骤(3)具体是：

[0023] (3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器，所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块；

[0024] (3‑2)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt输入自适应卷积时空编码器，获得卷积长短时记忆模块的第t个输入门

[0025] It＝σ((Broadcast(Rt) ⊙W1)*X″t+(Broadcast(Rt) ⊙W2)*H″t‑1)；其中，和为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数，Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等，*表示卷积操作；

[0026] (3‑3)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个遗忘门和第t个输入调制门

[0027] Ft＝σ((Broadcast(Rt) ⊙W3)*X″t+(Broadcast(Rt) ⊙W4)*H″t‑1)；其中，和为二维卷积对应的卷积核；

[0028] Gt＝tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1)；其中，tanh(·)为双曲正切函数，和为二维卷积对应的卷积核；

[0029] (3‑4)计算得到时空记忆状态 Mt＝It⊙Gt+Ft⊙Mt‑1；当t＝1时，M0由全0初始化得到；

[0030] (3‑5)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个输出门

[0031] Ot＝σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1)；其中，和为二维卷积对应的卷积核；

[0032] (3‑6)获得预测时空编码特征图 Ht＝Ot⊙tanh(Mt)。

[0033] 又进一步，步骤(4)具体是：利用一个二维卷积层构建时空记忆解码器，将融合时空编码特征图H″t‑1和预测时空编码特征图Ht输入时空记忆解码器，由卷积操作得到预测视频帧其中Conv3(·)表示卷积核尺寸为1×1二维卷积层，[·，·]表示在通道维度上的拼接操作。

[0034] 还进一步，步骤(5)具体是：

[0035] (5‑1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型；

[0036] (5‑2)将视频帧序列的前t′帧依次输入视频预测模型，t′＝1,2,…,M，M＜N，其中M作为上下文视频帧数量，获得预测视频帧再将依次输入视频预测模型，t″＝M,…,(N‑1)，得到预测视频帧

[0037] (5‑3)将均方损失作为视频帧和预测视频帧之间的损失函数，均方误差损失 t″′为取值范围为2≤t″′≤N的视频帧时刻；

[0038] (5‑4)利用随机梯度下降算法优化上述视频预测模型，迭代训练该模型直至收敛，获得优化的视频预测模型；

[0039] (5‑5)对于新的视频通过采样得到M个视频帧，输入上述优化的视频预测模型，依照(5‑2)依次输出指定数量的预测视频帧序列作为最终结果。

[0040] 本发明提出了基于时序校正卷积的视频预测方法，该方法具有以下几个特点：1)利用时序卷积校正模块对不同时刻的卷积核进行校正，针对不同的输入视频帧模型采用不同的卷积参数提取特征，以适应视频帧序列中空间特征不断变化的特点；2)相比现有的动态卷积方法校正高维特征，本发明直接对卷积核进行校正，降低了模型的计算开销；3)通过时序上下文融合模块将历史视频编码特征分别与当前视频帧及其时空编码特征进行融合，使得输入自适应卷积时空编码器中的视频帧包含更多的历史时空特征，增强模型对长时依赖关系捕捉的能力。

[0041] 本发明适用于预测多个未来视频帧的情况，有益效果包括：1)自适应卷积时空编码器根据校正后的卷积核对视频帧进行特征提取，增强模型对空间特征的刻画能力，以提高预测视频帧的清晰度；2)时序卷积校正模块直接对卷积核本身进行校正而非对高维特征进行校正，极大地减少动态卷积带来的计算开销；3)时序上下文融合模块通过将历史时空编码特征分别与当前视频帧及对应时空编码特征进行融合，增强模型挖掘上下文无关图像和历史时空编码特征之间关系的能力，有助于加强模型对长时依赖捕捉的能力，从而指导模型生成更加清晰的预测结果。本发明所具有的自适应校正卷积机制和时序上下文融合机制，可显著提高视频预测模型的性能，有期望被应用于雷达回波预测、城市交通情况预测等实际任务中。

实施方案

[0043] 以下结合附图对本发明作进一步说明。

[0044] 如图1，基于时序校正卷积的视频预测方法，首先获取原始视频数据集合，然后依次进行如下操作：首先对原始视频进行均匀采样得到视频帧序列；构建时序上下文融合模块得到融合外观特征和融合时空编码特征图；再构建时序卷积校正模块，输出卷积校正张量；然后将融合外观特征、融合时空编码特征图和卷积校正张量输入自适应卷积时空编码器，得到预测时空编码特征图；最后，使用时空记忆解码器将预测时空编码特征图解码为预测视频帧；该方法利用时序卷积校正模块提取不同时刻的不同空间特征，并通过融合时序上下文时空编码特征加强对长时间的时空依赖关系捕捉的能力，从而生成更加清晰的预测视频。具体如下：

[0045] 步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；具体是：

[0046] (1‑1)对原始视频以采样率为每秒5～10帧进行采样，得到数量为N的视频帧序列其中，表示实数域，Xt表示第t帧，t＝1,2,…,N，H表示视频帧高度，W表示视频帧宽度，3表示RGB通道数量；

[0047] (1‑2)构建由两个二维卷积层组成的时序上下文融合模块，卷积核尺寸为5×5，填充为2，步长为1，两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征；

[0048] (1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度，当不足3帧时，该序列的元素均由全0初始化补全；将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合，得到强化外观特征图 X′t＝2σ(Conv1(Ht‑3))⊙Xt，符号⊙表示逐元素乘积，σ(·)表示Sigmoid激活函数；再将第t‑1个时空编码特征图Ht‑1和强化外观特征图X′t经过卷积和逐元素相乘操作融合，得到强化时空编码特征图 H′t‑1＝2σ(Conv2(X′t))⊙Ht‑1，Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层；

[0049] (1‑4)将强化外观特征图X′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合，得到融合外观特征图 X″t＝2σ(Conv1(Ht‑2))⊙X′t；再将融合外观特征图X″t与强化时空编码特征图H′t‑1经过卷积和逐元素相乘操作融合，得到融合时空编码特征图 H″t‑1＝2σ(Conv2(X″t))⊙H′t‑1。

[0050] 步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；所述时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量，具体是：

[0051] (2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足5帧时，长短期视频帧序列元素由全0初始化补全；

[0052] (2‑2)将短期历史视频帧序列在空间维度上进行全局平均池化后，通过三维卷积得到短期上下文时空特征 Pooling(·)为空间维度上的全局平均池化，Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层；

[0053] (2‑3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后，通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、空间维度上的全局平均池化操作，Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层；

[0054] (2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt＝δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数，Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。

[0055] 步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；具体是：

[0056] (3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器，所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块；

[0057] (3‑2)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt输入自适应卷积时空编码器，获得卷积长短时记忆模块的第t个输入门

[0058] It＝σ((Broadcast(Rt) ⊙W1)*X″t+(Broadcast(Rt) ⊙W2)*H″t‑1)；其中，和为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数(卷积核W1和W2的长和宽相同，卷积核W2的输入通道数和输出通道数相同)，Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等，*表示卷积操作；

[0059] (3‑3)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个遗忘门和第t个输入调制门

[0060] Ft＝σ((Broadcast(Rt) ⊙W3)*X″t+(Broadcast(Rt) ⊙W4)*H″t‑1)；其中，和为二维卷积对应的卷积核；

[0061] Gt＝tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1)；其中，tanh(·)为双曲正切函数，和为二维卷积对应的卷积核；

[0062] (3‑4)计算得到时空记忆状态 Mt＝It⊙Gt+Ft⊙Mt‑1；当t＝1时，M0由全0初始化得到；

[0063] (3‑5)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个输出门

[0064] Ot＝σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1)；其中，和为二维卷积对应的卷积核；

[0065] (3‑6)获得预测时空编码特征图 Ht＝Ot⊙tanh(Mt)。

[0066] 步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；具体是：利用一个二维卷积层构建时空记忆解码器，将融合时空编码特征图H″t‑1和预测时空编码特征图Ht输入时空记忆解码器，由卷积操作得到预测视频帧其中Conv3(·)表示卷积核尺寸为1×1二维卷积层，[·，·]表示在通道维度上的拼接操作。

[0067] 步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤(1)～(4)得到后续预测视频序列；具体是：

[0068] (5‑1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型；

[0069] (5‑2)将视频帧序列的前t′帧依次输入视频预测模型，t′＝1,2,…,M，M＜N，其中M作为上下文视频帧(用于为后续视频预测提供参考)数量，获得预测视频帧再将依次输入视频预测模型，t″＝M,…,(N‑1)，得到预测视频帧

[0070] (5‑3)将均方损失作为视频帧和预测视频帧之间的损失函数，均方误差损失 t″′为取值范围为2≤t″′≤N的视频帧时刻；

[0071] (5‑4)利用随机梯度下降算法优化上述视频预测模型，迭代训练该模型直至收敛，获得优化的视频预测模型；

[0072] (5‑5)对于新的视频通过采样得到M个视频帧，输入上述优化的视频预测模型，依照(5‑2)依次输出指定数量的预测视频帧序列作为最终结果。

[0073] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0042] 图1是本发明方法的流程图。

1一种基于计算机视觉的pH试纸检测方法 2基于计算机视觉的齿轮缺陷检测方法和系统 3基于计算机视觉的高速公路数据高效存储系统 4一种基于计算机视觉的叶片面积测量装置和方法 5基于计算机视觉的铜排冷隔缺陷检测方法及系统 6一种基于计算机视觉的铁炉表面裂纹生长预测方法及系统