[0036] 以下结合附图对本发明作进一步说明。
[0037] 一种基于生成对抗网络的视频目标分割方法,重点使用生成对抗网络进行视频目标分割,可学习得到更加符合真实的视频目标数据分布的分割结果,充分考虑视频内目标的长期关系和短期关系的问题,在设计神经网络时利用首帧图像及其标注信息以及相邻帧的信息使其能处理视频内目标的复杂变化。主要思想设计生成网络模型时考虑首帧以及相邻帧分别与当前帧关系,采用全卷积神经网络及反卷积上采样获得生成网络视频分割矩阵,利用视频帧及其生成网络视频分割矩阵构建判别网络模型获得判别矩阵,采取对抗式学习策略交替优化判别网络与生成网络。通过这种方式,可以达到视频目标分割的实际需求。
[0038] 如图1,该方法首先获取视频数据集,然后进行如下操作:
[0039] 步骤(1).利用输入视频中首帧以及相邻帧与当前帧的关系,构建视频生成网络模型,经过全卷积神经网络及反卷积上采样,获得生成网络视频分割矩阵。具体方法是:
[0040] (1‑1).假设输入视频有m帧RGB图像,表示为帧图像集合 其中首帧指视频中的第一帧图像F1,每帧图像宽为w,高为h,通道数为3;
[0041] (1‑2).标注像素级,即帧图像的标注,记为标注集合{Mi|i=1,..,m},其中是宽为w高为h的矩阵,像素级标注Mi的元素取值为{0,1,...,k},k为视频待分割的目标数量,在训练阶段每个视频帧都有对应的像素级标注,但处理新视频时仅给出视频首帧的目标标注;
[0042] (1‑3).处理视频首帧:将首帧F1与对应标注M1输入到全卷积神经网络得到相应的特征表示张量,全卷积神经网络输出的特征表示张量表示为 c1为通道数,w1为张量的宽,h1为张量的高,且w1<w、h1<h,得到的首帧对应的特征表示张量记为S1;该步骤刻画了首帧与当前帧的关系;所述的全卷积神经网络为不包含全连接层且以卷积层为主的神经网络,这里利用残差网络(ResNet‑50)并将其全连接层删除。
[0043] (1‑4) .处理视频后续帧:从视频第二帧起至视频最后一帧记为首先将视频帧Fi和前一帧对应的像素级标注Mi‑1输入相同全卷积神经网络,得到相应的特征表示张量,记为 然后将后续帧Fi对应的特
征表示张量Si与首帧对应的特征表示张量S1依次拼接,得到拼接特征表示张量,记为经过多个反卷积层的上采样操作,得到大小与视频帧一致的生
成网络视频分割矩阵,记为 即产生m‑1个目标分割结果;该步骤刻画
了相邻帧与当前帧的关系。
[0044] 步骤(2).利用视频帧及其生成网络视频分割矩阵,构建判别网络模型,获得判别矩阵。具体方法是:
[0045] (2‑1).将视频帧Fi及其生成网络的视频分割矩阵Pi,i=2,...,m,输入到判别网络,该判别网络是由C个卷积层、归一化层和激活函数组成的模块构成的卷积神经网络,C≥3;
[0046] (2‑2).判别网络将输出N×N的判别矩阵Ai(矩阵元素为0或1,N<w,N<h),将视频帧Fi与真实视频目标标注Mi输入到判别网络得到相同大小的判别矩阵Ai′,判别矩阵Ai′作为真实的判别矩阵且每个元素对应视频帧的小块区域(如50×50像素区域),判别矩阵Ai每个矩阵元素应与判别矩阵Ai′每个矩阵元素尽可能相同。
[0047] 步骤(3).采取对抗式学习策略交替优化判别网络与生成网络,使得生成网络尽可能生成与真实分割矩阵一致的视频分割矩阵;所述的对抗式学习策略为生成网络和判别网络的优化目标相互冲突并在对抗过程中优化,所述的交替优化指使用随机梯度下降法先优化判别网络再优化生成网络,依次交替优化损失函数。具体方法是:
[0048] (3‑1).首先计算生成对抗网络的损失函数,即条件生成对抗网络损失,表示为:
[0049]
[0050] 其中,x表示输入的视频帧Fi,y表示视频帧Fi对应的像素级标注Mi,z表示随机噪声,G(x,z)表示生成网络产生的预测标注Pi,Ez,y[*]和Ex,z[*]分别表示随机变量z,y的期望和随机变量x,z的期望;然后计算生成网络的损失函数,即真实标注与预测标注的损失,表示为:
[0051] ||*||1表示L1正则化,Ex,y,z[*]表示随机变量x,y,z的期望;
[0052] (3‑2).生成对抗网络模型的最终优化目标为如下损失函数:
[0053]
[0054] 其中,正则化系数λ>0,生成网络G期望最小化损失函数,判别网络D期望最大化损*失函数,交替优化训练后得到生成网络G ,使其尽可能生成与真实分割矩阵一致的视频分割矩阵。
[0055] 步骤(4).将新视频输入已训练优化的生成网络模型,获得对应的生成网络视频分割矩阵,即视频目标分割结果。具体方法是:
[0056] (4‑1).对新视频,其视频帧图像为 首帧标注为M1′,首先将*
首帧与其标注M1′输入步骤(3)所述生成网络G的全卷积神经网络得到特征表示张量S1′;
[0057] (4‑2).预测视频第二帧F2′的目标,先将帧图像F2′和首帧目标像素级标注M1′输入全卷积神经网络,然后依次经过特征表示张量拼接和反卷积上采样操作,得到第二帧对应的生成网络视频分割矩阵P2′;
[0058] (4‑3).预测后续视频帧的目标,先将当前帧Fi+1′和第i帧图像的预测标注Pi′输入全卷积神经网络,然后经过特征表示张量拼接和反卷积上采样操作,得到分割矩阵Pi+1′;以第三帧为例,若输入第三帧F3′和第二帧F2′对应的分割矩阵P2′,则得到第三帧的分割矩阵P3′;
[0059] (4‑4).依次处理视频的第二帧直至最后一帧,得到对应的生成网络视频分割矩阵{Pi′|i=2,...,n},即新视频的目标分割结果。
[0060] 本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。