[0008] 本发明的目的就是针对现有技术的不足,提出一种基于贝叶斯记忆的层次级联视频目标 分割方法,既能考虑到运动物体在时序上的关联,又能识别不同大小尺寸物体,从而准确地 对视频中的目标进行分割。
[0009] 本发明方法在给出视频数据集合以及像素级标注(掩膜)后,依次进行如下操作:
[0010] 步骤(1)对视频数据进行帧采样,使用残差卷积网络作为特征提取网络,输入视频帧,输 出对应的残差特征集合;
[0011] 步骤(2)构建层次级联网络,输入视频帧对应的残差特征集合,输出对应的层次级联特征 集合;
[0012] 步骤(3)构建基于贝叶斯模型的目标记忆模块,输入视频帧对应的层次级联特征集合,输 出其对应的预测粗糙掩膜;
[0013] 步骤(4)构建掩膜恢复网络,输入视频帧对应的层次级联特征集合和预测粗糙掩膜,输出 其对应的预测精细掩膜;
[0014] 步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分 割网络,使用交叉熵损失函数进行优化,获得训练好的目标分割网络;
[0015] 步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中,输出视频目标分割的 结果。
[0016] 进一步,步骤(1)具体是:
[0017] (1‑1)对输入视频进行帧采样,采样率为25帧/次,结合给出的各帧像素级标记(掩膜), 得到视频帧与掩膜的集合为{(Ft,Mt)|t=1,2,...,T};其中,T表示视频的总时长,Ft表示t时 刻的视频帧, 表示实数集合,w表示宽、h表示长、通道数为3;Mt表示tw×h×2时 刻视频帧的掩膜,M∈{0,1} ,其两个通道分别代表背景和前景目标;
[0018] (1‑2)使用残差卷积网络作为特征提取网络,并去除其最后的全局池化层和全连接层,输入视频帧F,输出残差卷积网络第二至五层的残差特征由此构成残差特征集合 其中,上标
数 n=2,3,4,5表示第n层,256、512、1024和2048表示该层残差特征的通道数;
[0019] (1‑3)将视频帧{Ft|t=1,2,...,T}依次输入(1‑2)中的特征提取网络,输出各视频帧的残差 特征集合
[0020] 再进一步,步骤(2)具体是:
[0021] (2‑1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成;输入连续三层n‑1,n,n+1的残差特征k k k
其中w ,h ,c分别为第k层残差特征的宽、长、通道数,k=n‑1,n,n+1, n=2,3,4,5,输出第n层的层次级联特征 c1为输出的通道数,具体是:
[0022] 构建由一个卷积层,一个长宽维度上的全局池化层,一个卷积层和一个Sigmoid激活层 顺序构成的注意力网络,Sigmoid函数的表达式为: 其中,x为输 入的任意维度张量,exp(·)为指数函数;
[0023] 将第n层残差特征Rn输入注意力网络,输出通道注意力分数
[0024] 构建由池化层和一个卷积层构成的低层次通道嵌入网络,输入第n‑1层残差特征n‑1 nR , 输出低层次通道嵌入特征 然后与通道注意力分数A按通道进行逐元
素相乘, 输出低层次通道注意力特征
[0025] 构建由池化层和一个卷积层构成的高层次通道嵌入网络,输入第n+1层残差特征n+1 nR , 输出高层次通道嵌入特征 然后与注意力分数A按通道进行逐元素相
乘,输出 高层次通道注意力特征
[0026] 将低层次通道注意力特征Tn‑1,第n层残差特征Rn和高层次通道注意力特征Tn+1按照通 道拼接得到拼接特征 然后通过一个融合卷积层输出层次级联特征
[0027] (2‑2)将特征提取网络得到的第二至五层残差特征Rn与其相邻层残差特征Rn‑1和Rn+1 2一 起输入(2‑1)中的层次级联网络,n=2,3,4,5,对于第二层残差特征R ,不使用低层次
5
通道嵌 入网络,对于第五层残差特征R不使用高层次通道嵌入网络,输出第二至五层对应的层次级 联特征 由此构成层次
级联特征集合
[0028] (2‑3)将各视频帧的残差特征集合 依次按照步骤(2‑1)和(2‑2)操作,输 出各视频帧的层次级联特征集合
[0029] 更进一步,步骤(3)具体是:
[0030] (3‑1)构建的目标记忆模块通过计算并保存视频中背景和前景的先验概率及目标特征表 示来实现记忆功能,目标记忆模块使用视频首帧及其掩膜进行初始化,并在处理视频后续各 帧的过程中不断进行更新,并通过贝叶斯公式计算得到视频帧的预测粗糙掩膜;
[0031] (3‑2)目标记忆模块初始化:
[0032] 首先输入各视频帧的层次级联特征集合 和首帧真实掩膜M1,输出目标记 忆模块的初始化背景先验概率 目标特征表示 和初始化前景先
验概率 目标特征表示 其中上标bg和fg分别表示背景和前景,初始化
过程具 体是:对输入的首个视频帧真实掩膜M1进行下采样得到真实粗糙掩膜bg
被分为 背景的像素点集合记为 集合中像素点个数为N ;被分为前景的
fg
像素点集合记为 集合中像素点个数为N ;输出目标记忆模块的初始背景先验概率p(bg)和初始前景先验概率 p(fg):
[0033] 然后输入首帧的第五层层次级联特征 输出目标记忆模块的初始背景目标特征表示 和初始前景目标特征表示5
其中,(i,j)为长宽维度上的任一像素点的坐标, 为首帧层次级联特征V1于该像素点 处在通道上对应的向量;
[0034] (3‑3)目标记忆模块更新:
[0035] 从第二视频帧开始的视频帧Ft′,t′=2,3,...,T,输入第五层层次级联特征更新目标记忆模块,并输出对应的预测粗糙掩膜 具体是:
[0036] 输入Vt′5、sbg和sfg,输出背景目标观测概率p(vi,j|bg)和前景目标观测概率p(vi,j|fg): 其中, 为5
Vt′在坐标 (i,j)像素点处在通道上对应的向量, 和 分别表示
在背景、前景集 合中观测到向量vi,j的概率;
[0037] 按照贝叶斯公式,输出各像素点处的背景后验概率p(bg|vi,j)和前景后验概率p(fg|vi,j):和 分别表示坐标(i,j)像素点为背景或前景的后验概率,由各
像素 点处的后验概率构成第t′时刻视频帧的预测粗糙掩膜 并输出;
[0038] 由 得到被分为背景像素点集合 和前景像素点集合 两集合中像素点的bg个数分 别为 和 输出目标记忆模块更新后的背景像素点个数N 和前景像素点个数fg
N : 其中,α∈(0,1)为调整两部分重要性程度的常
数;
[0039] 然后按照步骤(3‑2)更新目标记忆模块,重新计算背景先验概率p(bg)和前景先验概率 p(fg);输入第t′时刻第五层层次级联特征 输出目标记忆模块更新后的bg fg目标特 征表示s 和s : 其中,β∈
(0,1)为 调整两部分重要性程度的常数;
[0040] (3‑4)将各帧层次级联特征集合 依次按照步骤(3‑2)和(3‑3)操作,输出各 视频帧的预测粗糙掩膜
[0041] 又进一步,步骤(4)具体是:5
[0042] (4‑1)将Vt′与预测粗糙掩膜 按照通道拼接后通过两个卷积层,再进行上采样后输出第 四层恢复特征 其中c2为恢复特征的通道数;
[0043] (4‑2)将第四层层次级联特征Vt′4与第四层恢复特征Ut4′按照通道拼接后通过两个卷积层, 再进行上采样后输出第三层恢复特征
[0044] (4‑3)将第三层层次级联特征Vt′3与第三层恢复特征Ut3′按照通道拼接后通过两个卷积层, 再进行上采样后输出第二层恢复特征
[0045] (4‑4)将第二层层次级联特征Vt′2与第二层恢复特征Ut2′按照通道拼接后通过两个卷积层, 再进行上采样后输出模型预测分割分数
[0046] (4‑5)输入预测分割分数Ut′,使用Softmax函数计算输出预测精细掩膜:
[0047] 其中, 和 为第t′时刻 视频帧预测分割分数Ut′在该像素点处两个通道对应的数值, 和 分别为坐标 (i,j)像素点被预测为背景或前景的概率,再由各个点上的概率构成输出的预测精细掩膜
[0048] (4‑6)将层次级联特征集合 和预测粗糙掩膜依次按照 步骤(4‑1)~(4‑5)操作,输出各帧的预测精细掩膜
[0049] 再进一步,步骤(5)具体是:
[0050] (5‑1)使用交叉熵函数作为模型优化的损失函数,表达式为:0
[0051] 其中, m表示该像素点是否为1
背景, m表示该像素点是否为前景,即当真实掩膜M在该像素点处的两个通道数值为[0,1]时,该像 素点属于背景,两个通道数值为[1,0]时则为前景;类似的,预测精细掩膜 在该像素点处的 两个通道数值 表示该像素点为背景或前景的概率;
[0052] (5‑2)输入第t′时刻视频帧真实掩膜 通过下采样得到真实粗糙掩膜结合预测粗糙掩膜 计算粗糙损失5
其 中, 和 分别为真实粗糙掩膜Mt′和预测粗糙掩膜 于坐标(i,j)像素点处在通 道上对应的向量;
[0053] (5‑3)输入第t′时刻视频帧真实掩膜 结合预测精细掩膜计算精 细损失 其中, 和 分别为真实掩膜Mt′和
预测精细 掩膜 于该像素点处在通道上对应的向量;
[0054] (5‑4)计算目标分割网络的最终优化目标损失函数为 表示最终损失,λ>0 为调整两部分损失重要性程度的常数,使用该损失函数,通过Adam优化器对特征提取网络、 层次级联网络、目标记忆模块和掩膜恢复网络中的参数进行优化,获得训练好的目标分割网 络。
[0055] 还进一步,步骤(6)具体是:
[0056] (6‑1)对输入的新视频进行帧采样,得到视频帧集合{It|t=1,2,...,T}和首帧掩膜 表示新视频在t时刻的视频帧;
[0057] (6‑2)将视频帧{It|t=1,2,...,T}按照步骤(1)~(4)输入训练好的目标分割网络中,输出各 帧的预测精细掩膜 该掩膜即为视频目标分割任务的最终结果。
[0058] 本方法提出了基于贝叶斯记忆的层次级联视频目标分割方法,该方法具有以下几个特点: 1)通过层次级联网络对特征提取网络相邻层特征进行融合,利用各层特征中不同尺寸的目标 信息,实现对尺度变化的捕捉;2)通过目标记忆模块有效利用视频各帧的时序信息,在对视 频帧的特征表示进行不断迭代过程中,学习并记忆视频内的前景目标特征,并利用贝叶斯模型 输出预测粗糙掩膜。
[0059] 本发明方法适用于跨度时间长,且存在不同尺寸前景目标或在运动中目标发生尺寸形状变 化的视频目标分割场景,有益效果包括:1)通过残差网络和层次级联网络进行特征提取与融 合,能够综合利用不同层次的特征信息,有效识别不同尺寸物体;2)通过目标记忆模块实现 时序记忆,能够捕捉视频中前景目标在时序上的变化,充分考虑了前景目标在运动过程中的短 期相关和长期依赖,并且能够在较低计算量的前提下,通过贝叶斯模型输出粗糙的预测掩膜, 从而指导精细掩膜的生成。该方法在视频编辑合成、电影后期制作、无人驾驶、网络直播等领 域具有广阔的应用前景。