首页 > 专利 > 杭州电子科技大学 > 一种基于贝叶斯记忆的层次级联视频目标分割方法专利详情

一种基于贝叶斯记忆的层次级联视频目标分割方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-03-19

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-08-06

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-06-24

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-03-19

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110297438.0	申请日	2021-03-19
公开/公告号	CN113139966B	公开/公告日	2022-06-24
授权日	2022-06-24	预估到期日	2041-03-19
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	G06T7/10 、G06K9/62 、G06N3/04 、G06N3/08 、G06T7/194 、G06V10/84	主分类号	G06T7/10
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	1
引用专利数量	2	被引证专利数量	0
非专利引证	1、2020.04.16柏祁林.复杂道路环境下车辆的精细分割与跟踪《.中国优秀硕士学位论文全文数据库 (信息科技辑)》.2018,(第2期),全文. Naiyu Gao 等.SSAP: Single-ShotInstance Segmentation With AffinityPyramid《. IEEE Transactions on Circuitsand Systems for Video Technology 》.2020,第31卷(第2期),全文.;
引用专利	US2019311202A、US2020117906A	被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、李家盛、张宇、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱亚冠

摘要

本发明公开了一种基于贝叶斯记忆的层次级联视频目标分割方法。本发明方法首先对视频数据做帧采样并用残差卷积网络提取特征；然后分别构建层次级联网络、基于贝叶斯模型的目标记忆模块、掩膜恢复网络，并分别得到对应的层次级联特征、预测粗糙掩膜、预测精细掩膜；接着利用交叉熵损失函数对模型进行迭代优化，获得最终的目标分割网络，并将新视频序列及首帧掩膜输入该网络得到目标分割结果。本发明方法不仅利用不同层次的特征信息有效识别不同尺寸物体，还能够捕捉视频中前景目标在时序上的变化并充分考虑前景目标在运动过程中的短期相关和长期依赖关系，并通过贝叶斯模型指导精细掩膜的生成，提升了视频目标分割的准确度。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-06-24	授权
2	2021-08-06	实质审查的生效	IPC(主分类): G06T 7/10 专利申请号: 202110297438.0 申请日: 2021.03.19
3	2021-07-20	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，该方法首先获取视频数据集合以及像素级标注，然后进行以下操作：
步骤(1)对视频数据进行帧采样，使用残差卷积网络作为特征提取网络，输入视频帧，输出对应的残差特征集合；具体是：
(1‑1)对输入视频进行帧采样，结合给出的各帧像素级标记，得到视频帧与掩膜的集合为{(Ft,Mt)|t＝1,2,...,T}；其中，T表示视频的总时长，Ft表示t时刻的视频帧，w×h×2
表示实数集合，w表示宽、h表示长、通道数为3；Mt表示t时刻视频帧的掩膜，M∈{0,1} ，其两个通道分别代表背景和前景目标；
(1‑2)使用残差卷积网络作为特征提取网络，并去除其最后的全局池化层和全连接层，输入视频帧F，输出残差卷积网络第二至五层的残差特征
由此构成残差特征集合其中，上标
数n＝2,3,4,5表示第n层，256、512、1024和2048表示该层残差特征的通道数；
(1‑3)将视频帧{Ft|t＝1,2,...,T}依次输入(1‑2)中的特征提取网络，输出各视频帧的残差特征集合
步骤(2)构建层次级联网络，输入视频帧对应的残差特征集合，输出对应的层次级联特征集合；具体是：
(2‑1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成；输入连续三层n‑1，n，n+1的残差特征
k k k
其中w，h ，c分别为第k层残差特征的宽、长、通道数，k＝n‑1,n,n+1，n＝
2,3,4,5，输出第n层的层次级联特征 c1为输出的通道数；
n n‑1 n+1
(2‑2)将特征提取网络得到的第二至五层残差特征R 与其相邻层残差特征R 和R 一
2
起输入(2‑1)中的层次级联网络，n＝2,3,4,5，对于第二层残差特征R ，不使用低层次通道
5
嵌入网络，对于第五层残差特征R不使用高层次通道嵌入网络，输出第二至五层对应的层次级联特征由此构成层次级联特
征集合
(2‑3)将各视频帧的残差特征集合依次按照步骤(2‑1)和(2‑2)操作，输出各视频帧的层次级联特征集合
步骤(3)构建基于贝叶斯模型的目标记忆模块，输入视频帧对应的层次级联特征集合，输出其对应的预测粗糙掩膜；
步骤(4)构建掩膜恢复网络，输入视频帧对应的层次级联特征集合和预测粗糙掩膜，输出其对应的预测精细掩膜；
步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分割网络，使用交叉熵损失函数进行优化，获得训练好的目标分割网络；
步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中，输出视频目标分割的结果。

2.如权利要求1所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(3)具体是：
(3‑1)构建的目标记忆模块通过计算并保存视频中背景和前景的先验概率及目标特征表示来实现记忆功能，目标记忆模块使用视频首帧及其掩膜进行初始化，并在处理视频后续各帧的过程中不断进行更新，并通过贝叶斯公式计算得到视频帧的预测粗糙掩膜；
(3‑2)目标记忆模块初始化：
首先输入各视频帧的层次级联特征集合和首帧真实掩膜M1，输出目标记忆模块的初始化背景先验概率目标特征表示和初始化前景先验概率
目标特征表示其中上标bg和fg分别表示背景和前景，初始化过程具体
是：对输入的首个视频帧真实掩膜M1进行下采样得到真实粗糙掩膜被分为背bg
景的像素点集合记为集合中像素点个数为N ；被分为前景的像素点集合记为集fg
合中像素点个数为N ；输出目标记忆模块的初始背景先验概率p(bg)和初始前景先验概率p(fg)：
然后输入首帧的第五层层次级联特征输出目标记忆模块的初始背景目标特征表示和初始前景目标特征表示
其中，(i,j)为长宽维度上的任一像素点的坐标，
5
为首帧层次级联特征V1于该像素点处在通道上对应的向量；
(3‑3)目标记忆模块更新：
从第二视频帧开始的视频帧Ft′，t′＝2,3,...,T，输入第五层层次级联特征更新目标记忆模块，并输出对应的预测粗糙掩膜
(3‑4)将各帧层次级联特征集合依次按照步骤(3‑2)和(3‑3)操作，输出各视频帧的预测粗糙掩膜

3.如权利要求2所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(4)具体是：
(4‑1)将与预测粗糙掩膜按照通道拼接后通过两个卷积层，再进行上采样后输出第四层恢复特征其中c2为恢复特征的通道数；
(4‑2)将第四层层次级联特征与第四层恢复特征按照通道拼接后通过两个卷积层，再进行上采样后输出第三层恢复特征
(4‑3)将第三层层次级联特征与第三层恢复特征按照通道拼接后通过两个卷积层，再进行上采样后输出第二层恢复特征
(4‑4)将第二层层次级联特征与第二层恢复特征按照通道拼接后通过两个卷积层,再进行上采样后输出模型预测分割分数
(4‑5)输入预测分割分数Ut′，使用Softmax函数计算输出预测精细掩膜：
其中，和为第t′时刻
视频帧预测分割分数Ut′在该像素点处两个通道对应的数值，和分别为坐标(i,j)像素点被预测为背景或前景的概率，再由各个点上的概率构成输出的预测精细掩膜(4‑6)将层次级联特征集合和预测粗糙掩膜依次按
照步骤(4‑1)～(4‑5)操作，输出各帧的预测精细掩膜

4.如权利要求3所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(5)具体是：
( 5 ‑1 ) 使用交叉熵函数作为模型优化的损失函数，表达式为：
0 1
其中， m 表示该像素点是否为背景，m
表示该像素点是否为前景，即当真实掩膜M在该像素点处的两个通道数值为[0,1]时，该像素点属于背景，两个通道数值为[1,0]时则为前景；类似的，预测精细掩膜在该像素点处的两个通道数值表示该像素点为背景或前景的概率；
(5‑2)输入第t′时刻视频帧真实掩膜通过下采样得到真实粗糙掩膜
结合预测粗糙掩膜计算粗糙损失
其中，和分别为真实粗糙掩膜和预测粗糙掩膜于坐标(i,j)像素点
处在通道上对应的向量；
(5‑3)输入第t′时刻视频帧真实掩膜结合预测精细掩膜计算
精细损失其中，和分别为真实掩膜Mt′和预测
精细掩膜于该像素点处在通道上对应的向量；
(5‑4)计算目标分割网络的最终优化目标损失函数为表示最终损失，λ＞
0为调整两部分损失重要性程度的常数，使用该损失函数，通过Adam优化器对特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络中的参数进行优化，获得训练好的目标分割网络。

5.如权利要求4所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(6)具体是：
(6‑1)对输入的新视频进行帧采样，得到视频帧集合{It|t＝1,2,...,T}和首帧掩膜表示新视频在t时刻的视频帧；
(6‑2)将视频帧{It|t＝1,2,...,T}按照步骤(1)～(4)输入训练好的目标分割网络中，输出各帧的预测精细掩膜该掩膜即为视频目标分割任务的最终结果。

6.如权利要求1所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(2‑1)具体是：
构建由一个卷积层，一个长宽维度上的全局池化层，一个卷积层和一个Sigmoid激活层顺序构成的注意力网络，Sigmoid函数的表达式为：其中，x为输入
的任意维度张量，exp(·)为指数函数；
n
将第n层残差特征R输入注意力网络，输出通道注意力分数
n‑1
构建由池化层和一个卷积层构成的低层次通道嵌入网络，输入第n‑1层残差特征R ，n
输出低层次通道嵌入特征然后与通道注意力分数A 按通道进行逐元素相乘，输出低层次通道注意力特征
n+1
构建由池化层和一个卷积层构成的高层次通道嵌入网络，输入第n+1层残差特征R ，n
输出高层次通道嵌入特征然后与注意力分数A按通道进行逐元素相乘，输出高层次通道注意力特征
n‑1 n n+1
将低层次通道注意力特征T ，第n层残差特征R和高层次通道注意力特征T 按照通道拼接得到拼接特征然后通过一个融合卷积层输出层次级联特征

7.如权利要求2所述的一种基于贝叶斯记忆的层次级联视频目标分割方法，其特征在于，步骤(3‑3)具体是：
bg fg
输入 s 和s ，输出背景目标观测概率p(vi,j|bg)和前景目标观测概率p(vi,j|fg)：
其中，为在坐
标(i,j)像素点处在通道上对应的向量，和分别表示在背景、前
景集合中观测到向量vi,j的概率；
按照贝叶斯公式，输出各像素点处的背景后验概率p(bg|vi,j)和前景后验概率p(fg|vi,j)：
和分别表示坐标(i,j)像素点为背景或前景的后验概率，由各
像素点处的后验概率构成第t′时刻视频帧的预测粗糙掩膜并输出；
由得到被分为背景像素点集合和前景像素点集合两集合中像素点的个数bg fg
分别为和输出目标记忆模块更新后的背景像素点个数N 和前景像素点个数N ：
其中，α∈(0,1)为调整两部分重要性程度的常数；
然后按照步骤(3‑2)更新目标记忆模块，重新计算背景先验概率p(bg)和前景先验概率p(fg)；输入第t′时刻第五层层次级联特征输出目标记忆模块更新后的目标bg fg
特征表示s 和s ：其中，β∈(0,1)
为调整两部分重要性程度的常数。

说明书

技术领域

[0001] 本发明属于视频处理技术领域，尤其是视频处理中的分割技术领域，涉及一种基于贝叶斯记忆的层次级联视频目标分割方法。

背景技术

[0002] 在互联网+和大数据时代，人们拥有便捷的视频采集设备，使得视频数据呈现出以指数级增长的趋势，对视频目标做编辑修改的需求成倍增加，使得视频目标分割成为越来越多研究人员关注的研究方向。视频目标分割在电影制作、视频会议、动画创作等多个领域有着广阔的应用前景。

[0003] 在互联网+和大数据时代，人们拥有便捷的视频采集设备，使得视频数据呈现指数级增长的趋势，对视频目标做编辑修改的需求成倍增加，使得视频目标分割成为越来越多研究人员关注的热点领域。视频目标分割在电影制作、视频会议、动画创作等领域有着广阔的应用前景。

[0004] 视频目标分割针对视频的每一帧进行目标类别的像素级的标注，相比图像分割，可能面临目标物体的位置、形状、亮度等发生变化的问题。早期视频目标分割方法主要依靠在线学习技术，在测试时根据给出的第一帧的像素级标注(掩膜)对通过静态图像预训练的分割模型进行微调；或通过在线自适应机制扩展利用来自实例分割网络的语义信息；或与实例分割、光流、细化、再识别等技术相结合。

[0005] 视频目标分割方法主要考虑三种场景：1)半监督视频目标分割给出了视频首帧的掩膜，从而指出了待分割的前景目标；2)无监督视频目标分割不带有任何已知的掩膜，对前景目标的识别完全由模型自主进行；3)交互式的视频目标分割允许用户实时地对分割结果进行调整和修正，从而帮助模型取得更好的效果。目前较多的方法主要针对第一类的半监督视频目标分割场景，本发明中提出的方法亦适用于该场景。

[0006] 现有的方法通常使用深度神经网络，主要有两种方法：1)基于匹配的方法，首先计算视频中模板帧与当前帧特征的像素级匹配，通过两帧中各个像素点之间的相关性进行分割；2) 基于传播的方法，借助前一帧来获取更好的视频目标分割性能，即结合前一帧的预测分割掩膜作为输入来处理视频目标分割，充分考虑了视频帧前后的关联性。

[0007] 上述方法的不足点主要表现在两方面：1)基于匹配的方法虽然考虑了视频目标的相似性，但缺乏时间维度上的信息；随着物体的不断运动，仍然可能导致失配的问题；此外，由于一个视频中可能存在多个同类别物体，这会增加匹配方法对分割目标准确定位的难度；2)基于传播的方法虽然考虑了视频目标在时序上的相关性，但也导致了错误信息的积累，因此很难应对物体快速运动或从画面中暂时消失的情况。上述这些方法在处理视频目标分割任务时，不能很好满足实际视频目标分割的需求。为了解决这些问题，迫切需要一种既能捕捉物体大小形状变化，又能捕捉物体运动的方法，以提升目标分割精度。

发明内容

[0008] 本发明的目的就是针对现有技术的不足，提出一种基于贝叶斯记忆的层次级联视频目标分割方法，既能考虑到运动物体在时序上的关联，又能识别不同大小尺寸物体，从而准确地对视频中的目标进行分割。

[0009] 本发明方法在给出视频数据集合以及像素级标注(掩膜)后，依次进行如下操作：

[0010] 步骤(1)对视频数据进行帧采样，使用残差卷积网络作为特征提取网络，输入视频帧，输出对应的残差特征集合；

[0011] 步骤(2)构建层次级联网络，输入视频帧对应的残差特征集合，输出对应的层次级联特征集合；

[0012] 步骤(3)构建基于贝叶斯模型的目标记忆模块，输入视频帧对应的层次级联特征集合，输出其对应的预测粗糙掩膜；

[0013] 步骤(4)构建掩膜恢复网络，输入视频帧对应的层次级联特征集合和预测粗糙掩膜，输出其对应的预测精细掩膜；

[0014] 步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分割网络，使用交叉熵损失函数进行优化，获得训练好的目标分割网络；

[0015] 步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中，输出视频目标分割的结果。

[0016] 进一步，步骤(1)具体是：

[0017] (1‑1)对输入视频进行帧采样，采样率为25帧/次，结合给出的各帧像素级标记(掩膜)，得到视频帧与掩膜的集合为{(Ft,Mt)|t＝1,2,...,T}；其中，T表示视频的总时长，Ft表示t时刻的视频帧，表示实数集合，w表示宽、h表示长、通道数为3；Mt表示tw×h×2时刻视频帧的掩膜，M∈{0,1} ，其两个通道分别代表背景和前景目标；

[0018] (1‑2)使用残差卷积网络作为特征提取网络，并去除其最后的全局池化层和全连接层，输入视频帧F，输出残差卷积网络第二至五层的残差特征由此构成残差特征集合其中，上标
数 n＝2,3,4,5表示第n层，256、512、1024和2048表示该层残差特征的通道数；

[0019] (1‑3)将视频帧{Ft|t＝1,2,...,T}依次输入(1‑2)中的特征提取网络，输出各视频帧的残差特征集合

[0020] 再进一步，步骤(2)具体是：

[0021] (2‑1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成；输入连续三层n‑1，n，n+1的残差特征k k k
其中w ，h ，c分别为第k层残差特征的宽、长、通道数，k＝n‑1,n,n+1， n＝2,3,4,5，输出第n层的层次级联特征 c1为输出的通道数，具体是：

[0022] 构建由一个卷积层，一个长宽维度上的全局池化层，一个卷积层和一个Sigmoid激活层顺序构成的注意力网络，Sigmoid函数的表达式为：其中，x为输入的任意维度张量，exp(·)为指数函数；

[0023] 将第n层残差特征Rn输入注意力网络，输出通道注意力分数

[0024] 构建由池化层和一个卷积层构成的低层次通道嵌入网络，输入第n‑1层残差特征n‑1 nR ，输出低层次通道嵌入特征然后与通道注意力分数A按通道进行逐元
素相乘，输出低层次通道注意力特征

[0025] 构建由池化层和一个卷积层构成的高层次通道嵌入网络，输入第n+1层残差特征n+1 nR ，输出高层次通道嵌入特征然后与注意力分数A按通道进行逐元素相
乘，输出高层次通道注意力特征

[0026] 将低层次通道注意力特征Tn‑1，第n层残差特征Rn和高层次通道注意力特征Tn+1按照通道拼接得到拼接特征然后通过一个融合卷积层输出层次级联特征

[0027] (2‑2)将特征提取网络得到的第二至五层残差特征Rn与其相邻层残差特征Rn‑1和Rn+1 2一起输入(2‑1)中的层次级联网络，n＝2,3,4,5，对于第二层残差特征R ，不使用低层次
5
通道嵌入网络，对于第五层残差特征R不使用高层次通道嵌入网络，输出第二至五层对应的层次级联特征由此构成层次
级联特征集合

[0028] (2‑3)将各视频帧的残差特征集合依次按照步骤(2‑1)和(2‑2)操作，输出各视频帧的层次级联特征集合

[0029] 更进一步，步骤(3)具体是：

[0030] (3‑1)构建的目标记忆模块通过计算并保存视频中背景和前景的先验概率及目标特征表示来实现记忆功能，目标记忆模块使用视频首帧及其掩膜进行初始化，并在处理视频后续各帧的过程中不断进行更新，并通过贝叶斯公式计算得到视频帧的预测粗糙掩膜；

[0031] (3‑2)目标记忆模块初始化：

[0032] 首先输入各视频帧的层次级联特征集合和首帧真实掩膜M1，输出目标记忆模块的初始化背景先验概率目标特征表示和初始化前景先
验概率目标特征表示其中上标bg和fg分别表示背景和前景，初始化
过程具体是：对输入的首个视频帧真实掩膜M1进行下采样得到真实粗糙掩膜bg
被分为背景的像素点集合记为集合中像素点个数为N ；被分为前景的
fg
像素点集合记为集合中像素点个数为N ；输出目标记忆模块的初始背景先验概率p(bg)和初始前景先验概率 p(fg)：

[0033] 然后输入首帧的第五层层次级联特征输出目标记忆模块的初始背景目标特征表示和初始前景目标特征表示5
其中，(i,j)为长宽维度上的任一像素点的坐标，为首帧层次级联特征V1于该像素点处在通道上对应的向量；

[0034] (3‑3)目标记忆模块更新：

[0035] 从第二视频帧开始的视频帧Ft′，t′＝2,3,...,T，输入第五层层次级联特征更新目标记忆模块，并输出对应的预测粗糙掩膜具体是：

[0036] 输入Vt′5、sbg和sfg，输出背景目标观测概率p(vi,j|bg)和前景目标观测概率p(vi,j|fg)：其中，为5
Vt′在坐标 (i,j)像素点处在通道上对应的向量，和分别表示
在背景、前景集合中观测到向量vi,j的概率；

[0037] 按照贝叶斯公式，输出各像素点处的背景后验概率p(bg|vi,j)和前景后验概率p(fg|vi,j)：和分别表示坐标(i,j)像素点为背景或前景的后验概率，由各
像素点处的后验概率构成第t′时刻视频帧的预测粗糙掩膜并输出；

[0038] 由得到被分为背景像素点集合和前景像素点集合两集合中像素点的bg个数分别为和输出目标记忆模块更新后的背景像素点个数N 和前景像素点个数fg
N ：其中，α∈(0,1)为调整两部分重要性程度的常
数；

[0039] 然后按照步骤(3‑2)更新目标记忆模块，重新计算背景先验概率p(bg)和前景先验概率 p(fg)；输入第t′时刻第五层层次级联特征输出目标记忆模块更新后的bg fg目标特征表示s 和s ：其中，β∈
(0,1)为调整两部分重要性程度的常数；

[0040] (3‑4)将各帧层次级联特征集合依次按照步骤(3‑2)和(3‑3)操作，输出各视频帧的预测粗糙掩膜

[0041] 又进一步，步骤(4)具体是：5

[0042] (4‑1)将Vt′与预测粗糙掩膜按照通道拼接后通过两个卷积层，再进行上采样后输出第四层恢复特征其中c2为恢复特征的通道数；

[0043] (4‑2)将第四层层次级联特征Vt′4与第四层恢复特征Ut4′按照通道拼接后通过两个卷积层，再进行上采样后输出第三层恢复特征

[0044] (4‑3)将第三层层次级联特征Vt′3与第三层恢复特征Ut3′按照通道拼接后通过两个卷积层，再进行上采样后输出第二层恢复特征

[0045] (4‑4)将第二层层次级联特征Vt′2与第二层恢复特征Ut2′按照通道拼接后通过两个卷积层, 再进行上采样后输出模型预测分割分数

[0046] (4‑5)输入预测分割分数Ut′，使用Softmax函数计算输出预测精细掩膜：

[0047] 其中，和为第t′时刻视频帧预测分割分数Ut′在该像素点处两个通道对应的数值，和分别为坐标 (i,j)像素点被预测为背景或前景的概率，再由各个点上的概率构成输出的预测精细掩膜

[0048] (4‑6)将层次级联特征集合和预测粗糙掩膜依次按照步骤(4‑1)～(4‑5)操作，输出各帧的预测精细掩膜

[0049] 再进一步，步骤(5)具体是：

[0050] (5‑1)使用交叉熵函数作为模型优化的损失函数，表达式为：0

[0051] 其中， m表示该像素点是否为1
背景， m表示该像素点是否为前景，即当真实掩膜M在该像素点处的两个通道数值为[0,1]时，该像素点属于背景，两个通道数值为[1,0]时则为前景；类似的，预测精细掩膜在该像素点处的两个通道数值表示该像素点为背景或前景的概率；

[0052] (5‑2)输入第t′时刻视频帧真实掩膜通过下采样得到真实粗糙掩膜结合预测粗糙掩膜计算粗糙损失5
其中，和分别为真实粗糙掩膜Mt′和预测粗糙掩膜于坐标(i,j)像素点处在通道上对应的向量；

[0053] (5‑3)输入第t′时刻视频帧真实掩膜结合预测精细掩膜计算精细损失其中，和分别为真实掩膜Mt′和
预测精细掩膜于该像素点处在通道上对应的向量；

[0054] (5‑4)计算目标分割网络的最终优化目标损失函数为表示最终损失，λ＞0 为调整两部分损失重要性程度的常数，使用该损失函数，通过Adam优化器对特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络中的参数进行优化，获得训练好的目标分割网络。

[0055] 还进一步，步骤(6)具体是：

[0056] (6‑1)对输入的新视频进行帧采样，得到视频帧集合{It|t＝1,2,...,T}和首帧掩膜表示新视频在t时刻的视频帧；

[0057] (6‑2)将视频帧{It|t＝1,2,...,T}按照步骤(1)～(4)输入训练好的目标分割网络中，输出各帧的预测精细掩膜该掩膜即为视频目标分割任务的最终结果。

[0058] 本方法提出了基于贝叶斯记忆的层次级联视频目标分割方法，该方法具有以下几个特点： 1)通过层次级联网络对特征提取网络相邻层特征进行融合，利用各层特征中不同尺寸的目标信息，实现对尺度变化的捕捉；2)通过目标记忆模块有效利用视频各帧的时序信息，在对视频帧的特征表示进行不断迭代过程中，学习并记忆视频内的前景目标特征，并利用贝叶斯模型输出预测粗糙掩膜。

[0059] 本发明方法适用于跨度时间长，且存在不同尺寸前景目标或在运动中目标发生尺寸形状变化的视频目标分割场景，有益效果包括：1)通过残差网络和层次级联网络进行特征提取与融合，能够综合利用不同层次的特征信息，有效识别不同尺寸物体；2)通过目标记忆模块实现时序记忆，能够捕捉视频中前景目标在时序上的变化，充分考虑了前景目标在运动过程中的短期相关和长期依赖，并且能够在较低计算量的前提下，通过贝叶斯模型输出粗糙的预测掩膜，从而指导精细掩膜的生成。该方法在视频编辑合成、电影后期制作、无人驾驶、网络直播等领域具有广阔的应用前景。

实施方案

[0061] 以下结合附图对本发明作进一步说明。

[0062] 一种基于贝叶斯记忆的层次级联视频目标分割方法，首先将给出的视频帧序列输入残差网络进行深度特征提取，之后通过层次级联网络对残差网络各层得到的不同尺度信息进行特征融合；接着将该特征送入目标记忆模块，该网络能够有效利用视频各帧提供的信息，通过贝叶斯模型进行粗糙掩膜预测；得到粗糙掩膜后，与层次级联网络的输出特征一起送入掩膜恢复网络进行上采样得到精细的最终分割掩膜。该方法既能捕捉不同尺寸运动物体的大小形状变化，又能充分利用视频各帧在时序上的关联性，从而获得优越的目标分割性能。

[0063] 如图1，该方法首先获取视频数据集合以及像素级标注(掩膜)，然后进行如下操作：

[0064] 步骤(1)对视频数据进行帧采样，使用残差卷积网络作为特征提取网络，输入视频帧，输出对应的残差特征集合；具体是：

[0065] (1‑1)对输入视频进行帧采样，采样率为25帧/次，结合给出的各帧像素级标记(掩膜)，得到视频帧与掩膜的集合为{(Ft,Mt)|t＝1,2,...,T}；其中，T表示视频的总时长，Ft表示t时刻的视频帧，表示实数集合，w表示宽、h表示长、通道数为3；Mt表示tw×h×2时刻视频帧的掩膜，M∈{0,1} ，其两个通道分别代表背景和前景目标；

[0066] (1‑2)使用残差卷积网络作为特征提取网络，并去除其最后的全局池化层和全连接层，输入视频帧F，输出残差卷积网络第二至五层的残差特征由此构成残差特征集合其中，上标
数 n＝2,3,4,5表示第n层，256、512、1024和2048表示该层残差特征的通道数；

[0067] (1‑3)将视频帧{Ft|t＝1,2,...,T}依次输入(1‑2)中的特征提取网络，输出各视频帧的残差特征集合

[0068] 步骤(2)构建层次级联网络，输入视频帧对应的残差特征集合，输出对应的层次级联特征集合；具体是：

[0069] (2‑1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成；输入连续三层n‑1，n，n+1的残差特征k k k
其中w ，h ，c 分别为第k层残差特征的宽、长、通道数，k＝n‑1,n,n+1， n＝2,3,4,5，输出第n层的层次级联特征 c1为输出的通道数，具体是：

[0070] 构建由一个卷积层，一个长宽维度上的全局池化层，一个卷积层和一个Sigmoid激活层顺序构成的注意力网络，Sigmoid函数的表达式为：其中，x为输入的任意维度张量，exp(·)为指数函数；

[0071] 将第n层残差特征Rn输入注意力网络，输出通道注意力分数

[0072] 构建由池化层和一个卷积层构成的低层次通道嵌入网络，输入第n‑1层残差特征n‑1 nR ，输出低层次通道嵌入特征然后与通道注意力分数A按通道进行逐元
素相乘，输出低层次通道注意力特征

[0073] 构建由池化层和一个卷积层构成的高层次通道嵌入网络，输入第n+1层残差特征n+1 nR ，输出高层次通道嵌入特征然后与注意力分数A 按通道进行逐元素相
乘，输出高层次通道注意力特征

[0074] 将低层次通道注意力特征Tn‑1，第n层残差特征Rn和高层次通道注意力特征Tn+1按照通道拼接得到拼接特征然后通过一个融合卷积层输出层次级联特征

[0075] (2‑2)将特征提取网络得到的第二至五层残差特征Rn与其相邻层残差特征Rn‑1和Rn+1 2一起输入(2‑1)中的层次级联网络，n＝2,3,4,5，对于第二层残差特征R ，不使用低层次
5
通道嵌入网络，对于第五层残差特征R不使用高层次通道嵌入网络，输出第二至五层对应的层次级联特征由此构成层次
级联特征集合

[0076] (2‑3)将各视频帧的残差特征集合依次按照步骤(2‑1)和(2‑2)操作，输出各视频帧的层次级联特征集合

[0077] 步骤(3)构建基于贝叶斯模型的目标记忆模块，输入视频帧对应的层次级联特征集合，输出其对应的预测粗糙掩膜；具体是：

[0078] (3‑1)构建的目标记忆模块通过计算并保存视频中背景和前景的先验概率及目标特征表示来实现记忆功能，目标记忆模块使用视频首帧及其掩膜进行初始化，并在处理视频后续各帧的过程中不断进行更新，并通过贝叶斯公式计算得到视频帧的预测粗糙掩膜；

[0079] (3‑2)目标记忆模块初始化：

[0080] 首先输入各视频帧的层次级联特征集合和首帧真实掩膜M1，输出目标记忆模块的初始化背景先验概率目标特征表示和初始化前景先
验概率目标特征表示其中上标bg和fg分别表示背景和前景，初始化
过程具体是：对输入的首个视频帧真实掩膜M1进行下采样得到真实粗糙掩膜bg
被分为背景的像素点集合记为集合中像素点个数为N ；被分为前景的
fg
像素点集合记为集合中像素点个数为N ；输出目标记忆模块的初始背景先验概率p(bg)和初始前景先验概率 p(fg)：

[0081] 然后输入首帧的第五层层次级联特征输出目标记忆模块的初始背景目标特征表示和初始前景目标特征表示5
其中，(i,j)为长宽维度上的任一像素点的坐标，为首帧层次级联特征V1于该像素点处在通道上对应的向量；

[0082] (3‑3)目标记忆模块更新：

[0083] 从第二视频帧开始的视频帧Ft′，t′＝2,3,...,T，输入第五层层次级联特征更新目标记忆模块，并输出对应的预测粗糙掩膜具体是：

[0084] 输入Vt′5、sbg和sfg，输出背景目标观测概率p(vi,j|bg)和前景目标观测概率p(vi,j|fg)：其中，为5
Vt′在坐标 (i,j)像素点处在通道上对应的向量，和分别表示
在背景、前景集合中观测到向量vi,j的概率；

[0085] 按照贝叶斯公式，输出各像素点处的背景后验概率p(bg|vi,j)和前景后验概率p(fg|vi,j)：和分别表示坐标(i,j)像素点为背景或前景的后验概率，由各
像素点处的后验概率构成第t′时刻视频帧的预测粗糙掩膜并输出；

[0086] 由得到被分为背景像素点集合和前景像素点集合两集合中像素点的bg个数分别为和输出目标记忆模块更新后的背景像素点个数N 和前景像素点个数fg
N ：其中，α∈(0,1)为调整两部分重要性程度的常
数；

[0087] 然后按照步骤(3‑2)更新目标记忆模块，重新计算背景先验概率p(bg)和前景先验概率 p(fg)；输入第t′时刻第五层层次级联特征输出目标记忆模块更新后的bg fg目标特征表示s 和s ：其中，β∈
(0,1)为调整两部分重要性程度的常数；

[0088] (3‑4)将各帧层次级联特征集合依次按照步骤(3‑2)和(3‑3)操作，输出各视频帧的预测粗糙掩膜

[0089] 步骤(4)构建掩膜恢复网络，输入视频帧对应的层次级联特征集合和预测粗糙掩膜，输出其对应的预测精细掩膜；具体是：

[0090] (4‑1)将Vt′5与预测粗糙掩膜按照通道拼接后通过两个卷积层，再进行上采样后输出第四层恢复特征其中c2为恢复特征的通道数；

[0091] (4‑2)将第四层层次级联特征Vt′4与第四层恢复特征Ut4′按照通道拼接后通过两个卷积层，再进行上采样后输出第三层恢复特征

[0092] (4‑3)将第三层层次级联特征Vt′3与第三层恢复特征Ut3′按照通道拼接后通过两个卷积层，再进行上采样后输出第二层恢复特征

[0093] (4‑4)将第二层层次级联特征Vt′2与第二层恢复特征Ut2′按照通道拼接后通过两个卷积层, 再进行上采样后输出模型预测分割分数

[0094] (4‑5)输入预测分割分数Ut′，使用Softmax函数计算输出预测精细掩膜：

[0095] 其中，和为第t′时刻视频帧预测分割分数Ut′在该像素点处两个通道对应的数值，和分别为坐标 (i,j)像素点被预测为背景或前景的概率，再由各个点上的概率构成输出的预测精细掩膜

[0096] (4‑6)将层次级联特征集合和预测粗糙掩膜依次按照步骤(4‑1)～(4‑5)操作，输出各帧的预测精细掩膜

[0097] 步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分割网络，使用交叉熵损失函数进行优化，获得训练好的目标分割网络；具体是：

[0098] (5‑1)使用交叉熵函数作为模型优化的损失函数，表达式为：

[0099] 其中， m0表示该像素点是否为1
背景， m表示该像素点是否为前景，即当真实掩膜M在该像素点处的两个通道数值为[0,1]时，该像素点属于背景，两个通道数值为[1,0]时则为前景；类似的，预测精细掩膜在该像素点处的两个通道数值表示该像素点为背景或前景的概率；

[0100] (5‑2)输入第t′时刻视频帧真实掩膜通过下采样得到真实粗糙掩膜结合预测粗糙掩膜计算粗糙损失5
其中，和分别为真实粗糙掩膜Mt ′和预测粗糙掩膜于坐标(i,j)像素点处在通道上对应的向量；

[0101] (5‑3)输入第t′时刻视频帧真实掩膜结合预测精细掩膜计算精细损失其中，和分别为真实掩膜Mt′和
预测精细掩膜于该像素点处在通道上对应的向量；

[0102] (5‑4)计算目标分割网络的最终优化目标损失函数为表示最终损失，λ＞0 为调整两部分损失重要性程度的常数，使用该损失函数，通过Adam优化器对特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络中的参数进行优化，获得训练好的目标分割网络。

[0103] 步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中，输出视频目标分割的结果；具体是：

[0104] (6‑1)对输入的新视频进行帧采样，得到视频帧集合{It|t＝1,2,...,T}和首帧掩膜表示新视频在t时刻的视频帧；

[0105] (6‑2)将视频帧{It|t＝1,2,...,T}按照步骤(1)～(4)输入训练好的目标分割网络中，输出各帧的预测精细掩膜该掩膜即为视频目标分割任务的最终结果。

[0106] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0060] 图1是本发明方法的流程图。

1一种视频帧中图像处理方法 2一种视频图像增强处理装置 3一种视频处理器车载用新型红外夜视设备 4高动态范围视频自适应预处理方法 5一种疫情宣传视频数据安全处理方法及设备 6自拍视频雷神图片的眼睛处理方法及相关产品 7处理多种先验知识的自适应视频目标分割方法 8神经网络训练方法、视频帧处理方法、装置及系统 9一种基于大数据分析的视频图像处理方法及系统 10一种短视频分析处理方法、系统及计算机存储介质