首页 > 专利 > 杭州电子科技大学 > 融合目标检测与跟踪的视频半自动目标标注方法专利详情

融合目标检测与跟踪的视频半自动目标标注方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-10-11

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-04-21

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-10-14

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-10-11

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201910963482.3	申请日	2019-10-11
公开/公告号	CN110929560B	公开/公告日	2022-10-14
授权日	2022-10-14	预估到期日	2039-10-11
申请年	2019年	公开/公告年	2022年
缴费截止日
分类号	G06V20/40 、G06V10/80 、G06V10/50 、G06V10/56 、G06V10/764 、G06V10/82	主分类号	G06V20/40
是否联合申请	独立申请	文献类型号	B
独权数量	2	从权数量	0
权利要求数量	2	非专利引证数量	1
引用专利数量	0	被引证专利数量	0
非专利引证	1、CN 107403175 A,2017.11.28CN 107767405 A,2018.03.06TIMO OJALA等.A COMPARATIVE STUDY OFTEXTURE MEASURES WITH CLASSIFICATIONBASED ON FEATURE DISTRIBUTIONS. 《PatternRecoonition》.1005,第29卷(第1期),第1-9页.;
引用专利		被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	徐英、谷雨、刘俊、彭冬亮、陈庆林	第一发明人	徐英
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	5
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱亚冠

摘要

本发明公开融合目标检测与跟踪的视频半自动目标标注方法，首先在视频图像中选定某一帧为初始帧，手动标记目标的初始位置，确定目标的类别标签。在后续帧中，融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置；本发明根据目标跟踪算法判断目标标注是否结束。若结束，根据每一帧目标的显著值大小，提取视频关键帧，得到目标标注结果，否则继续估计目标在视频图像中的位置；本发明基于目标显著性提取视频关键帧的方法，使关键帧能反映目标变化的多样性。本发明采用多镜头多舰船的视频进行实验测试，验证了本发明提出方法的有效性。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5
说明书附图：图6
说明书附图：图7
说明书附图：图8
说明书附图：图9
说明书附图：图10
说明书附图：图11
说明书附图：
说明书附图：图12

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-10-14	授权
2	2020-04-21	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201910963482.3 申请日: 2019.10.11
3	2020-03-27	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.融合目标检测与跟踪的视频半自动目标标注方法，其特征在于该方法包括以下步骤：
步骤(1)、在视频的某个镜头中选定某一帧为初始帧，手动标记目标的初始位置和大小，确定目标的类别标签；
步骤(2)、初始帧之后的其他后续帧采用自动标注，具体是融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置；具体是：
2.1采用YOLOV3对每一帧图像中目标进行检测并标识出检测框；
上述YOLOV3是将带有标签目标图像调整到固定尺度大小作为训练样本，对yolo‑v3进行训练；其中YOLO层增加到4层，经过多尺度特征融合得到13×13，26×26，52×52，104×
104四种不同尺度的不同感受野特征图；使用(116x90)，(156x198)，(373x326)三种先验框对13×13的特征图进行预测，检测较大的对象；使用(30x61)，(62x45)，(59x119)三种先验框对26×26的特征图进行预测，检测中等大小的对象；使用(10x13)，(16x30)，(33x23)三种先验框对52×52的特征图进行预测，检测较小的对象；使用新增加的(5x6)，(8x15)，(16x10)三种先验框，对104×104特征图进行预测，检测更小的目标；
2.2采用KCF相关滤波跟踪算法获取目标的跟踪框；
首先根据前一帧的目标位置和大小提取HOG特征，再通过傅立叶变换转到频域，把得到的频域特征通过高斯核函数映射到高维，并根据(1)式得到滤波模版α：
其中x表示样本的HOG特征,^表示傅立叶变换，g是中心为峰值的二维高斯函数，λ是正xx
则化参数，用来控制训练的过拟合；k 表示x在高维空间里的核自相关矩阵，其计算方式由(2)式给出:
其中σ是高斯核函数的宽度参数,控制了函数的径向作用范围，*表示复共轭，⊙表示点乘，表示傅立叶逆变换，c是HOG特征x的通道数；
为了能适应目标外观变化，滤波器需要进行在线更新；在第t帧图像上进行目标跟踪时，相关滤波器α的更新由下式给出：
其中η为更新参数；
为了能适应目标的尺度变化，当前帧的滤波器αt需进行尺度缩放，从而预测下一帧目标的尺寸；其中缩放的比例分别为[1.1,1.05,1,0.95,0.9]；
在第t+1帧图像上的第t帧目标位置处，提取候选样本HOG特征z；结合上述每个尺寸缩放后的滤波器，对应的每个相关滤波输出响应图f见式(4)：
其中m＝(1,2,3,4,5)，分别对应缩放的比例[1.1,1.05,1,0.95,0.9]；x表示第t帧目标的HOG特征；
从上述5个响应图f最大值max(f)中筛选出最大值fmax,fmax对应的位置即为目标中心的位置，fmax对应的缩放比例即为目标大小，得到第t+1帧的跟踪框；
2.3融合目标检测和目标跟踪的结果来确定标注的目标框；
首先判断每一帧图像上是否含有检测框，若没有则目标框为跟踪框；若有则继续判断检测框是否只有一个，若是则计算跟踪框和检测框的IOU值，若该IOU值大于阈值，则目标框为检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；若检测框有多个则需要计算跟踪框和每一个检测框的IOU值，进而筛选出最大IOU值，若该最大IOU值大于阈值，则目标框为对应最大IOU值的检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；
IOU值是用来评价当前帧下跟踪框与每个检测框的重合度，其公式如下：
其中SI表示同一帧下跟踪框与每个检测框的重叠部分面积，SU表示同一帧下跟踪框与每个检测框的集合部分面积，所述的集合部分面积为跟踪框与检测框的总面积减去重叠面积；
步骤(3)、根据目标跟踪算法判断目标标注是否结束；
根据KCF相关滤波跟踪器的响应图f，判断max(f)是否小于设定的阈值θ并且峰值旁瓣比PSR小于设定的阈值θPSR时,即：
max(f)<θandPSR<θPSR (7)
若是则判断目标标注结束，转到步骤(4)进行关键帧的选择；反之则转到步骤(2)，继续估计目标在下一帧图像中的位置；
PSR的计算公式如下：
其中max(f)为相关滤波响应图f的峰值，Φ＝0.5，μΦ(f)和σΦ(f)分别是以f峰值为中心的50％响应区域的均值和标准差；
步骤(4)、计算当前镜头中每一帧目标的显著值；根据每一帧目标的显著值大小，提取设定数量的视频关键帧，得到目标标注结果；具体是：
4.1局部二值模式LBP提取图像的纹理特征，基本思想是定义在像素3*3的邻域内，以邻域中心像素为阈值，相邻的8个像素的灰度值与其进行比较，若某一周围像素点的灰度值大于中心像素值，则该周围像素点的位置被标记为1，否则为0；3*3邻域内的8个点经比较可产生8位二进制数，转化为十进制数即可得到中心像素的LBP值，并用这个值来反映该区域的LBP信息；具体计算公式如(8)式所示：
其中(x0,y0)为中心像素的坐标，p为邻域的第p个像素，jp为邻域像素的灰度值，j0为中心像素的灰度值；s(x)为符号函数：
4.2颜色显著性特征图的计算公式如下：
其中patch为目标框区域原图，patchgaussian为patch经过高斯核为5×5，标准差为0的高斯滤波处理之后的图像，||表示取绝对值，i表示通道数，(x,y)为像素坐标；
4.3针对每一帧图像目标框中目标边缘区域的像素点获取边缘显著性特征图目标框中的目标边缘区域，像素值会发生“跳跃”，对这些像素值求导，在其一阶导数在边缘位置为极值，这就是Sobel算子使用的原理——极值处就是边缘；如果对像素值求二阶导数，边缘处的导数值为0；Laplace函数实现的方法是先用Sobel算子计算二阶x和y导数，再求和得到边缘显著性特征图，计算公式如下：
其中I表示目标框中图像，(x,y)表示目标框中目标边缘区域的像素坐标；
4.4将LBP纹理特征，颜色显著性特征，边缘显著性特征等特征进行平均加权融合，得到融合值mean，融合计算公式如下：
其中，分别表示第t帧中LBP纹理特征图、颜色显著
性特征图、边缘显著性特征图中像素点(x,y)的值；
4.5颜色直方图变化值Dist通过计算初始帧选定目标区域和第t帧目标区域颜色直方图的巴氏距离得到,计算公式如下：
其中H0为初始帧手动标注选定目标框颜色直方图，Ht为第t帧自动标注目标框的颜色直方图，为H0经过式(14)运算后得出的值，为Ht经过式(14)运算后得出的值，n表示颜色直方图bin的总数，的计算公式由下式给出：
其中k＝0或t；
4.6尺度变化值通过计算初始帧目标框和第t帧目标框的宽高变化得到的，计算公式如下：
其中为初始帧目标框的宽和高，和为第t帧目标框的宽和
高；
4.7根据图像目标框区域的融合值、颜色直方图变化值、尺度变化值，第t帧的目标显著值的计算公式如下：
其中T表示视频的总帧数；
4.8将视频中每一帧目标的显著值St构建显著值折线图，求得所有峰值以及所对应的帧；
假设该视频有T帧，设定提取关键帧的数量为a个；显著值峰值的个数为b个，若a步骤(5)、返回步骤(1)，进行下一个视频镜头的目标标注。

说明书

技术领域

[0001] 本发明属于视频数据标记领域，涉及一种融合目标检测与目标跟踪，并根据目标显著性进行视频关键帧提取的视频目标标注方法。

背景技术

[0002] 近年来，深度学习技术发展迅速，推动目标检测与目标跟踪领域不断实现新突破。由于深度学习技术需要大数据的支撑，获取大量具有样本多样性的带准确标签训练数据是深度学习技术取得优异性能的关键。

[0003] 目前获取训练数据主要有手工标注和自动标注两种方法。手工标注采用手动方式对单一图像中的目标位置和标签进行标注，而视频中有大量连续的图像帧，手工标注的效率低，鉴于视频中目标具有时空连续性的特点，使得自动标注成为可能。目前现有技术中仅使用基于相关滤波的目标跟踪算法进行视频目标标注，标注结果的准确度达不到作为训练数据的要求。而仅使用目标检测算法进行视频目标标注，检测器会根据初始帧目标的类型，在后续帧中把符合目标类型的目标全部标出，不能判断是否和初始帧是同一个目标，或者检测器会因为目标的抖动模糊等因素，出现漏检导致视频目标标注不连贯。本发明融合检测和跟踪算法，结合两种算法优势，可以提高自动标注的准确度，利用跟踪算法的时空连续性可以确定同一个目标，并解决检测器漏检问题，还可以自动判断目标消失，提高标注效率。

[0004] 本发明提出一种视频半自动标注方法，首先在初始帧中手动标注目标位置，然后在后续帧中自动标注出该目标的位置，最后自动提取若干个关键帧得到标注结果。其中需要解决的主要问题包括：(1)如何提高视频目标标注的准确度和连贯性，是需要解决的第一个问题。(2)为了减少人工参与，提高标注效率，需要自动判断目标消失和标注结束。(3)提取的若干关键帧要能够反映出目标尺度大小、角度、光照等变化的多样性。

[0005] 本发明针对目前单独的目标检测算法或者目标跟踪算法不能满足视频目标自动标注要求的情况，通过合理的规则融合目标检测和目标跟踪，极大提高视频目标标注的效率和准确度；另外提出一种基于目标显著性提取视频关键帧的方法，从而使提取的关键帧能准确反映目标变化的多样性。

发明内容

[0006] 本发明针对所要解决的技术问题是现有自动标记手段精准度与连贯性不高或手动标记速度慢，提出一种融合目标检测与跟踪的视频半自动目标标注方法。

[0007] 首先在视频图像中选定某一帧为初始帧，手动标记目标的初始位置，确定目标的类别标签。在后续帧中，融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置，并根据目标跟踪算法判断目标标注是否结束。若结束，根据每一帧目标的显著值大小，提取视频关键帧，得到目标标注结果，否则继续估计目标在视频图像中的位置。本发明融合目标检测算法和目标跟踪算法对视频目标准确标注，自动判断目标标注结束，并根据目标显著性提取视频关键帧，得到目标标注结果。

[0008] 本发明采用的技术方案包括以下步骤：

[0009] 1、融合目标检测与跟踪的视频半自动目标标注方法，其特征在于该方法包括以下步骤：

[0010] 步骤(1)、在视频的某个镜头中选定某一帧为初始帧，手动标记目标的初始位置和大小，确定目标的类别标签；

[0011] 步骤(2)、初始帧之后的其他后续帧采用自动标注，具体是融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置；具体是：

[0012] 2.1采用YOLO V3对每一帧图像中目标进行检测并标识出检测框；

[0013] 上述YOLO V3是将带有标签目标图像调整到固定尺度大小作为训练样本，对yolo‑v3进行训练；其中YOLO层增加到4层，经过多尺度特征融合得到13×13，26×26，52×52，104×104四种不同尺度的不同感受野特征图；使用(116x90)，(156x198)，(373x326)三种先验框对13×13的特征图进行预测，检测较大的对象；使用(30x61)，(62x45)，(59x119)三种先验框对26×26的特征图进行预测，检测中等大小的对象；使用(10x13)，(16x30)，(33x23)三种先验框对52×52的特征图进行预测，检测较小的对象；使用新增加的(5x6)，(8x15)，(16x10)三种先验框，对104×104特征图进行预测，检测更小的目标；

[0014] 2.2采用KCF相关滤波跟踪算法获取目标的跟踪框；

[0015] 首先根据前一帧的目标位置和大小提取HOG特征，再通过傅立叶变换转到频域，把得到的频域特征通过高斯核函数映射到高维，并根据(1)式得到滤波模版α：

[0016]

[0017] 其中x表示样本的HOG特征,^表示傅立叶变换，g是中心为峰值的二维高斯函数，λxx是正则化参数，用来控制训练的过拟合；k 表示x在高维空间里的核自相关矩阵，其计算方式由(2)式给出:

[0018]

[0019] 其中σ是高斯核函数的宽度参数,控制了函数的径向作用范围，*表示复共轭，⊙表示点乘，表示傅立叶逆变换，c是HOG特征x的通道数；

[0020] 为了能适应目标外观变化，滤波器需要进行在线更新；在第t帧图像上进行目标跟踪时，相关滤波器α的更新由下式给出：

[0021]

[0022] 其中η为更新参数；

[0023] 为了能适应目标的尺度变化，当前帧的滤波器αt需进行尺度缩放，从而预测下一帧目标的尺寸；其中缩放的比例分别为[1.1,1.05,1,0.95,0.9]；

[0024] 在第t+1帧图像上的第t帧目标位置处，提取候选样本HOG特征z；结合上述每个尺寸缩放后的滤波器，对应的每个相关滤波输出响应图f见式(4)：

[0025]

[0026] 其中m＝(1,2,3,4,5)，分别对应缩放的比例[1.1,1.05,1,0.95,0.9]；x表示第t帧目标的HOG特征；

[0027] 从上述5个响应图f最大值max(f)中筛选出最大值fmax,fmax对应的位置即为目标中心的位置，fmax对应的缩放比例即为目标大小，得到第t+1帧的跟踪框；

[0028] 2.3融合目标检测和目标跟踪的结果来确定标注的目标框；

[0029] 首先判断每一帧图像上是否含有检测框，若没有则目标框为跟踪框；若有则继续判断检测框是否只有一个，若是则计算跟踪框和检测框的IOU值，若该IOU值大于阈值，则目标框为检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；若检测框有多个则需要计算跟踪框和每一个检测框的IOU值，进而筛选出最大IOU值，若该最大IOU值大于阈值，则目标框为对应最大IOU值的检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；

[0030] IOU值是用来评价当前帧下跟踪框与每个检测框的重合度，其公式如下：

[0031]

[0032] 其中SI表示同一帧下跟踪框与每个检测框的重叠部分面积，SU表示同一帧下跟踪框与每个检测框的集合部分面积，所述的集合部分面积为跟踪框与检测框的总面积减去重叠面积；

[0033] 步骤(3)、根据目标跟踪算法判断目标标注是否结束；

[0034] 根据KCF相关滤波跟踪器的响应图f，判断max(f)是否小于设定的阈值θ并且峰值旁瓣比PSR小于设定的阈值θPSR时,即：

[0035] max(f)<θandPSR<θPSR (7)

[0036] 若是则判断目标标注结束，转到步骤(4)进行关键帧的选择；反之则转到步骤(2)，继续估计目标在下一帧图像中的位置；

[0037] PSR的计算公式如下：

[0038]

[0039] 其中max(f)为相关滤波响应图f的峰值，Φ＝0.5，μΦ(f)和σΦ(f)分别是以f峰值为中心的50％响应区域的均值和标准差；

[0040] 步骤(4)、计算当前镜头中每一帧目标的显著值；根据每一帧目标的显著值大小，提取设定数量的视频关键帧，得到目标标注结果；具体是：

[0041] 4.1局部二值模式LBP提取图像的纹理特征，基本思想是定义在像素3*3的邻域内，以邻域中心像素为阈值，相邻的8个像素的灰度值与其进行比较，若某一周围像素的灰度值大于中心像素值，则该周围像素点的位置被标记为1，否则为0；3*3邻域内的8个点经比较可产生8位二进制数，转化为十进制数即可得到中心像素的LBP值，并用这个值来反映该区域的LBP信息；具体计算公式如(8)式所示：

[0042]

[0043] 其中(x0,y0)为中心像素的坐标，p为邻域的第p个像素，jp为邻域像素的灰度值，j0为中心像素的灰度值；s(x)为符号函数：

[0044]

[0045] 4.2颜色显著性特征图的计算公式如下：

[0046]

[0047] 其中patch为目标框区域原图，patchgaussian为patch经过高斯核为5×5，标准差为0的高斯滤波处理之后的图像，||表示取绝对值，i表示通道数，(x,y)为像素坐标；

[0048] 4.3针对每一帧图像目标框中目标边缘区域的像素点获取边缘显著性特征图[0049] 目标框中的目标边缘区域，像素值会发生“跳跃”，对这些像素值求导，在其一阶导数在边缘位置为极值，这就是Sobel算子使用的原理——极值处就是边缘；如果对像素值求二阶导数，边缘处的导数值为0；Laplace函数实现的方法是先用Sobel算子计算二阶x和y导数，再求和得到边缘显著性特征图，计算公式如下：

[0050]

[0051] 其中I表示目标框中图像，(x,y)表示目标框中目标边缘区域的像素坐标；

[0052] 4.4将LBP纹理特征，颜色显著性特征，边缘显著性特征等特征进行平均加权融合，得到融合值mean，融合计算公式如下：

[0053]

[0054] 其中，分别表示第t帧中LBP纹理特征图、颜色显著性特征图、边缘显著性特征图中像素点(x,y)的值；

[0055] 4.5颜色直方图变化值Dist通过计算初始帧选定目标区域和第t帧目标区域颜色直方图的巴氏距离得到,计算公式如下：

[0056]

[0057] 其中H0为初始帧手动标注选定目标框颜色直方图，Ht为第t帧自动标注目标框的颜色直方图，为H0经过式(14)运算后得出的值，为Ht经过式(14)运算后得出的值，n表示颜色直方图bin的总数，的计算公式由下式给出：

[0058]

[0059] 其中k＝0或t；

[0060] 4.6尺度变化值通过计算初始帧目标框和第t帧目标框的宽高变化得到的，计算公式如下：

[0061]

[0062] 其中为初始帧目标框的宽和高，和为第t帧目标框的宽和高；

[0063] 4.7根据图像目标框区域的融合值、颜色直方图变化值、尺度变化值，第t帧的目标显著值的计算公式如下：

[0064]

[0065] 其中T表示视频的总帧数；

[0066] 4.8将视频中每一帧目标的显著值St构建显著值折线图，求得所有峰值以及所对应的帧；

[0067] 假设该视频有T帧，设定提取关键帧的数量为a个；上述显著值峰值的个数为b个，若a

[0068] 步骤(5)、返回步骤(1)，进行下一个视频镜头的目标标注。

[0069] 本发明与现有技术相比，其显著优点为：(1)本发明创造性地将目标检测算法与目标跟踪算法融合，提高了视频图像中目标定位的准确性和目标状态估计的连续性；(2)仅需在初始帧手动标出目标初始位置，标注过程中自动判断标注结束，减少了人为参与的次数；(3)采用目标区域的LBP纹理特征、颜色显著性特征、边缘显著性特征进行融合，结合颜色直方图变化和尺度变化计算目标显著性，使提取的关键帧能反映目标变化的多样性。

实施方案

[0082] 以下结合附图对本发明作进一步说明。

[0083] 由图1所示，本发明具体实施步骤如下：

[0084] 步骤(1).在视频图像中选定某一帧为初始帧，手动标记目标的初始位置，确定目标的类别标签。

[0085] 步骤(2).在后续帧中，融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置。本发明采用YOLO V3检测算法和KCF相关滤波跟踪算法，融合方法如图2所示，具体如下：

[0086] 2.1本发明的检测器采用当下主流检测网络中速度较快的YOLO V3检测算法，满足了视频标注技术中实时性和准确性的需求，包括特征提取网络Darknet‑53和预测网络，darknet53网络采用了ResNet shortcut连接，避免了梯度消失，在预测阶段，此算法借鉴了RPN网络中基于anchor进行感兴趣区域提取的方法，以及FPN(Feature PyramidNetwork)中使用3个尺度的特征map，小的特征map提供语义信息，大的特征map体更细粒度信息,小的特征map通过上采样和大尺度做融合，实现了更好的检测效果，此外相比于v1和v2，YOLO V3不再使用soft max损失函数，而是使用sigmod+交叉熵函数，从而可以支持多标签的预测。

[0087] 本发明在原模型的基础上进行了如下改进和优化：

[0088] 首先在特征提取部分，采用darknet53.conv.74预训练模型初始化训练参数，然后将原模型的YOLO层增加到4层，经过多尺度特征融合得到13×13，26×26，52×52，104×104四种不同尺度的不同感受野特征图，然后使用(116x90)，(156x198)，(373x326)三种先验框对13×13的特征图进行预测，检测较大的对象；使用(30x61)，(62x45)，(59x119)对26×26的特征图进行预测，检测中等大小的对象；使用(10x13)，(16x30)，(33x23)对52×52的特征图进行预测，检测较小的对象，使用新增加的(5x6)，(8x15)，(16x10)三种先验框，对104×104特征图进行预测，检测更小的目标。与原来的模型相比，经过改进后的检测网络融合了更加低层的特征，从而提高了小目标的检测率。

[0089] 在每一次的检测操作中，输入第t+1帧图像，首先resize到固定尺度大小，经过特征提取网络和预测网络，最终得到含有对象类别以及得分值的检测框，作为第t+1帧的检测结果。

[0090] 2.2KCF相关滤波跟踪算法首先根据第t帧的目标位置和大小提取HOG特征，再通过傅立叶变换转到频域，把得到的频域特征通过高斯核函数映射到高维，并根据(1)式得到滤波模版α：

[0091]

[0092] 其中x表示样本的HOG特征,^表示傅立叶变换，g是中心为峰值的二维高斯函数，λxx是正则化参数，用来控制训练的过拟合。k 表示x在高维空间里的核自相关矩阵，其计算方式由(2)式给出:

[0093]

[0094] 其中σ是高斯核函数的宽度参数,控制了函数的径向作用范围，*表示复共轭，⊙表示点乘，表示傅立叶逆变换，c是HOG特征x的通道数。

[0095] 为了能适应目标外观变化，滤波器需要进行在线更新。在第t帧图像上进行目标跟踪时，相关滤波器α的更新由下式给出：

[0096]

[0097] 其中m＝(1,2,3,4,5)，分别对应缩放的比例[1.1,1.05,1,0.95,0.9]；x表示第t帧目标的HOG特征；

[0098] 从上述5个响应图f最大值max(f)中筛选出最大值fmax,fmax对应的位置即为目标中心的位置，fmax对应的缩放比例即为目标大小，得到第t+1帧的跟踪框；

[0099] 2.3融合目标检测和目标跟踪的结果来确定标注的目标框。

[0100] 首先判断每一帧图像上是否含有检测框，若没有则目标框为跟踪框；若有则继续判断检测框是否只有一个，若是则计算跟踪框和检测框的IOU值，若该IOU值大于阈值，则目标框为检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；若检测框有多个则需要计算跟踪框和每一个检测框的IOU值，进而筛选出最大IOU值，若该最大IOU值大于阈值，则目标框为对应最大IOU值的检测框，并用该检测框初始化KCF跟踪算法，若否则为跟踪框；

[0101] IOU值是用来评价当前帧下跟踪框与每个检测框的重合度，其公式如下：

[0102]

[0103] 其中SI表示同一帧下跟踪框与每个检测框的重叠部分面积，SU表示同一帧下跟踪框与每个检测框的集合部分面积。所述的集合部分面积为跟踪框与检测框的总面积减去重叠面积；

[0104] 步骤(3).KCF相关滤波跟踪器的响应图f的峰值代表了对应位置是目标的置信度，峰值越高，则该位置是目标的概率越高。PSR衡量了相关滤波输出的峰值强度，PSR值越高，表明跟踪结果的可信度越高。若峰值和PSR低于设定的阈值，则表明目标可能消失，从而判断视频目标标注结束。PSR的计算公式如下：

[0105]

[0106] 其中max(f)为相关滤波响应图f的峰值，Φ＝0.5，μΦ(f)和σΦ(f)分别是以f峰值为中心的50％响应区域的均值和标准差。若max(f)小于设定的阈值θ并且PSR小于设定的阈值θPSR时,即：

[0107] max(f)<θandPSR<θPSR (7)则判断目标标注结束，转到步骤(4)进行关键帧的选择。否则转到步骤(2)，继续估计目标在下一帧图像中的位置。

[0108] 步骤(4)计算每一帧目标的显著值，如图3所示，在标注过程中，利用步骤(2)得到的目标框获取目标区域，然后针对目标区域进行LBP纹理特征，颜色显著性特征，边缘显著性特征融合，结合颜色直方图变化和尺度变化计算目标的显著值。具体如下：

[0109] 4.1LBP提取目标区域的纹理特征，基本思想是定义在像素3*3的邻域内，以邻域中心像素为阈值，相邻的8个像素的灰度值与其进行比较，某一周围像素点的灰度值大于中心像素值，则该周围像素点的位置被标记为1，否则为0。3*3邻域内的8个点经比较可产生8位二进制数，转化为十进制数即可得到中心像素的LBP值，并用这个值来反映该区域的LBP信息。具体计算公式如(8)式所示：

[0110]

[0111] 其中(x0,y0)为中心像素的坐标，p为邻域的第p个像素，jp为邻域像素的灰度值，j0为邻域像素的灰度值。s(x)为符号函数：

[0112]

[0113] 4.2颜色显著性特征图的计算公式如下：

[0114]

[0115] 其中patch为目标区域图像，patchgaussian为patch经过高斯核为5×5，标准差为0的高斯滤波处理之后的图像，||表示取绝对值，i表示图片的通道数，(x,y)为横纵坐标。

[0116] 4.3目标区域图像中的边缘区域，像素值会发生“跳跃”，对这些像素值求导，在其一阶导数在边缘位置为极值，这就是Sobel算子使用的原理——极值处就是边缘。如果对像素值求二阶导数，边缘处的导数值为0。Laplace函数实现的方法是先用Sobel算子计算二阶x和y导数，再求和得到边缘显著性特征图，计算公式如下：

[0117]

[0118] 其中I表示图像，(x,y)表示目标框中目标边缘区域的像素坐标；

[0119] 4.4将LBP纹理特征，颜色显著性特征，边缘显著性特征等特征进行平均加权融合，得到融合值mean，融合计算公式如下：

[0120]

[0121] 其中，分别表示第t帧中LBP纹理特征图、颜色显著性特征图、边缘显著性特征图中像素点(x,y)的值。

[0122] 4.5目标区域图像的颜色直方图表示图像中颜色组成的分布，它显示了不同类型的颜色和每种颜色中的像素数。颜色直方图变化值Dist通过计算初始帧选定目标区域和第t帧目标区域颜色直方图的巴氏距离得到,Dist值越大，相似度越低，目标变化越明显，计算公式如下：

[0123]

[0124] 其中H0为初始帧选定目标区域颜色直方图，Ht为第t帧目标区域的颜色直方图,为H0经过式(14)运算后得出的值，为Ht经过式(14)运算后得出的值，n表示颜色直方图bin的总数，的计算公式由下式给出：

[0125]

[0126] 其中k＝0或t。

[0127] 4.6尺度变化值通过计算初始帧目标框和第t帧目标框的宽高变化得到的，计算公式如下：

[0128]

[0129] 其中为初始帧目标框的宽和高，和为第t帧目标框的宽和高。

[0130] 4.7通过以上计算,第t帧的目标显著值的计算公式如下：

[0131]

[0132] 其中T表示某镜头视频帧总数。

[0133] 4.8根据场景镜头中每一帧目标的显著值，画出显著值折线图，求得所有峰值以及所对应的帧。假设该镜头有T个视频帧，要提取关键帧的数量为a个，峰值的个数为b个，若a

[0134] 步骤(5).返回步骤(1),进行下一个镜头的目标标注。

[0135] 为验证本发明提出方法的有效性，采用一段多镜头多舰船的视频进行实验测试。该视频共有9个多船舶的场景镜头，每个场景镜头的帧数如表1所示，为加速计算，本实验每
5帧标注一次。

[0136] 表1视频分镜头及帧数

[0137]

[0138] 在进行目标检测阶段，单阶段目标检测算法YOLO V3首先在大量带有舰船标签信息和位置信息的标记样本上进行训练，得到检测模型，然后将此模型作为检测器。考虑到原始算法对小目标检测的能力不高，因此在原来基础之上增加了小尺度的anchor，对检测精度不高的缺点进行改进，在保证检测速度的前提下提高了各种尺度目标的检测能力，实现‑4准确实时检测。在进行目标跟踪阶段，KCF跟踪算法的参数设置λ＝1×10 ，σ＝0.5，η＝
0.02。考虑到原始算法不能适应目标尺度的变化，因此对KCF跟踪算法增加尺度判断，将改进后的KCF跟踪算法作为跟踪器。

[0139] 在融合检测结果和跟踪结果阶段，设定IOU阈值threshold为0.5。若跟踪框和每一个检测框的IOU值都小于0.5，表示检测器没有检测到要标注的目标，则该目标的目标框为跟踪框。若跟踪框和一个或多个检测框的IOU值大于0.5，表示检测器检测到了要标注的目标，则该目标的目标框为最大IOU值对应的检测框。例如，在视频镜头1的第1帧手动标注目标后，第2帧的检测结果和跟踪结果如图4和图5所示。从图中可以看出，检测器的检测结果中有多个目标，跟踪器的跟踪结果只有一个目标。通过计算跟踪框和每一个检测框的IOU值，只有一个检测框和跟踪框的IOU值大于阈值0.5，融合输出目标框结果如图6所示，融合结果输出的是检测框。

[0140] 在判断目标标注是否结束时，设定KCF跟踪器峰值阈值θ为0.3，PSR阈值θPSR为3.5，当峰值和PSR小于阈值，则标注结束。例如，在视频第2个镜头目标标注的过程中，目标消失时，KCF跟踪算法响应图的峰值和PSR会变小，如图7和图8所示。场景镜头下的0～47帧里，KCF跟踪算法响应图的峰值和PSR数值较大，在第48帧峰值和PSR较小，说明该帧目标消失，实际上正对应了该镜头共243帧，每5帧标注一次，243帧的下一帧场景镜头切换。其中镜头2的第243帧图像和镜头3的第1帧图像如图9和图10所示。图中可以看出视频由镜头2切换成镜头3导致目标消失，说明该方法判断标注结束准确无误。

[0141] 当跟踪器判断视频镜头目标标注结束后，根据每一帧的目标显著值得到该视频镜头目标显著值曲线，在曲线的局部最大值处提取关键帧，本实验设定每个镜头抽出10帧作为关键帧。例如镜头6的目标显著性曲线如图11所示。首先将局部最大值按从大到小排列，然后取前10个局部最大值对应的帧作为关键帧，提取的关键帧如图12(a‑j)所示。从图中可以看出，根据提取的关键帧具有较强的代表性，可以准确的反映出目标尺寸大小，角度等变化的多样性。

[0142] 本实验结果如表2所示，

[0143] 表2每个分镜头的关键帧

[0144] 镜头关键帧1 5，10，25，30，40，50，55，65，75，80
2 90，110，125，135，145，160，180，195，205，215
3 325，340，365，380，400，420，430，445，460，480
4 1099，1109，1119，1139，1149，1159，1169，1179，1329，1369
5 1424，1519，1559，1594，1604，1624，1634，1674，1754，1764
6 1779，1854，1869，1994，2054，2064，2089，2114，2144，2154
7 2194，2199，2214，2229，2249，2269，2279，2289，2294，2314
8 2349，2359，2379，2399，2414，2424，2444，2459，2474，2539
9 2974，3094，3164，3179，3189，3199，3214，3229，3259，3274

[0145] 从表中可以看出关键帧的提取范围都在对应的镜头内，进一步证明该方法能够区分不同的镜头，自动判断目标标注结束。本发明采用目标显著值的局部最大值作为关键帧的提取依据，使得提取到的关键帧具有代表性。根据实验的结果来看，基于融合目标检测算法和目标跟踪算法的视频目标标注方法，取得了较高的准确度。

附图说明

[0070] 图1为本发明方法的流程图；

[0071] 图2为融合目标检测和目标跟踪的流程图；

[0072] 图3为目标显著值计算流程图；

[0073] 图4为实例视频中第2帧图像的检测结果；

[0074] 图5为实例视频中第2帧图像的跟踪结果；

[0075] 图6为实例视频中第2帧图像的融合检测和跟踪结果；

[0076] 图7为实例视频第2个镜头的KCF响应图峰值变化曲线；

[0077] 图8为实例视频第2个镜头的KCF响应图PSR变化曲线；

[0078] 图9为实例视频第2个镜头的第243帧图像；

[0079] 图10为实例视频第3个镜头的第1帧图像；

[0080] 图11为实例视频第6个镜头的目标显著性曲线；

[0081] 图12为实例视频第6个镜头提取的关键帧。

1融合目标检测与跟踪的视频半自动目标标注方法 2基于注意力地图的目标检测方法 3一种三维公差标注正确性的验证方法 4一种基于密点标注的细粒度访问控制方法 5一种基于SSA锐化注意机制的目标检测方法 6一种基于主动学习的文本数据自动标注方法 7一种基于指纹特征的计算机辅助密点标注方法 8基于注意深度双向循环神经网络的HRRP目标识别方法