[0006] 本发明针对所要解决的技术问题是现有自动标记手段精准度与连贯性不高或手动标记速度慢,提出一种融合目标检测与跟踪的视频半自动目标标注方法。
[0007] 首先在视频图像中选定某一帧为初始帧,手动标记目标的初始位置,确定目标的类别标签。在后续帧中,融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置,并根据目标跟踪算法判断目标标注是否结束。若结束,根据每一帧目标的显著值大小,提取视频关键帧,得到目标标注结果,否则继续估计目标在视频图像中的位置。本发明融合目标检测算法和目标跟踪算法对视频目标准确标注,自动判断目标标注结束,并根据目标显著性提取视频关键帧,得到目标标注结果。
[0008] 本发明采用的技术方案包括以下步骤:
[0009] 1、融合目标检测与跟踪的视频半自动目标标注方法,其特征在于该方法包括以下步骤:
[0010] 步骤(1)、在视频的某个镜头中选定某一帧为初始帧,手动标记目标的初始位置和大小,确定目标的类别标签;
[0011] 步骤(2)、初始帧之后的其他后续帧采用自动标注,具体是融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置;具体是:
[0012] 2.1采用YOLO V3对每一帧图像中目标进行检测并标识出检测框;
[0013] 上述YOLO V3是将带有标签目标图像调整到固定尺度大小作为训练样本,对yolo‑v3进行训练;其中YOLO层增加到4层,经过多尺度特征融合得到13×13,26×26,52×52,104×104四种不同尺度的不同感受野特征图;使用(116x90),(156x198),(373x326)三种先验框对13×13的特征图进行预测,检测较大的对象;使用(30x61),(62x45),(59x119)三种先验框对26×26的特征图进行预测,检测中等大小的对象;使用(10x13),(16x30),(33x23)三种先验框对52×52的特征图进行预测,检测较小的对象;使用新增加的(5x6),(8x15),(16x10)三种先验框,对104×104特征图进行预测,检测更小的目标;
[0014] 2.2采用KCF相关滤波跟踪算法获取目标的跟踪框;
[0015] 首先根据前一帧的目标位置和大小提取HOG特征,再通过傅立叶变换转到频域,把得到的频域特征通过高斯核函数映射到高维,并根据(1)式得到滤波模版α:
[0016]
[0017] 其中x表示样本的HOG特征,^表示傅立叶变换,g是中心为峰值的二维高斯函数,λxx是正则化参数,用来控制训练的过拟合;k 表示x在高维空间里的核自相关矩阵,其计算方式由(2)式给出:
[0018]
[0019] 其中σ是高斯核函数的宽度参数,控制了函数的径向作用范围,*表示复共轭,⊙表示点乘, 表示傅立叶逆变换,c是HOG特征x的通道数;
[0020] 为了能适应目标外观变化,滤波器需要进行在线更新;在第t帧图像上进行目标跟踪时,相关滤波器α的更新由下式给出:
[0021]
[0022] 其中η为更新参数;
[0023] 为了能适应目标的尺度变化,当前帧的滤波器αt需进行尺度缩放,从而预测下一帧目标的尺寸;其中缩放的比例分别为[1.1,1.05,1,0.95,0.9];
[0024] 在第t+1帧图像上的第t帧目标位置处,提取候选样本HOG特征z;结合上述每个尺寸缩放后的滤波器,对应的每个相关滤波输出响应图f见式(4):
[0025]
[0026] 其中m=(1,2,3,4,5),分别对应缩放的比例[1.1,1.05,1,0.95,0.9];x表示第t帧目标的HOG特征;
[0027] 从上述5个响应图f最大值max(f)中筛选出最大值fmax,fmax对应的位置即为目标中心的位置,fmax对应的缩放比例即为目标大小,得到第t+1帧的跟踪框;
[0028] 2.3融合目标检测和目标跟踪的结果来确定标注的目标框;
[0029] 首先判断每一帧图像上是否含有检测框,若没有则目标框为跟踪框;若有则继续判断检测框是否只有一个,若是则计算跟踪框和检测框的IOU值,若该IOU值大于阈值,则目标框为检测框,并用该检测框初始化KCF跟踪算法,若否则为跟踪框;若检测框有多个则需要计算跟踪框和每一个检测框的IOU值,进而筛选出最大IOU值,若该最大IOU值大于阈值,则目标框为对应最大IOU值的检测框,并用该检测框初始化KCF跟踪算法,若否则为跟踪框;
[0030] IOU值是用来评价当前帧下跟踪框与每个检测框的重合度,其公式如下:
[0031]
[0032] 其中SI表示同一帧下跟踪框与每个检测框的重叠部分面积,SU表示同一帧下跟踪框与每个检测框的集合部分面积,所述的集合部分面积为跟踪框与检测框的总面积减去重叠面积;
[0033] 步骤(3)、根据目标跟踪算法判断目标标注是否结束;
[0034] 根据KCF相关滤波跟踪器的响应图f,判断max(f)是否小于设定的阈值θ并且峰值旁瓣比PSR小于设定的阈值θPSR时,即:
[0035] max(f)<θandPSR<θPSR (7)
[0036] 若是则判断目标标注结束,转到步骤(4)进行关键帧的选择;反之则转到步骤(2),继续估计目标在下一帧图像中的位置;
[0037] PSR的计算公式如下:
[0038]
[0039] 其中max(f)为相关滤波响应图f的峰值,Φ=0.5,μΦ(f)和σΦ(f)分别是以f峰值为中心的50%响应区域的均值和标准差;
[0040] 步骤(4)、计算当前镜头中每一帧目标的显著值;根据每一帧目标的显著值大小,提取设定数量的视频关键帧,得到目标标注结果;具体是:
[0041] 4.1局部二值模式LBP提取图像的纹理特征,基本思想是定义在像素3*3的邻域内,以邻域中心像素为阈值,相邻的8个像素的灰度值与其进行比较,若某一周围像素的灰度值大于中心像素值,则该周围像素点的位置被标记为1,否则为0;3*3邻域内的8个点经比较可产生8位二进制数,转化为十进制数即可得到中心像素的LBP值,并用这个值来反映该区域的LBP信息;具体计算公式如(8)式所示:
[0042]
[0043] 其中(x0,y0)为中心像素的坐标,p为邻域的第p个像素,jp为邻域像素的灰度值,j0为中心像素的灰度值;s(x)为符号函数:
[0044]
[0045] 4.2颜色显著性特征图的计算公式如下:
[0046]
[0047] 其中patch为目标框区域原图,patchgaussian为patch经过高斯核为5×5,标准差为0的高斯滤波处理之后的图像,||表示取绝对值,i表示通道数,(x,y)为像素坐标;
[0048] 4.3针对每一帧图像目标框中目标边缘区域的像素点获取边缘显著性特征图[0049] 目标框中的目标边缘区域,像素值会发生“跳跃”,对这些像素值求导,在其一阶导数在边缘位置为极值,这就是Sobel算子使用的原理——极值处就是边缘;如果对像素值求二阶导数,边缘处的导数值为0;Laplace函数实现的方法是先用Sobel算子计算二阶x和y导数,再求和得到边缘显著性特征图,计算公式如下:
[0050]
[0051] 其中I表示目标框中图像,(x,y)表示目标框中目标边缘区域的像素坐标;
[0052] 4.4将LBP纹理特征,颜色显著性特征,边缘显著性特征等特征进行平均加权融合,得到融合值mean,融合计算公式如下:
[0053]
[0054] 其中, 分别表示第t帧中LBP纹理特征图、颜色显著性特征图、边缘显著性特征图中像素点(x,y)的值;
[0055] 4.5颜色直方图变化值Dist通过计算初始帧选定目标区域和第t帧目标区域颜色直方图的巴氏距离得到,计算公式如下:
[0056]
[0057] 其中H0为初始帧手动标注选定目标框颜色直方图,Ht为第t帧自动标注目标框的颜色直方图, 为H0经过式(14)运算后得出的值, 为Ht经过式(14)运算后得出的值,n表示颜色直方图bin的总数, 的计算公式由下式给出:
[0058]
[0059] 其中k=0或t;
[0060] 4.6尺度变化值通过计算初始帧目标框和第t帧目标框的宽高变化得到的,计算公式如下:
[0061]
[0062] 其中 为初始帧目标框的宽和高, 和 为第t帧目标框的宽和高;
[0063] 4.7根据图像目标框区域的融合值、颜色直方图变化值、尺度变化值,第t帧的目标显著值的计算公式如下:
[0064]
[0065] 其中T表示视频的总帧数;
[0066] 4.8将视频中每一帧目标的显著值St构建显著值折线图,求得所有峰值以及所对应的帧;
[0067] 假设该视频有T帧,设定提取关键帧的数量为a个;上述显著值峰值的个数为b个,若a
[0068] 步骤(5)、返回步骤(1),进行下一个视频镜头的目标标注。
[0069] 本发明与现有技术相比,其显著优点为:(1)本发明创造性地将目标检测算法与目标跟踪算法融合,提高了视频图像中目标定位的准确性和目标状态估计的连续性;(2)仅需在初始帧手动标出目标初始位置,标注过程中自动判断标注结束,减少了人为参与的次数;(3)采用目标区域的LBP纹理特征、颜色显著性特征、边缘显著性特征进行融合,结合颜色直方图变化和尺度变化计算目标显著性,使提取的关键帧能反映目标变化的多样性。