[0040] 以下结合附图实施例对本发明作进一步详细描述。
[0041] 本发明提出的一种基于三维小波变换的视频质量评价方法,其总体实现框图如图1所示,其包括以下步骤:
[0042] ①令Vref表示原始的无失真的参考视频序列,令Vdis表示失真的视频序列,Vref和nVdis均包含Nfr帧图像,其中,Nfr≥2 ,n为正整数,且n∈[3,5],在本实施例中n=5。
[0043] ②以2n帧图像为一个帧组,将Vref和Vdis分别分为nGoF个帧组,将Vref中的第i个帧组记为 将Vdis中的第i个帧组记为 其中, 符号 为向下取整符号,1≤i≤nGoF。
[0044] 由于本实施例中n=5,因此以32帧图像为一个帧组。在实际实施时,如果Vref和nVdis中包含的图像的帧数不是2 的正整数倍时,则按序分得若干个帧组后,对多余的图像不作处理。
[0045] ③对Vref中的每个帧组进行二级三维小波变换,得到Vref中的每个帧组对应的15组子带序列,其中,15组子带序列包括7组一级子带序列和8组二级子带序列,每组一级子带序列包含 帧图像,每组二级子带序列包含 帧图像。
[0046] 在此,Vref中的每个帧组对应的7组一级子带序列分别为一级参考时域低频水平方向细节序列LLHref、一级参考时域低频垂直方向细节序列LHLref、一级参考时域低频对角线方向细节序列LHHref、一级参考时域高频近似序列HLLref、一级参考时域高频水平方向细节序列HLHref、一级参考时域高频垂直方向细节序列HHLref、一级参考时域高频对角线方向细节序列HHHref;Vref中的每个帧组对应的8组二级子带序列分别为二级参考时域低频近似序列LLLLref、二级参考时域低频水平方向细节序列LLLHref、二级参考时域低频垂直方向细节序列LLHLref、二级参考时域低频对角线方向细节序列LLHHref、二级参考时域高频近似序列LHLLref、二级参考时域高频水平方向细节序列LHLHref、二级参考时域高频垂直方向细节序列LHHLref、二级参考时域高频对角线方向细节序列LHHHref。
[0047] 同样,对Vdis中的每个帧组进行二级三维小波变换,得到Vdis中的每个帧组对应的15组子带序列,其中,15组子带序列包括7组一级子带序列和8组二级子带序列,每组一级子带序列包含 帧图像,每组二级子带序列包含 帧图像。
[0048] 在此,Vdis中的每个帧组对应的7组一级子带序列分别为一级失真时域低频水平方向细节序列LLHdis、一级失真时域低频垂直方向细节序列LHLdis、一级失真时域低频对角线方向细节序列LHHdis、一级失真时域高频近似序列HLLdis、一级失真时域高频水平方向细节序列HLHdis、一级失真时域高频垂直方向细节序列HHLdis、一级失真时域高频对角线方向细节序列HHHdis;Vdis中的每个帧组对应的8组二级子带序列分别为二级失真时域低频近似序列LLLLdis、二级失真时域低频水平方向细节序列LLLHdis、二级失真时域低频垂直方向细节序列LLHLdis、二级失真时域低频对角线方向细节序列LLHHdis、二级失真时域高频近似序列LHLLdis、二级失真时域高频水平方向细节序列LHLHdis、二级失真时域高频垂直方向细节序列LHHLdis、二级失真时域高频对角线方向细节序列LHHHdis。
[0049] 本发明方法利用三维小波变换对视频进行时域分解,从频率成分的角度描述视频时域信息,在小波域中完成对时域信息的处理,从而在一定程度上解决了视频质量评价中时域质量评价困难的问题,提高了评价方法的准确性。
[0050] ④计算Vdis中各帧组对应的每组子带序列的质量,将 对应的第j组子带序列的质量记为Qi,j, 其中,1≤j≤15,1≤k≤K,K表示 对应的第j组子带序列和 对应的第j组子带序列中各自包含的图像的总帧数,如果 和各自对应的第j组子带序列为一级子带序列,则 如果 和 各自对应的第j组子带序列为二级子带序列,则 表示 对应的第j组子带序列中的第k帧图
像, 表示 对应的第j组子带序列中的第k帧图像,SSIM()为结构相似度计算函数,μref表示 的均值,μdis表示
的均值,σref表示 的标准差,σdis表示 的标准差,σref-dis表示 与之间的协方差,c1和c2是为了防止
当分母接近零时产生不稳定现象所添加的常数,c1≠0,c2≠0。
[0051] ⑤在Vdis中的每个帧组对应的7组一级子带序列中选取两组一级子带序列,然后根据Vdis中的每个帧组对应的选取的两组一级子带序列各自的质量,计算Vdis中的每个帧组对应的一级子带序列质量,对于 对应的7组一级子带序列,假设选取的两组一级子带序列分别为第p1组子带序列和第q1组子带序列,则将 对应的一级子带序列质量记为其中,9≤p1≤15,9≤q1≤15,wLv1为 的权值,表示 对应的第p1组子带序列的质量, 表示 对应的第q1组子带序列的质量。
Vdis中的每个帧组对应的15组子带序列中第9组子带序列至第15组子带序列为一级子带序列。
[0052] 并且,在Vdis中的每个帧组对应的8组二级子带序列中选取两组二级子带序列,然后根据Vdis中的每个帧组对应的选取的两组二级子带序列各自的质量,计算Vdis中的每个帧组对应的二级子带序列质量,对于 对应的8组二级子带序列,假设选取的两组二级子带序列分别为第p2组子带序列和第q2组子带序列,则将 对应的二级子带序列质量记为其中,1≤p2≤8,1≤q2≤8,wLv2为 的权值,表示 对应的第p2组子带序列的质量, 表示 对应的第q2组子带序列的质量。
Vdis中的每个帧组对应的15组子带序列中第1组子带序列至第8组子带序列为二级子带序列。
[0053] 在本实施例中,取wLv1=0.71,wLv2=0.58;p1=9,q1=12,p2=3,q2=1。
[0054] 在本发明中,第p1组和第q1组一级子带序列的选取以及第p2组和第q2组二级子带序列的选取其实是一个利用数理统计分析以选取得到合适参数的过程,即利用合适的训练视频数据库通过以下步骤⑤-1至⑤-4得到的,在得到p2,q2,p1以及q1的值后,其后采用本发明方法对失真的视频序列进行视频质量评价时可直接采用固定的p2,q2,p1以及q1的值。
[0055] 在此,两组一级子带序列及两组二级子带序列的具体选取过程为:
[0056] ⑤-1、选取一具有主观视频质量的视频数据库作为训练视频数据库,按照步骤①至步骤④的操作过程,以相同的方式获取训练视频数据库中的每个失真的视频序列中各帧组对应的每组子带序列的质量,将训练视频数据库中的第nv个失真的视频序列记为 将中的第i'个帧组对应的第j组子带序列的质量记为 其中,1≤nv≤U,U表示训练视频数据库中包含的失真的视频序列的个数,1≤i'≤nGoF',nGoF'表示 中包含的帧组的个数,1≤j≤15。
[0057] ⑤-2、计算训练视频数据库中的每个失真的视频序列中的所有的帧组对应的同一组子带序列的客观视频质量,将 中的所有的帧组对应的第j组子带序列的客观视频质量记为
[0058] ⑤-3、由训练视频数据库中的所有的失真的视频序列中的所有的帧组对应的第j组子带序列的客观视频质量构成向量 针对同一组子带序列构成一个向量即共有15个向量,由训练视频数据库中的所有的失真的视频序列的主观视频质量构成向量vY, 其中,1≤j≤15, 表示训练视
频数据库中的第1个失真的视频序列中的所有的帧组对应的第j组子带序列的客观视频质量, 表示训练视频数据库中的第2个失真的视频序列中的所有的帧组对应的第j组子带序列的客观视频质量, 表示训练视频数据库中的第U个失真的视频序列中的所有的帧组对应的第j组子带序列的客观视频质量,VS1表示训练视频数据库中的第1个失真的视频序列的主观视频质量,VS2表示训练视频数据库中的第2个失真的视频序列的主观视频质量, 表示训练视频数据库中的第nv个失真的视频序列的主观视频质量,VSU表示训练视频数据库中的第U个失真的视频序列的主观视频质量;
[0059] 然后计算失真的视频序列中的所有的帧组对应的同一组子带序列的客观视频质量与失真的视频序列的主观视频质量的线性相关系数,将失真的视频序列中的所有的帧组对应的第j组子带序列的客观视频质量与失真的视频序列的主观视频质量的线性相关系j数记为CC, 其中,1≤j≤15, 为 中的所有元素的值
的均值, 为vY中的所有元素的值的均值。
[0060] ⑤-4、步骤⑤-3共得到15个线性相关系数,从得到的15个线性相关系数中与一级子带序列相应的7个线性相关系数中选出值最大的线性相关系数和值次大的线性相关系数,将值最大的线性相关系数对应的一级子带序列和值次大的线性相关系数对应的一级子带序列作为应选取的两组一级子带序列;并且,从得到的15个线性相关系数中与二级子带序列相应的8个线性相关系数中选出值最大的线性相关系数和值次大的线性相关系数,将值最大的线性相关系数对应的二级子带序列和值次大的线性相关系数对应的二级子带序列作为应选取的两组二级子带序列。
[0061] 在本实施例中,对于第p2组和第q2组二级子带序列以及第p1组和第q1组一级子带序列的选取,采用了由德克萨斯大学奥斯汀分校的LIVE Video Quality Database(LIVE视频库)给出的10段无失真的视频序列建立的其在4种不同失真类型不同失真程度下的失真视频集,该失真视频集包括40段无线网络传输失真的失真视频序列、30段IP网络传输失真的失真视频序列、40段H.264压缩失真的失真视频序列以及40段MPEG-2压缩失真的失真视频序列,每段失真视频序列均具有相应的主观质量评价结果,由平均主观评分差值DMOS表示,即本实施例中训练视频数据库中第nv个失真的视频序列的主观质量评价结果 由 表示。对上述失真视频序列按本发明方法的步骤①至步骤⑤的操作过程,计算得到每个失真视频序列中的所有的帧组对应的同一组子带序列的客观视频质量,即得到每个失真视频序列对应的15个子带序列的客观视频质量,然后按步骤⑤-3计算失真视频序列对应的每个子带序列的客观视频质量与相应的失真视频序列的平均主观评分差值DMOS之间的线性相关系数,即可得到失真视频序列的15个子带序列各自的客观视频质量对应的线性相关系数。图2给出了上述LIVE视频库中的所有失真视频序列的同一组子带序列的客观视频质量与平均主观评分差值之间的线性相关系数图。根据图2所示的结果,7组一级子带序列中的LLHdis对应的线性相关系数的值最大,HLLdis对应的线性相关系数的值次大,即p1=9,q1=12;8组二级子带序列中的LLHLdis对应的线性相关系数的值最大,LLLLdis对应的线性相关系数的值次大,即p2=3,q2=1。该线性相关系数的值越大,表示与主观视频质量相比该子带序列的客观视频质量的准确度越高,因此分别选取一级、二级子带序列质量中与视频主观质量线性相关系数值最大和次大的线性相关系数所对应的子带序列进行下一步计算。
[0062] ⑥根据Vdis中的每个帧组对应的一级子带序列质量和二级子带序列质量,计算Vdis中的每个帧组的质量,将 的质量记为 其中,wLv为的权值,在本实施例中取wLv=0.93。
[0063] ⑦根据Vdis中的每个帧组的质量,计算Vdis的客观评价质量,记为Q,i i其中,w为 的权值,在此具体实施例中,w的获取过程为:
[0064] ⑦-1、计算Vdis中的每个帧组中的所有图像的亮度均值的平均值,将 中的所有i图像的亮度均值的平均值记为Lavg, 其中, 表示 中的第f帧图像的亮
度均值, 的值为 中的第f帧图像中的所有像素点的亮度值取平均得到的亮度平均值,
1≤i≤nGoF;
[0065] ⑦-2、计算Vdis中的每个帧组中除第1帧图像外的所有的图像的运动剧烈程度i的平均值,将 中除第1帧图像外的所有的图像的运动剧烈程度的平均值记为MAavg,n
其中,2≤f'≤2,MAf'表示 中的第f'帧图像的运动剧烈程度,
W表示 中的第f'帧图像的宽度,H表示
中的第f'帧图像的高度,mvx(s,t)表示 中的第f'帧图像中坐标位置为(s,t)的像素点的运动矢量水平方向上的值,mvy(s,t)表示 中的第f'帧图像中坐标位置为(s,t)的像素点的运动矢量垂直方向上的值。 中的第f'帧图像中的每个像素点的运动矢量是以 中的第f'帧图像的前一帧图像为参考获得的。
[0066] ⑦-3、将Vdis中的所有的帧组中的所有图像的亮度均值的平均值组成亮度均值向1
量,记为VLavg, 其中,Lavg表示Vdis中的第1个帧组中的
2
所有图像的亮度均值的平均值,Lavg表示Vdis中的第2个帧组中的所有图像的亮度均值的平均值, 表示Vdis中的第nGoF个帧组中的所有图像的亮度均值的平均值;
[0067] 并且,将Vdis中的所有的帧组中除第1帧图像外的所有的图像的运动剧烈程度的平均值组成运动剧烈程度均值向量,记为VMAavg,1
其中,MAavg表示Vdis中的第1个帧组中除第1帧图像外的所有的图像的运动剧烈程度的
2
平均值,MAavg表示Vdis中的第2个帧组中除第1帧图像外的所有的图像的运动剧烈程度的平均值, 表示Vdis中的第nGoF个帧组中除第1帧图像外的所有的图像的运动剧烈程度的平均值;
[0068] ⑦-4、对VLavg中的每个元素的值进行归一化计算,得到VLavg中的每个元素归一化后的值,将VLavg中的第i元素归一化后的值记为 其中,i
Lavg表示VLavg中的第i元素的值,max(VLavg)表示取VLavg中值最大的元素的值,min(VLavg)表示取VLavg中值最小的元素的值;
[0069] 并且,对VMAavg中的每个元素的值进行归一化计算,得到VMAavg中的每个元素归一化后的值,将VMAavg中的第i元素归一化后的值记为i
其中,MAavg表示VMAavg中的第i元素的值,max(VMAavg)表示取VMAavg中值最大的元素的值,min(VMAavg)表示取VMAavg中值最小的元素的值;
[0070] ⑦-5、根据 和 计算 的权值wi,
[0071] 为说明本发明方法的有效性和可行性,利用德克萨斯大学奥斯汀分校的LIVE Video Quality Database(LIVE视频质量数据库)进行实验验证,以分析本发明方法的客观评价结果与平均主观评分差值(Difference Mean Opinion Score,DMOS)之间的相关性。对LIVE视频质量数据库给出的10段无失真的视频序列建立其在4种不同失真类型不同失真程度下的失真视频集,该失真视频集包括40段无线网络传输失真的失真视频序列、30段IP网络传输失真的失真视频序列、40段H.264压缩失真的失真视频序列以及40段MPEG-2压缩失真的失真视频序列。图3a给出了40段无线网络传输失真的失真视频序列通过本发明方法得到的客观评价质量Q与平均主观评分差值DMOS之间的散点图;图3b给出了30段IP网络传输失真的失真视频序列通过本发明方法得到的客观评价质量Q与平均主观评分差值DMOS之间的散点图;图3c给出了40段H.264压缩失真的失真视频序列通过本发明方法得到的客观评价质量Q与平均主观评分差值DMOS之间的散点图;图3d给出了40段MPEG-2压缩失真的失真视频序列通过本发明方法得到的客观评价质量Q与平均主观评分差值DMOS之间的散点图;图3e给出了150段失真视频序列通过本发明方法得到的客观评价质量Q与平均主观评分差值DMOS之间的散点图。在图3a至图3e中,散点越集中说明客观质量评价方法的评价性能越好,与平均主观评分差值DMOS之间的一致性也越好。从图3a至图3e中可以看出本发明方法可以很好地区分低质量和高质量的视频序列,且具有较好的评价性能。
[0072] 在此,利用评估视频质量评价方法的4个常用客观参量作为评价标准,即非线性回归条件下的Pearson相关系数(Correlation Coefficients,CC)、Spearman等级相关系数(Spearman Rank Order Correlation Coefficients,SROCC)、异常值比率指标(Outlier Ratio,OR)以及均方根误差(Rooted Mean Squared Error,RMSE)。其中,CC用来反映客观质量评价方法预测的精确性,SROCC用来反映客观质量评价方法的预测单调性,CC和SROCC的值越接近1,表示该客观质量评价方法的性能越好;OR用来反映客观质量评价方法的离散程度,OR值越接近0表示客观质量评价方法越好;RMSE用来反映客观质量评价方法的预测准确性,RMSE的值越小表示客观质量评价方法准确性越高。反映本发明方法准确性、单调性和离散率的CC、SROCC、OR和RMSE系数如表1所列,根据表1所列数据可见,本发明方法的整体混合失真CC值和SROCC值均达到0.79以上,其中CC值在0.8以上,离散率OR均为0,均方根误差低于6.5,按本发明方法得到的失真的视频序列的客观评价质量Q和平均主观评分差值DMOS之间的相关性较高,表明本发明方法的客观评价结果与人眼主观感知的结果较为一致,很好地说明了本发明方法的有效性。
[0073] 表1 本发明方法对于各类型失真视频序列的客观评价准确性性能指标[0074]CC SROCC OR RMSE
40段无线网络传输失真的失真视频序列 0.8087 0.8047 0 6.2066
30段IP网络传输失真的失真视频序列 0.8663 0.7958 0 4.8318
40段H.264压缩失真的失真视频序列 0.7403 0.7257 0 7.4110
40段MPEG-2压缩失真的失真视频序列 0.8140 0.7979 0 5.6653
150段所有失真视频序列 0.8037 0.7931 0 6.4570