首页 > 专利 > 杭州电子科技大学 > 一种多层级监控视频高效压缩编码、解码装置及方法专利详情

一种多层级监控视频高效压缩编码、解码装置及方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-06-05

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-09-03

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-06-01

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-06-05

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201910488842.9	申请日	2019-06-05
公开/公告号	CN110113616B	公开/公告日	2021-06-01
授权日	2021-06-01	预估到期日	2039-06-05
申请年	2019年	公开/公告年	2021年
缴费截止日
分类号	H04N19/42 、H04N19/136 、H04N19/142 、H04N19/20 、H04N19/70	主分类号	H04N19/42
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	9
权利要求数量	10	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2011.03.10CN 107341445 A,2017.11.10张晓晶.基于视频的车辆检测及车牌识别系统的研究《.中国优秀硕士学位论文全文数据库》.2011,何毓知.视频序列中运动物体分割的研究. 《中国优秀硕士学位论文全文数据库》.2010,;
引用专利	US2011058609A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	殷海兵	第一发明人	殷海兵
地址	浙江省杭州市下沙2号大街	邮编	310018
申请人数量	1	发明人数量	1
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州浙科专利事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

吴秉中

摘要

本发明公开一种多层级监控视频高效压缩编码、解码装置及方法，属于海量摄像头城域级视频监控应用技术领域。包括：(1)特定语义对象编码：检测出特定语义对象dn，重构对象通过跟踪技术和关键点检测技术检测出关键点序列，传输给解码器；(2)长期背景帧建模：设置多个场景类别，用背景帧场景索引序号区分这些场景类别；编码器里检测场景类别，将背景帧索引序号传输给解码器；(3)短期背景帧建模：采用多模式预测方法，获得当前帧的短期背景帧预测值通过优化选择多模式参考预测，将编码控制参数传输给解码器；(4)前景编码：预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器。

摘要附图
说明书附图：abs-1
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-06-01	授权
2	2019-09-03	实质审查的生效	IPC(主分类): H04N 19/42 专利申请号: 201910488842.9 申请日: 2019.06.05
3	2019-08-09	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种多层级监控视频高效压缩编码方法，其特征在于包括以下层级：
(1)特定语义对象编码：检测出特定语义对象dn，重构对象通过跟踪技术找到时域轨迹，通过关键点检测技术为目标对象在时域轨迹上的所有版本检测出关键点序列，仅把关键点序列结构化信息传输给解码器；
(2)长期背景帧建模：设置多个场景类别，用背景帧场景索引序号区分这些场景类别；
在摄像头安装时通过离线训练方法构建出背景帧an；编码器里检测场景类别，获得长期背景帧将背景帧索引序号传输给解码器；
(3)短期背景帧建模：假设当前帧fn前面邻近帧fn‑1fn‑2已经获得了解码重构版采用多模式预测方法，获得当前帧的短期背景帧预测值通
过优化选择多模式参考预测，选择合适参考帧和加权预测系数，将编码控制参数传输给解码器；
(4)前景编码：预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器。

2.根据权利要求1所述的一种多层级监控视频高效压缩编码方法，其特征在于所述的步骤(1)中利用深度学习检测器检测出特定语义对象dn，所述语义对象包括行人、车辆、人脸，经过压缩和检索双目标驱动的特征提取、表示和编码，经过反卷积获得解码重构对象

3.根据权利要求1所述的一种多层级监控视频高效压缩编码方法，其特征在于所述的步骤(4)中特定语义对象，直接将预测残差cn设置为0。

4.一种用于处理权利要求1所述的多层级监控视频高效压缩编码方法的解码方法，其特征在于所述特定语义对象的解码方法为利用解码器解码获得关键点序列结构化信息，以及反卷积解码获得的对象，研究通过几何学方法插值重构出邻近帧目标对象解码版所述长期背景帧的解码方法为解码器利用长期背景帧场景类别索引号，重构出背景帧
所述短期背景帧的解码方法为解码器利用参考帧和加权预测系数获得
所述预测残差的解码方法为解码器解码前景码流解码出

5.根据权利要求4所述的一种用于处理权利要求1所述的多层级监控视频高效压缩编码方法的解码方法，其特征在于所述的特定语义对象解码是通过目标对象反卷积重构，最后视频解码如下：

6.一种多层级监控视频高效压缩编码装置，其特征在于包括特定语义对象编码模块、长期背景帧建模模块、短期背景帧建模模块、前景编码模块，
所述的特定语义对象编码模块检测出特定语义对象dn，重构对象通过跟踪技术找到时域轨迹，通过关键点检测技术为目标对象在时域轨迹上的所有版本检测出关键点序列，仅把关键点序列结构化信息传输给解码器；
所述长期背景帧建模模块设置多个场景类别，用背景帧场景索引序号区分这些场景类别；在摄像头安装时通过离线训练方法构建出背景帧an；编码器里检测场景类别，获得长期背景帧将背景帧索引序号传输给解码器；
所述的短期背景帧建模模块假设当前帧fn前面邻近帧fn‑1fn‑2已经获得了解码重构版采用多模式预测方法，获得当前帧的短期背景帧预测值通
过优化选择多模式参考预测，选择合适参考帧和加权预测系数，将编码控制参数传输给解码器；
所述的前景编码模块预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器。

7.根据权利要求6所述的一种多层级监控视频高效压缩编码装置，其特征在于所述的特定语义对象编码模块利用深度学习检测器检测出特定语义对象dn，所述语义对象包括行人、车辆、人脸，经过压缩和检索双目标驱动的特征提取、表示和编码，经过反卷积获得解码重构对象

8.根据权利要求6所述的一种多层级监控视频高效压缩编码装置，其特征在于所述的特定语义对象，直接将预测残差cn设置为0。

9.一种用于处理权利要求1所述的多层级监控视频高效压缩编码方法的解码装置，其特征在于包括对象解码模块、长期背景帧解码模块、短期背景帧解码模块、前景解码模块，所述对象解码模块利用解码器解码获得关键点序列结构化信息，以及反卷积解码获得的对象，研究通过几何学方法插值重构出邻近帧目标对象解码版
所述长期背景帧解码模块利用长期背景帧场景类别索引号，重构出长期背景帧所述短期背景帧解码模块利用参考帧和加权预测系数获得短期背景帧
所述前景解码模块解码前景码流解码出

10.根据权利要求9所述的一种用于处理权利要求1所述的多层级监控视频高效压缩编码方法的解码装置，其特征在于最后视频解码如下：

说明书

技术领域

[0001] 本发明涉及海量摄像头城域级视频监控应用技术领域，具体涉及一种多层级监控视频高效压缩编码、解码装置及方法。

背景技术

[0002] 安防应用大部分摄像头针对固定场景，视频信号有自身特点：(1)一段时间内背景基本不变化或变化较小，相对于广播电视、视频网站等应用而言，背景帧建模可为更高效编码提供可能；(2)公安城市雪亮工程部署了海量摄像头，这些摄像头的数据绝大部分是无效的，不会给人看的，绝大部分信息是给机器看的。(3)智能安防应用常关注特定语义的目标对象，如场景中的行人、车辆、人脸、车牌等，这种特定语义对象是城域级检索、大数据分析等实际应用重点关注的。

[0003] 现有技术缺陷：早期MPEG‑4面向对象的编码技术，也关注到面向检索的应用。但是2000年前机器视觉、目标检测技术发展还不够成熟，导致这一标准无法真正实际应用。近年来，随着深度学习技术发展以及计算平台算力不断强大，使得特定语义的目标对象高性能检测成为可能。近年来基于深度学习端到端图像编码框架获得了突破，深度学习表达的高维特征向量可以作为紧凑检索描述子，可为压缩和检索双目标驱动的深度特征提取、表示和编码提供可能。

[0004] 但是上述工作从不同角度做了探索。针对海量摄像头集群感知，面向机器理解视频编码这样的场景，视频数据编码压缩的诉求和传统视频编码有较大差异。如何有效利用视频数据空‑时‑Camer多维度数据冗余，在保证机器感知理解效率前提下，有效实现数据编码压缩仍未解决。

发明内容

[0005] 针对现有技术存在的问题，本发明重点关注上述特点，充分利用视频数据空‑时‑Camer多维度数据冗余，针对性提出多层级高效视频编码算法框架。

[0006] 一种多层级监控视频高效压缩编码方法，包括以下层级：

[0007] (1)特定语义对象编码：检测出特定语义对象dn，重构对象通过跟踪技术找到时域轨迹，通过关键点检测技术为目标对象在时域轨迹上的所有版本检测出关键点序列，仅把关键序列结构化信息传输给解码器；

[0008] (2)长期背景帧建模：设置多个场景类别，用背景帧场景索引序号区分这些场景类别；在摄像头安装时通过离线训练方法构建出背景帧an；编码器里检测场景类别，获得长期背景帧将背景帧索引序号传输给解码器；

[0009] (3)短期背景帧建模：假设当前帧fn前面邻近帧fn‑1fn‑2已经获得了解码重构版采用多模式预测方法，获得当前帧的短期背景帧预测值通过优化选择多模式参考预测，选择合适参考帧和加权预测系数，将编码控制参数传输给解码器；

[0010] (4)前景编码：预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器。

[0011] 进一步的，所述的步骤(1)中利用深度学习检测器检测出特定语义对象dn，所述语义对象包括行人、车辆、人脸，经过压缩和检索双目标驱动的特征提取、表示和编码，经过反卷积获得解码重构对象

[0012] 进一步的，所述的步骤(4)中特定语义对象，直接将预测残差cn设置为0。

[0013] 一种用于处理所述的多层级监控视频高效压缩编码方法的解码方法，所述特定语义对象的解码方法为利用解码器解码获得关键点序列结构化信息，以及反卷积解码获得的对象，研究通过几何学方法插值重构出邻近帧目标对象解码版

[0014] 所述长期背景帧的解码方法为解码器利用长期背景帧场景类别索引号，重构出背景帧

[0015] 所述短期背景帧的解码方法为解码器利用参考帧和加权预测系数获得[0016] 所述预测残差的解码方法为解码器解码前景码流解码出

[0017] 进一步的，所述的特定语义对象解码是通过目标对象反卷积重构，最后视频解码如下：

[0018]

[0019] 一种多层级监控视频高效压缩编码装置，包括特定语义对象编码模块、长期背景帧建模模块、短期背景帧建模模块、前景编码模块，

[0020] 所述的特定语义对象编码模块检测出特定语义对象dn，重构对象通过跟踪技术找到时域轨迹，通过关键点检测技术为目标对象在时域轨迹上的所有版本检测出关键点序列，仅把关键点序列结构化信息传输给解码器；

[0021] 所述长期背景帧建模模块设置多个场景类别，用背景帧场景索引序号区分这些场景类别；在摄像头安装时通过离线训练方法构建出背景帧an；编码器里检测场景类别，获得长期背景帧将背景帧索引序号传输给解码器；

[0022] 所述的短期背景帧建模模块假设当前帧fn前面邻近帧fn‑1fn‑2已经获得了解码重构版采用多模式预测方法，获得当前帧的短期背景帧预测值通过优化选择多模式参考预测，选择合适参考帧和加权预测系数，将
编码控制参数传输给解码器；

[0023] 所述的前景编码模块预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器。

[0024] 进一步的，所述的特定语义对象编码模块利用深度学习检测器检测出特定语义对象dn，所述语义对象包括行人、车辆、人脸，经过压缩和检索双目标驱动的特征提取、表示和编码，经过反卷积获得解码重构对象进一步的，所述的步骤(4)中特定语义对象，直接将预测残差cn设置为0。

[0025] 一种用于处理多层级监控视频高效压缩编码方法的解码装置，包括对象解码模块、长期背景帧解码模块、短期背景帧解码模块、前景解码模块，所述对象解码模块利用解码器解码获得关键点序列结构化信息，以及反卷积解码获得的对象，研究通过几何学方法插值重构出邻近帧目标对象解码版

[0026] 所述长期背景帧解码模块利用长期背景帧场景类别索引号，重构出长期背景帧[0027] 所述短期背景帧解码模块利用参考帧和加权预测系数获得短期背景帧[0028] 所述前景解码模块解码前景码流解码出

[0029] 进一步的，最后视频解码如下：

[0030]

[0031] 本发明的有益效果：

[0032] (1)极大提高压缩性能；

[0033] (2)视觉对象深度特征可支持解码重构和检索。

实施方案

[0036] 下面结合说明书附图对本发明的技术方案作进一步说明。

[0037] 本发明需解决的技术问题：

[0038] (1)长短期背景帧建模：充分利用海量摄像头集群中视频数据空‑时‑Camer多维度数据冗余，

[0039] (2)机器理解视频语义对象深度特征编码：(压缩编码和检索双目标)；

[0040] (3)语义对象空时多层级特征编码；

[0041] 如图1和图2所示，本发明的的技术方案具体如下：

[0042] (1)特定语义对象编码

[0043] 基于深度学习检测器(SSD或YOLO)检测出特定语义对象dn(如机器识别的行人、车辆、人脸等)，经过压缩和检索双目标驱动的特征提取、表示和编码，所述的特征提取采用CNN高维特征向量表征的非结构化深度特征，经过反卷积获得解码重构对象 (图中黑色矩形框)，考虑到视频信号时域相关性，一个目标对象实现在摄像头通常会持续一段时间，进行一次编码描述后，可以通过跟踪技术找到时域轨迹，通过关键点检测技术为该目标对象在时域轨迹上的所有版本检测出关键点序列，所述跟踪技术和关键点检测技术均采用现有技术检测，仅把关键点序列结构化信息传输给解码器，解码器解码获得关键点序列结构化信息，以及反卷积解码获得的对象，研究通过几何学方法插值重构出邻近帧目标对象解码版

[0044] (2)长期背景帧建模

[0045] 安防应用中摄像头绝大部分时间背景是固定的，如深夜时间段摄像头中没有活动目标，这种情况下如果能构建背景帧，那么基于背景帧的差分编码技术可极大提高压缩效率。不同季节、光照、天气情况下，背景帧像素亮度和色度分布特性不同。基于背景建模方法，根据季节、光照和天气不同组合，设置多个场景类别，用背景帧场景索引序号区分这些场景类别。在摄像头安装时通过离线训练方法构建出背景帧an。编码器里检测场景类别，获得长期背景帧将背景帧索引序号传输给解码器，解码器同样可以重构出[0046] (3)短期背景帧建模

[0047] 长期背景帧仅仅描述相对较长一段时间共同背景，但是白天情况下实际场景会比较复杂，会出现较多目标运动、遮挡等区域，编码方案需要解码重构所有帧，为充分利用短期时域相关性，本发明构建短期背景帧以最大限度利用短期时域冗余。假设当前帧fn前面邻近帧fn‑1fn‑2已经获得了解码重构版那么，采用多模式预测方法，如线性加权预测，获得当前帧的短期背景帧预测值通过优化选择多模式参考预测，选择合适参考帧和加权预测系数，这些编码控制参数传输给解码器，解码端可以同样获得[0048] (4)前景(预测残差)编码

[0049] 相对短期背景帧，当前帧fn还存在一定的前景不规则内容，就是预测残差经过HEVC编码产生前景码流，经过解码后获得重构前景预测残差通过信道传输给解码器，解码器也同样可解码出注意这里还需要考虑特定语义的目标对象区域，对于这些矩形区域，直接将预测残差cn设置为0，这些矩形区域的解码是通过目标对象反卷积重构，也就是 (图中黑色矩形框)。最后视频解码如下

[0050]

[0051] 本发明通过融合长短期背景帧、前景编码、语义对象特征编码的多层级视频编码框架；利用海量摄像头集群中视频数据空‑时‑Camer多维度数据冗余的长短期背景帧建模；压缩编码和检索双目标驱动的视频语义对象深度特征编码；语义对象空时多层级特征编码。

附图说明

[0034] 图1为多层次高效预测编码框图；

[0035] 图2为多层次高效预测解码框图。

1一种非接触式交互装置及方法 2一种手机防摔方法 3一种蓝牙音箱的多功能支架 4一种机器人 5一种防辐射手机支架 6一种防盗家用摄像头 7基于时间累积模型的人员状态信息检测方法 8一种开卷考试用方便携带的柔性面板及其携带方法 9弦轴箱除尘控制平台 10一种带有照明音箱