首页 > 专利 > 杭州电子科技大学 > 一种基于多目标关联深度推理的图像问答方法专利详情

一种基于多目标关联深度推理的图像问答方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-05-14
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-10-22
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-02-26
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-05-14
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910398140.1 申请日 2019-05-14
公开/公告号 CN110263912B 公开/公告日 2021-02-26
授权日 2021-02-26 预估到期日 2039-05-14
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G06N3/04G06N3/08G06N5/04 主分类号 G06N3/04
是否联合申请 独立申请 文献类型号 B
独权数量 11 从权数量 -6
权利要求数量 5 非专利引证数量 0
引用专利数量 0 被引证专利数量 0
非专利引证
引用专利 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 余宙、俞俊、汪亮 第一发明人 余宙
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于多目标关联深度推理的图像问答方法。本发明包括以下步骤:1、对图像和以其自然语言描述的文本进行数据预处理,2、基于候选框几何特征增强的适应性注意力模块模型,进行各目标的注意力机制重排序。3、基于AAM模型的神经网络结构。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对图像问答的深度神经网络,特别是提出一种对图像‑问题文本的数据进行统一建模,在图像中各目标特征上进行推理,对各目标的注意力机制重排序从而更精确地对问题进行回答的方法,并且在图像问答领域中的获得较好效果。
  • 摘要附图
    一种基于多目标关联深度推理的图像问答方法
  • 说明书附图:图1
    一种基于多目标关联深度推理的图像问答方法
  • 说明书附图:图2
    一种基于多目标关联深度推理的图像问答方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-02-26 授权
2 2019-10-22 实质审查的生效 IPC(主分类): G06N 3/04 专利申请号: 201910398140.1 申请日: 2019.05.14
3 2019-09-20 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。




1.一种基于多目标关联深度推理的图像问答方法,其特征在于包括如下步骤:


步骤(1)、数据预处理,对图像和文本数据提取特征


首先是对图像预处理:


使用Faster-RCNN深度神经网络结构检测图像中包含的目标实体;对图像提取视觉特征V以及图像中包含各目标尺寸、坐标信息的几何特征G;


对文本数据进行预处理:


统计给定的问题文本的句子长度根据统计信息设置问题文本的最大长度;构建问题文本词汇字典,将问题的词语替换为描述词汇字典中的索引值,然后经过LSTM,从而将问题文本转化为向量q;


步骤(2)、基于候选框几何特征增强的注意力模块


对于输入的三个特征候选框位置的几何特征G、视觉特征V和注意力权重向量向量m;


首先对注意力权重向量向量m进行顺序编码,将其根据权值大小顺序转化为向量后,映射到高维度与同样映射到高维度的视觉特征V相加,其输出经过层归一化处理得到V
A


然后将几何特征G通过线性层映射后经过激活函数ReLU得到G
R;将V
A和G
R输入候选框关系组件进行推理得到O
relation,将O
relation经过线性层和sigmoid函数与原始的注意力权重向量向量m相乘得到新的注意力权重向量向量



步骤(3)、构建深度神经网络


首先将问题文本中根据词汇字典转换为索引值向量;然后将该向量经过高维映射传入长短期记忆网络(Long Short Term Memory,LSTM),将其输出的向量q和使用Faster R-CNN获得的视觉特征V通过哈达玛积(Hadamard product)的方式融合,并通过注意力模块得到各实体特征的注意力权重向量m;将注意力权重向量m、视觉特征V以及几何特征G输入基于候选框几何特征增强的适应性注意力模块,利用视觉特征和候选框位置的几何特征进行推理,对注意力权重向量进行重排序,得到新的注意力权重向量
将注意力权重向量
与视觉特征V乘积融合后做加权平均得到新的视觉特征
将视觉特征
与问题文本向量q通过哈达玛积融合经过softmax函数产生概率,并将此概率输出作为网络的输出预测值;


步骤(4)、模型训练


根据产生的预测值同该图像的实际描述的差异,并利用反向传播算法对步骤(3)中神经网络的模型参数进行训练,直至整个网络模型收敛。







2.根据权利要求1所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(1)具体实现如下:


1-
1.对图像i进行特征提取,使用现有的深度神经网络Faster-RCNN提取特征,提取的特征包括图像中包含的k个目标的视觉特征V和几何特征G,其中V={v
1,v
2,...,v
k},G={g
1,g
2,...,g
k},k∈[10,100]且单个目标的视觉向量为
单个目标的几何特征为g
i={x,y,w,h},其中
其中x,y,w,h为几何特征的位置参数,分别表示图像中实体所在候选框的横坐标、纵坐标以及宽度和高度;


1-
2.对于给定的问题文本,首先统计数据集中问题文本中不同的词,并将其记录在字典中;根据单词字典将单词列表中的词语转化成索引值,从而将问题文本转化成固定长度的索引向量,其具体公式如下:





其中
是单词w
k在字典中的索引值,l表示问题文本的长度。







3.根据权利要求2所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(2)所述的基于候选框几何特征增强的适应性注意力模块深度推理网络,具体如下:


2-
1.首先将输入的注意力权重向量向量m进行处理;将m中的各目标注意力权重向量m{m
1,m
2,...,m
k}的值排序的序号pos进行编码,
其具体公式如下:





其中
i∈[0,1,...,d/2]pos∈[1,2,...,k],得到基于注意力权重向量m的矩阵



2-
2.将矩阵PE和视觉特征V分别经过不同的线性层后相加,其输出经过层归一化处理得到V
A,其具体公式如下:


V
A=Layer Norm(W
PEPE
T+W
VV
T) (公式3)


其中



2-
3.对几何特征G进行关联计算,将其经过线性层得到G
R,其具体公式如下:


G
R=W
GΩ(G)
T (公式4)





其中,m,n∈[1,2,...,k],GE使用公式(2)编码,




2-
4.将V
A和G
R输入关联模块进行推理得到O
relation,具体公式如下:





O
relation=softmax(log(G
R)+V
R)·(W
OV
A+b
O) (公式7)


其中



2-
5.将O
relation经过全连接层后,再经过sigmoid函数与原始的注意力权重向量m相乘得到新的注意力权重向量
具体公式如下:





其中








4.根据权利要求3所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(3)所述的构建深度神经网络,具体如下:


3-
1.将问题文本向量q与视觉特征V经过全连接层的线性变换映射至公共空间然后使用哈达玛积融合,F
fusion表示公共空间上的融合特征;W
r和W
q分别表示将视觉特征V和当前状态信息q进行线性变换的对应全连接层参数,符号
表示两矩阵采用哈达玛乘积;W
m表示将融合特征降维并产生注意力权重向量分布的全连接层参数,
初始注意力权重向量向量m,j表示当前计算第j个区域注意力权重向量;具体公式如下:





m=softmax(W
mF
fusion+b
m) (公式10)


3-
2.根据步骤(2)将m、V以及G输入基于候选框几何特征增强的适应性注意力模块,利用V以及G的特征进行推理,对m进行重排序,得到新的注意力特征



3-
3.通过
与V的特征乘积后做加权平均得到的视觉特征向量
具体公式如下:










5.根据权利要求4所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(4)所述的模型训练,具体如下:


VQA-v2.0数据集中的问答对由多人回答,因此同一个问题可能有不同的正确回答;先前的图像问答模型将最高票数视为唯一正确回答,并对其进行独热编码(one-hotencoding);因为正确回答具有多元性,故对同一问题的全部回答进行投票,按照票数确定该正确回答在全部正确回答中的权重;并且使用Kullback-Leibler divergence损失函数,若N表示回答词汇表的长度;Predict表示预测值分布,GT表示真实值;则定义如所示:





说明书
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号