[0003] 本发明针对使用远程监督学习方式进行关系提取中的噪声问题,公开一种通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。
[0004] 为实现以上的技术目的,本发明将采用以下的技术方案:
[0005] 步骤(1)训练双向循环卷积注意神经网络;
[0006] 步骤(2)读取语句数据;
[0007] 步骤(3)将数据输入训练好的深度神经网络,输出数据与各个关系的相关度;
[0008] 步骤(1)包括如下步骤:
[0009] 步骤A对输入数据进行语义分析,提取实体对的最短路径,并编码整理序列化;所述的最短路径包含词和依赖关系边;
[0010] 步骤B构建双向循环卷积注意神经网络,确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式;
[0011] 步骤C特征提取,将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中,提取出每个组的特征;
[0012] 步骤D对于步骤C中的每个组,计算组的特征与结果候选集中每个关系的相关度,将相关度最大的作为该组提取的结果;
[0013] 步骤E利用交叉熵损失函数计算结果与标签的误差,并调整双向循环卷积注意神经网络中的参数。
[0014] 步骤A具体为:首先,将训练数据按照标签分组;其次,使用NLP分析工具将自然语言句子进行语义依存分析,得到相应的语义依存图;根据自然语言句子中的实体对和得到的语义依存图,使用改进后的最短路径迪杰斯特拉算法,提取出多条实体对之间的最短路径;
[0015] 所述的改进后的最短路径迪杰斯特拉算法,具体是在原算法基础上加入一个PATH数据表记录每个图中节点在最短路径中的前一跳是哪个节点。
[0016] 步骤B中,所述的双向循环卷积注意神经网络由BCNN网络架构改进实现,首先由一个双向循环网络对最短路径进行编码,每条最短路径循环次数限制为15次;再使用卷积网络与池化层提取编码后的最短路径的特征,卷积网络中采用200个过滤器;然后用注意力网络计算每条最短路径在当前组中的权重。
[0017] 所述的双向循环卷积注意神经网络采用远程监督学习训练,网络自底向上的流程包括:
[0018] 第一层:对每条最短路径中的词和依赖关系边,分别使用双向循环卷积注意神经网络进行编码,编码的过程为:
[0019] it=σ(wi·xt+ut·ht-1+bi)
[0020] gt=tanh(wc·xt+uc·ht-1+bc)
[0021] ft=σ(wf·xt+uf·ht-1+bf)
[0022]
[0023] ot=σ(wo·xt+uo·ht-1+bo)
[0024]
[0025] 其中,w表示模型中的参数,x表示输入的词特征或者依赖关系边特征,u表示模型中的参数,b表示模型中的参数,h表示循环中的前一时刻的输出,σ表示sigmod函数, 表示相乘;
[0026] 得到前向和后向中每个词的编码信息hwi和每条依赖关系边的编码信息hei;
[0027] 第二层:将前向和后向的编码信息按照依存单元进行组合,依存单元形式为<词,依赖关系边,词>;从而得到以下forward集合和backward集合,其中forward集合表示前向,backward集合表示后向:
[0028]
[0029]
[0030] 第三层:使用卷积网络和池化层提取前向和后向的依存单元信息,然后将两个信息相连得到最短路径的特征信息;
[0031] 第四层:使用注意力模型对一个组中所有最短路径特征信息融合得到组的特征;采取计算注意力方法,根据句子最短路径特征计算每条最短路径在该组中的权重,公式为:
[0032] S=∑αiGi
[0033]
[0034] fi=GiAr
[0035] 其中,S表示组的特征信息,α表示每条最短路径的权重,G表示最短路径特征信息,f表示最短路径和标签关系的相关度,i表示第i条最短路径,k表示列举改组中的所有最短路径。
[0036] 步骤E中双向循环卷积注意神经网络的调优,具体实现如下:
[0037] 采用自顶向下的远程监督学习方式进行调优,即使用标签的样本数据进行训练,误差自顶向下进行传输,对网络进行调优,包括:根据交叉熵损失函数的结果,利用反向传播算法重新调整双向循环卷积注意神经网络参数,最终达到全局网络最优,交叉熵损失函数为:
[0038]
[0039] 其中,θ是模型中的参数,r表示关系信息,G表示最短路径信息,i表示组中最短路径下标。
[0040] 本发明由于采取以上技术方案,具有如下优点:
[0041] 本发明通过引入语义依存图和双向循环卷积注意网络进行关系提取,通过语义依存的分析并提取的实体间最短路径,可以有效的降低远程监督学习带来的噪声数据影响,从而提高了关系提取的准确率。