[0035] 为了使技术人员更好的理解本发明,下面将结合附图和具体示例对本发明做进一步的解释,具体详细内容如下:
[0036] 本发明包括如下步骤:
[0037] Step1:时序图构建。
[0038] 首先对事件句对进行语义依存分析,获得两个依存树。针对每个依存树,查找触发词所处位置,并以触发词以起点,递归查找它的相邻节点,直到p跳的相邻节点为止,并保留该阶段内被查找的节点,其中p为递归次数。
[0039] 为了加强事件句对间的语义联系和长距离分词间的语义表示,后期加入了一些人工构造的边。为了简化操作和提升运算能力,本发明放弃了具体定义的依存关系,使用抽象的关系类型表示分词间的联系,定义的关系类型包括Depend‑Head类型、Head‑Depend类型、Self‑Loop类型和Head‑Head类型。上述示例递归1次的时序图如图2所示。对于触发词visit,它与分词advanced和分词before存在Head‑Depend类型的边,与分词is存在Depend‑Head类型的边,与触发词invite存在Head‑Head类型的边,本身也存在一个Self‑Loop类型的边。
[0040] Step2:时序图学习。
[0041] 传统的顺序模型不能有效处理图结构数据,本步骤引入关系图注意力神经网络RGAT进行处理,定义每个节点的初始隐藏状态为 每个节点的邻居集合为N(ui)。对于时序图G中的每个节点ui,它的第l层的隐藏状态 可以通过下述公式进行计算:
[0042]
[0043] 其中,Nr(ui)表示节点ui在关系类型r∈R下的邻居节点, 表示第l‑1层的节点ui与节点uj在关系类型r∈R下的相关度, 表示处理在关系类型r∈R下的第l‑1层的邻居节点的权重矩阵, 表示处理第l‑1层触发词t的权重矩阵,σ表示激活函数。
[0044] 不同的邻居节点通常与中心节点存在不同的重要程度,如果对邻居节点按照同等权重进行处理,容易造成一些重要的语义信息被稀释丢失。因此,引入注意力机制对不同的邻居节点进行差异化处理。处于第l层的节点ui与节点uj在关系类型r∈R下的注意力系数的计算如下:
[0045]
[0046] 其中,a表示一个共享的注意力权重矩阵。
[0047] 然后,根据上述的注意力系数计算处于第l层的不同节点间的相关度 计算如下:
[0048]
[0049] 例如根据事件句1和事件句2产生的时序图G中,分词visit在第一层信息更新时,会融合邻居节点advanced、before、is和invite的语义信息,并利用注意力机制计算分词visit与不同邻居节点的相关度,分别为 和最后根据邻居节点的语义信息和相关度更新中心节点visit的隐藏状态
[0050] Step3:时序分类。
[0051] 每个事件句中均存在对应的触发词,并且触发词通常包含最重要的关于事件的语义信息。因此,首先从隐藏状态集合中提取出触发词的隐藏状态 和 然后将事件句s1和事件句s2中剩余的隐藏状态信息分别整合为句子表示向量 和 计算如下所示:
[0052]
[0053]
[0054] 最后,利用前馈神经网络FFNN和softmax函数对上述向量进行计算,预测不同事件间的时序关系,计算如下所示:
[0055]
[0056] 例如上述的触发词隐藏状态 和 句子表示向量 和 被放入到softmax函数中预测时序关系,根据结果得知时序关系“BEFORE”的概率最大,所以预测事件“invite”和“visit”的时序关系为“BEFORE”。
[0057] 实验使用Micro‑F1值作为评测标准,并将Cheng(2017)、DBiLSTMs、Bi‑LSTM‑AM、DSNN等方法作为基准方法,与本发明提出的方法进行性能对比,探究其在TimeBank‑Dense语料上的识别性能,实验结果如表1所示。
[0058] 表1实验对比结果
[0059]
[0060] 根据表1的实验结果,本发明提出的方法的识别性能最优。Cheng(2017)、DBiLSTMs和Bi‑LSTM‑AM方法均对事件句的依存树进行裁剪处理,并利用顺序模型Bi‑LSTM进行表示学习,取得了不错的效果。但是它们均不能有效处理长距离非局部语义信息,造成部分重要的深层次隐藏信息被丢失遗忘。DSNN方法额外新增了全局约束,纠正部分错误的信息,但也未能有效解决上述问题。本发明提出的方法通过构建图结构数据并引入关系图注意力神经网络进行表示学习,能够有效解决上述问题,时序关系识别性能得到有效提升。
[0061] 本发明提出的方法将构建的时序图放入到关系图注意力神经网络RGAT中进行信息更新,不同的网络层数会影响方法的时序关系识别性能。因此,本发明设置了三种层数,探究不同层数对识别性能的影响,实验结果如表2所示。
[0062] 表2网络层数的影响
[0063]
[0064] 根据表2的实验结果,不同的网络层数会影响方法的时序关系识别性能,当网络层数为2时,识别性能达到最优。当网络层数过低时,容易造成捕获范围过窄,导致部分重要的语义信息被丢失遗忘。当网络层数过高时,容易造成捕获范围过大,导致较多噪声信息被错误捕获,造成事件时序关系识别性能降低。
[0065] 以上结合附图对本发明的具体实施方法进行了详细解释,但是本发明的具体实现方式并不限于此,其他技术人员在本发明基础所做的修改和替换,均在本发明的保护范围之内。