[0004] 本发明对传统实习对齐方法在中文百科实体上正确率不高的问题,公开一种基于改进WMD算法的实体对齐方法,一种通过计算编辑距离和改进的WMD距离进而完成中文百科实体对齐方法。
[0005] 一种基于改进WMD算法的实体对齐方法,按照如下步骤进行:
[0006] 步骤(1)计算百科实体之间的属性相似度。
[0007] 步骤(2)计算百科实体间的摘要文本相似度。
[0008] 步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
[0009] 步骤1所述的计算百科实体之间的属性相似度,过程如下:
[0010] 1.1首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名称不一致的情况。
[0011] 1.2其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
[0012] 1.3对于实体Ea,Eb,其属性名称集合分别为: Propertya={pa1,pa2,...,Pam},Propertyb={pb1,pb2,...,pbn}。属性值集合分别为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
[0013] 1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
[0014]
[0015] 其中:
[0016] T=|Propretya∩Propretyb|
[0017]
[0018] T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
[0019] 进一步的,步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
[0020] 2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
[0021]
[0022] 其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85。sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重。
[0023] 2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Word travel cost,词Vi,Vj之间的 word travel cost定义为:
[0024] C(i,j)=||xi-xj||2
[0025] 其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
[0026] 2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi), D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…n×nVn}。设T∈R 为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
[0027]
[0028] 其中:
[0029]
[0030]
[0031] 2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
[0032]
[0033] 进一步的,步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
[0034] 3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在在上限阈值v和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2。否则认为该实体对之间不需要对齐工作;
[0035] 3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
[0036] 本发明的优点及有益效果如下:
[0037] 本发明由于采取以上技术方案,具有如下优点:本发明通过改进的WMD算法对百科实体的摘要文本进行相似度计算,同时考虑百科实体的属性相似度,综合判断是否可以进行百科实体对的消岐工作。在引入对百科实体摘要文本的语义信息的考量的同时,有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。