首页 > 专利 > 杭州电子科技大学 > 一种基于改进WMD算法的实体对齐方法专利详情

一种基于改进WMD算法的实体对齐方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-01-11
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-07-12
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-01-31
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-01-11
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910027346.3 申请日 2019-01-11
公开/公告号 CN109902144B 公开/公告日 2020-01-31
授权日 2020-01-31 预估到期日 2039-01-11
申请年 2019年 公开/公告年 2020年
缴费截止日
分类号 G06F16/33G06F16/36 主分类号 G06F16/33
是否联合申请 独立申请 文献类型号 B
独权数量 3 从权数量 0
权利要求数量 3 非专利引证数量 0
引用专利数量 4 被引证专利数量 0
非专利引证
引用专利 CN108694201A、CN108984661A、CN107861939A、CN106250412A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 姜明、闻涛、张旻、汤景凡、滕海滨、何杰成 第一发明人 姜明
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 6
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明是一种基于改进WMD算法的实体对齐方法。本发明步骤如下:获取同名百科实体对,计算实体对之间的属性相似度;计算实体间的摘要文本相似度;通过属性相似度和摘要文本相似度综合判断完成实体对齐。属性相似度计算包括:规范实体之对间属性名不一致的情况,将实体对的属性值归一单位化,通过编辑距离算法计算实体对之间的属性相似度。摘要文本相似度计算包括:对摘要文本分词并除去停用词,使用TextRank算法计算每个词的词权重,通过预训练好的word2vec模型,将分词后的摘要文本转化为词的分布式低维实数向量表示,将词向量和计算好的单个词权重作为参数。本发明有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。
  • 摘要附图
    一种基于改进WMD算法的实体对齐方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-01-31 授权
2 2019-07-12 实质审查的生效 IPC(主分类): G06F 16/33 专利申请号: 201910027346.3 申请日: 2019.01.11
3 2019-06-18 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于改进WMD算法的实体对齐方法,其特征在于包括如下步骤:
步骤(1)计算百科实体之间的属性相似度;
步骤(2)计算百科实体间的摘要文本相似度;
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐,
步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建多个类别的属性名映射表,进而规范属性名称不一致的情况;
1.2统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化;
1.3对于实体Ea,Eb,其属性名称集合分别为:Propertya={pa1,pa2,...,pam},Propertyb={pb1,pb2,...,pbn};属性值集合分别为Valuea={va1,va2,...,vam},Valueb={vb1,vb2,...,vbn};
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈
Propertya,Pbn∈Propertyb;其中Pam的属性值为Vam,Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
其中:
T=|Propretya∩Propretyb|;
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度,
步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,设置为0.85;sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重;
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Word travel cost,词Vi,Vj之间的word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量;
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词;D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V
1...Vn};
设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
其中:
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:

2.根据权利要求1所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值ν,则对齐实体,输出新的实体;若相似度在在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2;否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体;否则判定这两个实体无关。
说明书

技术领域

[0001] 本发明属于自然语言处理技术领域,涉及的实体对齐方法,具体来讲是一种基于改进WMD算法的实体对齐方法。

背景技术

[0002] 为促进数据的语义化,国内外的研究机构和企业已经构建了丰富多样的知识库。这些知识库在数据挖掘,语义分析,智能问答系统等应用中发挥了重要的作用。但仅仅使用单一知识库会导致信息覆盖面低,描述不完整的问题。在构建中文知识库中,可以通过多个知识库的融合,有效解决信息缺失的问题,而有效的实体对齐技术正是数据融合的关键所在。实体对齐的目的是判别来自不同数据源中的实体是否指向现实世界的同一对象。通过有效的实体对齐技术,我们可以从网络百科实体页面中抽取实体,进而构建一个高质量的中文百科知识库。
[0003] 实体对齐实质上是要解决多源知识库之间异构问题,目前知识库的异构问题主要体现在两个方面(1)体系结构差异,不同知识库的结构存在较大差异;(2)内容差异,即不同知识库中所填充的实体不同,相同的实体名可能指代多个对象。但中文知识库资源缺乏完整的体系结构,不适用应用以上方法。在内容差异方面的对齐工作较少,多为基于实体的属性信息。但由于百科数据属于用户原创,数据质量参差不齐,仅通过属性信息难以判定是否为同一实体。

发明内容

[0004] 本发明对传统实习对齐方法在中文百科实体上正确率不高的问题,公开一种基于改进WMD算法的实体对齐方法,一种通过计算编辑距离和改进的WMD距离进而完成中文百科实体对齐方法。
[0005] 一种基于改进WMD算法的实体对齐方法,按照如下步骤进行:
[0006] 步骤(1)计算百科实体之间的属性相似度。
[0007] 步骤(2)计算百科实体间的摘要文本相似度。
[0008] 步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
[0009] 步骤1所述的计算百科实体之间的属性相似度,过程如下:
[0010] 1.1首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名称不一致的情况。
[0011] 1.2其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
[0012] 1.3对于实体Ea,Eb,其属性名称集合分别为: Propertya={pa1,pa2,...,Pam},Propertyb={pb1,pb2,...,pbn}。属性值集合分别为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
[0013] 1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
[0014]
[0015] 其中:
[0016] T=|Propretya∩Propretyb|
[0017]
[0018] T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
[0019] 进一步的,步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
[0020] 2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
[0021]
[0022] 其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85。sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重。
[0023] 2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Word travel cost,词Vi,Vj之间的 word travel cost定义为:
[0024] C(i,j)=||xi-xj||2
[0025] 其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
[0026] 2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi), D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…n×nVn}。设T∈R 为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
[0027]
[0028] 其中:
[0029]
[0030]
[0031] 2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
[0032]
[0033] 进一步的,步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
[0034] 3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在在上限阈值v和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2。否则认为该实体对之间不需要对齐工作;
[0035] 3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
[0036] 本发明的优点及有益效果如下:
[0037] 本发明由于采取以上技术方案,具有如下优点:本发明通过改进的WMD算法对百科实体的摘要文本进行相似度计算,同时考虑百科实体的属性相似度,综合判断是否可以进行百科实体对的消岐工作。在引入对百科实体摘要文本的语义信息的考量的同时,有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。

实施方案

[0039] 下面结合附图对本发明作进一步描述。
[0040] 参照图1,一种基于改进的WMD算法的实体对齐方法包括以下步骤:
[0041] 1)步骤(1)计算百科实体之间的属性相似度。
[0042] 1.1)首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名不一致的情况。
[0043] 1.2)其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
[0044] 1.3)对于实体Ea,Eb,其属性名集合其属性名集合 Propertya={pa1,Pa2,...,Pam},Propertyb={pb1,pb2,...,Pbn}。属性值集合为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
[0045] 1.4)对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
[0046]
[0047] 其中:
[0048] T=|Propretya∩Propretyb|
[0049]
[0050] T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
[0051] 2)步骤(2)计算实体间的摘要文本相似度。
[0052] 2.1)采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
[0053]
[0054] 2.2)通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Word travel cost,词Vi,Vj之间的 word travel cost定义为:
[0055] C(i,j)=||xi-xj||2
[0056] 其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
[0057] 2.3)在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将 D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,n×nV1…Vn}。设T∈R 为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
[0058]
[0059] 其中:
[0060]
[0061]
[0062] 2.4)通过以上计算,百科实体的摘要文本相似度计算公式为:
[0063]
[0064] 3)步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否可以消岐。
[0065] 3.1)将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向下一步。否则认为该实体对之间不需要对齐工作
[0066] 3.2)将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
[0067] 3.3)根据以上的定义和公式,综合判断中文百科实体对齐的算法如下:
[0068]

附图说明

[0038] 图1是本发明所述方法的流程框图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号