首页 > 专利 > 杭州电子科技大学 > 一种基于跨双层网络随机游走的网络表征方法专利详情

一种基于跨双层网络随机游走的网络表征方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-12-13
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-06-04
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-12-17
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-12-13
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201811525095.3 申请日 2018-12-13
公开/公告号 CN109743196B 公开/公告日 2021-12-17
授权日 2021-12-17 预估到期日 2038-12-13
申请年 2018年 公开/公告年 2021年
缴费截止日
分类号 H04L12/24 主分类号 H04L12/24
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 8
权利要求数量 9 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2017.08.08CN 107122455 A,2017.09.01CN 108880846 A,2018.11.23CN 106897254 A,2017.06.27解书颖.基于节点表示的跨网络节点关联研究《.中国优秀硕士学位论文全文数据库(信息科技辑)》.2018,;
引用专利 US9727532B 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 史本云、钟佳楠、邱洪君、韩腾海、张新波 第一发明人 史本云
地址 浙江省杭州市江干区下沙高教园区 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州杭诚专利事务所有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
尉伟敏
摘要
本发明涉及网络表征技术领域,具体涉及一种基于跨双层网络随机游走的网络表征方法,包括以下步骤:A)建立网络拓扑结构;B)获得角色相似度矩阵;C)建立双层混合网络;D)获得随机游走序列;E)使用连续词袋模型获得网络的表征。角色相似度矩阵S的建立方法为:B1)列举所有大小小于或等于给定大小k的所有子图;B2)枚举非同构轨道,数量记为m;B3)将每个节点参与m个角色的情况使用长度为m的向量表示;B4)将每两个节点的角色表征向量的相似度作为该两个节点的相似度,角色相似度矩阵S。本发明的有益效果是:利用随机游走和连续词袋模型,不但实现同时融合网络邻接性和结构相似性的表征,还可以实现对非连通但角色相似的网络节点的有效表征。
  • 摘要附图
    一种基于跨双层网络随机游走的网络表征方法
  • 说明书附图:图1
    一种基于跨双层网络随机游走的网络表征方法
  • 说明书附图:图2
    一种基于跨双层网络随机游走的网络表征方法
  • 说明书附图:图3
    一种基于跨双层网络随机游走的网络表征方法
  • 说明书附图:图4
    一种基于跨双层网络随机游走的网络表征方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-12-17 授权
2 2019-06-04 实质审查的生效 IPC(主分类): H04L 12/24 专利申请号: 201811525095.3 申请日: 2018.12.13
3 2019-05-10 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于跨双层网络随机游走的网络表征方法,其特征在于,
包括以下步骤:
A)根据真实系统中实体之间的关系建立网络拓扑结构,获得网络邻接矩阵W={wij},i,j∈[1,n],n为网络拓扑结构节点数量;
B)获得节点在大小不超过给定值k的诱导子图中的角色序列,记为表征向量,建立节点之间的角色相似度矩阵S={sij},i,j∈[1,n];
C)根据网络邻接矩阵W以及角色相似度矩阵中节点的一一对应关系,建立双层混合网络;
D)依次从每个节点开始,进行h次跨双层混合网络的随机游走,从随机游走序列中得到截断长度为l的共h组节点序列,n个节点共获得n*h个长度为l的节点序列;
E)使用连续词袋模型或跳字模型获得每个节点的向量表示,从而获得网络的表征;
所述使用连续词袋模型获得节点的向量表示的方法为:把网络中的节点作为词,把通过随机游走得到的节点序列作为语句,使用word2vec的连续词袋模型,将每个词表示成一个定长的向量,将本步骤获得的定长向量作为对应节点的表征,从而获得网络的表征。

2.根据权利要求1所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,角色相似度矩阵S的建立方法为:
B1)列举所有大小小于或等于给定大小k的所有子图;
B2)枚举所有子图中的非同构轨道,标记非同构轨道中的角色,全部非同构轨道中包含的角色数量记为m;
B3)将每个节点参与所述m个角色的情况使用长度为m的向量表示,该向量作为该节点的角色表征向量;
B4)将每两个节点的角色表征向量的相似度作为该两个节点的相似度,建立角色相似度矩阵S。

3.根据权利要求1或2所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,节点之间的角色相似度矩阵S的元素
其中,GDV(i)、GDV(j)分别为节点i、j的角色表征向量,i,j∈[1,n]。

4.根据权利要求1或2所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,步骤B中使用角色表征向量建立节点之间的角色相似度矩阵S前,对角色表征向量进行中心化和标准化处理,所述中心化的方法为:将角色表征向量中的每个元素减去该向量中全部元素的均值;所述标准化的方法为:计算中心化后角色表征向量全部元素的标准差,将角色表征向量中的每个元素除以标准差。

5.根据权利要求1或2所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,在步骤D中跨双层混合网络的随机游走时,设定参数α,0≤α≤1,α为每步游走时选择邻接网络游走的概率。

6.根据权利要求1或2所述的一种基于跨双层网络随机游走的网络表征方法,步骤E中,使用跳字模型获得每个节点的向量表示的方法为:
E1)步骤D中随机游走获得的序列表示为Li,i∈[1,n],对于任意采样序列Li,给定中心节点i生成背景节点ik的条件概率P(ik|i)的计算式为:
其中,中心节点i为本次游走序列的起始节点,背景节点ik为采样序列Li中除中心节点id d d
以外的节点,uk∈R是背景节点ik的向量表示,vi∈R是中心节点i的向量表示,R为d维实数向量,uk以及vi的值由以下步骤获得;
E2)对于所有采样序列Li,跳字模型的似然函数如下:
最大似然估计为:
E3)对于一对中心节点和背景节点,随机采样K个噪音节点,噪音节点采样概率p(j)设为j的节点频率与所有节点总频率之比的0.75次方:
E4)列出目标函数:
其中,D表示正例,D′表示负例,(w,c)表示所有随机游走产生的中心节点和背景节点数据对,c表示中心节点,w表示背景节点,σ为容差系数,σ值大于1;
E5)对步骤E4列出目标函数进行优化,得到向量vc以uw,即每个节点的随机游走序列,作为该节点的表征向量。

7.根据权利要求1或2所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,步骤A中根据真实系统中实体之间的关系建立网络拓扑结构时,若实体之间存在直接关联,则认为两个实体存在相邻关系,反之,则通过 ‑邻居方法或者K‑邻近算法(KNN)来确定二者之间是否存在相邻关系。

8.根据权利要求7所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,‑邻居方法确定两个实体之间是否存在相邻关系的方法为:
若两个实体之间的拓扑距离或实际距离小于人工设定值 则认为所述两个实体存在相邻关系,反之,则认为所述两个实体无相邻关系。

9.根据权利要求7所述的一种基于跨双层网络随机游走的网络表征方法,其特征在于,K‑邻近算法(KNN)确定两个实体之间是否存在相邻关系的方法为:
获取实体与其他实体的最近距离L,认为与该实体距离小于σ*L的K个实体与该实体存在相邻关系,其余实体与该实体无相邻关系,σ为容差系数,其值大于1,其值由人工设定。
说明书

技术领域

[0001] 本发明涉及网络表征技术领域,具体涉及一种基于跨双层网络随机游走的网络表征方法。

背景技术

[0002] 在大数据时代,不但数据规模随时间呈爆发式增长、数据的形式多样化,而且数据间呈现出复杂的关联关系。分析关联大数据所需的算力与数据供给之间的不平衡,使得关联大数据的处理面临着严峻的挑战。“网络”因其强大且灵活的表征能力,成为了关联数据最自然和直接的表达方式。由于网络的高维度特性,当网络规模较大的时候,传统的基于网络拓扑的表征方式通常不可避免地存在运算复杂度高、无法有效进行并行化运算,从而导致运行时间过长等问题。因此,如何将高维稀疏网络以低维向量形式表征,成为了一个至关重要的问题和挑战。
[0003] 网络嵌入旨在将网络中的节点表示成低维、实值、稠密的向量形式。目前常见的网络表征学习方法主要分为三种:基于矩阵分解的方法、基于随机游走的方法、基于深度神经网络的方法。但是通过对现有的方法进行研究之后,我们发现目前大多数网络嵌入方法主要关注保持网络的拓扑结构特性:即如果网络中两个节点的最短距离较近,则它们在表征后的低维空间中的距离也接近;反之亦然。大多数网络表征学习算法要求网络是联通的。然而,现实应用中经常遇到网络不连通但某些节点会在不同的社区扮演相同或相似的角色。例如,金融网络中不同的欺诈团队里核心人物的角色;不同学术领域里核心学者的社交关系等。这就需要一种能够针对非联通网络,且同时融合网络邻接性和节点相似性的网络嵌入方法。
[0004] Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
[0005] 中国专利CN108427762A,公开日2018年8月21日,利用随机游走的自编码文档表示方法。其采用自编码网络,对于给定文本集,首先利用稀疏自编码网络构建文本的稀疏话题编码;然后基于文本相似性度量构建文本近邻图,通过对文本近邻图施加低秩约束生成随机游走结构,并以随机游走结构的条件访问概率计算局部近邻文本的加权系数;最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构,并作为正则约束项融合到自编码网络的训练中,建立参数化的话题编码网络对样本外文本进行话题建模。其方案具有准确率高、运行效率高、可对样本外话题建模等特点,适用于要求高精度的文本话题建模领域,对文本表示的发展具有很大的推动作用,具有很好的应用价值和推广价值。但其仅能表达文本集资料,不能适用于广泛的复杂的数据形式,不适合作为机器学习、预测和可视化等任务的数据前置处理技术。

发明内容

[0006] 本发明要解决的技术问题是:目前网络表征技术不能同时表征邻接性和结构相似性,以及不能很好的处理非连通网络。提出一种利用随机游走处理非连通网络的基于跨双层网络随机游走的网络表征方法。
[0007] 为解决上述技术问题,本发明所采取的技术方案为:一种基于跨双层网络随机游走的网络表征方法,包括以下步骤:A)根据真实系统中实体之间的关系建立网络拓扑结构,获得网络邻接矩阵W={wij},i,j∈[1,n],n为网络拓扑结构节点数量;B)获得节点在大小不超过给定值k的诱导子图中的角色序列,记为表征向量,建立节点之间的角色相似度矩阵S={sij},i,j∈[1,n];C)根据网络邻居矩阵W以及角色相似度矩阵中节点的一一对应关系,建立双层混合网络;D)依次从每个节点开始,进行h次跨双层混合网络的随机游走,从随机游走序列中得到截断长度为l的共h组节点序列,n个节点共获得n*h个长度为l的节点序列;E)把网络中的节点作为词,把通过随机游走得到的节点序列作为语句,使用word2vec的连续词袋模型,将每个词表示成一个定长的向量,将本步骤获得的定长向量作为对应节点的表征,从而获得网络的表征。
[0008] 作为优选,角色相似度矩阵S的建立方法为:B1)列举所有大小小于或等于给定大小k的所有子图;B2)枚举所有子图中的非同构轨道,标记非同构轨道中的角色,全部非同构轨道中包含的角色数量记为m;B3)将每个节点参与所述m个角色的情况使用长度为m的向量表示,该向量作为该节点的角色表征向量;B4)将每两个节点的角色表征向量的相似度作为该两个节点的相似度,角色相似度矩阵S。
[0009] 作为优选,节点之间的角色相似度矩阵S的元素
[0010]
[0011] 其中,GDV(i)、GDV(j)分别为节点i、j的角色表征向量,i,j∈[1,n]。
[0012] 作为优选,步骤B中使用角色表征向量建立节点之间的角色相似度矩阵S前,对角色表征向量进行中心化和标准化处理,所述中心化的方法为:将角色表征向量中的每个元素减去该向量中全部元素的均值;所述标准化的方法为:计算中心化后角色表征向量全部元素的标准差,将角色表征向量中的每个元素除以标准差。
[0013] 作为优选,在步骤D中跨双层混合网络的随机游走时,设定参数α(0≤α≤1·),α为每步游走时选择邻接网络游走的概率。
[0014] 作为优选,步骤A中根据真实系统中实体之间的关系建立网络拓扑结构时,若实体之间存在直接关联,则认为两个实体存在相邻关系,反之,则通过 ‑邻居方法或者K‑邻近算法(KNN)来确定二者之间是否存在相邻关系。
[0015] 作为优选,‑邻居方法确定两个实体之间是否存在相邻关系的方法为:
[0016] 若两个实体之间的拓扑距离或实际距离小于人工设定值 则认为所述两个实体存在相邻关系,反之,则认为所述两个实体无相邻关系。
[0017] 作为优选,K‑邻近算法(KNN)确定两个实体之间是否存在相邻关系的方法为:
[0018] 获取实体与其他实体的最近距离L,认为与该实体距离小于σ*L的K个实体与该实体存在相邻关系,其余实体与该实体无相邻关系,σ为容差系数,其值大于1,其值由人工设定。
[0019] 本发明的实质性效果是:利用随机游走和连续词袋模型,不但实现同时融合网络邻接性和结构相似性的表征,还可以实现对非连通但角色相似的网络节点的有效表征。

实施方案

[0024] 下面通过具体实施例,并结合附图,对本发明的具体实施方式作进一步具体说明。
[0025] 实施例一:
[0026] 一种基于跨双层网络随机游走的网络表征方法,如图1所示,为实施例一网络表征方法流程框图,本实施例包括以下步骤:A)根据真实系统中实体之间的关系建立网络拓扑结构,获得网络邻接矩阵W={wij},i,j∈[1,n],n为网络拓扑结构节点数量;B)获得节点在大小不超过给定值k的诱导子图中的角色序列,记为表征向量,建立节点之间的角色相似度矩阵S={sij},i,j∈[1,n];C)根据网络邻居矩阵W以及角色相似度矩阵中节点的一一对应关系,建立双层混合网络;D)依次从每个节点开始,进行h次跨双层混合网络的随机游走,从随机游走序列中得到截断长度为l的共h组节点序列,n个节点共获得n*h个长度为l的节点序列;E)把网络中的节点作为词,把通过随机游走得到的节点序列作为语句,使用word2vec的连续词袋模型,将每个词表示成一个定长的向量,将本步骤获得的定长向量作为对应节点的表征,从而获得网络的表征。其中,网络邻接矩阵W的节点代表系统中的实体,边则表示实体之间的相互作用或者关系。若系统中实体数量为n,则网络拓扑结构可以表示为n×m的矩阵。本实施例的邻接网络也可以是带权重的网络,用wij表示节点i和j的关系权重。如果两个节点i和j之间仅有边没有权重,则令wij=1。如果两个节点i和j之间没有边,则令wij=0。
[0027] 角色相似度矩阵S的建立方法为:B1)列举所有大小小于或等于给定大小k的所有子图;B2)枚举所有子图中的非同构轨道,标记非同构轨道中的角色,全部非同构轨道中包含的角色数量记为m;B3)将每个节点参与m个角色的情况使用长度为m的向量表示,该向量作为该节点的角色表征向量;B4)将每两个节点的角色表征向量的相似度作为该两个节点的相似度,角色相似度矩阵S。
[0028] 节点之间的角色相似度矩阵S的元素
[0029]
[0030] 其中,GDV(i)、GDV(j)分别为节点i、j的角色表征向量,i,j∈[1,n]。
[0031] 步骤B中使用角色表征向量建立节点之间的角色相似度矩阵S前,对角色表征向量进行中心化和标准化处理,中心化的方法为:将角色表征向量中的每个元素减去该向量中全部元素的均值;标准化的方法为:计算中心化后角色表征向量全部元素的标准差,将角色表征向量中的每个元素除以标准差。
[0032] 在步骤D中跨双层混合网络的随机游走时,设定参数α(0≤α≤1),α为每步游走时选择邻接网络游走的概率。
[0033] 步骤A中根据真实系统中实体之间的关系建立网络拓扑结构时,若实体之间存在直接关联,则认为两个实体存在相邻关系,反之,则通过 ‑邻居方法或者K‑邻近算法(KNN)来确定二者之间是否存在相邻关系。
[0034] ‑邻居方法确定两个实体之间是否存在相邻关系的方法为:
[0035] 若两个实体之间的拓扑距离或实际距离小于人工设定值 则认为两个实体存在相邻关系,反之,则认为两个实体无相邻关系。
[0036] K‑邻近算法(KNN)确定两个实体之间是否存在相邻关系的方法为:
[0037] 获取实体与其他实体的最近距离L,认为与该实体距离小于σ*L的K个实体与该实体存在相邻关系,其余实体与该实体无相邻关系,σ为容差系数,其值大于1,其值由人工设定。
[0038] 如图2所示,为实施例一诱导子图非同构轨道示意图,当k=4时,共有8个诱导子图(G1‑G8),节点在诱导子图中的非同构轨道数为m=14。图2显示了子图大小小于等于4的全部子图中的非同构轨道数的寻找方法,图2中G0显示了当子图大小为2时,非同构位置仅有1个,图2中以数字0表示,所有参与了大小为2的子图的节点,在其角色表征向量第0个位置均记为1。图2中G1、G2显示了当子图大小为3时,的网络具有两个大小为3的子图结构,共有3个非同构位置,图2中以数字1,2,3表示,节点参与了大小为3的非环形的子图时,参与两端的情况时,在其角色表征向量第1个位置记为1,参与中间的情况时,在其角色表征向量第2个位置记为1,参与了大小为3的环形子图的节点,在其角色表征向量第3个位置均记为1,依次类推。图2中G3‑G8显示了当子图大小为4时,的网络具有六个子图结构,其中非同构位置共有11个,图2中以数字4‑14表示,所以该网络中,子图大小小于等于4的非同构轨道共有15个,同样的方法获得该网络的全部子图的非同构位置,统计其数量记为m。给定规模为k的诱导子图,网络中的每一个节点可以扮演m个不同的角色。邻接网络中每个节点参与不同非同构轨道的次数,构成一个m维向量,称为非同构子图度向量(Graphlet Degree Vector,简称GDV)。
[0039] 如图3所示,为实施例一跨双层网络示意图,邻接网络和节点相似度网络中的节点为一一对应关系。上层是基于实体关系的邻接网络,下层是基于节点角色的相似度网络,上下层之间通过一一对应的网络节点相连,虚线表示邻居网络里的节点连接关系,实线表示相似度网络里的节点连接关系。
[0040] 如图4所示,为实施例一跨双层网络的随机游走示意图,从网络任一节点i出发,跨双层网络随机游走每一步的具体步骤如下:
[0041] 1)确定参数α,以概率α选择在邻接网络游走;以概率1‑α选择在相似度网络游走;
[0042] 2)如果在邻接网络中游走,将与节点i相连的所有边的相对权重作为采样的概率,即下一步经过节点j的概率如下:
[0043]
[0044] 如果节点在相似度网络中游走,将与节点i相连的所有边的相似度比率作为采样概率,即下一步经过节点j的概率如下:
[0045]
[0046] 这里Ni表示节点i的所有邻居节点的集合。注意:这里节点j不能是节点i的上一步经过的节点。图4显示了随机游走获得的一个序列为{1,3,4,5,6,8,9},图中的实线表示在相似度网络里的游走,虚线表示在邻居网络里的游走。
[0047] 虽然从理论上而言,随机游走的采样长度越长,最后生成的表征结果越精确。但是,但当游走长度足够长时,继续增加步长所带来的精确度上的提升相对于所增加的计算开销而言,是不值得的。因此,从计算复杂度的角度,随机游走需要设定游走长度l,具体值可通过有限次试验后,由人工权衡精度和系统开销设定。按照如上步骤,从每个节点开始进行h次跨双层网络的随机游走,则对网络中的所有节点共得到n×h个长度为l的节点组合。从i点出发的采样序列记为Li={i,i1,…,il}.
[0048] 实施例二:
[0049] 本实施例对实施例步骤C获得的双层混合网络使用跳字模型,提取节点特征形成节点表征,进而形成网络表征。跳字(skip‑gram)模型实现节点表征,其过程为通过给定一个中心词,经过只有一个隐藏层的简单神经网路训练,来预测可能与其共同出现的词。本实施例中使用一个中心节点,即随机游走的出发点,预测可能出现在其随机游走采样序列中的另一节点的概率。若两个节点同时出现在同一随机游走采样序列中的概率越高,则两个节点的角色相似度越高。
[0050] 对任意采样序列Li,给定中心节点i生成背景节点ik的条件概率可以通过对向量内积做softmax运算而得到:
[0051]
[0052] 这里,uk∈Rd是背景节点ik的向量表示,vi∈Rd是中心节点i的向量表示。对于所有采样序列Li,跳字模型的似然函数如下:
[0053]
[0054] 跳字模型的参数是每个词所对应的中心节点向量和背景节点向量。通过最大化似然函数来学习模型参数训练,即最大似然估计:
[0055]
[0056] 为提高优化效率,本实施例采用负采样优化,即每次让一个训练样本仅仅更新一小部分权重参数,从而降低梯度下降过程中的计算量,提高训练速度考虑sigmoid函数。对于一对中心节点和背景节点,随机采样K个噪音节点,噪音节点采样概率p(j)设为j的节点频率与所有节点总频率之比的0.75次方:
[0057]
[0058] 综上,目标函数可以写成:
[0059]
[0060] 其中,D表示正例,D′表示负例,(w,c)表示所有随机游走产生的数据对,c表示中心节点,w表示背景节点。最后利用随机梯度下降方法,对目标函数进行优化,获得每个节点的随机游走序列,作为该节点的表征。全部节点的表征构成网络的表征。
[0061] 以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

附图说明

[0020] 图1为实施例一网络表征方法流程框图。
[0021] 图2为实施例一诱导子图非同构轨道示意图。
[0022] 图3为实施例一跨双层网络示意图。
[0023] 图4为实施例一跨双层网络的随机游走示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号