首页 > 专利 > 杭州电子科技大学 > 一种非合作环境下的资源选择方法专利详情

一种非合作环境下的资源选择方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2012-02-16
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2012-09-26
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2013-09-18
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2032-02-16
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201210035195.4 申请日 2012-02-16
公开/公告号 CN102609536B 公开/公告日 2013-09-18
授权日 2013-09-18 预估到期日 2032-02-16
申请年 2012年 公开/公告年 2013年
缴费截止日
分类号 G06F17/30 主分类号 G06F17/30
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 2
权利要求数量 3 非专利引证数量 0
引用专利数量 0 被引证专利数量 0
非专利引证
引用专利 被引证专利
专利权维持 6 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 任祖杰、徐向华、万健、张纪林、蒋从锋、任永坚 第一发明人 任祖杰
地址 浙江省杭州市下沙高教园区2号大街 邮编
申请人数量 1 发明人数量 6
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州求是专利事务所有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杜军
摘要
本发明公开了一种非合作环境下的资源选择方法,本发明在非合作环境中利用基于相关度的资源选择方法,计算出每个资源的相关度并排序,得到一个依据相关度排序的资源列表;通过指纹提取技术从每个资源中提取覆盖统计信息,并利用布隆过滤器进行压缩;采用基于查询关键词语义的分发策略进行高效存储和检索;然后通过比较布隆过滤器来比较相应指纹集的重叠度,从而获取每个资源的新颖度;然后计算每个资源的新颖度,并根据新颖度重新调整候选资源的排列顺序;最后,利用相关度和新颖度进行加权运算,得到最优资源列表。本发明在资源选择时兼顾资源相关度和重叠程度,提高了查询的效率。
  • 摘要附图
    一种非合作环境下的资源选择方法
  • 说明书附图:图1
    一种非合作环境下的资源选择方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2013-09-18 授权
2 2012-09-26 实质审查的生效 IPC(主分类): G06F 17/30 专利申请号: 201210035195.4 申请日: 2012.02.16
3 2012-07-25 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种非合作环境下的资源选择方法,其特征在于:在资源选择时兼顾资源相关度和重叠程度,从而提高查询的效率,该方法采用以下步骤实现:
步骤1:首先利用基于相关度的资源选择方法,计算出每个资源相关度并排序,得到一个依据资源相关度排序的资源列表;
步骤2:从查询结果中获取结果文档的指纹集,具体是:假定一个资源组,并假定一个节点产生一个查询Q,当节点收到返回结果后,对每个结果文档,利用指纹提取技术提取出一串固定长度的数字来表示一个结果文档的标题内容;
步骤3:管理覆盖统计信息,这个过程包含了三个子过程:从结果文档的指纹集中提取覆盖统计信息的过程、覆盖统计信息的存储过程、覆盖统计信息检索的过程;所述的管理包含两类操作:存储和检索;当一组覆盖统计信息产生后,系统需要根据覆盖统计信息中查询的语义,覆盖统计信息分发到系统的各个资源中进行存储,方便覆盖统计信息的检索;
步骤4:计算每个资源的新颖度,具体为:根据给定一组资源及其覆盖统计信息,计算出每个资源含新颖结果的数量,进而计算出每个资源对查询结果的新颖度;
步骤5:根据步骤1中计算得出的资源相关度,结合新颖度对依据资源相关度排序后的资源列表进行调整,使得新颖结果数量最大化;
在步骤2中,当节点收到返回结果后,对每个结果的标题内容进行提取指纹,即用一串固定长度的数字来代表一个结果文档,从而使每个资源返回的结果对应一个指纹集合;然后,利用布隆过滤器来进一步压缩该指纹集合,从而得到每个资源Pi关于查询Q的结果指纹集;
步骤4中计算资源新颖度的过程中,布隆过滤器形成查询Q的覆盖统计信息之后,通过比较布隆过滤器之间的重叠程度,计算出相应的指纹集的重叠度,最后计算得到每个资源的新颖度。

2.根据权利要求1所述的一种非合作环境下的资源选择方法,其特征在于:在步骤3中,从步骤2中获取的指纹集中提取覆盖统计信息,然后将覆盖统计信息分发到各个资源进行存储,分发过程采用基于查询关键词语义的策略,将相似语义的查询对应覆盖统计信息聚为同一个类并存储在同一个资源上;相应地,给定一个查询,该查询相关的覆盖统计信息通过该查询的语义向量进行检索,找到存储该查询相关覆盖统计信息的资源。

3.根据权利要求1所述的一种非合作环境下的资源选择方法,其特征在于:在步骤5中,利用已经得到的一个依据资源相关度排序后的资源列表,根据步骤4中计算得到的每个资源的新颖度,对每个资源相关度和新颖度进行加权运算,得到最优资源列表。
说明书

技术领域

[0001] 本发明涉及一种非合作环境下的资源选择方法,更具体的说,本发明涉及一种兼顾资源相关度和重叠程度的、非合作环境下的资源选择方法。

背景技术

[0002] 资源选择是分布式信息检索领域的一个热门研究主题。对于给定一个查询Q,分布式搜索引擎利用资源选择方法确定与该查询最相关资源列表,然后将查询发给最相关资源列表中的资源。优秀的资源选择方法能够使得对每个查询,只需要少量资源参与查询就可以达到和全部资源参与查询接近的结果。因此,资源选择的效果直接决定了查询执行过程的效率和查询结果的质量。
[0003] 大部分传统的资源选择方法关注于资源与查询的相关度。这些方法通常假定各个资源的文档集不存在重叠,或者认为重叠较小以致可以忽略不计。然而,在一个非合作性环境下的P2P搜索引擎中,各个资源独立维护其文档集,不可避免地使得非合作性环境下的资源之间会有相当数量相同或者非常相似的文档。例如,著名的电子图书馆如ACM、IEEE之间存在很多相似的论文,新闻类网站如网易、新浪等,也会包含大量的相似的新闻网页。
[0004] 面对这种问题,如果资源选择方法不考虑资源文档集的重叠,就可能将一个查询转发给两个重叠程度很高的资源(如两个镜像站点),造成网络资源浪费并降低查询的效率。因此,有必要研究一种兼顾资源重叠和相关度的资源选择方法。

发明内容

[0005] 针对上述问题,本发明公开了一种非合作环境下的资源选择方法,该方法在选择资源时能够同时兼顾资源重叠度和相关度,最大化预期新颖结果总量,改进资源选择的有效性,从而提高查询的效率。
[0006] 本发明解决其技术问题采用的技术方案步骤如下:
[0007] 一种非合作环境下的资源选择方法,是在资源选择时兼顾资源相关度和重叠程度,从而提高查询的效率,该方法采用以下步骤实现:
[0008] 步骤1:首先利用基于相关度的资源选择方法,计算出每个资源相关度并排序,得到一个依据资源相关度排序的资源列表。
[0009] 步骤2:从查询结果中获取结果文档的指纹集;假定一个资源组,并假定一个节点产生一个查询Q,当节点收到返回结果后,对每个结果文档,利用指纹提取技术提取出一串固定长度的数字来表示一个结果文档的标题内容。
[0010] 步骤3:管理覆盖统计信息;这个过程包含了三个子过程:从结果指纹集中提取覆盖统计信息的过程、覆盖统计信息的存储过程、覆盖统计信息检索的过程;所述的管理包含两类操作:存储和检索;当一组覆盖统计信息产生后,系统需要根据覆盖统计信息中查询的语义,分发到系统的各个资源中进行存储,方便覆盖统计信息的检索。
[0011] 步骤4:计算每个资源的新颖度;根据给定一组资源及其覆盖统计信息,计算出每个资源含新颖结果的数量,进而计算出每个资源对查询结果的新颖度。
[0012] 步骤5:根据步骤1中计算得出的资源相关度,结合新颖度对资源排序的列表进行调整,使得新颖结果数量最大化。
[0013] 本发明的有益效果:
[0014] 1.本发明能够从查询结果中提取覆盖统计信息,这些覆盖统计信息在后续的查询过程中能够用于计算资源间的重叠程度,在资源选择时最大化预期的新颖结果总量,从而改进资源选择的有效性。
[0015] 2.本发明将覆盖统计信息依其查询的语义向量空间存储到Chord网络中,从而使得相似语义查询集,能够共享覆盖统计信息,极大地减小系统覆盖统计信息的存储空间,并增大了覆盖统计信息的命中率,解决多词同义的问题。
[0016] 3.在资源间存在重叠的情况下,本发明相比于其他资源选择方法,能够减小查询消息的浪费,有效地提高查询效率。

实施方案

[0018] 下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体步骤描述如图1所示:
[0019] 步骤1.生成初始资源列表。利用基于相关度的资源选择方法,计算出每个资源的相关度并排序,得到一个依据相关度排序的列表。
[0020] 步骤2. 从查询结果中获取结果文档的指纹集。包括两个子步骤:
[0021] 1)从结果中提取指纹集。对每个结果文档,利用指纹提取技术提取出一串固定长度的数字来表示一个结果文档的标题内容。两个内容很接近的标题能够用同一个指纹来表现。对某个资源和查询,所有指纹的集合就是该资源的覆盖统计信息。为了更好地解决从短文本提取指纹的问题,本发明采用一种高效的,健壮的,不需要全局统计信息的指纹技术(Shingle-based Discrete Cosine Transform,S-DCT)。为过滤噪音词汇,S-DCT将停用词和标点符号删除;从词序列中生成一组shingle,利用DCT将每个shingle转化成一个指纹。具体地说,S-DCT方法包括以下步骤:
[0022] (1) 获得一个结果 的标题内容。
[0023] (2) 删除停用词和标点符号。
[0024] (3) 对每个词执行取词根操作。
[0025] (4) 对剩余词按字典序排列,生成一个词序。
[0026] (5) 利用滑动窗口技术,对词序生成一组shingles。
[0027] (6) 对每个shingle,计算shingle 中的哈希值。
[0028] (7) 对所有哈希值进行垂直变换,使之哈希值的均值落在0。
[0029] (8) 用哈希最大值,规范化所有的哈希值。
[0030] (9) 对所有规范化的哈希值进行DCT变换。
[0031] (10) 对每个DCT系数量化为少量的bit位上。
[0032] (11) 合并所有bit位,创建指纹。
[0033] (12) 所有shingles的指纹,用于表示这个结果 。
[0034] 2)压缩指纹集。为了节省带宽和存储空间,利用布隆过滤器来存储指纹集。从而,一个资源的覆盖统计信息的结构表示为:
[0035]
[0036] 通常情况下,一个文档的指纹应该基于文档的所有内容产生。
[0037] 步骤3.管理覆盖统计信息。
[0038] 当一组覆盖统计信息产生后,系统需要根据统计信息中查询词的语义,分发到P2P网络中。语义相近的查询对应的覆盖统计信息,能够被放在同一个资源上。相应地,查询一个特定关键词的覆盖统计信息,是依据该关键词的语义在语义空间里查询。相应地,给定一个查询,该查询相关的覆盖统计信息通过该查询的语义向量进行检索。从而能够在高效存储和检索覆盖统计信息的同时,减小系统的存储开销和提高系统的可扩展性。
[0039] 为了减小系统的存储开销和提高系统的可扩展性,本发明采用基于查询关键词语义的分发策略,利用潜在语义索引将每个查询向量映射到其语义向量,再将语义向量映射到一个位于Chord ID范围的整数值,决定该覆盖统计信息应该放在哪个资源。这个过程包含了三个子过程:从结果指纹集中提取覆盖统计信息的过程、覆盖统计信息的存储过程、覆盖统计信息检索的过程。
[0040] 1)从结果指纹集中提取覆盖统计信息,算法流程为:
[0041]
[0042] 其中建立潜在语义索引并映射到语义空间的步骤如下:
[0043] (1) 分析文档集合,构建文档集对应的词-文档的矩阵;
[0044] (2) 对词-文档矩阵进行奇异值分解(SVD);
[0045] (3) 对SVD分解后的矩阵进行降维;
[0046] (4) 使用降维后的矩阵构建潜在语义空间。
[0047] 2)覆盖统计信息的存储过程,算法执行过程如下:
[0048] (1) 当资源A获取一个查询Q的覆盖统计信息CV (Q)后,资源A利用潜在语义索引得到该查询的语义向量VQ。
[0049] (2) 然后,将VQ映射到Chord的ID空间,路由指向资源B。
[0050] (3) 最后,CV (Q)被发送到它的目的地资源B。
[0051] 3)覆盖统计信息检索过程。当一个资源(假定为A)发起一个查询Q 后,该查询被转换到语义向量VQ,进而映射到一个Chord ID,指向资源B。如果资源B存有查询Q对应的覆盖统计信息CV (Q),则将覆盖统计信息CV (Q)发给资源A。如果不存在,则资源B寻找是否存在与查询Q相似的查询Q’,满足 。如果找到,则返回覆盖统计信息CV (Q’);如果仍然没有找到相似,则返回一个查询覆盖统计信息失败的消息,并通知资源A在结果返回后需要提取查询Q 的覆盖统计信息。
[0052] 步骤 4.估算每个资源的新颖度
[0053] 比较资源 的布隆过滤器 与布隆过滤器 ,其中S是已选中的资源的集合。 表示已经覆盖的文档空间。定义一个资源 的新颖度为:
[0054]
[0055] 即在布隆过滤器 中置为1而布隆过滤器 中为0的bit位的数量。类似地,定义布隆过滤器 和布隆过滤器 的重叠度为:
[0056]
[0057] 步骤 5.综合相关度和新颖度对资源进行排序。包括三个子过程:
[0058] (1)利用CORI方法,计算每个资源与查询的相关度 ,并按相关度从高到低排序,得到一个候选资源列表。其中计算所有资源的相关度relevance[i]的算法流程为:
[0059]
[0060] 其中smax是所有候选资源的相关度得分的最大值。为了得到规一化的相关度分值relevance[i],每个资源的相关度为原始得分s[i] 除以smax。
[0061] (2)计算每个资源的新颖度 ,并根据新颖度重新调整候选资源的排列顺序。资源新颖度novelty[i] 计算过程为:
[0062]
[0063] 它调用两个函数novelDocs()和overlapDocs()分别计算出每个资源相对于已经选择出的资源列表的新颖文档数n[i]和o[i],计算n[i]和o[i]的比值c[i],最后对c[i]规一化得到新颖度novelty[i]。
[0064] 其中,函数novelDocs()返回布隆过滤器 中bit位为1且布隆过滤器中bit位为0的数量。具体来说,其计算公式表示为:
[0065]
[0066] 函数overlapDocs()返回布隆过滤器 和布隆过滤器 中均为1的bit位总数,其计算公式表示为:
[0067]
[0068] (3)计算最优资源列表。综合相关度和新颖度的详细流程为:
[0069]
[0070] 每个资源的相关度分值s[i] 及其布隆过滤器bf[i]作为算法的输入。算法首先将相关度最高的资源作为种子,每次从剩余资源中挑选最优的一个资源加入到新的资源列表中。其中,计算最优的方法是通过对每个资源的相关度和新颖度加权运算而获得:
[0071]
[0072] 其中 是一个[0,1]之间的参数。

附图说明

[0017] 图1为本发明在非合作环境下执行资源选择方法的步骤。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号