首页 > 专利 > 杭州电子科技大学 > 一种基于深度学习算法进行基因关联分析的方法专利详情

一种基于深度学习算法进行基因关联分析的方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2017-03-22
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2017-09-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-07-17
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2037-03-22
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201710174877.6 申请日 2017-03-22
公开/公告号 CN107025386B 公开/公告日 2020-07-17
授权日 2020-07-17 预估到期日 2037-03-22
申请年 2017年 公开/公告年 2020年
缴费截止日
分类号 G16B20/20G16B20/30G16B50/00 主分类号 G16B20/20
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、Suneetha Uppu等.“A Deep LearningApproach to Detect SNP Interactions”. 《Journal of Software》.2016,第11卷(第10期),第960-975页. Alex Graves等.“Hybrid speechrecognition with Deep BidirectionalLSTM”《.2013 IEEE Workshop on AutomaticSpeech Recognition and Understanding》.2014,第273-278页. 薛燕娜.“机器学习算法在蛋白质结构预测中的应用”《.中国优秀硕士学位论文全文数据库基础科学辑》.2017,第2017年卷(第2期),第5节. Zhiheng Huang等“.Bidirectional LSTM-CRF Models for Sequence Tagging”. 《https://arxiv.org/abs/1508.0199》.2015,第1-10页. Daniel Quang等.“DanQ: a hybridconvolutional and recurrent deep neuralnetwork for quantifying the function ofDNA sequences”《.Nucleic acids research》.2016,第44卷(第11期),第1-6页. Quan Zou等.“Similarity computationstrategies in the microRNA-diseasenetwork: a survey”《.Briefings inFunctional Genomics》.2016,第15卷(第1期),第55-64页. Suneetha Uppu等“.TOWARDS DEEPLEARNING IN GENOME-WIDE ASSOCIATIONINTERACTION STUDIES”《.2016 Pacific AsiaConference on Information Systems(PACIS)》.2016,第1-13页. Suneetha Uppu等“.A Review on Methodsfor Detecting SNP Interactions in High-Dimensional Genomic Data”《.IEEE/ACMTransactions on Computational Biology andBioinformatics》.2016,第15卷(第2期),第599-612页.;
引用专利 被引证专利
专利权维持 5 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 颜成钢、盛再超、彭冬亮、薛安克 第一发明人 颜成钢
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杜军
摘要
本发明公开了一种基于深度学习算法进行基因关联分析的方法。本发明基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。本发明具有更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。
  • 摘要附图
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:[转续页]
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:图1
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:图2
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:图3
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:图4
    一种基于深度学习算法进行基因关联分析的方法
  • 说明书附图:图5
    一种基于深度学习算法进行基因关联分析的方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-07-17 授权
2 2018-12-28 著录事项变更 发明人由盛再超 颜成钢 彭冬亮 薛安克变更为颜成钢 盛再超 彭冬亮 薛安克
3 2017-09-01 实质审查的生效 IPC(主分类): G06F 19/24 专利申请号: 201710174877.6 申请日: 2017.03.22
4 2017-08-08 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于深度学习算法进行基因关联分析的方法,其特征在于包括如下步骤:
步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP;
步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据;
步骤3:根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
步骤4:对于任意一个给定的SNP集,均包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,
1,2;病例控制状态设为y,第i个个体记作yi,其中yi=1为Case,yi=0为Control;
步骤5:搭建双向LSTM模型;
使用双向LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容, 由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
ht为t时刻的隐藏层;
上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为: i,f,o,c分别为输入门、遗忘门、输出门和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小;
双向LSTM在水平的上具有相反的方向,通过堆叠放置中间的隐藏层,能够根据上一个隐藏层的输出,形成下一个隐藏层的输入;
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得;
其中前馈网络隐藏序列为 反馈网络隐藏序列为
定义h0=x,输出为yt
使用上述步骤中的SNP集作为x输入,病例控制状态设为y输入;
步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列易感相关性。
说明书

技术领域

[0001] 本发明具体涉及一种基于LSTM(Long Short-Term Memory)网络进行的基因关联分析方法,所述方法基于深度卷积神经网络和递归神经网络模型,属于生物信息学技术领域。

背景技术

[0002] 针对基因染色体碱基对与致病的关联研究一直是生物信息学的核心研究内容之一。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,利用现有知识与数据尽最大可能分析,但是由于基因存在多态性,在生物群体中,经常存在两种或多种不连续的变异型或基因型或等位基因,因此选用具有有效性、智能化等特点的机器学习方法来对基因多态性进行研究,可以为临床医学、遗传病学和预防医学的发展研究开拓新的领域。
[0003] 传统的研究方法利用GWAS(全基因组关联分析)进行病例控制分析,该方法需要对每一个个体的SNP和致病风险进行测定和评估,然后用于鉴定与疾病易感性相关的SNP(单核苷酸的多态性)。该方法需要数量巨大的患病病例以及健康病例的SNP基因分型,且局限于需要检测multi-SNP和上位效应,尽管在多种疾病分析检验中有所成就,但是对于全基因组的分析仍然处于劣势。
[0004] 改进方法则是利用机器学习的一些模型,例如支持向量机(SVM)、遗传算法(GA)、马尔科夫统计模型(MM)、贝叶斯推理等方法,单独使用或者结合各自优点使用能够提高生物信息学中解决问题的能力。但是传统方法的劣势在于无法处理变长序列,只能使用固定长度的序列片段作为输入,虽然获得了较高的预测效果,但是在随后的研究中发现,序列中距离间隔较大的区域中的残基之间会有相互影响的关系,研究人员不得不考虑这些误差。

发明内容

[0005] 本发明的目的在于克服现有技术的不足,提供一种基于深度学习算法处理全基因组分析中对于基因表现型与易感相关性分析的方法,利用深度卷积网络结合LSTM模型对SNP集进行分析,从而提高分析的准确率。
[0006] 本发明采用了另一种分析策略,结合现有的生物学知识对SNP进行分组,在基因层面基于SNP集的分析需要借鉴来自不同但是相关的SNP信息,利用LSTM网络进行分析研究。如图2所示,该网络具有Input门、Forget门、Output门,可以在学习过程中选择性的进行记忆和遗忘,具有对序列强大的处理和预测能力,系统的输出将会保留在内部网络中,与系统下一阶段的输入一起相互作用,决定下一时间的输出。该循环网络彰显了动力学系统的反馈概念,用来刻画复杂的相互依存和依赖问题。因此该方法对可重复性、可解释性以及分析结果的可能性有显著的提高。
[0007] 本发明的技术方案如下:
[0008] 基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。
[0009] 为实现上述目的,本发明包括以下步骤:
[0010] (一)获得SNP集数据
[0011] 根据生物学知识处理基因数据,形成SNP集可以通过Moving Window(移动窗口方法)、通过Haplotype Blocks(单倍型域分析),例如,可以将染色体按具体确定的数值分成固定长度的SNP集,或者可以利用基于单倍型域分析的方法,通过Haploview(一款单倍体分析软件)切分。但是这些方法均会造成完整性的缺失,对距离相关性的处理依赖于所选取的固定窗口大小,若该窗口过大则会造成训练时间很长或产生过拟合现象,为了改善这个问题,在染色体层面按照基因分布进行区分可以改善这个问题,具体的:
[0012] 使用基因位置有效区间信息将SNP切分成多块,从而获得SNP集数据,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
[0013] (二)搭建双向LSTM模型
[0014] 使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,记忆存储单元的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容, 由以下的函数复合得到:
[0015] it=σ(Wxixt+Whiht-1+Wcict-1+bi)
[0016] ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf)
[0017] ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
[0018] ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
[0019] ht=ottanh(ct)
[0020] 上述式子中σ是逻辑sigmoid函数,i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体(Cell),其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
[0021] 双向LSTM在水平的上具有相反的方向,因此能够获得较远距离的内容,通过堆叠放置中间的隐藏层,能根据一个隐藏层的输出,形成下一个隐藏层的输入。
[0022] 假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得,其中前馈网络隐藏序列为 反馈网络隐藏序列为
[0023]
[0024]
[0025]
[0026]
[0027] 定义h0=x,输出为y
[0028]
[0029] 本发明的特点及有益效果
[0030] 本发明实现了一种使用深度LSTM神经网络,结合SNP分组分析技术的方法,用于提高对全基因组分析中基因表现型与易感相关性的预测程度的方法。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,选用具有有效性、智能化等特点的机器学习方法,来对基因多态性进行研究,对于易感基因存在的形式及对基因位点的分析研究具有重要的意义。相比传统GWAS单SNP的分析方法,利用LSTM深度神经网络的搭建,可以利用现有的关系进行学习,从而使未知序列的预测具有较高的准确性,减轻了基因研究者的负担,节约时间,提高分析基因的效率,该方法具有比传统方法更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。

实施方案

[0036] 参考说明书附图1,下面通过实施来具体说明本发明的技术方案,但本发明并不局限于以下实施例子。
[0037] 步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP。这里使用了CEU(Northern Europeans from Utah)的样本基因作为模拟。
[0038] 步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据。
[0039] 步骤3:如说明书附图4所示,根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
[0040] 步骤4:如说明书附图5所示,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
[0041] 步骤5:如说明书附图3所示,搭建双向LSTM模型;
[0042] 使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,可以更好地挖掘数据中更深层面的内容, 由以下的函数复合得到:
[0043] it=σ(Wxixt+Whiht-1+Wcict-1+bi)
[0044] ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
[0045] ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
[0046] ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
[0047] ht=ottanh(ct)
[0048] 公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
[0049] Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
[0050] Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
[0051] Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
[0052] ht为t时刻的隐藏层;
[0053] 上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为: i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
[0054] 双向LSTM在水平的上具有相反的方向,故可以获得较远距离的内容,通过堆叠放置中间的隐藏层,这些隐藏层归属于递归神经网络,可以根据上一个隐藏层的输出,形成下一个隐藏层的输入。
[0055]
[0056] 定义h0=x,输出为y
[0057]
[0058] 假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得。
[0059] 其中前馈网络隐藏序列为 反馈网络隐藏序列为
[0060]
[0061]
[0062]
[0063] 使用上述步骤中的SNP集作为X输入,病例控制状态设为Y输入,由于本例采用模拟数据,因此此处病例控制状态根据随机选定的某个SNP的tranary fashion形式,数值为2则设定为1,数值为0、1则设定为0,将两者输入到搭建的双向LSTM模型中,开始训练双向LSTM模型,并保存训练好的双向LSTM模型。
[0064] 步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列获病的概率。
[0065] 以上所述仅为本发明的一个实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

附图说明

[0031] 图1为本发明的方法流程图;
[0032] 图2为LSTM网络结构图;
[0033] 图3为双向LSTM的结构模型;
[0034] 图4为根据有效位置区间信息对SNP进行分组示意图;
[0035] 图5为SNP集示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号