首页 > 专利 > 杭州电子科技大学 > 一种基于深度学习的领域自适应中文分词方法专利详情

一种基于深度学习的领域自适应中文分词方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-07-10
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-12-24
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-05-05
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-07-10
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910620157.7 申请日 2019-07-10
公开/公告号 CN110516229B 公开/公告日 2020-05-05
授权日 2020-05-05 预估到期日 2039-07-10
申请年 2019年 公开/公告年 2020年
缴费截止日
分类号 G06F40/289G06N3/04 主分类号 G06F40/289
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 3
权利要求数量 4 非专利引证数量 1
引用专利数量 4 被引证专利数量 0
非专利引证 1、张少阳.“领域自适应中文分词系统的研究与实现”《.中国优秀硕士学位论文全文数据库信息科技辑》.2017,(第8期),;
引用专利 CN107526355A、CN107908618A、CN107145483A、CN109086267A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 许可 事务标签 公开、实质审查、授权、实施许可
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 张旻、黄涛、姜明、汤景凡、吴俊磊 第一发明人 张旻
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于深度学习的领域自适应中文分词方法。本发明包括如下步骤:步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;步骤3、使用softmax函数,得到每个字符对应的预测概率。本发明在BERT模型中融入了词典和目标领域的无标注集信息,这种方法极大增强了中文分词模型的领域适应性。
  • 摘要附图
    一种基于深度学习的领域自适应中文分词方法
  • 说明书附图:图1
    一种基于深度学习的领域自适应中文分词方法
  • 说明书附图:图2
    一种基于深度学习的领域自适应中文分词方法
  • 说明书附图:图3
    一种基于深度学习的领域自适应中文分词方法
  • 说明书附图:图4
    一种基于深度学习的领域自适应中文分词方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-12-15 专利实施许可合同备案的生效 IPC(主分类): G06F 40/289 合同备案号: X2020330000104 专利申请号: 201910620157.7 申请日: 2019.07.10 让与人: 杭州电子科技大学 受让人: 杭州远传新业科技有限公司 发明名称: 一种基于深度学习的领域自适应中文分词方法 申请公布日: 2019.11.29 授权公告日: 2020.05.05 许可种类: 普通许可 备案日期: 2020.11.25
2 2020-05-05 授权
3 2019-12-24 实质审查的生效 IPC(主分类): G06F 17/27 专利申请号: 201910620157.7 申请日: 2019.07.10
4 2019-11-29 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于深度学习的领域自适应中文分词方法,其特征在于包括如下步骤:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;
步骤2、使用门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;
步骤3、使用softmax函数,得到每个字符对应的预测概率;
步骤1具体实现如下:
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,得到此BERT模型的输出;
其中,Ei表示字符i的词向量; 是表示字符i-1的前向隐层状态, 表示字符i+1的后向隐层状态;
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,得到特征序列F=(f1,f2,…,fn);fi的四个维度分别对应B、M、E、S;
将词典特征向量传入词典模块,此模块的输出如下:
其中,fi是字符ci的特征向量, 是第i-1个字符前向隐藏层状态, 是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数;
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
其中 表示前向的语言模型的输出, 表示后向的语言模型的输出。

2.根据权利要求1所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤1-2中,对于每个字符ci,获取其特征向量fi的具体流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1);
②.计算出ci的n-grams窗口词汇;
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③;遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9,fi1表示ci标识B的可能性为0.9,如果index=len-1,len表示词汇长度,fi3=0.9;否则fi2=0.9;转步骤③;
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。

3.根据权利要求2所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤2所述的使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,具体公式如下:
z=σ(UzhDICT+LM+WZhBERT+bz)
DICT+LM BERT
r=σ(Urh +Wrh +br)
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量;r表示重置门;Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量;是候选隐藏状态, 表示权重矩阵, 表示偏置量;h是一个新的隐藏层状态。

4.根据权利要求3所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤3具体实现如下:
3-1使用softmax函数,得到每个字符对应的预测概率 公式如下:
其中,W是一个权重矩阵,b是偏置量;
3-
2.给出一个序列的正确标注y1,y2,...,yn,其中yi使用独热编码表示;交叉熵损失函数表示如下:
其中,Y={y1,y2,...,yn},
通过最小化交叉熵损失函数,模型实现了反向传播。
说明书

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的领域自适应中文分词方法。

背景技术

[0002] 近几年,基于神经网络的中文分词模型在分词准确率上取得了突破性的进展。然而,这类分词模型仍存在领域适应性弱的问题。这个问题是由于训练集与测试集分属不同领域而引发的,具体来说就是测试集中包含很多在训练集中没有的领域相关词汇。不借助额外资源,只改进神经网络结构,无法很好地识别未出现词。因为词典和目标领域的无标注集中包含很多领域相关词汇,所以许多研究者会将它们作为额外资源,结合BiLSTM模型,来增强模型的领域适应性。然而,部分研究者提出的模型在训练好之后,仅仅只能适用于某一特定领域,如果要适用于另一领域,还需要重新训练。这种做法可以称为跨领域分词,即模型能在主领域(标注集所属领域)训练好后,适用于特定的目标领域(测试集所属领域)。然而,跨领域分词不能与模型的领域适应性划等号。模型的领域适应性是指模型在不重新训练的情况下,能在不同领域上体现较好的分词效果。因此,增强模型的领域适应性应从分词准确率和通用性两方面进行考虑。

发明内容

[0003] 针对基于深度学习的中文分词模型领域适应性弱的问题,本发明提供了一种基于深度学习的领域自适应中文分词方法,该方法能增强模型领域适应性。
[0004] 为解决技术问题,本发明提供的技术方案包括如下步骤:
[0005] 步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。
[0006] 1-1、获得BERT模型的输出:
[0007] 将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
[0008]
[0009] 其中,Ei表示字符i的词向量。 是表示字符i-1的前向隐层状态, 表示字符i+1的后向隐层状态。
[0010] 1-2获得词典模块的输出:
[0011] 为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fii的第二个维度,它的值表示ci标识M的概率。
[0012] 对于每个字符ci,获取其特征向量fi的具体算法流程如下:
[0013] ①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
[0014] ②.计算出ci的n-grams窗口词汇,如表1所示。
[0015] ③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
[0016] ④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
[0017] ⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
[0018] 将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
[0019]
[0020] 其中,fi是字符ci的特征向量, 是第i-1个字符前向隐藏层状态, 是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
[0021] 1-3获得语言模型的输出:
[0022] 利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
[0023]
[0024] 其中 表示前向的语言模型的输出, 表示后向的语言模型的输出。
[0025] 步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
[0026]
[0027] z=σ(UzhDICT+LM+WZhBERT+bz)
[0028] r=σ(UrhDICT+LM+WrhBERT+br)
[0029]
[0030]
[0031] 其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。是候选隐藏状态, 表示权重矩阵, 表示偏置量。h是一个新的隐藏层状态。
[0032] 步骤3、使用softmax函数,得到每个字符对应的预测概率 公式如下:
[0033] 3-1使用softmax函数,得到每个字符对应的预测概率 公式如下:
[0034]
[0035] 其中,W是一个权重矩阵,b是偏置量。
[0036] 3-2.给出一个序列的正确标注y1,y2,…,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
[0037]
[0038] 其中,Y={y1,y2,…,yn},
[0039] 通过最小化交叉熵损失函数,模型实现了反向传播。
[0040] 本发明有益效果如下:
[0041] 本发明在BERT模型中融入了词典和目标领域的无标注集信息,构造了一种新的中文分词神经网络模型。为了提取有利于分词的词典信息,本发明构造了一种词典特征向量,并通过双向循环神经网络,使得词典向量能紧密结合上下文信息。对于无标注集信息的提取,本发明使用了语言模型。实验证明,在融入词典和无标注集信息后,该模型的领域适应性要高于单纯的BERT分词模型。另外,该模型只需要在标注集所在领域训练一次,就可以适用于其他不同领域。因此,它的训练成本极低,而领域适应性却极强。

实施方案

[0046] 下面结合附图和实施例对本发明作进一步说明。
[0047] 如图1-4所示,一种基于深度学习的领域自适应中文分词方法,具体实现步骤如下:
[0048] 步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。如图3所示,将文本序列输入图3所示BERT中文预训练模型。
[0049] 1-1、获得BERT模型的输出:
[0050] 将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
[0051]
[0052] 其中,Ei表示字符i的词向量。 是表示字符i-1的前向隐层状态, 表示字符i+1的后向隐层状态。
[0053] 1-2获得词典模块的输出:
[0054] 为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fi的第二个维度,它的值表示ci标识M的概率。
[0055] 对于每个字符ci,获取其特征向量fi的具体算法流程如下:
[0056] ①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
[0057] ②.计算出ci的n-grams窗口词汇,如表1所示。
[0058] ③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
[0059] ④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
[0060] ⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
[0061] 将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
[0062]
[0063] 其中,fi是字符Ci的特征向量, 是第i-1个字符前向隐藏层状态, 是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
[0064] 1-3获得语言模型的输出:
[0065] 利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
[0066]
[0067] 其中 表示前向的语言模型的输出, 表示后向的语言模型的输出。
[0068] 步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
[0069]
[0070] z=σ(UzhDICT+LM+WZhBERT+bz)
[0071] r=σ(UrhDICT+LM+WrhBERT+br)
[0072]
[0073]
[0074] 其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。是候选隐藏状态, 表示权重矩阵, 表示偏置量。h是一个新的隐藏层状态。
[0075] 步骤3、使用softmax函数,得到每个字符对应的预测概率yi,公式如下:
[0076] 3-1使用softmax函数,得到每个字符对应的预测概率 公式如下:
[0077]
[0078] 其中,W是一个权重矩阵,b是偏置量。
[0079] 3-2.给出一个序列的正确标注y1,y2,…,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
[0080]
[0081] 其中,Y={y1,y2,…,yn},
[0082] 通过最小化交叉熵损失函数,模型实现了反向传播。最终得到结果,该发明极大增强了中文分词模型的领域适应性。

附图说明

[0042] 图1是本发明的整体实施方案流程图;
[0043] 图2是本发明的神经网络结构图;
[0044] 图3是对图2中BERT模块的展开;
[0045] 图4是对图2中DICT模块的展开。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号