首页 > 专利 > 重庆邮电大学 > 一种基于大数据的金融信息负面主体判定分类方法专利详情

一种基于大数据的金融信息负面主体判定分类方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-11-25
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-03-23
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-09-27
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-11-25
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202011333726.9 申请日 2020-11-25
公开/公告号 CN112445913B 公开/公告日 2022-09-27
授权日 2022-09-27 预估到期日 2040-11-25
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G06F16/35G06F40/126G06F40/151G06F40/284G06K9/62G06Q40/00 主分类号 G06F16/35
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 5
权利要求数量 6 非专利引证数量 0
引用专利数量 3 被引证专利数量 0
非专利引证
引用专利 CN109165284A、CN110297870A、CN105022725A 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 重庆邮电大学 当前专利权人 重庆邮电大学
发明人 王进、周阳、李辰宇、徐其成、颜子涵、梁文慧、孙开伟、邓欣 第一发明人 王进
地址 重庆市南岸区南山街道崇文路2号 邮编 400065
申请人数量 1 发明人数量 8
申请人所在省 重庆市 申请人所在市 重庆市南岸区
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
重庆辉腾律师事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
王海军
摘要
本发明涉及自然语言处理,人工智能领域,具体涉及一种基于大数据的金融信息负面主体判定分类方法,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到训练好的BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情;本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换,构建联合模型,同时结合了负面信息判定和负面主体判定之间的相互关联性,避免了流水线模型的缺点,提高了识别准确率。
  • 摘要附图
    一种基于大数据的金融信息负面主体判定分类方法
  • 说明书附图:图1
    一种基于大数据的金融信息负面主体判定分类方法
  • 说明书附图:图2
    一种基于大数据的金融信息负面主体判定分类方法
  • 说明书附图:图3
    一种基于大数据的金融信息负面主体判定分类方法
  • 说明书附图:图4
    一种基于大数据的金融信息负面主体判定分类方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-09-27 授权
2 2021-03-23 实质审查的生效 IPC(主分类): G06F 16/35 专利申请号: 202011333726.9 申请日: 2020.11.25
3 2021-03-05 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于大数据的金融信息负面主体判定分类方法,其特征在于,包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情;采用构建的联合模型对输入的数据进行处理的过程包括:
步骤1:建立负面信息判定分类任务;将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文本的文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
步骤2:建立负面主体判定任务,将BERT模型输出的金融实体的字表征Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd};
步骤3:将BERT模型输出的金融实体的字表征向量Le和金融实体的词表征向量LE对金融文本表征LA做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt;
步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测 输入到全连接层中进行合并,得到负面主体判定任务的输出预测

2.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,对金融文本数据进行预处理的过程包括:将金融文本数据输入到TF‑IDF模型中进行向量化表示,随机选取N条文本作为训练集的初始样本;计算初始样本和原始数据集中的其他样本的余弦相似度;设置阈值,判断余弦相似度与设置的阈值大小;若样本的余弦相似度大于设置的阈值,则将该样本加入到训练集S中,其他的样本数据作为验证集。

3.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N;输入样本X为:
X={e1,e2,…,em,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度。

4.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,通过BERT模型对输入样本进行编码过程为:
* *
步骤1:将输入样本X的数据格式转换为X,其中X的表达式为:
*
X={cls,e1,e2,…,em,seq,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符;
*
步骤2:将X输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
d
其中,li∈R表示一个字的向量表示,R表示实数空间,d表示字向量的维度。

5.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,金融实体的关键信息特征Latt的公式为:
其中,fmean表示平均池化函数,表示连接符号,⊙表示点乘符号。

6.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,对联合模型进行训练的过程包括:
步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
步骤2:将训练集中的数据输入到联合模型中,采用相同的学习率对负面信息判定分类任务和负面主体判定任务进行训练;在训练过程中计算验证集的准确率,当准确率不再提升时停止训练,得到model1;
步骤3:采用学习率L1对负面信息判定分类任务进行训练,直到验证集负面信息判定分类任务的准确率不再提升时,采用学习率为ω1L1对负面信息判定分类任务进行训练;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升时,采用学习率ω2L1分别对负面信息判定分类任务和负面主体判定任务用进行训练,直到验证集准确率不再提升,停止训练得到model2;
步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率,完成模型的训练。
说明书

技术领域

[0001] 本发明涉及自然语言处理,人工智能领域,具体涉及一种基于大数据的金融信息负面主体判定分类方法。

背景技术

[0002] 随着互联网的飞速进步和全球金融的快速发展,金融信息呈现爆炸式增长。如何从海量的金融文本中快速准确地挖掘出关键信息,成为投资者和决策者重点考虑的问题之一,而关注金融信息负面及主体判定,在风控和舆情分析等领域有很大现实意义。
[0003] 金融信息负面及主体判定包含负面信息判定和负面主体判定,负面信息判定指判定金融文本是否包含金融负面信息,负面主体判定指在包含金融负面信息的金融文本中涉及到哪些金融实体。
[0004] 目前,现有技术中很少关注同时对金融信息负面及主体判定,并且一般的金融信息负面及主体判定方法主要采取流水线模型(pipeline),即在给定的金融文本和对应的实体列表下,先使用负面信息判定模型进行负面信息的判定,最后使用负面信息判定模型的结果作为负面主体判定模型的输入,进行负面主体的判定,负面主体判定模型的输入完全依赖于负面信息判定模型的输出。因此,这种流水线模型容易产生级联错误,并且也忽略了负面信息判定和负面主体判定之间的相互影响,导致准确率不高。

发明内容

[0005] 为解决以上现有技术存在的问题,本发明提出了一种基于大数据的金融信息负面主体判定分类方法,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情。
[0006] 优选的,对金融文本数据进行预处理的过程包括:将金融文本数据输入到TF‑IDF模型中进行向量化表示,随机选取N条文本作为训练集的初始样本;计算初始样本和原始数据集中的其他样本的余弦相似度;设置阈值,判断余弦相似度与设置的阈值大小;若样本的余弦相似度大于设置的阈值,则将该样本加入到训练集S中,其他的样本数据作为验证集。
[0007] 优选的,将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N;输入样本X为:
[0008] X={e1,e2,…,em,x1,x2,…xn}
[0009] 优选的,通过BERT模型对输入样本进行编码过程为:
[0010] 步骤1:将输入样本X的数据格式转换为X*,其中X*的表达式为:
[0011] X*={cls,e1,e2,…,em,seq,x1,x2,…xn}
[0012] 其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符;
[0013] 步骤2:将X*输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
[0014]
[0015] 其中,li∈Rd表示一个字的向量表示,R表示实数空间,d表示字向量的维度。
[0016] 优选的,构建联合模型的过程包括:
[0017] 步骤1:建立负面信息判定分类任务;将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文本的文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
[0018] 步骤2:建立负面主体判定任务,将BERT模型输出的金融实体的字表征为Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd};
[0019] 步骤3:将BERT模型输出的金融实体的字表征向量Le和金融实体的词表征向量LE对金融文本表征向量LA做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt;
[0020] 步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测 输入到全连接层中进行合并,得到负面主体判定任务的输出预测
[0021] 进一步的,金融实体的关键信息特征Latt的公式为:
[0022]
[0023]
[0024]
[0025] 优选的,对联合模型进行训练的过程包括:
[0026] 步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
[0027] 步骤2:将训练集中的数据输入到联合模型中,采用相同的学习率对负面信息判定分类任务和负面主体判定任务进行训练;在训练过程中计算验证集的准确率,当准确率不再提升时停止训练,得到model1;
[0028] 步骤3:采用学习率L1对负面信息判定分类任务进行训练,直到验证集负面信息判定分类任务的准确率不再提升时,采用学习率为ω1L1对负面信息判定分类任务进行训练;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升时,采用学习率ω2L1分别对负面信息判定分类任务和负面主体判定任务用进行训练,直到验证集准确率不再提升,停止训练得到model2;
[0029] 步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
[0030] 步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
[0031] 步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
[0032] 步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率。
[0033] 本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换,构建联合模型,同时结合了负面信息判定和负面主体判定之间的相互关联性,避免了流水线模型的缺点,提高了识别准确率。

实施方案

[0038] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 本发明用于对金融文本的负面信息判定和负面主体判定,因此金融文本对应的实体列表需提前通过专业手段获取。
[0040] 一种基于大数据的金融信息负面主体判定分类方法,如图1所示,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情。
[0041] 由于互联网金融文本千变万化,将互联网金融文本数据划分为验证集和训练集。对金融文本数据进行预处理的过程包括:将原始金融文本数据集D中的金融文本输入到TF‑IDF模型中进行向量化表示;随机选取N条文本作为训练集的初始样本,计算初始样本与原始金融文本数据集D中其他样本的余弦相似度;当余弦相似度的值大于阈值0.6时,将得到该相似度的样本加入训练集S中,其余样本作为验证集T。
[0042] 预处理后的金融文本对应的实体列表可通过专业的抽取方式进行抽取得到。将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N。
[0043] 如图2所示,将金融文本和对应的实体列表转换成单实体金融文本的输入样本的一个具体实施例。对一条有4个金融实体的金融文本,对每一个金融实体,由于在互联网相关金融文章中,往往首次出现的实体都包含了关于这个实体的观点信息,因此截取金融实体在金融文本首次出现的上下文,文本长度和为510,作为单实体+金融文本的格式的输入样本,构造4条单实体金融文本的格式的输入样本。
[0044] 本发明为排除其他金融实体对输入的样本带来语义影响,使用[unused1]掩盖当前输入样本中的其他金融实体字符,为了强调当前实体需要考察的语义位置,使用[unused2]添加到当前输入样本对应的当前实体M中,即M对应“[unused2]M[unused2]”。将当前输入样本输入到预训练BERT模型中,得到输入样本向量表示。
[0045] 单实体金融文本的格式的输入样本为:
[0046] X={e1,e2,…,em,x1,x2,…xn}
[0047] 通过BERT模型对输入样本进行编码过程为:
[0048] 步骤1:将输入样本X的数据格式转换为X*,其中X*的表达式为:
[0049] X*={cls,e1,e2,…,em,seq,x1,x2,…xn}
[0050] 其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符。
[0051] 步骤2:将X*输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
[0052]
[0053] 其中,li∈Rd表示一个字的向量表示,R表示实数空间,d表示字向量的维度。
[0054] 如图3所示,根据BERT模型输出的结果构建联合模型,所述联合模型是指根据负面信息判定分类任务和负面主体判定任务搭建深度学习结构。联合模型处理数据的过程为:首先对一条金融文本中的负面信息判定分类和负面主体判定,先判定一条文本的负面信息类型;根据负面信息类型的信息和对应的主体判定当前主体是否是负面主体。其具体的过程为:
[0055] 步骤1:建立负面信息判定分类任务;首先将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
[0056] 金融文本的字表征向量LA为:
[0057]
[0058] A表示d维向量,i表示金融文本字的位置i, 表示金融文本中位置i的字的向量。
[0059] 负面信息判定分类任务的输出 的表达式为:
[0060]
[0061] 其中,FFN(.)表示全连接层,A表示文档表征。 的输出结为负面信息判断分类的预测结果,为一个概率值,概率值越大,说明该金融文本越有可能为负面金融文本。
[0062] 步骤2:建立负面主体判定任务;将BERT模型输出的金融实体的字表征Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd}。
[0063] 当BERT模型输出的金融实体的字表征为
[0064]
[0065] 其中, 表示金融实体位置i的字向量表示,LE为d维向量。
[0066] 步骤3:将BERT模型输出的金融实体的字表征向量 和金融实体的词表征向量LE={b1,b2,…,bd},对金融文本表征 做基于key字
的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt。金融实体的关键信息特征Latt的公式为:
[0067]
[0068]
[0069]
[0070] 其中,fmean表示平均池化函数,表示连接符号,表示点乘符号,LE表示金融实体的词表征, 表示金融文本表征LA的转置,softmax(.)表示注意力权重归一化函数,LA表示金融实体的字表征。
[0071] 步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测 输入到全连接层中进行合并,得到负面主体判定任务的输出预测 其中 为二分类的概率,与步骤1的输出的维度一致。
[0072] 联合模型是用于对负面主体进行任务判定;如图4所示,在进行任务判定时,可以在负面信息判定分类任务之后进行,也可以和负面信息判定分类任务并行判断。
[0073] 在对联合模型进行训练的过程中,采用不同的学习率和训练策略对模型及进行训练;训练后的结果进行融合优化得到最终的结果,其具体过程为:
[0074] 步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
[0075] 步骤2:同时对负面信息判定分类任务和负面主体判定任务用相同学习率L1=0.002进行训练,直到验证集的准确率不再提升时停止训练,得到model1。
[0076] 验证集的准确率为分类正确的样本除以总的样本。
[0077] 步骤3:对负面信息判定分类任务以学习率L1=0.002进行训练,直到验证集负面信息判定分类任务的准确率不再提升;对负面信息判定分类任务使用学习率为ω1L1进行训练,其中ω1=0.1为缩小权重;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升;负面信息判定分类任务和负面主体判定任务用学习率ω2L1进行训练,ω2=0.05为缩小权重,直到验证集准确率不再提升,停止训练得到model2。
[0078] 步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
[0079] 步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
[0080] 步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
[0081] 步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率。
[0082] 模型model1和模型model2是利用不同训练方法得到的模型,这里是对两个模型进行概率融合,即每个模型输出都有两个概率,一个是负面信息判定任务的概率,一个是负面主体判定任务的概率,分别对这两个概率进行融合,比如模型model1的负面信息判定任务的概率为0.7,model2的负面主体判定任务的概率为0.8,最终负面信息判定任务的概率为W1*0.7+W2*0.8,而W1,W2是对验证集准确率比值归一化的权重。对负面主体判定任务也是一样的,可以理解成这就是一个多任务通过不同的训练策略得到了两个模型,然后对结果进行概率融合。
[0083] 对model1和model2进行加权和的公式为:
[0084]
[0085] 其中,acc1,acc2是两个模型验证集的准确率,y1,y2是两个模型的输出概率,最后得到的输出y可认为是最终的任务输出概率,即可以是负面信息判断任务的输出或者是负面主体判断的输出,最终可将两个输出概率相加判断当前金融文本是否包含了当前金融实体的负面信息,概率越大,可能性越大。
[0086] 以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

附图说明

[0034] 图1为本发明实施例提供的一种对金融信息负面及主体判定方法流程图;
[0035] 图2为本发明实施例提供的对金融文本信息描述和对应的金融实体列表转换成输入样本的例图;
[0036] 图3为本发明实施例提供的联合模型图;
[0037] 图4为本发明实施例提供的对联合模型进行训练与优化的例图。
专利联系人(活跃度排行)
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号