首页 > 专利 > 重庆邮电大学 > 一种基于大数据的金融领域人机对话意图识别方法专利详情

一种基于大数据的金融领域人机对话意图识别方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-08-22
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-02-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-06-16
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-08-22
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810961117.4 申请日 2018-08-22
公开/公告号 CN109165284B 公开/公告日 2020-06-16
授权日 2020-06-16 预估到期日 2038-08-22
申请年 2018年 公开/公告年 2020年
缴费截止日
分类号 G06F16/332G06F40/289 主分类号 G06F16/332
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 1
引用专利数量 7 被引证专利数量 0
非专利引证 1、Aaron St. Clair.How Robot VerbalFeedback Can Improve Team《.2015 10th ACM/IEEE International Conference on Human-Robot Interaction (HRI)》.2015,;
引用专利 CN104217226A、CN105741832A、CN105656826A、CN107944008A、CN107729312A、US2018189259A1、WO2018035248A1 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 重庆邮电大学 当前专利权人 重庆邮电大学
发明人 王进、孙万彤、孙开伟、欧阳卫华、邓欣、陈乔松、李智星、胡峰、雷大江 第一发明人 王进
地址 重庆市南岸区南山街道崇文路2号 邮编 400065
申请人数量 1 发明人数量 9
申请人所在省 重庆市 申请人所在市 重庆市南岸区
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
重庆市恒信知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
李金蓉
摘要
本发明公开了一种基于大数据的金融领域人机对话意图识别方法,包括:101对金融领域人机对话所产生的文本数据的预处理;102对于给定文本数据集进行划分;103根据人机对话的数据进行文本数据特征的构建,包括特征提取,文本向量化;104针对构建完成后的特征,进行降维,稀疏处理;105针对文本数据,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据(该问题属于多分类问题),从而获取该对话所表达的意图(多分类概率最大的概率)。
  • 摘要附图
    一种基于大数据的金融领域人机对话意图识别方法
  • 说明书附图:图1
    一种基于大数据的金融领域人机对话意图识别方法
  • 说明书附图:图2
    一种基于大数据的金融领域人机对话意图识别方法
  • 说明书附图:图3
    一种基于大数据的金融领域人机对话意图识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-06-16 授权
2 2019-02-01 实质审查的生效 IPC(主分类): G06F 16/332 专利申请号: 201810961117.4 申请日: 2018.08.22
3 2019-01-08 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于大数据的金融领域人机对话意图识别方法,其特征在于,包括以下步骤:
101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
102、对于步骤101处理后的数据集进行划分,分为训练集和验证集;
103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本表示;
所述特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率;概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值的时候,这个单词就可以舍弃了;
所述文本表示,将文本向量化,分为词语的向量表达,短文本的向量表达,长文本的向量表达,采用词袋模型作为文本向量化的工具,对于一个对话,忽略它的单词顺序和语法、句法,将其仅仅看作是若干个词汇的集合,文本中每个单词的出现都是独立的,不依赖于其它单词是否出现,词袋模型所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同;其中,对话语料库中的新词的词频-逆文档频通过以下方法估计:
令新词的出现与不出现服从伯努利分布;新词为非常用词,即在语料库不常出现的词;
在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…xi…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率
便选出最终可以表达该句话的词语;
104、针对构建完成后的特征,进行降维、稀疏的处理;
105、根据人机对话历史文本数据进行模型的设计及其优化,建立机器学习模型,来对未知的人机对话进行意图识别。

2.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤101所述预处理操作包括:(1)对文档进行切分,进行文本分词;所述文本分词包括词典的构造和分词算法的操作两个主要步骤;
(2)去停用词,利用人工规则对停用词进行处理,即利用人工建立的停用词词典对特殊符号,标点,数字进行替换。

3.根据权利要求2所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述词典的构造,利用双数组Trie数来构造字典树;采用最短路径方法进行分词操作。

4.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤102所述划分训练集和验证集,采用留出法划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法。

5.根据权利要求4所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述分层抽样为,原始数据集为D,对D分层抽样分为训练集S和验证集T,使得S和T数据集中正负样本比例和D中保持一致。

6.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤104所述特征降维、稀疏处理,具体包括:
(1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征;
(2)降维之后的特征进行矩阵稀疏表达,采用三角矩阵的稀疏存储方式,可以在保证特征信息丢失较少的情况下,加快模型的训练过程。

7.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤105所述模型采用DeepFFM模型,用构建完成的训练集去训练DeepFFM模型,对于训练好的模型,用验证集进行测试。
说明书

技术领域

[0001] 本发明属于机器学习,自然语言处理,大数据处理技术领域。

背景技术

[0002] 随着搜索引擎技术的发展,现代搜索引擎、问答系统和对话机器人需要的不再是简单的相关性信息检索,而是能深刻理解用户的信息需求。正确识别用户的意图是实现这一目标的关键步骤。基于对话的意图识别是一个有挑战性的任务的原因是对话中的用户输入通常非常短,而且缺少足够的信息,需要系统准确理解上文含义后,再做出最终判断。本发明在传统的自然语言处理上,结合数据挖掘和自然语言处理,首先对文本数据去除噪声,剔除冗余信息,然后对文本特征进行过滤,降维等等,最后对于该预测文本,设计机器学习模型,并且进行了算法层面上的融合,以提高文本分类的准确率,本发明有效的解决了传统文本分类精度低,处理时间较长的问题。

发明内容

[0003] 本发明旨在解决以上现有技术出现的问题。提出了一种基于大数据的金融领域人机对话意图识别方法,从而使得对话意图识别能有更高的准确率。
[0004] 为了实现上述目的,本发明采用的技术方案是,一种基于大数据的金融领域人机对话意图识别方法,其包括以下步骤:
[0005] 101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
[0006] 102、对于步骤101处理后的数据集进行划分,分为训练集和验证集;
[0007] 103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本表示;
[0008] 104、针对构建完成后的特征,进行降维、稀疏的处理;
[0009] 105、根据人机对话历史文本数据进行模型的设计及其优化,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图。
[0010] 进一步的,所述步骤101的数据预处理,具体包括:(1)对文档进行切分,进行文本分词;所述文本分词包括词典的构造和分词算法的操作两个主要步骤;在本发明中,我们构造的是字典树,字典树的构造方法较多,在本发明中,我们用双数组Trie数进行构造,对于分词操作,采用的是最短路径方法进行分词操作。
[0011] (2)去停用词(包括标点,数字,单子和其他一些无意义的词,如助词、语气词等等),利用人工建立的停用词词典对停用词进行处理,即对特殊符号,标点,数字进行替换。
[0012] 进一步的,所述步骤102对人机对话数据进行划分,具体包括:将文本数据集划分训练集和验证集,采用留出法将其划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和验证集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和验证集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样。
[0013] 进一步的,所述步骤103进行文本数据特征的构建,包括特征提取和文本表示,具体为:
[0014] (1)文本特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率。概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值(<=0.25)的时候,这个单词就可以舍弃了(不能表征该文本)。对于以上提出的概率,本发明选择用信息增益(概率越大越好),信息增益进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的信息增益比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的信息增益最大;
[0015] (2)人机对话进行词频统计,TF-IDF(词频-逆文档频率)所涉及关键参数为整个对话语料库以及每个对话的词频-逆文档频权重,新词语料库;由于传统的新词语料库在模型训练的开始阶段,对于新词的处理效果不好,本发明就使用极大似然估计去估计新词的词频-逆文档频。
[0016] 假设①新词的出现与不出现服从伯努利分布,②新词为非常用词(在语料库不常出现的词),③在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
[0017]
[0018] 使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率(即不常用词的词频)
[0019]
[0020] 就可以选出最终可以表达该句话的词语。
[0021] (3)文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达,因为不同的情景需要用到不同的方法和处理方式,本发明采用词袋模型作为文本向量化的工具,假设对于一个对话,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,其中最简单的模式是基于词的独热表示,它是用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。
[0022] (4)将文本向量化之后,每个词语可以得到一个它所代表的词向量,对于一组对话,将对话里边所有词语的词向量相加,词向量相加的时候可以根据词向量所对应单词的重要性给予词向量以不同的权重,本发明中,每个词语所对应的词向量的权重由每个词语的TF-IDF(词频-逆文档频率)的数值决定。
[0023] 进一步的,步骤104所述特征降维、稀疏处理,具体包括:
[0024] (1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征。
[0025] 对于m×n的矩阵M,进行奇异值分解
[0026]
[0027] 取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
[0028]
[0029] 其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
[0030] (2)降维之后的特征进行矩阵的稀疏表达,这样,可使模型更易于收敛。降维后的特征,由于其维度可能过大,会带来维灾难,使得模型训练速度较长,所以我们采用三角矩阵的稀疏存储方式,这样,可以在保证特征重要性丢失不多的情况下,加快模型的训练过程。
[0031] 进一步的,步骤105所述模型采用DeepFFM模型,用构建完成的训练集去训练DeepFFM,对于训练好的模型,用验证集进行测试。对于最终模型的融合,我们采用类堆模型,它可以结合上文信息(上一个对话)去辅助预测下文信息(下一个对话)。
[0032] 本发明的优点及有益效果如下:
[0033] 本发明充分考虑到了人机对话的历史数据,在对历史数据进行统计分析的基础上,进行特征的降维,加快了模型的训练过程,减少运行时间。且本发明进行了算法层面上的融合,有效的提高了模型的精度。
[0034] 通过对给定数据集进行分析,可以发现该问题为多分类问题,由于多分类问题会带来特征的维灾难,所以本发明将多分类问题转化为二分类问题,既避免了特征的维灾难,又加快了模型的训练过程。

实施方案

[0038] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0039] 参见图1,一种基于大数据的金融领域人机对话意图识别方法,其包括以下步骤:
[0040] 101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
[0041] 102、对历史文本数据进行划分,分为训练集和验证集;
[0042] 103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本向量化;
[0043] 104、针对构建完成后的特征,进行降维,稀疏处理;
[0044] 105、根据人机对话历史文本数据构建模型及其优化,对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图。
[0045] 所述的对人机对话所产生数据的预处理包括如下:
[0046] (1)对文档进行切分,进行文本分词,所用文本分词包括两个主要步骤,第一个是词典的构造,第二个是分词算法的操作。在本发明中,我们构造的是字典树,字典树的构造方法较多,在本发明中,我们用双数组Trie数进行构造,对于分词操作,采用的是最短路径方法进行分词操作。
[0047] (2)去停用词(包括标点,数字,单子和其他一些无意义的词,如助词、语气词等等),本发明中,利用人工规则对停用词进行处理,即利用人工建立的停用词词典对停用词进行处理,如对特殊符号,标点,数字进行替换。
[0048] 所述对于给定文本数据集进行划分的步骤如下:
[0049] (1)将文本数据集划分训练集和验证集,采用留出法将其划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和验证集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和验证集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样;
[0050] (2)在本发明中定义测试集就为需要预测其意图的数据集。
[0051] 所述根据人机对话数据进行文本数据特征的构建(参见图2),包括特征提取,文本向量化包括如下:
[0052] (1)文本特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率。概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值(<=0.25)的时候,这个单词就可以舍弃了(不能表征该文本)。对于以上提出的概率,本发明选择用信息增益(概率越大越好),信息增益进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的信息增益比较大。通常用信息增益作为特征词和类别之问的测度,如果特征词属于该类的话,它们的信息增益最大;
[0053] (2)人机对话进行词频统计,TF-IDF(词频-逆文档频率)所涉及关键参数为整个对话语料库以及每个对话的词频-逆文档频权重,新词语料库;由于传统的新词语料库在模型训练的开始阶段,对于新词的处理效果不好,本发明就使用极大似然估计去估计新词的词频-逆文档频。
[0054] 假设①新词的出现与不出现服从伯努利分布,②新词为非常用词(在语料库不常出现的词),③在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
[0055]
[0056] 使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率(即不常用词的词频)
[0057]
[0058] 就可以选出最终可以表达该句话的词语。
[0059] (3)文本向量化,文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达,因为不同的情景需要用到不同的方法和处理方式,本发明采用词袋模型作为文本向量化的工具,假设对于一个对话,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,其中最简单的模式是基于词的独热表示,它是用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。
[0060] (4)将文本向量化之后,每个词语可以得到一个它所代表的词向量,对于一组对话,将对话里边所有词语的词向量相加,词向量相加的时候可以根据词向量所对应单词的重要性给予词向量以不同的权重,本发明中,每个词语所对应的词向量的权重由每个词语的TF-IDF(词频-逆文档频率)的数值决定。
[0061] 所述针对构建完成后的特征,进行降维,稀疏的处理包括如下:
[0062] (1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征。
[0063] 对于m×n的矩阵M,进行奇异值分解
[0064]
[0065] 取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
[0066]
[0067] 其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
[0068] (2)降维之后的特征进行矩阵的稀疏表达,这样,可使模型更易于收敛。降维后的特征,由于其维度可能过大,会带来维灾难,使得模型训练速度较长,所以我们采用三角矩阵的稀疏存储方式,这样,可以在保证特征重要性丢失不多的情况下,加快模型的训练过程。
[0069] 所述模型设计及其优化,针对文本数据,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图,我们设计了DeepFFM模型,用构建完成的训练集去训练DeepFFM,对于训练好的模型,用验证集进行测试。对于最终模型的融合,我们采用类堆模型,它可以结合上文信息(上一个对话)去辅助预测下文信息(下一个对话)。如图3所示,图中,Qi表示该对话的第i个问题的相关特征(tf-idf,词向量),Pi表示该对话第i个问题得到的多分类概率(用Qi做特征预测出的多分类概率)。

附图说明

[0035] 图1是本发明提供优选实施例实施例一提供基于大数据的金融领域人机话意图识别方法的总体流程图;
[0036] 图2是本发明实施例一提供基于大数据的金融领域人机话意图识别方法的特征提取过程词语向量化,计算TF-IDF(包含词频),文本特征标准化的流程图;
[0037] 图3是本发明实施例一提供基于大数据的金融领域人机话意图识别方法的模型融合示例图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号