首页 > 专利 > 重庆邮电大学 > 一种基于大数据的互联网金融用户贷款逾期预测方法专利详情

一种基于大数据的互联网金融用户贷款逾期预测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-11-22

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-02-22

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-05-03

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-11-22

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201811401139.1	申请日	2018-11-22
公开/公告号	CN109255506B	公开/公告日	2022-05-03
授权日	2022-05-03	预估到期日	2038-11-22
申请年	2018年	公开/公告年	2022年
缴费截止日
分类号	G06Q10/04 、G06Q40/02	主分类号	G06Q10/04
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	2
权利要求数量	3	非专利引证数量	0
引用专利数量	3	被引证专利数量	0
非专利引证
引用专利	CN106897918A、CN108492001A、CN107644375A	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	重庆邮电大学	第一申请人	重庆邮电大学
专利权人	重庆邮电大学	当前专利权人	重庆邮电大学
发明人	王进、赵金阳、许景益、欧阳卫华、孙开伟、邓欣、陈乔松、李林洁	第一发明人	王进
地址	重庆市南岸区南山街道崇文路2号	邮编	400065
申请人数量	1	发明人数量	8
申请人所在省	重庆市	申请人所在市	重庆市南岸区

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

重庆市恒信知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

刘小红、陈栋梁

摘要

本发明请求保护一种基于大数据的互联网金融用户贷款逾期预测方法，包括：101数据预处理操作：根据用户行为、用户基本信息、信用评分数据预处理操作；102根据七折交叉验证法对数据进行划分操作；103根据对抗网络生成模型扩展训练集；104根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作；105建立4个机器学习模型，并进行线性回归模型融合操作；106通过已建立模型基础，根据用户基本信息设置人工阈值规则预测用户是否违约。本发明运用大数据实现互联网金融风险机构由传统“事后堵截”的手段转变为“预先识别”，识别高违约用户。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-05-03	授权
2	2019-02-22	实质审查的生效	IPC(主分类): G06Q 10/04 专利申请号: 201811401139.1 申请日: 2018.11.22
3	2019-01-22	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于大数据的互联网金融用户贷款逾期预测方法，其特征在于，包括以下步骤：
101、数据预处理操作，根据用户行为、用户基本信息、信用评分数据进行包括近似空缺填充、按照时间去重在内的数据预处理操作；
102、根据七折交叉验证法对数据进行划分操作，将数据分为训练集和测试集；
103、根据对抗网络生成模型扩展训练集，学习到原始数据的分布；
104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作，通过卷积神经网络获取用户基本信息局部特征、时序特征及用户行为特征；
105、建立4个机器学习模型，并进行线性回归模型融合操作；
106、通过步骤105已建立的机器学习模型，根据用户基本信息设置人工阈值规则预测用户是否违约，识别高违约用户；
所述步骤103根据对抗网络生成模型扩展训练集，具体包括：随机生成与真实数据同规模数据传入生成网络G，真实数据和生成网络G输出结果采样后输入判别网络D计算损失，反向更新优化模型，使G学习到原始数据的分布，从而达到扩展训练集的目的；
所述步骤104通过卷积神经网络获取用户基本信息局部特征具体包括：
卷积神经网络获取用户基本信息局部特征：用户基本信息非连续性属性和连续性属性构造为矩阵matrix作为输入层，用户基本信息通过矩阵matrix传入卷积神经网络中卷积层，卷积核在输入层上通过逐一滑动窗口局部感知，权值W共享降低了参数数量，也提供了对用户隐藏信息拟合能力，然后更高层次对局部进行综合操作，从用户信息数据得到全局信息特征；将卷积层结果feature map矩阵展开为一维向量，对应连接相应的用户id,作为机器学习特征，卷积神经网络获取用户基本信息局部特征；
所述步骤104通过卷积神经网络获取用户基本信息时序特征具体包括：按照不同时间粒度提取用户特征，划分不同时间窗口大小，统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式，每天申请贷款金额；
同一时间窗口的每天权值不一样，按照距离预测目标越近，其权重越大，其中，X为时间粒度为t天用户贷款总次数，w1、w2、w
3......wt为时间粒度为t天每天权值，x1、x2、x
3......xt为时间粒度为t天用户每天贷款次数； wi权重和用户在时间粒度为t天贷款总次数按公式表述如下：
X＝x1*w1+x2*w2+…+xt*wt   公式(5)；
所述步骤104通过卷积神经网络获取用户行为特征，具体包括：从业务层面分析用户行为，分析用户是否违约与历史行为关系，其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值；
所述步骤101数据预处理操作包括：对基础字段下用户行为、用户基本信息、信用评分数据，具体处理包括：
(1)近似空缺填充：在完整数据集中找到相似用户属性值进行填充，用户相似通过皮尔逊相关系数得到，其中，E为数学期望，D为方差，X、Y分别代表两个样本，两个用户之间的皮尔逊相关性为ρXY，皮尔逊相关性计算如下：
(2)原始用户行为表用户id含有重复的样本，按照时间去重，保留用户距离预测日期最近行为发生样本，减少信息冗余；
所述步骤105建立4个机器学习模型，并进行线性回归融合操作，具体包括：
使用Factorization Machines因子分解机FM、CatBoost、LightGBM、Adaboost算法对训练集七折交叉验证，得到不同的机器学习模型，Y为验证集真实标签，x1、x2、x3、x4为Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果，线性回归拟合验证集真实标签，求得各个模型的参数w；
Y＝x1*w1+x2*w2+x3*w3+x4*w4   公式(6)
对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4，将其预测结果分别乘以各个模型权重u，得到最终的预测结果；
P＝X1*u1+X2*u2+X3*u3+X4*u4   公式(7)。

2.根据权利要求1所述的一种基于大数据的互联网金融用户贷款逾期预测方法，其特征在于，所述步骤102根据七折交叉验证法对数据进行划分操作，具体包括：
为了在构建模型过程中对模型进行评估，使用七折交叉验证，其中1份作为验证集，剩下6份作为训练集，将七折交叉AUC的均值作为验证集结果，其中，k为交叉验证折数，k＝7，AUCi为每一折交叉验证结果，AUCave为七交叉验证均值。

3.根据权利要求1所述的一种基于大数据的互联网金融用户贷款逾期预测方法，其特征在于，所述步骤106的人工阈值R为用户基本信息完善率，其中，ftotal为用户信息表全部字段数，fmiss为某用户缺失字段数，R为用户信息完善率，公式如下
用户信息完善程度反映一个用户可靠性，设置人工规则阈值R＞＝0.68，R＜0.68对应用户仍为违约用户。

说明书

技术领域

[0001] 本发明属于机器学习、大数据处理、深度学习、人工智能技术领域，尤其互联网金融用户贷款逾期预测数据划分方法、数据扩展、特征构建、模型设计、人工规则等。

背景技术

[0002] 随着互联网的快速发展，随着越来越多的实体经济进行“互联网+”，以及互联网原生业态的蓬勃发展，大量的资金和业务依托互联网而实现，同时保障这些资金和业务流转的技术也日渐成熟，作为常态金融需求之一的借贷行为，也就很自然地出现在网络经济之中。传统银行的困境：传统银行体系已无法充分解决居民在借贷领域的需求和困境，2015年我国网络借贷行业交易规模突破8000亿人民币，较上一年增长248.2％。未来几年内，网络借贷行业仍将保持一定规模的增长，至2019年前后，网络借贷行业交易规模有望突破达到3.7万亿人民币。

[0003] 网络借贷平台以互联网金融模式的创新为依托，基于大数据等新兴技术的互联网征信体系，可以更好的打造网络借贷行业的风险识别与定价能力，弥合因时间和空间的距离而产生的金融安全风险，使互联网生态的优势可以更好地与传统金融相融合。

[0004] 目前国内违约用户风险预测采取人工审批作业形式，效率低而又面临很大的违约风险，无法进行风险分级管理，影响风险控制的能力及灵活度。

[0005] 本方案使用大数据和人工智能前沿技术，建立违约用户风险预测机器学习模型，对目标客户的基本信息，历史信用记录等数据分析、特征提取，预测用户的违约概率，为企业提供稳定可靠的解决方案。

发明内容

[0006] 本发明旨在解决以上现有技术的问题。提出了一种实现互联网金融风险机构由传统“事后堵截”的手段转变为“预先识别”，识别高违约用户的方法。本发明的技术方案如下：

[0007] 一种基于大数据的互联网金融用户贷款逾期预测方法，其包括以下步骤：

[0008] 101、数据预处理操作，根据用户行为、用户基本信息、信用评分数据进行数据预处理操作；

[0009] 102、根据七折交叉验证法对数据进行划分操作；

[0010] 103、根据对抗网络生成模型扩展训练集；

[0011] 104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作，通过卷积神经网络获取用户基本信息局部特征、时序特征及用户行为特征；

[0012] 105、建立4个机器学习模型，并进行线性回归模型融合操作；

[0013] 106、通过步骤105已建立的机器学习模型，根据用户基本信息设置人工阈值规则预测用户是否违约，识别高违约用户。

[0014] 进一步的，所述步骤101数据预处理操作包括：对基础字段下用户行为、用户基本信息、信用评分数据，具体处理包括：

[0015] (1)近似空缺填充：在完整数据集中找到相似用户属性值进行填充，用户相似通过皮尔逊相关系数得到，其中，E为数学期望，D为方差，X、Y分别代表两个样本，两个用户之间的皮尔逊相关性为ρXY，皮尔逊相关性计算如下：

[0016]

[0017] (2)原始用户行为表用户id含有重复的样本，按照时间去重，保留用户距离预测日期最近行为发生样本，减少信息冗余。

[0018] 进一步的，所述步骤102根据七折交叉验证法对数据进行划分操作，具体包括：

[0019] 为了在构建模型过程中对模型进行评估，使用七折交叉验证，其中1份作为验证集，剩下6份作为训练集，将七折交叉AUC的均值作为验证集结果，其中，k为交叉验证折数，k＝7,AUCi为每一折交叉验证结果，AUCave为七交叉验证均值。

[0020]

[0021] 进一步的，，所述步骤103根据对抗网络生成模型扩展训练集，具体包括：随机生成与真实数据同规模数据传入生成网络G，真实数据和生成网络G输出结果采样后输入判别网络D计算损失，反向更新优化模型，使G学习到原始数据的分布，从而达到扩展训练集的目的。

[0022] 进一步的，所述步骤104通过卷积神经网络获取用户基本信息局部特征具体包括：

[0023] 卷积神经网络获取用户基本信息局部特征：用户基本信息非连续性属性和连续性属性构造为矩阵matrix作为输入层，用户基本信息通过矩阵matrix传入卷积神经网络中卷积层，卷积核在输入层上通过逐一滑动窗口局部感知，权值W共享降低了参数数量，也提供了对用户隐藏信息拟合能力，然后更高层次对局部进行综合操作，从用户信息数据得到全局信息特征；将卷积层结果feature map矩阵展开为一维向量，对应连接相应的用户id,作为机器学习特征，卷积神经网络获取用户基本信息局部特征。

[0024] 进一步的，所述步骤104通过卷积神经网络获取用户基本信息时序特征具体包括：按照不同时间粒度提取用户特征。划分不同时间窗口大小，统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式，每天申请贷款金额；

[0025] 同一时间窗口的每天权值不一样，按照距离预测目标越近，其权重越大，其中，X为时间粒度为t天用户贷款总次数，w1、w2、w3……wt为时间粒度为t天每天权值，x1、x2、x3……xt为时间粒度为t天用户每天贷款次数。wi权重和用户在时间粒度为t天贷款总次数按公式表述如下：

[0026]

[0027] X＝x1*w1+x2*w2+…+xt*wt公式(5)。

[0028] 进一步的，所述步骤104通过卷积神经网络获取用户行为特征，具体包括：从业务层面分析用户行为，分析用户是否违约与历史行为关系，其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值。

[0029] 进一步的，所述步骤105建立4个机器学习模型，并进行线性回归融合操作，具体包括：

[0030] 使用Factorization Machines(因子分解机FM)、CatBoost、LightGBM、Adaboost算法对训练集七折交叉验证，得到不同的机器学习模型，Y为验证集真实标签，x1、x2、x3、x4为Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果，线性回归拟合验证集真实标签,求得各个模型的参数w；

[0031] Y＝x1*w1+x2*w2+x3*w3+x4*w4公式(6)

[0032] 对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4，将其预测结果分别乘以各个模型权重w,得到最终的预测结果；

[0033] P＝X1*w1+X2*w2+X3*w3+X4*w4公式(7)。

[0034] 进一步的，所述步骤106的人工阈值R为用户基本信息完善率，其中，ftotal为用户信息表全部字段数，fmiss为某用户缺失字段数，R为用户信息完善率，公式如下[0035]

[0036] 用户信息完善程度反映一个用户可靠性，设置人工规则阈值R>＝0.68,R<0.68对应用户仍为违约用户。

[0037] 本发明的优点及有益效果如下：

[0038] 本发明主要是通过对用户行为、用户基本信息、信用评分数据进行分析，运用大数据实现互联网金融用户贷款逾期预测；

[0039] 本发明103提出一种对抗网络生成模型扩展训练集，通过扩展数据集，更好寻找用户行为习惯，提高模型精确度。

[0040] 本发明104通过卷积神经网络获取用户基本信息局部特征，传统机器学习通过特征提取不能挖掘隐藏用户基本信息，本发明通过将用户基本信息通过矩阵传入卷积神经网络卷积层，在卷积核感知用户局部特征，从而获取全局特征。

[0041] 本发明106随后建立4个机器学习模型并进行线性回归模型融合，在模型融合基础上，提出一种基于用户基本信息设置人工阈值规则预测用户是否违约的方法(人工阈值R为用户基本信息完善率)，采用规则为辅，模型为主，将规则和模型结合，模型的的预测效果将会更加精准。

实施方案

[0047] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

[0048] 本发明解决上述技术问题的技术方案是：

[0049] 本发明解决上述技术问题的技术方案是：如图1所示，一种基于大数据的互联网金融用户贷款逾期预测方法，其包括以下步骤：

[0050] 101、数据预处理操作，根据用户行为、用户基本信息、信用评分数据进行数据预处理操作；

[0051] 102、根据七折交叉验证法对数据进行划分操作；

[0052] 103、根据对抗网络生成模型扩展训练集；

[0053] 104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作；

[0054] 105、建立4个机器学习模型，并进行线性回归模型融合操作；

[0055] 106、通过已建立模型基础，根据用户基本信息设置人工阈值规则预测用户是否违约。

[0056] 如图2所示，随机生成与真实数据同规模数据传入生成网络G，真实数据和生成网络G输出结果采样后输入判别网络D计算损失，反向更新优化模型，进而使G学习到原始数据的分布，从而达到扩展训练集的目的。

[0057] 如图3所示，通过七折交叉验证将数据划分为训练集和测试集，根据提取用户行为(时间粒度)特征群、用户信用评分(时间粒度)特征群、用户基本信息(时间粒度)特征群[0058] 如图4所示，用户基本信息通过矩阵matrix传入卷积神经网络中卷积层，卷积核感知用户局部特征；将卷积层结果feature map矩阵展开为一维向量。

[0059] 如图5所示，特征构造数据集建立FM、CatBoost、LightGBM、Adaboost机器学习模型，线性回归进行模型融合，设置人工规则阈值R预测用户是否违约。

[0060] (1)数据预处理

[0061] 近似空缺填充：在金融领域，并非所有用户信息完整，属性值缺失的情况经常发生甚至是不可避免，为了充分利用数据得到用户行为习惯，在完整数据集中找到相似用户属性值进行填充，用户相似通过皮尔逊相关系数得到；原始用户行为表用户id含有重复的样本，按照时间去重，保留用户距离预测日期最近行为发生样本，减少信息冗余。

[0062] (2)数据划分

[0063] 采用七折交叉验证法对数据进行划分。为了在构建模型过程中对模型进行评估，使用七折交叉验证，其中1份作为验证集，剩下6份作为训练集，将七折交叉AUC的均值作为验证集结果，其中，k为交叉验证折数(k＝7),AUCi为每一折交叉验证结果，AUCave为七交叉验证均值

[0064] (3)扩展训练集

[0065] 根据对抗网络生成模型扩展训练集：随机生成与真实数据同规模数据传入生成网络G，真实数据和生成网络G输出结果采样后输入判别网络D计算损失，反向更新优化模型，进而使G学习到原始数据的分布，从而达到扩展训练集的目的。

[0066] (4)特征工程

[0067] 根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作，通过卷积神经网络获取用户基本信息局部特征，时序特征，用户行为特征。

[0068] (1)卷积神经网络获取用户基本信息局部特征：用户基本信息非连续性属性one_hot(独热编码)离散同连续性属性构造为矩阵matrix作为输入层，用户基本信息通过矩阵matrix传入卷积神经网络中卷积层，卷积核在输入层上通过逐一滑动窗口局部感知，权值W共享降低了参数数量，也提供了对用户隐鲹信息拟合能力，然后更高层次对局部进行综合操作，从用户信息数据得到全局信息特征；将卷积层结果feature map矩阵展开为一维向量，对应连接相应的用户id,作为机器学习特征。如图4所示，x代表输入层数据，将用户基本信息构造为矩阵matrix；W为网络共享权重参数，b为网络偏移量，训练前随机初始化；hW,b(x)为经过卷积神经网络输出层结果，其卷积过程公式表述如下：

[0069] hW,b(x)＝f(WTx)＝f(Wx+b)公式(3)

[0070] (2)时序特征：用户申请贷款时间上是有一定的周期性、规律性等，故可以按照不同时间粒度提取用户特征。划分不同时间窗口大小(最近一周、一个月、三个月)，统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式，每天申请贷款金额；

[0071] 同一时间窗口的每天权值不一样，按照距离预测目标越近，其权重越大。其中，X为时间粒度为t天用户贷款总次数，w1、w2、w3……wt为时间粒度为t天每天权值，x1、x2、x3……xt为时间粒度为t天用户每天贷款次数。wi权重和用户在时间粒度为t天贷款总次数按公式表述如下：

[0072]

[0073] X＝x1*w1+x2*w2+…+xt*wt公式(5)

[0074] (3)用户行为特征：从业务层面分析用户行为，分析用户是否违约与历史行为关系，其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值。

[0075] (5)建立模型

[0076] 建立4个机器学习模型，并进行线性回归融合操作。

[0077] 使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对训练集七折交叉验证，得到不同的机器学习模型，Y为验证集真实标签，x1、x2、x3、x4为Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果。线性回归拟合验证集真实标签,求得各个模型的参数w。

[0078] Y＝x1*w1+x2*w2+x3*w3+x4*w4公式(6)

[0079] 对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4，将其预测结果分别乘以各个模型权重w,得到最终的预测结果。

[0080] P＝X1*w1+X2*w2+X3*w3+X4*w4公式(7)

[0081] 在模型融合基础上，提出一种基于用户基本信息设置人工阈值规则预测用户是否违约的方法。人工阈值R为用户基本信息完善率，其中，ftotal为用户信息表全部字段数，fmiss为某用户缺失字段数，R为用户信息完善率(即设置人工阈值)，公式如下

[0082]

[0083] 用户信息完善程度反映一个用户可靠性，设置人工规则阈值R>＝0.68,R<0.68对应用户仍为违约用户，规则为辅，模型为主，将规则和模型结合，模型的的预测效果将会更加精准。

[0084] 表1为本发明实施例中数据字段示意表。

[0085] 表1

[0086]

[0087]

[0088] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

附图说明

[0042] 图1是本发明提供优选实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法的流程图；

[0043] 图2为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中对抗网络扩展训练集示意图；

[0044] 图3为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中特征工程示意图；

[0045] 图4为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中卷积神经网络获取用户基本信息局部特征示意图；

[0046] 图5为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中线性回归模型融合图；

1人工智能处理方法 2一种人工智能花盆 3一种人工智能工业设备 4一种人工智能用花盆 5一种人工智能按摩椅 6感应纤毛、传感器、人工智能机器人 7一种辅助导盲的人工智能机器人 8感应纤毛、传感器、人工智能机器人 9感应纤毛、传感器、人工智能机器人 10一种辅助导盲的人工智能机器人