[0047] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0048] 本发明解决上述技术问题的技术方案是:
[0049] 本发明解决上述技术问题的技术方案是:如图1所示,一种基于大数据的互联网金融用户贷款逾期预测方法,其包括以下步骤:
[0050] 101、数据预处理操作,根据用户行为、用户基本信息、信用评分数据进行数据预处理操作;
[0051] 102、根据七折交叉验证法对数据进行划分操作;
[0052] 103、根据对抗网络生成模型扩展训练集;
[0053] 104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作;
[0054] 105、建立4个机器学习模型,并进行线性回归模型融合操作;
[0055] 106、通过已建立模型基础,根据用户基本信息设置人工阈值规则预测用户是否违约。
[0056] 如图2所示,随机生成与真实数据同规模数据传入生成网络G,真实数据和生成网络G输出结果采样后输入判别网络D计算损失,反向更新优化模型,进而使G学习到原始数据的分布,从而达到扩展训练集的目的。
[0057] 如图3所示,通过七折交叉验证将数据划分为训练集和测试集,根据提取用户行为(时间粒度)特征群、用户信用评分(时间粒度)特征群、用户基本信息(时间粒度)特征群[0058] 如图4所示,用户基本信息通过矩阵matrix传入卷积神经网络中卷积层,卷积核感知用户局部特征;将卷积层结果feature map矩阵展开为一维向量。
[0059] 如图5所示,特征构造数据集建立FM、CatBoost、LightGBM、Adaboost机器学习模型,线性回归进行模型融合,设置人工规则阈值R预测用户是否违约。
[0060] (1)数据预处理
[0061] 近似空缺填充:在金融领域,并非所有用户信息完整,属性值缺失的情况经常发生甚至是不可避免,为了充分利用数据得到用户行为习惯,在完整数据集中找到相似用户属性值进行填充,用户相似通过皮尔逊相关系数得到;原始用户行为表用户id含有重复的样本,按照时间去重,保留用户距离预测日期最近行为发生样本,减少信息冗余。
[0062] (2)数据划分
[0063] 采用七折交叉验证法对数据进行划分。为了在构建模型过程中对模型进行评估,使用七折交叉验证,其中1份作为验证集,剩下6份作为训练集,将七折交叉AUC的均值作为验证集结果,其中,k为交叉验证折数(k=7),AUCi为每一折交叉验证结果,AUCave为七交叉验证均值
[0064] (3)扩展训练集
[0065] 根据对抗网络生成模型扩展训练集:随机生成与真实数据同规模数据传入生成网络G,真实数据和生成网络G输出结果采样后输入判别网络D计算损失,反向更新优化模型,进而使G学习到原始数据的分布,从而达到扩展训练集的目的。
[0066] (4)特征工程
[0067] 根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作,通过卷积神经网络获取用户基本信息局部特征,时序特征,用户行为特征。
[0068] (1)卷积神经网络获取用户基本信息局部特征:用户基本信息非连续性属性one_hot(独热编码)离散同连续性属性构造为矩阵matrix作为输入层,用户基本信息通过矩阵matrix传入卷积神经网络中卷积层,卷积核在输入层上通过逐一滑动窗口局部感知,权值W共享降低了参数数量,也提供了对用户隐鲹信息拟合能力,然后更高层次对局部进行综合操作,从用户信息数据得到全局信息特征;将卷积层结果feature map矩阵展开为一维向量,对应连接相应的用户id,作为机器学习特征。如图4所示,x代表输入层数据,将用户基本信息构造为矩阵matrix;W为网络共享权重参数,b为网络偏移量,训练前随机初始化;hW,b(x)为经过卷积神经网络输出层结果,其卷积过程公式表述如下:
[0069] hW,b(x)=f(WTx)=f(Wx+b)公式(3)
[0070] (2)时序特征:用户申请贷款时间上是有一定的周期性、规律性等,故可以按照不同时间粒度提取用户特征。划分不同时间窗口大小(最近一周、一个月、三个月),统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式,每天申请贷款金额;
[0071] 同一时间窗口的每天权值不一样,按照距离预测目标越近,其权重越大。其中,X为时间粒度为t天用户贷款总次数,w1、w2、w3……wt为时间粒度为t天每天权值,x1、x2、x3……xt为时间粒度为t天用户每天贷款次数。wi权重和用户在时间粒度为t天贷款总次数按公式表述如下:
[0072]
[0073] X=x1*w1+x2*w2+…+xt*wt公式(5)
[0074] (3)用户行为特征:从业务层面分析用户行为,分析用户是否违约与历史行为关系,其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值。
[0075] (5)建立模型
[0076] 建立4个机器学习模型,并进行线性回归融合操作。
[0077] 使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对训练集七折交叉验证,得到不同的机器学习模型,Y为验证集真实标签,x1、x2、x3、x4为Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果。线性回归拟合验证集真实标签,求得各个模型的参数w。
[0078] Y=x1*w1+x2*w2+x3*w3+x4*w4公式(6)
[0079] 对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4,将其预测结果分别乘以各个模型权重w,得到最终的预测结果。
[0080] P=X1*w1+X2*w2+X3*w3+X4*w4公式(7)
[0081] 在模型融合基础上,提出一种基于用户基本信息设置人工阈值规则预测用户是否违约的方法。人工阈值R为用户基本信息完善率,其中,ftotal为用户信息表全部字段数,fmiss为某用户缺失字段数,R为用户信息完善率(即设置人工阈值),公式如下
[0082]
[0083] 用户信息完善程度反映一个用户可靠性,设置人工规则阈值R>=0.68,R<0.68对应用户仍为违约用户,规则为辅,模型为主,将规则和模型结合,模型的的预测效果将会更加精准。
[0084] 表1为本发明实施例中数据字段示意表。
[0085] 表1
[0086]
[0087]
[0088] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。