推广 热搜： 金公司快速企业中国设备杯上海行业未来

学习周报20200621 ｜风控、模型、回顾

日期：2024-10-31 移动：http://keant.xrbh.cn/quote/10588.html

这周因为一些原因需要整理一些风控建模的知识点，顺便在这里整理一下，一起来回顾回顾。

一、评分卡开发过程

1、信用评分卡分为：申请评分卡和行为评分卡。前者对新贷款申请进行筛选并判断其违约风险，后者则是对审批通过的贷款账户进行覆盖整个贷款周期的管理。

2、典型的评分卡开发流程包括：问题准备、数据获取与整合、EDA、数据准备、变量选择、模型开发、模型检验和评价、评分卡实施、模型检测。

3、标准评分卡基于logistic回归模型，其本质是线性回归的扩展，通过一个link function的函数形式进行转换而获得。

4、模型验证需要满足4项基本要求：

二、EDA

1、EDA叫做探索性数据分析，需要做以下的探索：

2、P值是用来判断假设检验结果的一个参数，如果P值很小则代表原假设发生的概率很小，根据小概率原理可以拒绝原假设。

三、常见问答简单梳理

1、滚动率、迁徙率分析是什么？如何在建模中应用。

滚动率分析：滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。

1）正常的客户，在未来6个月里，有96%会保持正常状态；

2）逾期1期的客户，未来有81%会回到正常状态，即从良率为81%，有6%会恶化（从M1变为M1+）；

3）逾期2期的客户，从良率为23%，有39%会恶化；

4）逾期3期的客户，从良率为14%，有61%会恶化；

5）逾期4期及以上的客户，从良率仅为4%，有82%会继续此状态。

那么，如何结合这些滚动率的结果来设置我们的target呢？（Y变量）

此图统计的逾期用的是月末的逾期状态(有些时候也可以使用历史逾期状态，一个客户只要发生过M4+逾期，未来每个月都将该客户记为M4+逾期客户)，计算逾期率使用金额(也可使用笔数)。从图中可以看出，不同月份放款的M4+在经过9个周期(9个月)后趋于稳定，也就是说成熟期是在9个月。

所以，确定Y变量可以按照下面的套路：

1）进行滚动率分析，定义坏客户，如上面所说的M4+为坏客户；

2）然后统计出M4+的Vintage数据表及Vintage图，找出成熟期；

3、表现期大于成熟期的样本可以用于建模，表现期小于成熟期的样本无法准确定义Y变量，暂时舍弃。

当然，在实际应用中，根据业务需要，Y变量的定义可以灵活变通。比如在业务刚开展不久，表现期较短，此时无法根据上述方法定义Y变量，可以暂将逾期大于10天、15天或30天的客户定义为坏等等，然后随着时间的推移不断修正Y变量及模型。

迁徙率：分析客户从某个状态变为其他状态的发展变化情况，所不同的是，滚动率侧重于分析客户逾期程度的变化，所以在做滚动率分析时需要设置相对较长的观察期和变现期；而迁移率侧重于分析客户状态的发展变化路径，如M0~M1，M1~M2，M2~M3等。

计算月度迁移率，比如，2018年7月底，M0~M1的迁移率为41110122/171325636=24%，以此类推。

2、AUC和KS的定义是什么，之间有关系？

可以参考：MLK | 模型评估的一些事

3、特征工程一般有哪些操作？

特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。

4、衍生特征的套路有哪些？

可以从三种角度出发：

1）数学运算。求和、比例、频率、平均等。

2）时间窗口。有些变量的意义只有在一段时间内才有效，所以针对时间比如说注册如期、交易日期等变量，需要计算其到现在的时间段，完成变量的衍生。

3）交叉组合。GBDTXGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。衍生出来的特征要符合实际业务含义，并且要保持稳定。

可以参考：MLK | 那些常见的特征工程

5、几种算法及其在应用场景中的差别。

6、一些基本公式的推导，比如LR、xgb之类的，这些可以自己推导一下。

这个可以看下伟哥的，强力推荐！

7、常用算法的优缺点?

可以参考：MLK | 机器学习常见算法优缺点了解一下

8、模型评估的常用方法有哪些？

1）区分度：主要有KS和GINI指标，理解KS的定义及用法

2）准确性：主要有roc曲线和AUC指标，理解AUC的定义及用法

3）稳定性：主要有PSI指标，理解PSI的定义及用法

9、模型上线后，需要持续监测的指标有哪些?

1）首先是稳定性指标（包括模型和指标的稳定性），可以用PSI来衡量；

PSI<0.1 样本分布有微小变化

PSI 0.1~0.2 样本分布有变化

PSI>0.2 样本分布有显著变化

2）坏账变化情况

以9个月内逾期60天为坏账标准，或12个月内逾期90天为坏账标准，观测模型的表现。（坏账标准具体需根据不同产品来定义）常用的坏账监测标准：60days/9m；90days/12m；30+，而所使用的统计量为AUC、KS。

N、扩展阅读

1、

概述：Python实现变量的卡方分箱（卡方分布(chi-square distribution, χ2-distribution)是概率统计里常用的一种概率分布，也是统计推断里应用最广泛的概率分布之一，在假设检验与置信区间的计算中经常能见到卡方分布的身影。）

2、数据挖掘项目：银行信用评分卡建模分析

https://blog.csdn.net/AvenueCyy/article/details/105453116

概述：也是使用Python把评分卡建模的全流程走完一遍，里面对于EDA的部分可以参考其分析思路，代码也可以参考。

3、全面了解风控指标体系

https://mp.weixin.qq.com/s/-posovos49MGleNgSXHFWw

概述：非常全面地梳理了一遍风控指标，从贷前到贷后，很适合系统了解这块知识。

4、

7、推荐收藏 | 决策树，逻辑回归，PCA-算法面经

8、关键数据Vintage、滚动率、迁移率的讲解应用

https://www.sohu.com/a/305129117_99917536

讲解了风控必须要了解的几个关键指标的原理和应用案例。

Reference

1、一句话总结各个算法以及应用场景？

https://www.cnblogs.com/xubing-613/p/6675506.html

本文地址：http://lianchengexpo.xrbh.cn/quote/10588.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

学习周报20200621 ｜风控、模型、回顾

推荐行业动态

点击排行

学习周报20200621 ｜ 风控、模型、回顾

一、评分卡开发过程

二、EDA

三、常见问答简单梳理

1、滚动率、迁徙率分析是什么？如何在建模中应用。

滚动率分析：滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。

2、AUC和KS的定义是什么，之间有关系？

3、特征工程一般有哪些操作？

4、衍生特征的套路有哪些？

5、几种算法及其在应用场景中的差别。

6、一些基本公式的推导，比如LR、xgb之类的，这些可以自己推导一下。

7、常用算法的优缺点?

8、模型评估的常用方法有哪些？

9、模型上线后，需要持续监测的指标有哪些?

1）首先是稳定性指标（包括模型和指标的稳定性），可以用PSI来衡量；

2）坏账变化情况

N、扩展阅读

Reference

学习周报20200621 ｜风控、模型、回顾