金融评分卡模型

应用逻辑回归模型实现标准金融评分卡

开发流程

st=>start: 数据获取
e=>end: 部署上线
G=>operation: EDA
A=>operation: 数据预处理
B=>operation: 变量筛选
C=>operation: 模型开发
D=>operation: 模型验证
E=>operation: 生成评分卡
st->G->A->B->C->D->E->e

数据预处理 -- 变量分箱

无监督分箱

等频分箱：把自变量按从小到大的顺序排列，根据自变量的个数等分为k部分，每部分作为一个分箱。
等距分箱：把自变量按从小到大的顺序排列，将自变量的取值范围分为k个等距的区间，每个区间作为一个分箱。
聚类分箱：用k-means聚类法将自变量聚为k类，但在聚类过程中需要保证分箱的有序性。

有监督分箱

Best-KS
卡方分箱

Best-KS

将特征值值进行从小到大的排序。
计算出KS最大的那个值，即为切点，记为D。然后把数据切分成两部分。
重复步骤2，进行递归，D左右的数据进一步切割。直到KS的箱体数达到我们的预设阈值即可。

Best-KS分箱特点

连续型变量：分箱后的KS值<=分箱前的KS值
分箱过程中，决定分箱后的KS值是某一个切点，而不是多个切点的共同作用。这个切点的位置是原始KS值最大的位置。

卡方分箱

卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
FinancialScorecard		FinancialScorecard
.gitignore		.gitignore
Demo.ipynb		Demo.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

金融评分卡模型

开发流程

数据预处理 -- 变量分箱

无监督分箱

有监督分箱

Best-KS

卡方分箱

About

Releases

Packages

Languages

haitao19/Financial-Scorecard-Model

Folders and files

Latest commit

History

Repository files navigation

金融评分卡模型

开发流程

数据预处理 -- 变量分箱

无监督分箱

有监督分箱

Best-KS

卡方分箱

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages