【比赛】CCF - BDCI - 个贷违约预测【排名:13/3246】
前期分析
需求分析
人话——两个训练集预测一个测试集的二分类问题,指标为AUC。
鬼话——迁移学习,使用网上不知名处搜刮到的信贷数据(75w),以及自己的少量过往数据(仅1.5w),来辅助预测该银行(委托方)自己的业务数据的违约情况。且所包含特征各不相同,部分同名特征同字段或同编码的含义也不完全相同,重要特征的分布也有极大的不同,这些可恶的数据居然也要用来辅助预测。
文件清单和使用说明
训练数据 train_public.csv 个人贷款违约记录数据 train_internet_public.csv 某网络信用贷产品违约记录数据
测试数据 test_public.csv 用于测试的数据,获取榜单排名
训练数据说明
- train_public.csv
字段 | 字段描述 |
---|---|
loan_id(主键) | 贷款记录唯一标识 |
user_id | 借款人唯一标识 |
total_loan | 贷款数额 |
year_of_loan | 贷款年份 |
interest | 当前贷款利率 |
monthly_payment | 分期付款金额 |
grade | 贷款级别 |
employment_type | 所在公司类型(世界五百强、国有企业、普通企业…) |
industry | 工作领域(传统工业、商业、互联网、金融…) |
work_year | 工作年限 |
home_exist | 是否有房 |
censor_status | 审核情况 |
issue_month | 贷款发放的月份 |
use | 贷款用途类别 |
post_code | 贷款人申请时邮政编码 |
region | 地区编码 |
debt_loan_ratio | 债务收入比 |
del_in_18month | 借款人过去18个月逾期30天以上的违约事件数 |
scoring_low | 借款人在贷款评分中所属的下限范围 |
scoring_high | 借款人在贷款评分中所属的上限范围 |
pub_dero_bankrup | 公开记录清除的数量 |
recircle_bal | 信贷周转余额合计 |
recircle_util | 循环额度利用率 |
initial_list_status | 贷款的初始列表状态 |
earlies_credit_mon | 借款人最早报告的信用额度开立的月份 |
title | 借款人提供的贷款名称 |
policy_code | 公开可用的策略代码=1新产品不公开可用的策略代码=2 |
f系列匿名特征 | 匿名特征f0-f4,为一些贷款人行为计数特征的处理 |
early_return | 借款人提前还款次数 |
early_return_amount | 贷款人提前还款累积金额 |
early_return_amount_3mon | 近3个月内提前还款金额 |
known_outstanding_loan | 借款人档案中未结信用额度的数量 |
known_dero | 贬损公共记录的数量 |
app_type | 是否个人申请 |
- train_internet.csv
字段 | 字段描述 |
---|---|
loan_id | 网络贷款记录唯一标识 |
user_id | 用户唯一标识 |
total_loan | 网络贷款金额 |
year_of_loan | 网络贷款期限(year) |
interest | 网络贷款利率 |
monthly_payment | 分期付款金额 |
class | 网络贷款等级 |
employment_type | 所在公司类型(世界五百强、国有企业、普通企业…) |
industry | 工作领域(传统工业、商业、互联网、金融…) |
work_year | 就业年限(年) |
house_ownership | 是否有房 |
censor_status | 验证状态 |
issue_date | 网络贷款发放的月份 |
use | 贷款用途 |
post_code | 借款人邮政编码的前3位 |
region | 地区编码 |
debt_loan_ratio | 债务收入比 |
del_in_18month | 借款人过去18个月信用档案中逾期60天内的违约事件数 |
scoring_low | 借款人在信用评分系统所属的下限范围 |
scoring_high | 借款人在信用评分系统所属的上限范围 |
pub_dero_bankrup | 公开记录清除的数量 |
early_return | 提前还款次数 |
early_return_amount | 提前还款累积金额 |
early_return_amount_3mon | 近3个月内提前还款金额 |
recircle_bal | 信贷周转余额合计 |
recircle_util | 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额 |
initial_list_status | 网络贷款的初始列表状态 |
earlies_credit_line | 网络贷款信用额度开立的月份 |
title | 借款人提供的网络贷款名称 |
policy_code | 公开策略=1不公开策略=2 |
f系列匿名特征 | 匿名特征f0-f5,为一些网络贷款人行为计数特征的处理——多一个f5 |
sub_class | 网络贷款等级之子级 |
work_type | 工作类型(公务员、企业白领、创业…) |
marriage | 婚姻状态(未婚、已婚、离异、丧偶) |
offsprings | 子女状态(无子女、学前、小学、中学、大学、工作) |
house_loan_status | 房屋贷款状况(无房贷、正在还房贷、已经还完房贷) |
- 选手提交 submission.csv
字段名 | 字段说明 |
---|---|
id | 贷款记录ID |
isDefault | 是否违约(可为概率、最后我们提交的是归一化rank) |
数据探索
- 少量的缺失值,最多缺失的特征列也不到10%
大量的特征格式问题
主表train_public缺失工资、有无子女等重要相关特征