【比赛】CCF - BDCI - 个贷违约预测【排名:13/3246】

前期分析

需求分析

  • 人话——两个训练集预测一个测试集的二分类问题,指标为AUC。

  • 鬼话——迁移学习,使用网上不知名处搜刮到的信贷数据(75w),以及自己的少量过往数据(仅1.5w),来辅助预测该银行(委托方)自己的业务数据的违约情况。且所包含特征各不相同,部分同名特征同字段或同编码的含义也不完全相同,重要特征的分布也有极大的不同,这些可恶的数据居然也要用来辅助预测。

文件清单和使用说明

训练数据   train_public.csv 个人贷款违约记录数据   train_internet_public.csv 某网络信用贷产品违约记录数据

测试数据   test_public.csv 用于测试的数据,获取榜单排名

训练数据说明

  • train_public.csv
字段 字段描述
loan_id(主键) 贷款记录唯一标识
user_id 借款人唯一标识
total_loan 贷款数额
year_of_loan 贷款年份
interest 当前贷款利率
monthly_payment 分期付款金额
grade 贷款级别
employment_type 所在公司类型(世界五百强、国有企业、普通企业…)
industry 工作领域(传统工业、商业、互联网、金融…)
work_year 工作年限
home_exist 是否有房
censor_status 审核情况
issue_month 贷款发放的月份
use 贷款用途类别
post_code 贷款人申请时邮政编码
region 地区编码
debt_loan_ratio 债务收入比
del_in_18month 借款人过去18个月逾期30天以上的违约事件数
scoring_low 借款人在贷款评分中所属的下限范围
scoring_high 借款人在贷款评分中所属的上限范围
pub_dero_bankrup 公开记录清除的数量
recircle_bal 信贷周转余额合计
recircle_util 循环额度利用率
initial_list_status 贷款的初始列表状态
earlies_credit_mon 借款人最早报告的信用额度开立的月份
title 借款人提供的贷款名称
policy_code 公开可用的策略代码=1新产品不公开可用的策略代码=2
f系列匿名特征 匿名特征f0-f4,为一些贷款人行为计数特征的处理
early_return 借款人提前还款次数
early_return_amount 贷款人提前还款累积金额
early_return_amount_3mon 近3个月内提前还款金额
known_outstanding_loan 借款人档案中未结信用额度的数量
known_dero 贬损公共记录的数量
app_type 是否个人申请
  • train_internet.csv
字段 字段描述
loan_id 网络贷款记录唯一标识
user_id 用户唯一标识
total_loan 网络贷款金额
year_of_loan 网络贷款期限(year)
interest 网络贷款利率
monthly_payment 分期付款金额
class 网络贷款等级
employment_type 所在公司类型(世界五百强、国有企业、普通企业…)
industry 工作领域(传统工业、商业、互联网、金融…)
work_year 就业年限(年)
house_ownership 是否有房
censor_status 验证状态
issue_date 网络贷款发放的月份
use 贷款用途
post_code 借款人邮政编码的前3位
region 地区编码
debt_loan_ratio 债务收入比
del_in_18month 借款人过去18个月信用档案中逾期60天内的违约事件数
scoring_low 借款人在信用评分系统所属的下限范围
scoring_high 借款人在信用评分系统所属的上限范围
pub_dero_bankrup 公开记录清除的数量
early_return 提前还款次数
early_return_amount 提前还款累积金额
early_return_amount_3mon 近3个月内提前还款金额
recircle_bal 信贷周转余额合计
recircle_util 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
initial_list_status 网络贷款的初始列表状态
earlies_credit_line 网络贷款信用额度开立的月份
title 借款人提供的网络贷款名称
policy_code 公开策略=1不公开策略=2
f系列匿名特征 匿名特征f0-f5,为一些网络贷款人行为计数特征的处理——多一个f5
sub_class 网络贷款等级之子级
work_type 工作类型(公务员、企业白领、创业…)
marriage 婚姻状态(未婚、已婚、离异、丧偶)
offsprings 子女状态(无子女、学前、小学、中学、大学、工作)
house_loan_status 房屋贷款状况(无房贷、正在还房贷、已经还完房贷)
  • 选手提交 submission.csv
字段名 字段说明
id 贷款记录ID
isDefault 是否违约(可为概率、最后我们提交的是归一化rank)

数据探索

  • 少量的缺失值,最多缺失的特征列也不到10%
  • 大量的特征格式问题

  • 主表train_public缺失工资、有无子女等重要相关特征