按揭贷款用户画像

通过具体的运营实践,学习遭遇数据数据和其他业务核心问题,如何去结束了分析。

看看是建立社群正式会员的作业要求,转载请注明出处最后会分析项目中的再次修改意见,通过本项目一提升你的分析思考方式。

一.项目数据情况重点介绍

数据数据来穿越红楼梦拍贷真实其他业务数据数据。信而富是美国和英国纽约证券交易所a股上市公司。正式成立于2006年12月服从金融领域本质意义,以数据为核心地位,用创新科技为所有用户提供完整最便捷可得的偿还借款撮合提供的服务,趣店平台提供借款期限端提供的服务和面向城市广大中小企业用户的通用化借款期限和其他归还借款。

数据是从2015-01-31到2017-01-24的所有征信估值较低10%s实验样本。从搜索下载的五个文件内容里从中选取我们必须用子宫内膜样肿瘤excel文件来。

这个excel表格文件中里的数据共有37个字段类型,数据数据形状大小69mb,292539条消费贷款全部记录。下面是各个字段类型的意思:

二.其他业务其他指标

如果你不能够衡量标准它,那么你就更不能有效快速增长它。那么可以衡量的基本工具就是业务相关指标了。那是不是有其他指标就行了呢?

当然不是。指标值也是有好和坏之分。好的关键指标不应该是核心指标,并且不应该是比率这样的指标才有意义和价值。

而没有意义的相关指标肯定是坏其他指标,例如虚荣指标值,只关注用户量、文章阅读量不持续关注真正的购买转化率,还有后验性其他指标和过于复杂的指标值都都属于坏关键指标。

证券行业潜在风险核心业务相关指标尤为最关键。风险其他业务其他指标以及:逾期天数mci、逾期情况分期期数、逾期还款第三个阶段、即期指标值、所得税关键指标、下月结算支付、期末考试现金结算、延迟率、不良率、转坏帐率、净损失率、fpd(首次分期还款贷款逾期)。

下面是本人资料整理的理财行业指标:

三、提出问题和详细分析思路

传统互联网证券行业,逾期以及不良资产处置解决一直都是产生影响企业中季度财报及整体业绩进一步发展的绊脚石。

这次想集中研究贷款逾期占比在各个单一维度中比较高的特征,依次来推导企业失信最终客户的整体典型特征,来帮助企业中尽可能如何规避此类核心问题。以及深度分析各维度的信贷风险具体情况,以及发放贷款比重,给企业中要求一些有效的供大家参考采纳。

从所有用户维度数据和核心业务多纬度来激烈对抗深度分析。

用户两个维度:

1)失信画像分析,初始认证等级、甚至年龄、以及性别、学历等单一维度的逾期情况占比分布图要如何?

2)失信企业用户行为分析,是否开网店,是否有信用报告、是否才完成户口机构认证、是否顺利完成视频认证证书,是否第一次借款协议的未还款占情况多如何才能?

业务方面维度:

1)不同年龄、年龄和性别会对按时还款和归还贷款产生什么很大影响?以及各年龄段、性别的贷款业务比例?

2)拨备覆盖率与不同的初始公司评级之间有什么相关关系?以及各初始评级的发放贷款比重?

3)偿还借款主要属性(不同类型、基准利率、累计金额、最长期限)的同的会对分期还款产生影响么?以及各借款期限属性的贷款业务比重?

基于数据以上相关信息,我从画像分析以及不良资产率两个业务其他指标出发,按照以下整体思路开展详细分析。

选择以下16个维度对数据情况开展分析:借款期限、借款金额、借贷利率、初始目标价、偿还借款类型、是否首标、年龄、性别、智能手机认证、户籍公司认证、集锦机构认证、国外学历认证、个人信用机构认证、淘宝认证、标由于目前逾期金额、待还利息。

四、特征工程

1.将excel表格文件的内容里的文件导入redis中

2.为了方便快捷综合分析,重命名保折问中文

3.空值、重复值处理方式

检査注意到客户一包括编号在我们的记录销售日期约束条件下,有106个重复值。

执行以上词语,再次检查并新表内空值和再重复值均处理方式顺利完成。

4.异常值相关处理

再次检查注意到,手机中认证,户籍公司认证,我们的记录发货日期不存在异常值

将异常值做删除内容处理,可以得到处理任务的表lcisnew,共291230列。

5.检查数据全面,发现已经很完备,无需再做一致化相关处理

五.数据挖掘

1.普通用户多纬度

逾期还款用户行为所有用户的基本信息,其中包括初始公司评级、甚至年龄、年龄性别、学历高分布数量

1)初始目标价逾期情况占比分布数量

使用sql语句获得最佳分析因为,然后导出功能到excle中对其草图折线图,完成数据的可视化。

从其实统计图表中也可以的得出:

初始公司评级为E的逾期普通用户比列最大,其次是D、F、C,而目标价最高的aaa和aaa企业则基本上没有逾期的现象事件发生。

2)年龄阶段逾期%广泛分布

由数据显示可以明显看出,各个年龄阶段逾期份额相对平均,都在4%左右独自徘徊,但是18-22岁之间,这些刚刚成年刚刚的年轻人们贷款逾期最为严重。

3)性别逾期情况占分布区域

从分析结果也能分析得出,在年龄性别不同分类中,分男女未还款占区别不是非常明显,男性为4%比现代女性的逾期还款占多一个个百分点。

4)学历未还款份额集中分布

从分析因为中可以看出,在有无已完成国外学历认证中,逾期%差别也同样不是非常明显,当然才完成国外学历认证的普通用户逾期占比比不能完成的稍大几点。

逾期用户行为普通用户行为方面自身属性,包括淘宝网公司认证、迁移户口机构认证、两部手机获得认证、相关视频认证证书、征信认证证书、是否第一次借贷分布。

1)淘宝公司认证逾期情况份额分布数量

2)户口认证贷款逾期占比高集中分布

3)智能手机公司认证逾期情况占比广泛分布

4)集锦认证未还款份额广泛分布

5)个人征信认证逾期占比分布数量

6)是否首标逾期份额分布数量

将以上这一个普通用户行为方面特殊属性维度开展数据可视化的就:

对比以上五个两个维度能够结论是:

已经顺利完成网店店主机构认证的用户的逾期比率比并没有任务淘宝店家机构认证的贷款逾期比重小,而是否首标则对逾期金额基本上没有影响到。

另外户口迁入、两部手机、征信认证证书成功的逾期%都要比未获得认证顺利的逾期比率要高,这让我非常惊诧,分别人行征信机构认证成功的逾期还款%比未成功的比率高出很多。

比率高出这么多的原因是什么呢?

接下里试着寻找不会产生这个区别的是原因之一。

统计结果调查发现,拍拍贷平台96%之多的现有用户都是实际完成人行征信认证证书的。逾期还款占=逾期还款总体数量/总人数。就是说未顺利认证证书的数达也就是相除非常大,那么占比高足够低,也就不足为奇了。

那么对于学历背景、迁户口认证、人行征信认证、精彩集锦机构认证、手机中认证、网店店主等信息内容构筑的逾期情况人群画像,我们还需要更全面的数据全面才有拉锯战详细分析。

人群画像单一维度综合分析最后总结

1)逾期发现用户主要资源集中在18-22岁之间,这些刚刚成年期不久的中国的年轻人逾期金额最为严重。可能的原因是这各人群大部分是在校大学生或者刚刚步入职场的,他们在匮乏稳定其他收入的情况严重下,过度借贷消费提升生活质量,加剧未还款的可能发生。

2)逾期所有用户较多是初始目标价为E的发现用户,其次是D、F、C,而评级最高的aaa和aa级则基本上但是逾期的情况严重严重事故。

3)在男女性别差异和文凭诸多方面,不论男女逾期还款占不同之处不是非常明显,女性和男性为4%比年轻女性的逾期还款占多一个0.5个百分点。任务学位认证,高中及以上学历要比实际完成获得认证的贷款逾期比率要低。

2.其他业务多纬度综合分析

上去我们从用户画像多纬度并了分析,接下里从其他业务两个维度并对综合分析。

1)拨备覆盖率随记录时间点变动趋势

从柱状图可以看到,2013年中国国内互联网金融大行业,历程了各种大事记,随之之后国家出台了更严厉的监管方各种手段,而互联网时代金融业的愈弱也完美展现仅,后排企业占比高大部分市场份额,成交情况增速趋缓明显。从数据情况中看出,2016年下半年,拍拍贷其他资产不良资产率普遍提高,一直到2017去年底,达到7.38%。

2)不良贷款余额与年龄段、性别之间相关性综合分析以及按年龄区间、性别和年龄的发放贷款比率

年龄阶段、性别的放贷比列

可视化数据结果:

由图中计算出来:

不同的年龄段在42-50岁的范围内内,不良贷款余额最高达6.88%,35-42不良贷款率也有33的数值,而不良资产率最高42-50岁年龄区间,对应发放贷款比列则是7.16%,35-42岁年龄阶段区域范围内,对应放贷比率是17%,不良贷款率达了6%。这在可以控制整体贷款逾期潜在的风险技术方面,是非常不利的。所以第十二条格外关注更多,大大降低该年龄贷款不良率,或者更好的控制该年龄段放贷总体数量,以期将风险因素降低。

理想的不良资产率和放贷比列其他参数其实是负相关的。即随着拨备覆盖率不断急剧升高,下表中的放贷%所以越低,这样才有确保合理的风险把控。女性和男性不良资产率比已婚女性高,放贷%大小男性群体又一直处于处于劣势。强烈建议其它平台也能在贷款业务比重上,多放给年轻女性,以期均衡风险性。

2)拨备覆盖率与cabsi首次评级之间相关关系详细分析以及按l1r评级的借贷比重

由图可见:

放贷70%%资源集中在初始首次评级为a和c的普通用户,评级低于的F,贷款业务量最小为0.09%,E也仅仅只有61。在风险控制诸多方面信而富的评级指标值和小贷公司比例搭配方式相对科学合理。B划分原则优普通用户,作为平台提供的高度控盘所有用户群,拥有大不到4%的不良率和近一般的借款总额,是比较合理的去选择,同时aaa企业用户的放贷比率非常低,能够大力开发。同时整体上自不必说1k和aaa级发现用户的合作开发上看,拨备覆盖率和发放贷款%基本上升阶段负相关,特指比较合理的坏帐被控制的其结构,在d级别用户和e级用户的借贷比例上,还有合理的被压缩整体空间。

3)拨备覆盖率与借款类型、贷款利率、总额、期限之间相关关系综合分析以及按其调整分配的借贷比重

拨备覆盖率与借款期限不同类型之间相关性综合分析,以及偿还借款不同的类型借贷比列

不良贷款余额与借款利率之间正相关综合分析,以及借款利率放贷%。利率抽签(3-7,10-13,13-16,16-19,20-22,26-28)

不良率与借款数额之间负相关详细分析,以及借款金额贷款业务比重。借款抽签(<1200,1200-8000,8000-20000,20000-50000,50000-80000,,80000-120000,120000-200000,200000-300000,>=300000)

拨备覆盖率与借款利率之间相关关系分析,以及借款金额放贷比列。

对分析结果对其数据建模:

由图可见,

借款人三种类型中,应收款生命安全低估值股票拨备覆盖率跌至,几乎为0。应收款安全保障标,拍拍贷平台提供上偿还借款低估值股票的一种。所有用户以自身在趣店站内应收款项作担保,完全满足&34;应收票据小于借款额&38;的条件。而线上电商类型的不良贷款率则60%以上,并且在放贷比重上,互联网电商类型的借款占比也是28%左右。所以所以要尽量更多开发除电商平台类型之外的归还借款类型,降低电商类借款期限比重,降低风险。年化利率在14-17这个区间走势内,不良率提升到16%,25%的贷款业务比重偏高。从整体上信而富平台借贷利率以10-14为主力阵容。而市场利率8-10和14-17五个区间走势的用户不良资产率相对最高,借款较差。借款数额和不良资产率相关关系整体上看,随着借款金额变大,拨备覆盖率有急剧升高的趋势,其中20w-30w之间,贷款不良率最高,而小于130w以上的不良资产率又相对不高。这有4的主要原因,需要更多的最终数据进一步分析得出计算出来。借款额的拨备覆盖率和放贷比列整体负相关,非常符合减少风险规定要求。借款利率的不良贷款率和放贷比重负相关性较差,如果无法有效减少风险,仅60的贷款业务做出贡献是两年和半年人民币贷款,一般都是资金周转,很快借款的,这或许是由品台的所有用户分类做出的决定,这些应付票据的用途和所有用户特点,我们必须更多的数据数据支持它。六.深度分析简单总结和个人建议

1.未还款用户画像

1)逾期现有用户主要大部分在18-22岁之间,这些刚刚幼年时期刚的中国的年轻人逾期还款最为严重。这各人群大部分是在校生或者刚刚步入职场的,他们在匮乏不稳定其收入的现象下,过度负债消费提升生活品质,直接后果逾期的严重事故。

2)逾期还款普通用户较多是初始公司评级为E的用户,其次是D、F、C。逾期用户更多可能会是女性。并且未完成学位认证的。

关于未还款人群画像,我们还可以更多具体有效的数据情况才能更快的过程描述用户,不建议平台根据逾期还款画像分析,更审慎开展互联网业务。

2.维度分析下,不良率相关性

1)年龄差异在35-50岁高低点范围外内,不良率相对较高,而已婚女性用户的不良资产率较高,还款达成会速度更快。35-50岁高低点,不良贷款率比较高,贷款业务比例相对较低。

强烈建议降低该年龄不良率,或者控制该年龄阶段发放贷款数量增加,以期将风险大大降低。

2)公司评级多个方面,其它平台60的贷款业务给到c和a初始评级的发现用户。而E、D、F五个目标价最靠后的用户,不良贷款率也是最高,逾期发生的概率也是最高。

这跟大平台的首次评级体系构建不一致。个人建议被压缩a和c的借贷量,并且更多其开发pa,aaa级现有用户借款消费需求。

3)归还借款主要属性多个方面,偿还借款不同的类型中应收帐款安全及标,不良贷款率最低,而电商类逾期的可能会最高,同时发放贷款比例较高,鉴于贷款不良率和发放贷款比例负相关内容,建议三再压缩放贷量。

利率水平中,8-10最低利率,不良率相对最高,违约发生的可能性更强;借款期限多个方面,总体上总额越高,不良资产率想对越高。

而借款时间技术方面,其它平台主要用户民间借贷以几个月、一年的短期调整多以,其中24、12、6、7的借款时间贷款不良率比较低,可能发生严重违约可能会较大。

中间项目一shutterstock社群正式会员未优化之前的其他内容

(https://www.cnblogs.com/p/61逆侠9855)

我们一起来是项目中做出修改意见:

1.人群画像没有努力构建进去

虽然在一起来说用户画像里的每个两部分,但是没有简单总结能说出逾贷的客户画像。肖像图是一个人的更立体,你把他数据拆分开了,就都不知道这个未还款的的具体信息是你觉得,只能是。一部分。

你觉得真正立体的输出范围呢?

约等于是一个人,然后你必须做个最后总结,坏账率高的人,30岁,学历背景等等都是你觉得的。

2分析得出肯定再更加深入一些找出具体主要原因,如何深入剖析呢?

分析和研究简单的例子,假如数据模型结果注意到男性逾期数据低于现代女性,这时候你要问自己一个为什么?

这与文凭有关系吗?与注册有实际关系?数据是关联度的,而不是独立开的,所以你要深入去综合分析,多问一下为什么呢。

而你这里没有深入分析,是因为犯了一个主观倾向的大错误,天然就感觉男性逾期数据会更高,而不探求他的具体是因为。

每做出一个结论,就打一个两个问题?为什么是这样?然后去综合分析一下,这也是数据模型中的培养批判性思维。

应该每个推论都问一下为什么会如此?原因四这样的最终有哪些影响到因素?再去综合分析一下,去锻炼你的详细分析思考方式,不然你的得出的结论就会一晃而过在表皮,显得很鸡肋。

例如18-22岁的综合利率会更高,这恐怕从事医学商业银行行业5年的人都是其实,你每次都只是分析得出这么里层的推论,那其他银行要你来干嘛!所以你要更深入分析这个原因,给出会更好的应对方法来。

3.建议三给的太浅,不其能执行性

比如18-22岁的人刚出校园,严重事故坏账率高,不应该怎么处理过程?这个你所以深度的思考一下。

用户画像进去,建议三给的都不好,问题解决的都是浅层次的问题。

更透彻的两个层次的所以是做一个未还款用户画像他的目标是什么?他要解决了什么问题?

做个举个例子,既然用户画像有了,为什么不建个信贷用户风险因素核心体系呢?每个点都设个平均分,然后推论总成绩,最后来把所有用户分等级,例如甚至年龄14-18,为4分,初始买入评级E为4分,最后把这些项目项目分析得出135分来,就是这个人的用户画像的。

比如达61分的就不贷,或者受限制申请贷款总体数量等等。每个人都公讼于不同的按揭贷款三个等级。所以个人建议你做个信贷规模发现用户风险评价,你那些强烈建议都是很浅层的,不能够根本难题民间贷款的问题。

4.对最终数据不够敏感

比如分析得出中说3%-4%总觉得不明显,这其实在相关统计上都是30%的差别了。

做项目中的必经阶段就是一个逐步优化学习中的过程,期望学习社群双层结构的讨论和建议三也可以帮助学习社群vip会员更好的进一步完善新项目。

推荐三:如何用最短的时间无法找到初级数据产品经理其它工作?

私域操盘咨询

免费获取私域运营资料

申请免费使用

在线咨询