数据挖掘技术在银行信贷风险管理中的应用_新闻_

浦发银行信贷业务风险控制入门教程.ppt

夏春梅

摘要：为了开发一个中国邮政储蓄银行某分行的信贷风险管理系统，采用了数据挖掘技术。首先对数据挖掘和数据仓库技术的相关概念进行了介绍，对现有的信贷管理情况进行了分析，结合我国银行业的实际特点，得到了一个基于数据挖掘的信贷风险管理模型的设计和实现方法。在此基础上，通过在分类以前进行属性选择，不仅改善了分类器的总体性能，也降低了数据采集成本，可以提高银行信贷工作的效率。

关键字：数据挖掘；分类算法；决策树；信贷风险管理

中图分类号： TN964?34 文献标识码： A 文章编号： 1004?373X（2014）04?0078?04

Application of data mining technology in loan risk management

XIA Chun?mei

（Binzhou University， Binzhou 256600， China）

Abstract： In order to develop a loan risk management system for Binzhou Branch of Postal Savings Bank of China， the data mining （DM） technology is applied. The relevant concepts of DM and data warehouse technology are introduced. The available circumstances existing in the credit information management is analyzed. In combination with the actual characteristics of Chinese banking industry， a loan risk management model based on DM was designed. By attributes selection before classification， the overall performance of the classifier was improved， and the data acquisition cost was reduced. As a result， the efficiency of the bank credit service was improved.

Keywords： data mining； classification algorithm； decision tree； loan risk management

0 引言

长期以来，银行管理人员由于硬件设施和数据处理技术的限制，不能全面把握贷款的相关信息，往往不能对信贷资产的风险做出正确的评估，从而导致决策失误。如何从海量的数据中发掘出风险评估的规律使银行规避风险成为银行业面临的一大挑战。

经中国政府批准，中国邮政储蓄银行有限责任公司于2007年3月6日依法成立。邮政储蓄小额贷款业务不需质押、抵押，具有担保方式灵活、放款速度快、贷款额度高等优点。对于拓宽城乡居民融资渠道、有效缓解农民“贷款难”问题、促进农民增收、农村经济发展具有重要意义。但是，防范风险是金融业永恒的主题，在推出业务的同时要加强宏观经济形势分析和市场调研，密切关注可能出现的各种风险，维护金融安全稳定。在银行信贷风险管理中使用数据挖掘技术，可以从海量的信贷数据中发现隐藏在其中的客观规律，还可以更好地降低金融机构存在的业务风险。本文就是运用数据挖掘技术来解决邮政某银行的信贷风险管理问题。

1 提出问题

数据挖掘（Data Mining），数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又可能有用的信息和知识的一种新技术[1]，是从海量数据中发现人们事先未知的、规律性的，隐蔽信息和知识的非平凡过程[2]。数据挖掘和知识发现理论自1989年8月提出至今得到了广泛的研究，内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型[3]、知识表示方法、发现知识的维护和再利用、半结构和非结构化数据中的知识发现以及网上数据挖掘等。

现在有很多适用于各种商业应用横向解决方案（Horizontal Solution）的通用数据挖掘系统，而专用的数据挖掘系统的应用多集中在电信、保险、生物医学、零售业等部门[4]。数据挖掘的所有工作都应该与工作领域的实际业务相挂钩，银行业要根据各个银行不同信贷业务的特点来确定具体的数据分析主题。全国的众多银行受各个地方的经济发展水平等各种因素的影响，肯定会存在一些业务差异和业务特色。所以，只有紧密结合某个具体银行业的实际业务，确定一个合适的数据分析主题，这样的数据挖掘成果才具有现实意义。本文定义了贷款风险分类分析作为数据挖掘的目标。

贷款管理一般使用贷款风险分类法对贷款质量进行分类。中国人民银行按照风险程度将贷款划分为不同档次，并于2001年12月颁布了《贷款风险分类指导原则》，把贷款分为5类：正常、关注、次级、可疑和损失。期中后3类合称为不良贷款[5]。商业银行可以直接采用此标准对贷款风险进行分类，也可以根据指导原则制定自己的贷款分类制度。但是，要求商业银行制定的贷款分类制度必须和中国人民银行采用的贷款风险分类法具有非常明确的对应和转换关系。

可以通过数据挖掘，分析不同类别贷款的具有的特征，建立一个模型。当有一笔新申请贷款时，可以利用模型估计它的类别，从而针对不同类别的贷款申请采取相应的措施。例如，对属于正常范围的贷款可以直接批准通过，而对于关注以下的贷款则需要加强审查，或者加强对该企业的贷后检查，或者拒绝贷款，从而提高了信贷资产的安全性。当然，信贷资产的风险等级也会随着企业经营情况发生变化，银行需要每隔一定的时间对每一笔贷款的当前分类进行重新分析，提高信贷风险的管理力度，降低银行信贷资产的损失。

2 问题解决

本文采用WEKA3.5.7作为数据挖掘平台。怀卡托智能分析环境（Waikato Environment for Knowledge Analysis，WEKA）是一个开放源码的数据挖掘软件[6]。

2.1 原始数据描述

据统计，由于[23]的邮政储蓄网点都是在县及县以下的地方，自开办邮政储蓄小额质押贷款和小额贷款业务以来，80%的贷款发放到了农村地区。邮政储蓄小额贷款业务又分为农户小额贷款和商户小额贷款两种。其中，农户小额贷款指的是向农户发放的用于满足其农作物种植、养殖业或非农业（日用百货、生产加工、服务、建筑类、运输等）生产经营等需要的短期贷款。商户小额贷款是指向从事批发零售、服务业（餐饮类）、生产加工等部门的微小企业主提供的用来满足其经营中资金需求的贷款。本文选择了邮政储蓄小额贷款业务中的商户小额贷款作为研究对象。商户小额贷款又分为2种：商户联保贷款和商户保证贷款。

对于本文所研究的商户小额贷款业务来说，涉及的数据表很多，如客户及家庭信息表、业务信息表、采购信息表、季节性分析表、毛利率计算表、资产负债表、损益表、保证人信息表、小组联保信息表等。这些信息虽然都与业务相关，但并非都有利于本文的研究。为了不侵犯和泄漏商户的秘密，本文在提取数据过程中过滤了营业执照编号、商户姓名、居住地址、店名或厂名、联系方式等属性。经过分析，抽取了客户代码、婚姻状况、贷款种类、教育程度、年龄、贷款额度、贷款期限、还款方式、主营业务、经营年限、流动资产总额、固定资产总额、负债、月净收入、月投入、信用、分类结果17个字段作为事实表数据。

2.2 数据预处理

经过初步采集的源数据往往是不完整的、有噪声的和不一致的。银行的数据库中由于人工输入错误，收集数据设备的故障、以及数据传输中出现的错误造成了银行数据库中的大量噪声数据[7]。并且有些属性，如客户的收入状况，包括收入的来源都没有详尽的正确的记录。有些数据如住房情况、工作单位、职务、家庭人口情况在输入数据库时为空值。所以，对于这些错误和空值数据有必要先进行预处理。

在这个阶段，主要进行数据收集、数据选择、数据清理、数据变换等工作。在提取数据时选择了17个属性字段，从数据库中随机抽取整理了100条记录。其中，婚姻状况均为已婚（未婚不予贷款），还款方式均为阶段性等额本息还款法，对分类没有参考价值，去除这2个属性。客户代码取值有许多且无概化操作，属性删除。对其他属性字段的概化结果如表1所示。

表1 概化后的属性字段

在分类抽取整理的客户资料中一共有52个己分类的案例。其中正常类30个，关注类9个，次级类6个，可疑类5个，损失类2个。

由于损失类的借款人财务资料绝大多数无法获得，故只有前4类参与。实际是正常类30个，关注类9个，次级类6个，可疑类5个，一共50个。

根据上面的数据准备，得到了此模型的训练数据集如表2所示。

2.3 构造决策树

上表的数据已经全部转换为WEKA可以读取的数据文件格式（CSV Data Files），接下来利用WEKA来建立模型。启动WEKA的Explorer界面，并载入数据。然后选择一种构建决策树[8]的方法将树建立起来。通过对BFTree，DecisionStump，J48，LMT，NBTree，RandomForest，Randomtree，REPTree，SimpleCart 9种分类器的实验结果分析，J48分类器的准确率最高。

2.4 模型评估

根据建立的分类模型和样本数据，评估模型的预测准确率。模型的准确率可以用被模型正确分类的测试样本的百分比表示，如模型的预测正确率是可以接受的，就可以用来指导对客户群分类。应用J48分类器进行分类评估，准确率为82%，即50个样本数据中，对41个进行了正确分类，有9个分类不正确。该评估结果是通过默认的分层10折交叉验证得到的。

3 改进

数据挖掘从源数据发掘、知识发现到应用是一个系统的过程[8]，而不仅仅是需要有算法。在分类过程中，一般随着选择属性数目的增加分类性能会有所提高。但是，当属性增加到一定程度后，有时再增加属性反而会导致分类性能有所下降，这种现象称为Hughes现象。因此，虽然从理论角度来讲，多选择几个属性意味着信息量的增加，但是属性过多时反而会使性能变差，因为实际应用总是作用在规模有限的样本之上。因此，在分类器集成设计中进行属性消减是十分必要的。

可以通过2种方法消减问题域中的属性数目：属性提取和属性选择[9]。属性提取通过某种映射将一个处于高维空间的样本转换为一个低维空间的样本。映射后的属性称为二次属性，它们是原始属性的某种组合（通常是线性组合）。属性提取在广义上就是一种变换。若X是原始的测量空间，X′是属性空间，则变换X→X′就叫作属性提取器。属性选择是指从一组属性中挑选出一些最有效的属性以有效降低空间维数的过程。属性选择可以看作属性提取的一个特例。对变量进行提取往往失去了结果的可解释性。特别的，对于离散变量而言，进行属性提取是没有意义的。因此，本文着重研究属性选择方法。

在对样本数据集建立分类模型之前，先进行属性选择处理。WEKA中提供了“Select attributes”专门用于属性选择。通过对“Search method”的选择比较，属性选择的结果大部分为6个属性：年龄、经营年限、负债、月净收入、月投入、信誉状况，根据以上属性选择结果，从样本数据集中去掉其他属性，共保留包括贷款类别在内的7个属性，重新利用J48分类器建立决策树模型。准确率提高为86%，即50个样本数据中，对43个进行了正确分类，有7个分类不正确。

上面利用J48分类器构建的决策树模型准确率是可以接受的，银行可以为每一笔新申请贷款通过模型得出一个估计的类别，从而针对不同类别的贷款申请采取相应的措施。例如，对属于正常范围的贷款可以直接批准通过，而对于关注以下的贷款则需要加强审查，或者加强对该企业的贷后检查，或者拒绝贷款，从而提高了信贷资产的安全性。当然，信贷资产的风险等级也会随着企业经营情况发生变化，银行需要每隔一定时间重新分析每笔贷款的当前分类，然后总结出贷款分类特征的变化趋势，提高信贷风险的管理力度，降低信贷资产的损失。

4 结论

在应用中选择和概化了与分类结果密切相关的14个属性字段，将大量的数据进行了预处理，得到训练集。然后利用WEKA3.5.7挖掘平台对训练集进行了有效的数据挖掘。这里选择了J48分类算法，通过在分类以前进行属性选择，不仅改善了分类器的总体性能，也降低了数据采集成本，显著提高了银行信贷工作的效率。至此，完成了数据挖掘技术在一个基于决策树分类技术的贷款风险分类的简单应用。

参考文献

[1] 王珊，萨师煊.数据库系统概论[M].4版.北京：高等教育出版社，2006.

[2] 张云涛，龚玲.数据挖掘原理与技术[M].北京：电子工业出版社，2004.

[3] 陈贵林.一种定性定量信息转换的不确定性模型：云模型[J].计算机应用研究，2010，27（6）：2006?2010.

[4] YU Ming?kai， GOU Xue?rong， ZHANG Xun， et al. Research of SOA?based data mining application platform in telecommunications industry [J]. Computer Systems & Applications， 2009（6）： 196?202.

[5] 林跃雄.商业银行分支机构利用贷款风险分类调节利润的主要做法和防范对策[J].经济师，2009（11）：195?197.

[6] 佚名.数据挖掘软件：WEKA [EB/OL]. [2008?09?20]. http：// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石，李玉忱，刘乃丽，等.在属性级别上处理噪声数据的数据清洗算法[J].计算机工程，2005（9）：86?87.

[8] KAMBER M.数据挖掘概念与技术[M].2版.范明，孟小峰，译.北京：机械工业出版社，2007.

[9] 焦鹏，王新政，谢鹏远.基于属性选择法的朴素贝叶斯分类器性能改进[J].电讯技术，2013（3）：329?333.

[10] 朱元波.一种数据挖掘系统的研究与实现[J].电子科技，2013（3）：99?101.

[11] 周牒岚，陈琳，向华.数据挖掘算法研究[J].现代电子技术，2011，34（20）：75?78.

[12] 陈光海.基于SOA的网上银行客户评估系统的研究与实现[J].现代电子技术，2009，32（24）：42?44.

[13] 龙海燕，奚振斐，宋国乡.基于模糊综合评判防范的电子银行内部风险分析[J].现代电子技术，2008，31（24）：151?153.

[14] 张蕾.电子银行的风险分析及对策[J].电子设计工程，2009（6）：25?27.

4 结论

参考文献

[1] 王珊，萨师煊.数据库系统概论[M].4版.北京：高等教育出版社，2006.

[2] 张云涛，龚玲.数据挖掘原理与技术[M].北京：电子工业出版社，2004.

[3] 陈贵林.一种定性定量信息转换的不确定性模型：云模型[J].计算机应用研究，2010，27（6）：2006?2010.

[5] 林跃雄.商业银行分支机构利用贷款风险分类调节利润的主要做法和防范对策[J].经济师，2009（11）：195?197.

[6] 佚名.数据挖掘软件：WEKA [EB/OL]. [2008?09?20]. http：// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石，李玉忱，刘乃丽，等.在属性级别上处理噪声数据的数据清洗算法[J].计算机工程，2005（9）：86?87.

[8] KAMBER M.数据挖掘概念与技术[M].2版.范明，孟小峰，译.北京：机械工业出版社，2007.

[9] 焦鹏，王新政，谢鹏远.基于属性选择法的朴素贝叶斯分类器性能改进[J].电讯技术，2013（3）：329?333.

[10] 朱元波.一种数据挖掘系统的研究与实现[J].电子科技，2013（3）：99?101.

[11] 周牒岚，陈琳，向华.数据挖掘算法研究[J].现代电子技术，2011，34（20）：75?78.

[12] 陈光海.基于SOA的网上银行客户评估系统的研究与实现[J].现代电子技术，2009，32（24）：42?44.

[13] 龙海燕，奚振斐，宋国乡.基于模糊综合评判防范的电子银行内部风险分析[J].现代电子技术，2008，31（24）：151?153.

[14] 张蕾.电子银行的风险分析及对策[J].电子设计工程，2009（6）：25?27.

4 结论

参考文献

[1] 王珊，萨师煊.数据库系统概论[M].4版.北京：高等教育出版社，2006.

[2] 张云涛，龚玲.数据挖掘原理与技术[M].北京：电子工业出版社，2004.

[3] 陈贵林.一种定性定量信息转换的不确定性模型：云模型[J].计算机应用研究，2010，27（6）：2006?2010.

[5] 林跃雄.商业银行分支机构利用贷款风险分类调节利润的主要做法和防范对策[J].经济师，2009（11）：195?197.

[6] 佚名.数据挖掘软件：WEKA [EB/OL]. [2008?09?20]. http：// www.baike.baidu.com/ view/ 1380214.htm.

[7] 王石，李玉忱，刘乃丽，等.在属性级别上处理噪声数据的数据清洗算法[J].计算机工程，2005（9）：86?87.

[8] KAMBER M.数据挖掘概念与技术[M].2版.范明，孟小峰，译.北京：机械工业出版社，2007.

[9] 焦鹏，王新政，谢鹏远.基于属性选择法的朴素贝叶斯分类器性能改进[J].电讯技术，2013（3）：329?333.

[10] 朱元波.一种数据挖掘系统的研究与实现[J].电子科技，2013（3）：99?101.

[11] 周牒岚，陈琳，向华.数据挖掘算法研究[J].现代电子技术，2011，34（20）：75?78.

[12] 陈光海.基于SOA的网上银行客户评估系统的研究与实现[J].现代电子技术，2009，32（24）：42?44.

[13] 龙海燕，奚振斐，宋国乡.基于模糊综合评判防范的电子银行内部风险分析[J].现代电子技术，2008，31（24）：151?153.

[14] 张蕾.电子银行的风险分析及对策[J].电子设计工程，2009（6）：25?27.