基本信息

【插图】

编辑推荐
风控、AI、算法领域的资深专家撰写,10位专家联袂推荐
内容简介
计算机书籍
内容介绍
本书基于Python全面介绍了机器学习在信贷风控领域的应用与实践,从原理、算法与工程实践3个维度全面展开,包含21种实用算法和26个解决方案。
作者是智能风控、人工智能和算法领域的资深专家,曾在多加知名金融科技企业从事风控算法方面的研究与实践,经验丰富,本书得到了风控领域9位专家的高度评价。
全书一共8章,每个章节都由问题、算法、案例三部分组成,具有系统性和实战性。
第1-2章讲解了信贷业务的基础知识以及常用的规则引擎、信用评估引擎的建模方法。
第3章以项目冷启动为背景,讲解了风控领域应用广泛的迁移学习方法。
第4-5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。
第6章阐述了无监督的异常识别算法,该算法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经作者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。
第8章重点讲解了知识图谱相关的复杂网络基础知识及网络表示学习方法,其中的社区发现算法常用于团伙欺诈检测。此外,本章中的部分方法对信用评估模型的优化也有很大帮助。
作译者
梅子行
资深风控技术专家、AI技术专家和算法专家,现就职于满帮科技,负责机器学习在风控领域的算法优化。历任多家知名金融科技公司的风控算法研究员、数据挖掘工程师。
师承Experian、Discover等企业的资深风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
公众号与知乎专栏:“大数据风控与机器学习”。
目录
前言
第1章 风控建模与规则挖掘 / 1
1.1 信贷与风险 / 1
1.1.1 信贷业务与互联网金融风控体系 / 1
1.1.2 信贷风险与控制 / 4
1.2 工业建模流程 / 5
1.2.1 抽象业务 / 6
1.2.2 定义标签 / 6
1.2.3 样本选取 / 7
1.2.4 特征工程与模型调优 / 9
1.2.5 上线监控与评估报表 / 10
1.3 规则挖掘方案 / 13
1.4 本章小结 / 20
第2章 集成模型评分卡 / 21
2.1 特征工程解析 / 21
2.1.1 特征与模型 / 22
2.1.2 信用模型的特征 / 22
2.2 特征衍生方案 / 24
2.3 离散处理 / 27
前言
风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:
第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。
第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。
第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。
第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。
笔者研读市面上智能风控相关的学习资料时发现,入门资料非常丰富,而专门介绍风控领域机器学习技术的进阶资料几乎没有,因此决心写一本构建风控领域机器学习体系的书,且希望原理与实践并重,帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开,重点介绍欺诈检测的机器学习方法。
读者对象
本书主要面向从事风险控制工作的广大分析师、建模师、算法工程师,也适合对传统信用评分卡有初步认识的在校学生,以及对机器学习在风控领域应用感兴趣的读者。
本书特色
与市面上许多风控建模相关的图书不同,本书主要使用机器学习方法进行信用管理,而不是使用传统的统计分析手段与逻辑回归评分卡的内容。有关构建信贷评分卡的内容,本书最后的参考文献中所列的书籍已经讲解得非常透彻了,因此传统评分卡在本书中仅以对比机器学习评分卡的形式出现。对于信贷领域的基础概念,本书不作过多展开,只对本书中涉及的部分加以解释。
本书初稿的篇幅是目前的两倍以上,详细介绍了风控领域每一个场景的算法原理及业务逻辑,但经与专业人士反复探讨,笔者最终决定将与参考文献中所列图书重合度较高的内容去掉,而将笔墨集中在解决问题相关的算法及实际应用上。
本书的大部分章节都由问题、算法、案例三部分组成。期望读者通过对本书的阅读,可以更快、更好地解决实际问题,而非纸上谈兵。本书中的案例大多为业内尚未普及的前沿案例,希望能够对读者有所启发。
本书中有大量公式和代码,为提高可读性,特邀请资深设计师毛鑫宇老师为本书手绘素材及插图,希望在保证内容丰富、严谨、实用的同时,让读者感受到读书的乐趣。
如何阅读这本书
本书是一本专注于介绍机器学习算法在风控领域的应用的书籍,具有很强的实践性。全书共8章,包含21种实用算法与26种解决方案。
第1~2章讲解了信贷业务的基础知识及常用的规则引擎、信用评估引擎的建模方法。
第3章围绕迁移学习展开,并以项目冷启动为背景进行介绍。迁移学习在风控领域的应用非常广泛。
第4~5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。在实际应用中,迁移学习可以为这两种场景带来很多帮助。
媒体评论
——刘鹏 科大讯飞副总裁,《计算广告》作者
本书主要关注金融科技在信贷领域的创新应用,算法原理与工程实践并重,在理论与现实之间架起了一座坚实的桥梁。
——李志勇 西南财经大学金融学院信用管理系主任/《信用评分工具》等书译者
本书可读性强,漫画风格;实战性强,每个知识点都有案例;技术和算法在风控领域也比较超前,如生成对抗网络、迁移学习等。阅读过程像是给自己的风控体系做诊断,在确认病因后,本书还提供了药方。
——黄莹 历任微软解决方案专家/DataVisor资深风控顾问
对于初学者而言,书的易读性很重要,这本书的最大特点是内容表达形式丰富多样。还给出了大量源代码,让读者很容易上手实践。
——闫光 某四大风险咨询高级总监/信息安全专家
本书全面讲解了机器学习算法在风控和反欺诈领域的应用,读者既能学习机器学习算法,又能理解智能风控在业务中的具体应用。
——艾辉融360高级技术经理/前饿了么高级技术经理
将书中的迁移学习、模型融合、图卷积神经网络等新知识点与自身的策略知识与业务经验相结合,建立客群分层衍生变量、融合模型等,模型性能会有较大提升,值得大家反复阅读。
——周立烽前阿里系禧云、腾讯系微盟风控总监
本书最大的特点是对多种新兴检测方法的覆盖,它很好地平衡了理论性与工程性的比例,并提供了全面的实例代码,值得从业者和研究者反复阅读。
——赵越 卡内基梅隆大学在读博士/PyOD作者
作者基于丰富的从业经验,结合详实的案例,为读者提供了风控模型策略开发的全流程方案。
——谢士晨 中银富登高级数据分析经理/R和Python包ScoreCard作者
如果你正在从事或者希望从事数据分析、风控建模、算法工程类工作,相信此书不会让你失望。
——翟锟 华亿嘉科技风控总监
全书以案例驱动,案例多来自一线业务,有非常强的业务指向性,所提供的方案与代码也有非常强的实操性。
——范晓锋 阿里巴巴本地生活资深总监