基本信息

编辑推荐
资深数据科学家和金融技术专家超过12年的数据科学工作经验总结
从技术、业务、商业实战3个维度为数据科学家的养成提供系统化学习路径
内容简介
计算机书籍
本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;第5章讲解数据规整、清洗的重要技能;第6章介绍数据科学领域实用的四大统计检验;第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;第8章讲解使用逻辑回归作评分卡模型;第9章讲解另外一个可解释模型——决策树。第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;第13~14章作为一个整体讲解商业分析场景下的信息压缩;第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;第17章继续使用欺诈识别案例讲解集成学习算法;第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。
作译者
常国珍
资深数据科学专家和金融技术专家。北京大学会计学博士,中国大数据产业生态联盟专家委员会委员。
2005年进入数据科学领域,先后在亚信、德勤等企业从事电信、金融行业数据挖掘工作,现就职于中银消费金融有限公司数据管理部。专注于消费金融领域的数据治理、客户智能与风险智能。
赵仁乾
资深数据科学家,在电信大数据和机器学习领域有丰富的实践经验。
现就职于北京电信规划设计院任高级经济师,负责通信、ICT项目工程与业务咨询,专注电信市场数据分析,重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、大数据及人工智能运营规划等。
张秋剑
资深大数据专家和金融行业技术专家,上海师范大学计算机科学技术硕士。
现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。
目录
第1章数据科学家的武器库
11数据科学的基本概念
12数理统计技术
121描述性统计分析
122统计推断与统计建模
13数据挖掘的技术与方法
14描述性数据挖掘算法示例
141聚类分析——客户细分
142关联规则分析
15预测性数据挖掘算法示例
151决策树
152KNN算法
153Logistic回归
154神经网络
155支持向量机
156集成学习
157预测类模型讲解
158预测类模型评估概述
第2章Python概述
前言
本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,而且都辅以图形进行形象地展现。本书将不同算法看作功能各异的工具,比如用于煮饭的闷锅、用于炒菜的炒锅,每种工具的操作方式都应该遵循相应的说明书,因此对于每种算法我们强调其假设、适用条件与商业数据分析主题的匹配。我们在实践教学中发现,业务经验丰富和有较好商业模式理解能力的学员,在掌握数据科学的技能方面具有明显的优势。这主要是因为这类学员有较强的思辨能力和分析能力,学习的目的性和质量意识较强,不只是简单地模仿和套用数学公式,所以本书也注重对读者思辩能力和分析能力的培养。
本书相当于Python的数据科学工具箱,专门提供了不同数据运用主题的操作框架。不同于一般泛泛而讲的运用案例,落地性强,便于读者实际运用。
本书不是一本教科书或案例集,而是一本提供数据挖掘路线图与解决方案的实战手册。2014年我们编写了一套使用SAS进行商业数据分析的书,得到了读者的认可。2016年我们同时启动了R和Python数据科学方面的写作工作。我们在Python上投入了数倍于R的精力,但是R的书如期问世,而本书却推迟了近一年,原因是Python目前还无法满足精细数据分析的要求。
在数据分析领域,如果说SAS是冲锋枪,那R就是手枪,Python就是匕首。打过CS的同学都知道,使用冲锋枪不需要枪法有多好,只要资金充足,新手都能得心应手。而使用手枪的必定是枪法很准的老手。出门使用匕首杀敌的,必定是神级选手。但是切记,不是使用匕首就是神级,只有使用匕首杀敌并活下来的才是。Python虽然语法优美,开发效率和执行效率均高,但是它是开发工程师的语言,不是面向分析师的,因此分析师要想需要造很多轮子。Python虽然目前方兴未艾,但是在数据科学领域的路还很漫长,投资于未来是艰苦而收益颇丰的。作为用好Python,一部由工作在一线的“文科”背景作者编写的数据科学图书,本书力图降低Python的学习难度,尝试提供不同分析主题的数据科学工作模板,满足亿万“文科生”的数字化转型需求。
读者对象
(1)大数据营销分析人员
营销是大数据落地项目最多的领域,也是数据科学活跃的重镇,数据分析能力将是衡量营销分析人员最重要的指标。可以说未来的每一位营销分析人员,都必须是数据科学工作者。
(2)顾客关系管理人员和数据产品经理
随着工业40时代的到来,标准化制造将逐步被定制化制造取代。因此对客户价值、客户满意度与客户忠诚度的分析将会愈加重要,这些都需要使用到本书中介绍的数据科学工具。
(3)风险管控人员
本书可以作为风险预测模型的工具箱使用。
(4)IT转型人员
在我们开设的数据科学课程中,将近1/3的学员从事IT工作,学员们表示本书内容对其转型提供了很大的帮助。
(5)大中院校学生
本书的内容面向实战,适合作为本硕阶段的参考书。
如何阅读本书
本书有三种阅读方式。
第一种方式:阅读完第1章之后,直接阅读第19章,以案例为导向,遇到不懂的知识点再翻阅之前的内容。这个方式适合在岗的初级数据工作者。
第二种方式:按照客户生命不同周期的数据分析主题,分别从本书中找到获客营销、信用评级、客户画像、精准营销、客户分群、交叉销售、流失预警等内容并逐一学习。这个方式适合市场营销方向的工作者和学生使用。
媒体评论
—— 王玲 华泰证券信息技术部总经理
人工智能成为国家战略后,我们需要更好的手段来重塑个人、商业和社会的未来图谱关系。人工智能将颠覆现有的商务模式,并将部分取代人类工作中程式化、重复性的工作。所以,我们的工作必须有足够的深度,让自己强大到不会轻易被机器撼动。Python是非常重要和流行的人工智能编程语言和技术,本书将告诉你如何用Python解决人工智能领域的各种问题,好读易懂,有趣有料,为你找到人生新的定位。
—— 姚远 普华永道管理咨询主管合伙人&首席数据科学家
功能强大、易于上手的Python俨然已经成为数据科学家必备的利器,本书就像一本武功秘籍,由浅入深,循序渐进,让有志于成为数据科学家的读者快速掌握数据分析技能。从基础到实战,从数据处理到建模,从编程到业务分析,脉络清晰,详而不繁,值得推荐。
—— 张磊 SAS软件中国有限公司首席数据科学家
从事咨询业多年,我深感各领域的业务人员都对数据科学兴趣盎然,但大多数人都觉得缺少合适的案头参考。本书对于机器学习的初学者来说,是很好的入门向导:它巧妙地连接了业务与数据,也连接了案例与通识,而Python又无疑是数据科学工具的未来方向。书中的内容循序渐进、由浅入深,每读完书中一章,读者都能真正掌握一种解决问题的方法,了解一个商业场景的实现。我会将此书推荐给想要亲自动手一试各类算法的业务精英。
—— 魏秋萍 毕马威大数据团队学科带头人