数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
腾讯、滴滴、快手的数据科学家、数据分析师、算法工程师经验总结
基本信息

【插图】

编辑推荐
从商业理解、量化模型、数据技术3个维度全面讲解数据科学的应用场景、理论支撑和技术底座
腾讯、滴滴、快手的数据科学家、数据分析师、
算法工程师经验总结
内容简介
计算机书籍
内容简介
这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。
全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。
第1部分(第 1~6 章) 观测数据的分析技术
讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。
第二部分(第7~9章)实验设计和分析技术
从 A/B 实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。
第三部分(第10~12章) 自助式数据科学平台SQLFlow
针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。
作译者
经济学博士
腾讯 QQ 浏览器副总经理、QQ 浏览器数据负责人。
CCF 数据科学专委会创始委员,入选第1财经数据科学50 人。
曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。
缪莹莹
浙江大学硕士,滴滴首席数据科学家,CCF 数据科学专委会委员。发表十余项国家发明专利及国际发明专利,具有丰富的数据仓库建设、数据挖掘建模、实验科学与战略分析的经验。带领团队用数据的方式驱动从 0 到 1 的初创形态的业务和成熟形态业务的增长,善于发现业务机会和风险,给业务带来巨大价值。
高梓尧
快手数据分析总监,长期在美国硅谷和中国多家互联网科技公司从事用户分析、实验设计等相关工作。曾带领滴滴数据科学团队与蚂蚁金服联合开源共建一站式机器学习工具 SQLFlow。拥有多项国家发明专利。清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾、泛华统计协会演讲嘉宾。
王子玲
上海交通大学计算数学硕士,曾任滴滴高级数据科学家、高级模型专家、高级风控专家。先后任职于日企 MTI、人人网、滴滴出行、爱奇艺等知名互联网企业,在网约车出行、互联网金融、在线音乐、短视频、网游等领域积累了丰富的大数据分析、策略、挖掘、建模、研究、应用经验。负责过两段公司级重点项目从 0 到 1 增长的整体数据驱动体系设计及落地。申请平台智能定价及优化算法系统等十余项国家发明专利及国际发明专利。
周银河
现任腾讯数据科学家,曾任滴滴数据科学家,清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾。拥有丰富的数据分析、统计建模及实验设计经验。
丁芬
曾任滴滴数据科学家,曾就职于美团、滴滴等国内知名互联网公司,工作经历涉及商场咨询、信贷风控、网约车交易及信息流等领域。
苏涛
物理学博士,美国生物物理学会会员。曾任中国科学院研究助理,研究量子计算和主动流体。后任乔治华盛顿大学计算物理研究员,从事细胞模拟、生物领域机器学习、高性能计算等方向的研究。2017 年进入互联网行业,先后在 Elex 和滴滴进行数学模型、算法和数据科学方向的研究,熟悉复杂网络、流形几何嵌入、时频分析以及相关的机器学习和优化方法。
王禹
目录
1.1选择行为的经济学理论 1
1.1.1 选择无处不在 1
1.1.2 选择行为的经济学理论 2
1.2 用户选择行为计量分析框架:DCM 4
1.2.1 从经济模型到计量模型 4
1.2.2 常用的DCM模型及应用场景 8
1.3 DCM模型的Python实践 11
1.3.1软件包&数据格式 11
1.3.2 使用Logistics Regression分析自驾选择问题 15
1.3.3 使用 Multinomial Logit Model 分析完整交通方式选择问题 21
1.3.4 使用 Nested Logit Model 分析完整交通方式选择问题 25
1.4 本章小节 27
第二章:随时间可变的行为分析 27
2.1 从“如何给二手车定价”案例说起 27
2.1.1 二手车定价背景 27
2.1.2 为什么不选择一般回归模型? 28
2.1.3 为什么选择生存分析? 29
2.2 生存分析的理论框架 29
2.2.2 生存函数及风险函数刻画 34
前言
2011年,《哈佛商业评论》将数据科学称作“21世纪最吸引人的行业”,随后,数据科学这个概念开始从互联网漫延到各行各业。但是人们对这个概念的内涵和外延并无统一的认知,同时,数据科学也不像软件工程、市场营销等方向有较为明确的教育体系作为支撑,开设“数据科学”学科和课程的学校都是2011年之后才开始探索的,并且大多没有一个适用于工业应用的课程体系。从业人员普遍反映需要一个系统的框架来搭建自己的技术栈和知识体系,从而提升专业化的能力。因此,市场上迫切需要一本覆盖面广、应用性强、深入浅出的数据科学手册。
本书的作者是国内数据科学一线的从业者,创作目的主要有以下三个。
1)提供一个以商业场景为导向的实用量化方法论。数据科学是为商业服务的,最重要的能力是收敛开放的商业问题,并有针对性地选择适当的量化框架进行后验数据分析。这是一个相辅相成的过程,收敛的过程既依赖对业务的深刻理解,又需要充分理解各种分析框架的假设和抽象原理。
2)提供一个入门的台阶,供读者按图索骥、深入研究。数据科学领域知识面广,又有一定的深度,需要长期的学习和经验的积累。一本书很难涵盖数据科学的所有知识点,但是本书可以点明关键节点,起到引导作用,帮助读者进行后续的进阶学习。
3)展示数据科学所需的专业能力和门槛,为读者在求职过程中找准定位、为人事部门进行职能设计提供范例。现在数据科学领域的就业和招聘十分热门,但是能说清数据科学专家到底需要什么样的技能、需要达到什么样的程度,以及这个行业有什么典型成功案例的人却非常少。
读者对象
本书适合以下读者:
初入职场的数据分析师,用于升级个人专业分析技能;
从业多年的数据科学管理者,用于梳理、整合知识体系,提升团队能力;
数据科学、商业分析等专业的师生,用于延展阅读;
数据科学行业的人力专家和猎头,用于标定潜在候选人能力。
本书特色
相比于市面上其他数据科学相关图书,本书有以下特色。
1)将技术与商业场景紧密结合,强调开放性商业问题在量化分析上的收敛。市场上不乏纯技术类的数据科学图书和各种机器学习建模、统计计算的图书,但是这些书都跳过了对开放式商业问题的思考,直接针对已经非常明确的建模本身进行介绍。本书则将重心放在案例分析的全流程上,既讲解量化模型的理论,又解释商业到数理模型的映射过程,还强调了对模型结果的解读和应用,实用性非常强。
2)这是国内第一本系统介绍统计实验在多种复杂商业场景下具体应用的书。统计实验相关的图书通常分为三类:第一类侧重理论研究,对于已经工作的读者来说实践意义不大,且学习难度高;第二类是将生物医学领域的理论和案例相结合,这类书的应用场景和背景与互联网行业相差较大,不容易做到举一反三;第三类是少部分互联网领域统计实验的书,这类书多是外文,知识较新,阅读门槛较高,通常针对互联网广告和搜索领域,在不理解理论背景的情况下也难以迁移到其他场景。
3)本书应用场景覆盖面广,强调实用,可操作性强,将方法论与配套案例的背景、代码、解读等模块结合在一起,让读者学习后即可运用在实践中。
如何阅读本书
这是一本将数据科学三要素—商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。
全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的最新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。
媒体评论
——郄小虎 腾讯公司副总裁
数据的爆炸式增长对企业如何科学地、正确地使用数据去驱动业务增长提出了极高的要求。本书总结了大量作者团队在用户行为模式的量化分析与机器学习建模方面的实战经验,能帮助读者快速建立系统的分析框架,提高利用数据分析工具进行业务分析的能力,非常适合互联网数据分析和对商业分析感兴趣的从业者阅读。
——叶杰平 贝壳找房技术副总裁/首席科学家
本书从数据科学的定义、价值、工具等角度清晰地回答了数据科学是什么、能做什么以及怎么做的问题。它在许多重要的议题上,比如观测类数据的分析、实验的方案设计与实验分析等方面都提供了详尽的介绍,是一本教科书级别的著作。在实战上,本书介绍的工具、技术与方法论,都是围绕具体的商业命题展开的,能帮助读者更加深刻地理解自己工作的内容和价值,带来技能和认知的双重提升。我强烈建议从事数据行业的同学深读这本书。
——陈炬 网易数据委员会负责人/网易严选数据及风控部门负责人
数据科学近年来在国内逐渐兴起,并从互联网快速渗透到各行各业,在数字化转型大潮中起着越来越重要的作用,而关于数据科学的定义和技术认知并不清晰,结合商业场景的数据科学工程实践类图书更是少之又少。本书恰好弥补了这一空白,既结合商业理解对量化模型、实验设计进行了深入浅出的阐述,又有各种数据技术的实操代码实现,还有面向未来的自助式数据科学平台实践,非常适合数据相关从业者阅读参考。
——巴川 竞技世界首席数据科学家/中国计算机学会技术前线数据科学SIG主席
21世纪是数据为王的时代。本书作者结合一线实战经验,深入浅出地介绍了数据科学的核心知识点,并从出行、定价等领域的实例出发,对用户行为分析和机器学习建模进行了大量的实战讨论,推荐从业人员阅读。
——Mingxing Tan 谷歌大脑研究员