基本信息
- 作者: 赵宏田胡争 范欣欣
- 出版社:机械工业出版社
- ISBN:9782002271033
- 上架时间:2020-2-27
- 出版日期:2020 年1月
- 开本:16开
- 页码:266
- 版次:1-1
- 所属分类:计算机 > 电子商务与计算机文化 > 综合

编辑推荐
---------------------------用户画像:方法论与工程化解决方案---------------------------
从技术、产品、运营3个维度详尽阐述从0到1搭建用户画像系统的技术栈和方法论
---------------------------HBase原理与实践---------------------------
这是一本深入介绍HBase系统的书籍,由HBasePMC成员与网易资深工程师倾力打造,多位技术专家联袂推荐。本书不仅用大量图片详细解剖HBase内核,还用案例展示了HBase的开发运维技巧,是一本不可能多得的高质量图书,值得每一位大数据开发运维人员放在案头深读。
内容简介
计算机书籍
---------------------------用户画像:方法论与工程化解决方案---------------------------
本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案。
全书共分为9个章节。
第一章 用户画像基础:讲述用户画像的一些基础概念、数据仓库架构、整个项目开发的流程、以及画像相关的表结构设计;
第二章 数据指标体系:从用户属性、用户行为、用户消费、风险控制等四个维度详细罗列了常用到的用户标签,这些标签基本涵盖了大部分场景一半以上的标签需求。同时介绍了标签的规范化命名方式;
第三章 标签数据存储:讲了为什么使用Hive、MySQL、hbase等数据库对标签数据进行存储,以及存储实现方式;
第四章 标签数据开发:本章是全书的重点章节,讲述了统计类标签、规则类标签、挖掘类标签、流式计算类标签的开发。以及用户特征库、人群计算、标签权重计算、打通数据服务层等方面的开发。;
第五章 开发性能调优:主要包括数据倾斜调优、开发中间表、读取小文件处理、redis缓存热数据等数据性能优化方面;
第六章 作业流程调度:数据的ETL调度是数据开发中的重要内容,本章主要讲了如何使用当下热门的开源调度工具Airflow进行数据的调度及场景调度异常的排查工作;
第七章 用户画像产品化:开发画像后的标签数据,如果只是“躺在”数据仓库中,并不能发挥更大的业务价值。只有将画像数据产品化后才能更方便业务方的使用。本章主要讲述了产品端的用户画像是什么样子?如何帮助业务人员进行分析,提供服务的;
第八章 用户画像应用:用户画像的应用包括用户分析、商品分析、流量分析、push、短信、邮件等营销以及站内的个性化推荐等应用场景;
第九章 实践案例详解:前面的八个章节主要从工程化开发的角度讲了如何从0到1搭建起用户画像系统及其应用场景,本章从完整的工业实践应用角度,通过两个实践案例帮助读者更好地理解画像系统是如何切入到应用场景中帮助提升工作效率、提高ROI的。
---------------------------HBase原理与实践---------------------------
作译者
---------------------------HBase原理与实践---------------------------
胡争小米公司HBase工程师,Apache HBase PMC成员,负责Apache HBase项目研发及小米HBase集群维护,对HBase及相关分布式存储系统有很多独到的见解。开源技术爱好者,长期活跃在Apache开源社区,热衷技术分享
范欣欣现就职于网易杭州研究院数据科学中心,负责HBase以及分布式时序数据库的内核开发运维工作,对HBase的底层工作原理进行了长时间的探索和深入研究,撰写了大量有关HBase和时序数据库相关的技术文章,深受读者好评。此外,对大数据生态以及数据仓库也有深刻而独到的理解。
目录
---------------------------用户画像:方法论与工程化解决方案---------------------------
前言
第1章 用户画像基础1
1.1 用户画像是什么1
1.1.1 画像简介1
1.1.2 标签类型3
1.2 数据架构4
1.3 主要覆盖模块5
1.4 开发阶段流程7
1.4.1 开发上线流程7
1.4.2 各阶段关键产出9
1.5 画像应用的落地10
1.6 某用户画像案例11
1.6.1 案例背景介绍11
1.6.2 相关元数据12
前言
---------------------------用户画像:方法论与工程化解决方案---------------------------
为什么写这本书
我曾在知乎“数据智能”专栏下面不定期连载关于用户画像的文章,也曾在知乎开设过几期live直播,还曾在天善智能等网课平台开设过系列网课“用户画像解决方案”。在和同行业中对画像感兴趣的朋友们交流时,我发现大家虽然来自地产、烟草、零售、互联网等不同行业,但所在公司对用户画像领域都有建设需求,而且大家对于指标体系、标签作业效率(ETL)、标签监控、实时计算、画像产品化、业务应用场景和应用方式等方面都有进一步了解的兴趣。所以我想对这些年做用户画像的经验、踩过的“坑”进行梳理总结,为数据开发、数据分析、运营、用户研究等岗位的工作人员提供一些参考。
在写这份解决方案的一个个夜晚,我有时会想,科技和时代都在飞速发展,如果有一天我不做这一行了,该拿什么来回忆那些年奋斗的时光呢?2019年,我第3次从0到1开始搭建用户画像系统,从离线标签开发、用户数据分析、ETL调度、流式计算开发,到打通数据服务层、应用画像数据服务业务方、获得业务增长的反馈,这一路走过来,过程是痛苦的,收获是丰富的。奋斗的日子固然多彩,回望一步步走过的路,谨以此书向那些不舍昼夜奔腾向前的日子致敬。
本书特色
开始做用户画像的时候我也不知道从何处下手,市面上介绍Hive、Spark、HBase、MySQL、数据仓库等大数据相关技术的书籍很多,但是介绍用户画像搭建开发的书籍很少,甚至没有。在没有相关项目经验的情况下,我不知道如何把这些大数据组件统筹起来搭建用户画像系统。直到这两年,我才一边开发画像系统,一边总结梳理,最终编纂成本书。
本书借助数据仓库实现一套用户画像系统的方案。从实际工程案例出发,结合多业务场景,内容涵盖开发离线批处理计算的标签及流式计算标签,为读者的分析、开发、搭建用户画像系统,并借助该用户画像系统为运营人员制定运营用户的策略提供端到端的解决方案。
一套好的解决方案需要包括以下几个层面。
1)架构层:在画像系统的架构层,本书首先介绍了画像数据仓库的架构,进一步介绍了数据存储的技术选型,在什么场景下使用Hive、MySQL、HBase、Elasticsearch等工具存储数据,用户标签开发、人群计算开发等相应数据开发层面的内容,以及整个项目的开发流程和各阶段的关键产出。
2)流量层:介绍整个方案是如何运作起来的。本书主要涉及画像系统的作业流程调度、数据仓库和各业务系统的打通。
3)业务层:包括系统的前后端交互以及如何把这套系统应用在业务服务层面。本书通过用户画像产品化介绍了产品端和画像系统的“代码”层面是如何进行交互操作的。
4)方案价值:包括系统上线后如何服务于各业务场景产生业务价值以及有待进一步完善的地方。
以上几个层面的内容构成了一套完整的用户画像解决方案,这也是本书各章节覆盖的全部模块。
数据的最终目的是走出数据仓库,应用到业务系统和营销系统中来驱动营收增长。
我在学习数据仓库的时候学过Kimball的《数据仓库工具箱》,其中关于数据仓库的34个子系统的介绍对我影响很大,其对于如何解决特定问题并形成结构化思维有着系统的方法论与解决方案。虽然面对具体问题的处理方式是灵活且丰富多样的,但是固定的结构化思维有利于快速找到突破口,形成良好的开端。
媒体评论
---------------------------用户画像:方法论与工程化解决方案---------------------------
在众多数据分析方法中,用户画像几乎是后期数据工作的“标配”,适用于应用层的个性化推荐、精准营销、客群管理和运营等各个场景。宏田的这本书涵盖画像基础、指标体系搭建、数据存储、数据开发、性能调优、流程调度、产品化案例和实践应用等内容,完整、详实且落地性强,假以时日,会成为有关用户画像的里程碑式的经典书籍。
—— 宋天龙(TonySong) 触脉咨询合伙人兼副总裁/《Python数据分析与数据化运营》作者
本书围绕用户画像主题进行了深度剖析,从实战角度结合多业务场景对用户画像相关技术进行详细讲解。通过本书的学习可以系统地掌握如何搭建一套完整的用户画像系统,掌握所需要的理论知识和技能。宏田对用户画像理解透彻,实战经验丰富,推荐读者品读。
——肖冠宇 小象科技合伙人
用户画像对于企业战略决策和战术实施极为关键,其体系建设是一个非常复杂的工程。本书从方法论和工程化两个层面给出了实际解决方案,对于企业的用户画像体系构建与实践具有极高的参考意义,同时也是数据从业人员难得的参考书籍,强烈推荐。
—— 黄小伟 有赞数据分析团队负责人
用户画像是数据分析和算法工程都无法绕过的话题,书中手把手教授工程实现、模型搭建、应用场景等内容,对于做分层策略的运营人员、追求用户体验的产品经理、寻找解决方案的数据分析师、搭建底层特征的算法工程师来说,是不可多得的案头工具书!
——李宁 阿里本地生活数据分析专家
---------------------------HBase原理与实践---------------------------