(特价书)大数据架构和算法实现之路:电商系统的技术实战
作者荣获美国政府颁发的"美国杰出人才"称号,本书集其10多年科研经验之精华。
源码资本合伙人、前金山软件CEO、前微软亚太研发集团首席技术官张宏江先生作序推荐。
基本信息

编辑推荐
作者是IBM研究院资深科学家、微软学者、并获得了美国杰出人才称号。曾在eBay、沃尔玛1号店和大润发飞牛网等多家电商公司摸爬滚打,本书集其10多年研发经验之大成。
内容简介
计算机书籍
全书介绍了一些主流些技术在商业项目中的应用,包括:机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念以及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch,Hadoop、HBase、Hive、Flume、Kafka,Storm等系统。和前作不同之处在于,本书完全是面向技术人员,因此提供了大量详尽的实现步骤和代码分析。不过,本书在技术和商业结合方面,仍然和前作保持一致,从具体业务需求出发演变到合理的技术方案和实现,根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。
作译者
目录
前言
引子 1
第一篇 支持高效的运营
第1章 方案设计和技术选型:分类 5
1.1 分类的基本概念 6
1.2 分类任务的处理流程 7
1.3 算法:朴素贝叶斯和K最近邻 8
1.3.1 朴素贝叶斯 8
1.3.2 K最近邻 9
1.4 分类效果评估 10
1.5 相关软件:R和Mahout 12
1.5.1 R简介 12
1.5.2 Mahout简介 13
1.5.3 Hadoop简介 14
1.6 案例实践 17
1.6.1 实验环境设置 17
1.6.2 中文分词 18
1.6.3 使用R进行朴素贝叶斯分类 22
1.6.4 使用R进行K最近邻分类 37
前言
首先要感谢机械工业出版社华章公司的编辑们,在他们的大力支持下,我于2016年出版了《大数据架构商业之路:从业务需求到技术方案》一书,并获得了良好的销售额和口碑。不少读者主动和我联系,表示从书中学习到了如何使用大数据的知识,来制定合理的技术方案。能够让读者从书中获益,我也感到非常欣慰。与此同时,也有部分读者表示对于技术的细节很感兴趣,对此书未能包含实现部分深感遗憾。对此,我一直在犹豫是否需要重新写一版,包含更多的实战内容。因为《大数据架构商业之路:从业务需求到技术方案》一书的定位是最大程度地弥补业务需求和技术方案之间的空白,针对的读者主要是互联网公司的技术管理人员、产品经理、初级的架构师等。如果直接加入过多的技术细节,可能会导致该书的定位不清,让读者难以获得最佳的阅读体验。
与本书的策划编辑杨老师再三讨论之后,我决定不在原书中加入更多的实现部分,而是重新撰写一本兄弟篇。这本全新的书,仍然会沿用前作的故事背景和应用场景,不过读者对象改为资深的程序员、算法工程师、数据科学家和系统架构师。因此,新作将大幅缩减基础知识的详细介绍以及业务需求的逐步分析,而是直接进入实战的主题,包括系统架构、算法设计,甚至是重要的代码部分。当然,我也不希望该书全由代码堆砌而成,因此主要针对核心代码进行了讲解。全部的实例代码会以其他形式来提供。
虽然定位有所不同,但是我仍然希望保持前作深入浅出的特点。
易读易懂。黄小明和杨大宝的创业故事在稍作修改的基础之上得以保留,继续使用生动的案例和形象的比喻来解读难点,降低理解的门槛。
可实践性强。本书选取了电子商务的平台,通过分享大量实践才能积累的宝贵经验和重点代码,最大程度地弥补业务需求和技术方案之间的空白。与此同时,针对频繁升级的开源软件,我也采用了2016年年底到2017年年初最新的版本。因此,部分代码甚至可作为中小公司创业起步的参考模板。这有利于技术人员针对不同的业务需求,规划更为合理的技术方案。
最后,我们衷心希望本书成为相关领域技术专家的良师益友,大家在阅读之后,对电商大数据的实践能有更加深入的理解,并对自己所从事的项目有所裨益。
读者对象
根据本书撰写的起心动念,我们觉得其内容适合如下的读者。
大数据相关领域的程序开发者和技术骨干。从本书中,他们可以看到常见的互联网公司从创业初期到中期,应该怎样设计数据平台、如何解决技术上的难题,才能最终满足业务需求。
中小互联网创业公司的数据科学家或者算法工程师。算法是数据平台的一个关键因素。最近几年,人工智能、机器学习乃至深度学习都是学术界和工业界的一大热点,而数据科学家也成为受人追捧的职业。合理地运用智能算法将从很大程度上节约重复劳动的成本,提高效率和转化率,最终增加商业的价值。
架构工程师。架构是数据平台的另一个关键因素,很多刚刚从院校毕业、工作没多久的朋友,学了一身的本领,对新技术也很有热情,可惜没有太多实践的机会。本书中的案例,浓缩了不少业界实践的经验和心得,如能融会贯通,对他们的工作将有很大帮助。同时,覆盖面较广的技术课题概述,也为他们继续深入研究提供了方向和可能。
总之,本书适合钻研实现细节的程序员、工程师和算法专家。和前作的侧重点有所不同,本书并不适合作为入门教程使用。因此建议没有相关基础知识的读者,读完前作之后再来阅读此书。
如何阅读本书
本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。
勘误和支持
众所周知,大数据的发展实在是太快了。可能就在你阅读这段文字的同时,又有一项新的技术诞生了,N项技术升级了,M项技术被淘汰了。再加之笔者的水平有限,书中难免会出现一些不够准确或遗漏的地方,恳请读者通过如下的渠道积极建议和斧正,我们很期待能够收到你们的真挚反馈。
QQ:36638279
微信:18616692855
邮箱:s_huang790228@hotmail.com
序言
不过,在利用大数据技术创新的时候,人们往往面临这样的困惑:对于某类技术,如何找到合适的应用场景?反之亦然。所以,无论是在微软还是金山时,我们都非常强调将科研成果转变为实际的产品的过程。在创新的同时,需要找到合理的产品解决方案和定位。本书的作者黄申曾经在微软亚洲研究院工作,从事机器学习相关的研究。之后他加入了eBay中国等多家电子商务公司,对于大数据技术在电商领域的应用有着自己独到的见解。相信本书能够从电商业务的需求出发,解析技术实战的难点,探讨大数据和商业的结合之道,帮助大家打造更多实用型的创新产品。
张宏江先生,源码资本合伙人,前金山软件CEO、前微软亚太研发集团CTO
2017年4月
媒体评论
不过,在利用大数据技术创新的时候,人们往往面临这样的困惑:对于某类技术,如何找到合适的应用场景?反之亦然。所以,无论是在微软还是金山时,我们都非常强调将科研成果转变为实际的产品的过程。在创新的同时,需要找到合理的产品解决方案和定位。本书的作者黄申曾经在微软亚洲研究院工作,从事机器学习相关的研究。之后他加入了eBay中国等多家电子商务公司,对于大数据技术在电商领域的应用有着自己独到的见解。相信本书能够从电商业务的需求出发,解析技术实战的难点,探讨大数据和商业的结合之道,帮助大家打造更多实用型的创新产品。
——张宏江先生,源码资本合伙人,前金山软件CEO、前微软亚太研发集团CTO
中国作为现在*大的互联网市场,在电子商务及新兴的互联网、移动互联网等领域充满了挑战和机会。而大数据的技术、架构和应用是未来各个公司竞争力的基础。作者在电商领域多年的实战经验总结,深谙相关系统的架构和实现,本书用生动的案例和场景来驱动,浅显易懂的讲述了电商系统中大数据相关的技术框架、架构实现以及应用等,是不可多得的大数据参考著作。
——韩卿,Apache Kylin 联合创建者&PMC Chair,Kyligence联合创建者&CEO
从事互联网的同仁都明白:深入理解我们顾客的需求是多么的重要,它已经成为战胜竞争对手、赢得市场的关键因素。我们需要思考如何从技术的角度出发,充分利用大数据的知识和工具,全面提升顾客体验,最后促使公司的业务增长。如果你想了解在电商领域怎样才能做到技术驱动业务,那么或许这本书将提供不少有趣的答案,包括从技术方案的选型、对比、直至最终的实现细节。
——张雪峰,饿了么CTO
近几年,AlphaGo人机大战、无人驾驶、深度学习等关键词不断的推进人工智能产业的发展。我们很有幸见证了不少历史性的时刻。与此同时,我也深信人工智能将会运用在更为广泛的领域中。电子商务这个相对成熟的领域,也正因为人工智能的到来而不断进化。本书的作者利用其多年的研发经验,向我们展示了如何巧妙地利用机器学习算法,提升电商平台的品质和服务,并提出了一些很有创意的实现,值得一读。
——张本宇,云脑科技(CloudBrain)创始人,前Google、Facebook技术骨干
"})