基本信息

【插图】

编辑推荐
资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅
以降低学习曲线和阅读难度为宗旨,重点讲解了统计与概率、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图
内容简介
计算机书籍
本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选:
·大数据产业解读一一剖析产业情况,人才供需、职业选择与相应“武器”库;
·步入大数据之门一一解读数据、信息、算法,以及与大数据应用的关系;
·大数据基石一一结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
·大数据算法奥义——信息论、向量空间、回归、聚类、分类等最为核心的算法的释义与应用,举重若轻;
·大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等最实用、最需要了解的应用的原理与实现;
·大数据主流框架一一介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
·系统架构与调优一一从速度与稳定性方面给出调优的一般性“内功心法”;
·大数据价值与变现一一从运营指标、AB测试、大数据价值与变现场景多维度解读。
作译者
居的大数据产品市场战略与产品战略。专注于大数据系统架构以及变现研究。擅长数据挖掘、数据建模、关系型数据库应用以及大数据框架Hadoop、
Spark、Cassandra、Prestodb等的应用。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。
卫
峥,西山居软件架构师,多年的软件开发和架构经验,精通C/C 、Python、Golang、JavaScript等多门编程语言,近几年专注于数据
处理、机器学算法的研究、应用与服务研发。曾在新浪网平台架构部负责音视频转码平台的架构和研发工作,为新浪微博,新浪微盘,秒拍等提供视频在线观看服
务。51CTO讲师。
尹会生,西山居高级系统工程师。曾任新浪研发中心技术经理、北京尚观科技高级讲师。在新浪广告、微博广告、西山
居大数据平台架构中担任关键角色。擅长企业集群解决方案和内核调优经验,并提供高性能和高可用性集群咨询服务。近4年专注于Hadoop集群、Spark
集群在推荐系统和BI相关领域的解决方案。
万娟,星盘科技有限公司UI设计师平面,对VI设计、包装、海报设计等、商业插画、App交互、网页设计等有独到认识。多次参与智能家居和智能音箱等项目的UI设计。多次参加国际和国内艺术和工业设计比赛,并获奖。从小酷爱绘画,理想是开一个属于自己的画室。
目录
第1章 大数据产业 1
1.1 大数据产业现状 1
1.2 对大数据产业的理解 2
1.3 大数据人才 3
1.3.1 供需失衡 3
1.3.2 人才方向 3
1.3.3 环节和工具 5
1.3.4 门槛障碍 6
1.4 小结 8
第2章 步入数据之门 9
2.1 什么是数据 9
2.2 什么是信息 10
2.3 什么是算法 12
2.4 统计、概率和数据挖掘 13
2.5 什么是商业智能 13
2.6 小结 14
第3章 排列组合与古典概型 15
3.1 排列组合的概念 16
3.1.1 公平的决断——扔硬币 16
前言
不知从何时开始我们已周身没入大数据时代的潮流,不知不觉被卷入了大数据时代。
无论是每天上网看网页、聊QQ、聊微信,或者登录银行、网购、买票,或者出行、投宿,甚至是出入任何公众场合、驾车、用水用电……我们无时无刻不在生产着各种数据。而同时我们也在消费着其他人生产的数据,我们使用的众多家电产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析;我们使用的每一部手机、每一台电脑,每一个部件的产出都融入着多得无法想象的指标数据控制下的生产与监控;我们访问的每一个网页、每一个软件,每一次享受到的贴心的产品改动和服务的升级,无不浸透着无数的数据汇集与精细的分析和反馈。这是一场慢慢到来的、贯穿所有产业的革命,这是一次润物细无声的各行业精耕细作的开端。
不管我们是不是愿意,不管我们有没有意识到,我们现在已经身处大数据时代的奇点,而未来要迎接的是大数据奇点爆炸给我们带来的冲击力。我们需要力量来驾驭浪里的航船,我们需要乘风破浪前进的动力。
在这一次远航中,我们不必担心自己的能力水平无法感知数据这种磅礴之力的气魄,不必担心晦涩难懂的公式定理会让我们感到阻力。
请相信我,这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘和机器学习的读本,这是一本没有门槛的机器学习实战手册。让我们一起扬帆远航吧!
本书特色
从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。
这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。
为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。
读者对象
(1)对大数据感兴趣但是完全不了解的技术人员。
(2)对机器学习和数据挖掘比较感兴趣的技术人员。
(3)大数据初级从业人员。
如何阅读本书
本书一共分为18章。
第1章~第5章为入门所需基础知识及对数据指标运营的阐述。
第6章~第10章是对数据挖掘基础知识与算法的介绍。
第11章~第18章为生产应用与高级扩展。
其中,第1章~第15章正文内容,以及第17章、第18章的正文内容由高扬编写。