基本信息
编辑推荐
(1)全面剖析当前大数据领域中的主流技术,并配以行业应用实例和一线研发人员的独到见解。
(2)配置精美彩插,多视角完美展现大数据的力量。
(3)学界知名专家李凯、企业领袖刘强东联袂作序推荐。
内容简介
作译者
目录
第一部分 大数据技术概览
第1章 概述 2
1.1 什么是大数据 2
1.1.1 大数据的定义及特征 3
1.1.2 大数据结构类型 6
1.1.3 大数据实例 8
1.2 大数据发展史 10
1.3 大数据技术架构 12
1.4 机遇与挑战 14
参考文献 16
第2章 大数据应用 18
2.1 大数据驱动新应用 18
2.1.1 大数据生态系统 18
2.1.2 新的业务应用 20
2.2 行业应用实例 22
2.2.1 奥巴马的大数据 22
2.2.2 预测犯罪 23
2.2.3 数据让游戏更精彩 24
2.2.4 智能交通 25
前言
大数据技术横跨多个技术领域,从数据存储、虚拟化和云计算,到数据库管理、并行计算和数据挖掘。要想将诸多方面的技术通过清晰的脉络组织在一起并非易事。考虑到本书内容的系统性,我们根据多年来在大数据领域的实践经验,提出了四层堆栈式大数据技术架构,即基础层、管理层、分析层和应用层。当前主流大数据相关技术将通过这个架构逐层展示。本书的另一特点是技术与实践相结合。通过对多个行业中的大数据需求的剖析,力求让读者了解大数据时代的成因,以及大数据为企业带来的机遇和挑战。除此之外,针对多个典型行业,我们还邀请领域专家一起,共同介绍和分析切实可行的行业大数据解决方案。每个方案都将是我们之前介绍的大数据技术的具体实践。
本书分为两部分,共11章,内容安排如下。
第一部分是大数据技术概览,包括第1章至第6章。主要基于大数据技术架构涉及的技术范畴,着重分层介绍各种主流技术的原理、发展及应用。力图向读者展现一个全面的、有组织的、实用的大数据技术概览。
第1章首先介绍大数据的定义。虽然不同的企业和领域对大数据的定义不尽相同,但都广泛提及了大数据在3个主要维度上的特征,即3V¬——Volume(数量)、Variety(种类)和Velocity(速度)。随后,基于不同的结构对大数据进行了分类,并列举了各种行业实例。本章还提纲挈领地介绍了堆栈式4层大数据技术架构,即基础层、管理层、分析层和应用层,及各层特点。最后分析了大数据带来的机遇和挑战。
第2章介绍了大数据技术架构的最上层¬——大数据应用。新的大数据生态系统中的各种实体分别产生、处理和消费着数据。大数据催生了新的业务应用,新的业务应用又产生了新的数据,周而复始使得数据与应用相互发展着。本章总结了多个行业的大数据应用实例,希望借此揭示大数据技术发展的迫切需求、大数据的价值,以及如何促使企业获取竞争优势。
从第3章开始,我们从大数据技术架构的最底层依次向上介绍。第3章介绍大数据基础设施,这是整个大数据技术架构的基础,是大数据解决方案得以实施的支撑环境。云计算技术首当其冲,与大数据具有密不可分的联系,提供了适合大数据应用的存储和计算环境,可扩展、透明、高效、可靠。成熟的云平台技术,更是为大数据提供了平台支持。
第4章介绍大数据管理。从大数据事务处理到分析处理,系统总结了当今流行的大数据管理技术,包括由传统数据库通过并行化发展而来的大规模并行处理数据库,用于分布式大规模批量处理的Hadoop生态系统,新兴的、反传统的数据管理技术NoSQL和NewSQL,以及通过上述各种技术的巧妙融合生成的更有效率的数据管理方式。最后还重点介绍了流数据管理这个与众不同、在大数据时代最富挑战性的数据管理问题。
第5章介绍大数据分析技术。企业的业务需求成为大数据分析的主要驱动力。与传统分析架构相比,大数据分析结构不论是在横向可扩展性还是在分析性能上都有了明显的提高。这也是大数据之所以具有很高商业价值的重要基础。数据挖掘和机器学习这类先进的分析算法是预测型分析必不可少的工具。本章在总结各种流行分析算法之后,专门介绍了在大数据环境下如何进行大规模并行分析。数据可视化是将大数据中的商业价值展现给决策者的必备利器。数据和分析结果再也不是超越个人想像力的混沌世界和复杂模型。用户可以从多角度、多方式观察和审视数据及分析结果,从而从容地抓住那些核心价值和深刻洞察。
大数据时代产生了一个新的学科和一个新的职业,即数据科学与数据科学家。第6章介绍与传统的商业智能相比,数据科学是什么,为什么说它是一个新的学科?在大数据生态环境中,数据科学家又扮演着什么样的角色?为顺利实施分析型项目,一个定义规范的数据分析生命周期模型可以让数据科学家达到事半功倍的效果。生命周期中的每个阶段都至关重要,本章对其进行了详细介绍,并辅以一个“企业创新分析”的实例用于介绍该模型的使用。
基于前面总结的大数据技术架构涵盖的各种技术,本书的第二部分列举了多个实际的行业大数据解决方案,主要包括第7章至第10章。
第7章介绍医疗大数据解决方案。医疗数据是典型的大数据。我国的医疗信息化建设正在如火如荼地进行。医疗行业迫切需要可行的医疗大数据解决方案。数字化医院的建设需要自基础设施逐步规划和实施。医疗云能在区域级向机构和公众提供全面有效的医疗健康服务。虽然行业中尚缺少实际运转的医疗云解决方案,我们还是邀请医疗行业专家结合医疗行业需求和技术发展,共同提出了大数据解决方案构想。
第8章介绍了火电厂脱硫系统中通过数据分析实现的优化方案。此例是针对物联网领域的大数据应用实例,通过挖掘运营脱硫系统所积累的海量历史数据,从而发现必要的知识和信息,并用于后续运营的参数调优和降低脱硫成本。针对各种传感器生成的海量数据,大规模并行数据挖掘算法被用于这个场景,并取得了良好的效果和经济效益。
智能手机及其他移动设备数量的猛增催生了各式各样的新型移动大数据应用。第9章着重介绍了在大数据时代用以支撑这些移动大数据应用的移动平台技术,并结合主流技术,提出了基于PaaS的MBaaS大数据解决方案。
社交网络的兴起带动了互联网应用的革新。第10章聚焦大数据时代社交网络面临的挑战,通过分析多家主流社交网站(如Twitter、LinkedIn、Facebook、腾讯、新浪微博)的解决方案,总结了其技术要点。
在本书最后,第11章对大数据技术发展的未来提出了展望,预测了数据增长趋势,以及不久的将来我们即将面对的新的机遇和挑战。
本书是一本不错的技术普及读物,可作为软件开发者、数据存储处理工程师、数据分析师等工程技术人员的参考书,亦可作为高等学校相关专业课程的教材或参考书。
本书编写的初衷是,力求使读者能够通过阅读此书,全面了解当前大数据技术的动态和发展趋势,并可针对自己面临的大数据问题找到可行的解决方案。尽管本书编写组投入了大量的资源和精力,付出了许多艰苦的努力,但时间仓促,书中难免存在错误和疏漏之处,恳请专家和读者不吝指教。
编者
于北京
序言
我很高兴能为这本关于大数据的新书撰写序言。
大数据是一个当今的热点话题,主要是因为我们的世界正在经历信息革命。数字信息或“大数据”如今已是zeta-bytes数量级(1 ZB = 1 000 000 000 TB),并且还在以每10年100倍的速度持续增长。在未来15年内,大数据总量将超过1 yotta-bytes(相当于1 000 000 000 000 TB),甚至连个人的私有数据也将达到1 peta-bytes(相当于1 000 TB)。数据的增长所引发的模式变革已经渗透到世界的各个方面,包括科学、工程、医疗、教育、金融、安全、国防、商业,甚至政治,而人类面临的巨大挑战是如何把爆炸式的数据增长转化为爆炸式的知识增长,进而造福整个世界。因此,每个人都应当或多或少对大数据有所了解。然而,目前大多数关于大数据的书是为专业人员写的,对于非专业人员的一般读者来讲,可能有些难度。
本书的作者考虑到一般读者的需求,既面向IT专业人士,又照顾到专业外的广大读者,通过多种表现形式,力图使得本书尽可能通俗易懂。作者以综述的方式概述了大数据的趋势,它的系统构架、管理、分析和企业应用,并且提供了很多相关的参考资料,包括产品、书籍和技术论文索引等,来方便读者的延伸阅读。对比以往的大数据专业书籍,这种方式是本书的与众不同之处。
尽管相对简短,但本书涵盖了关于大数据的诸多论题。第1章和第2章指出了过去数十年内发生的数据的显著增长,并且讲述了若干激动人心的真实案例来激发读者对大数据的关注。第3章概括了支持大数据的若干系统构架。第4章介绍了若干知名的商业或开源大数据软件系统。第5章阐述了一些目前应用于企业大数据分析的各种常见手段。第6章详述了由大数据而引出的新兴学科——大数据科学的相关理论。第7章到第10章描述了如何在企业环境中利用大数据,连同若干大数据企业应用场景。第11章总结本书并指出了未来关于大数据的一些挑战。
我认为本书适合多种类型的读者,包括想对大数据有大概了解的,想了解大数据系统和软件应用的,想学习大数据基本概念和方法的,以及想通过大数据提高企业生产力的。这些读者都能够受益于本书。
我欣赏本书的写法和很多内容,希望你们也会喜欢。
李凯 博士
美国普林斯顿大学计算机科学系 Paul and Marcia Wythes 讲席教授
美国国家工程院院士
ACM院士、IEEE院士
序 二
范承工博士是京东的技术顾问,在EMC中国和VMware是受人尊敬的领导和技术人。我很高兴能为此书作序。
大数据时代已经来临,但在国内能系统阐述大数据的书却不多。此次编委会把EMC中国研究院和业界的大数据专业人才汇聚起来,撰写这本关于大数据技术、管理、分析和应用的书,非常及时。EMC是全球领先的存储及管理技术和产品提供商,VMware是全球领先的虚拟化技术和产品提供商,也是开源Cloud Foundry 云平台的贡献者和开源Redis存储系统的赞助者,编写组成员在这两家公司的经验,将会给读者带来他们在大数据技术和实际应用中深刻和独到的见解。
正如书中提到,大数据技术、工具和服务将信息过载转换成信息优势,从而带来竞争优势。书中不乏独到见解和技术细节,而且用大半篇幅阐述了各种大数据应用场景,涵盖了国内外知名网站的技术架构,相信CIO、数据挖掘工程师、数据科学家和架构师们会受益匪浅。部分基础和分析技术京东也在使用,已应用于公司的决策支持、自动补货、智能网站、精准营销和主动客服等领域,为公司运营效率和用户体验的提升提供切实的数据和智能支持。
有人把大数据比喻成新型的石油,或新型的金矿,更有人称之为云计算时代的“Killer App”(杀手级应用)。对大数据专业知识的掌握,将越来越成为传统商业智能从业者甚至软件研发人员的必备技能。在这个意义上,本书也是一本很好的教科书。
与20世纪90年代的互联网技术一样,大数据赋予了这个时代新的生命力和想象力,已经深入影响世界各国的国家政策、科学研究、环境科学、生物医学、教育和国家安全等领域。中国将成为最重要的大数据市场之一,希望读者也能像本书的编委们一样,分享技术、分享工具、分享实践、分享建模方法、分享分析成果,促进业界、学术界和政府间在数据和大数据处理方面的合作,共同推动大数据技术、管理、分析、应用和服务的创新,促进生态系统的形成,共同释放各类大数据中蕴含的巨大能量和价值。
刘强东
京东商城董事局主席兼首席执行官
媒体评论
——李凯 博士 美国普林斯顿大学计算机科学系 Paul and Marcia Wythes 讲席教授 美国国家工程院院士 ACM院士、IEEE院士
大数据时代已经来临,但在国内能系统阐述大数据的书却不多。此次编委会把EMC中国研究院和业界的大数据专业人才汇聚起来,撰写这本关于大数据技术、管理、分析和应用的书,非常及时。EMC是全球领先的存储及管理技术和产品提供商,VMware是全球领先的虚拟化技术和产品提供商,也是开源Cloud Foundry 云平台的贡献者和开源Redis存储系统的赞助者,编写组成员在这两家公司的经验,将会给读者带来他们在大数据技术和实际应用中深刻和独到的见解。
——刘强东 京东商城董事局主席兼首席执行官
【插图】
