基本信息
【插图】

编辑推荐
★ 风靡日本、韩国的超级畅销书
★ 独家披露野村综研的第一手资料
★ eBay、麦当劳等美国、日本标杆企业的实践案例
★ 野村综研大数据专家权威解析
大数据的冲击是日本最畅销的大数据商业应用指南。书中结合野村综合研究独家披露的调查数据,网罗了美国、日本标杆企业与政府的应用案例,总结了大数据的商业模式,以及在大数据应用中需要注意的隐私问题,并就如何为大数据时代做好准备展开了深入的探讨,提出了诸多有益的建议。
内容简介
作译者
周自恒,IT、编程爱好者,技术宅,初中时曾在NOI(国家信息学奥赛)天津赛区获一等奖,大学毕业后曾任IT咨询顾问,精通英语和日语,译著有《30天自制操作系统》、《大数据的冲击》、《Android应用开发入门》。
目录
第1章 什么是大数据
1.1 The data deluge 2
1.2 用3V来描述大数据的特征 3
1.3 广义的大数据 8
1.4 为什么现在要谈大数据?①大数据的民主化 9
1.5 为什么现在要谈大数据?②硬件性价比的提高以及软件技术的进步 10
1.6 为什么现在要谈大数据?③云计算的普及 12
1.7 从“看到过去”到“预测未来”BI与大数据的交叉 18
1.8 从点(交易数据)分析到线(交互数据)分析 20
1.9 大数据的分析工具 22
本章小结 24
第2章 支撑大数据的技术
2.1 人手不足 26
2.2 什么是Hadoop 26
2.3 发行版本的增加 30
2.4 发行版本众多的原因 33
2.5 NoSQL数据库 34
2.6 风投资本对Hadoop、NoSQL企业的热切关注 39
2.7 大数据时代的数据处理基础 41
译者序
上面所提到的这些,都是我们身边的大数据。在这样一个信息爆炸的时代,我们不得不感叹,大数据已经不再是一个虚无缥缈的概念,而是与每个人的生活息息相关,实实在在且触手可及。大数据火了,它催生出无数新的服务和商业模式,也让一些传统行业找到了新的机会,同时产生了对“数据科学家”这种新兴复合型人才的迫切需求。而数据运用和隐私保护之间到底该如何权衡,也成了一个令各方势力争论不休的话题。大数据到底是什么?它为我们带来了什么?我们又该怎样去运用它?——这本书的目的,正是帮助大家思考上面这三个问题,迎接大数据所带来的机遇和挑战。
值得一提的是,这本书只用了短短一章的篇幅介绍关于大数据在技术层面上的内容,更多的则是围绕着大数据运用的成功案例、商业模式、隐私保护、法律框架、人才培养、经营战略等话题展开讨论,是一本无需具备技术背景也能够无障碍阅读的综述类著作。本书作者城田真琴先生,是野村综合研究所(NRI,简称野村综研)的高级研究员。野村综研是亚洲最大的咨询公司,堪称日本的麦肯锡,同时也是日本最大的系统集成商。作为本书译者的我,也曾有幸供职于野村综研的某合资子公司,可以说颇有一些缘分。这样的背景,让这本书的内容显得十分扎实,散发着咨询公司所特有的风范。在著书过程中,除了查阅文献和数据,作者还亲自采访了案例中相关公司的关键人物,掌握了大量的一手资料。相信大家通过这本书,一定能够对大数据有一个更加全面和深入的理解。
最后,感谢图灵公司各位编辑的辛勤工作,感谢作者城田真琴先生和野村综研(上海)咨询有限公司在本书翻译过程中所给予的帮助和支持。
周自恒
2013年2月于上海
前言
面对这样的问题,恐怕有些人会说:“是因为它们的商业模式非常创新。”而有些人则可能会说:“是因为它们的创业者非常优秀。”
然而,本书想要强调的,则是“数据分析”。看到这个词,可能你会说:“什么嘛,就这么简单?”虽然乍看之下会觉得很简单,但我们所列举的这些企业,它们每天不断存储和分析的数据量是十分庞大的,而这正是本书的主题——“大数据”。
充分运用大数据,并由此获得巨额的收益,Google可以称得上是精通此道的鼻祖。据说,Google每个月要处理900亿次的Web搜索,为此每月需要处理的数据量高达600PB[1]。使用Google各种服务的用户,以及与之相关的各种数据,都是分析的对象。
在Google的搜索框中,只需要输入一部分关键字,就会显示出一些搜索关键字的建议,例如,只要输入“云”,系统就会自动提示“云免费”、“云是什么”、“云服务”等[2]。这样的搜索关键字建议,都是对用户庞大的搜索历史记录进行分析后得出的。此外,即便不以片假名的方式输入,而是直接输入罗马拼音“kuraudo”[3],Google也会给出正确的搜索建议。这种“输入修正功能”(或者叫“你要找的是不是……”功能),也是通过相同的原理实现的。
“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。以这种数据分析为核心的服务设计发挥了巨大的作用,推动了Amazon成长为2011年销售额高达约480亿美元(约合人民币3000亿元)的巨型企业。
Twitter拥有超过1亿的活跃用户,平均每天产生2.5亿条推文(根据2011年10月公布的数据)。每条推文最多140个字,数据量约为200个字节,这些推文平均每天相当于产生了约48GB的数据流量。而从Twitter整个生态圈来看,平均每天可产生约8TB[4]的数据。
Facebook于2012年2月提出了IPO申请[5]。其公布的数据显示,每月活跃用户达到8.45亿,每日活跃用户达到4.83亿,着实令人惊叹。Facebook是世界最大的由用户产生内容的网站。
Facebook的所有用户平均每个月在Facebook上花费的时间高达7000亿小时,平均每个用户每个月会创建90条内容(包括新闻、博客等)。整体上来看,每个月产生的内容高达300亿条。根据公布的数据推测,Facebook所拥有的数据量超过30PB。
Facebook可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。
通过分析庞大的数据来获得有价值的信息或判断,这个被称为“大数据”的概念正受到越来越广泛的关注。它所掀起的巨大波澜早已经突破了IT业界的范畴,连报纸和电视新闻节目都对此制作了专题报道。
精通IT的读者在这里可能会有一点疑问:“通过对大量数据的分析来提升业绩,并不是这些新兴互联网企业的专利吧?对销售、库存等业务数据进行分析,帮助公司提升竞争优势,这种被称为‘商业智能’(BI)的方法已经由来已久,为什么现在却要特意翻出来大谈特谈一番呢?”
说起来,可能还真的是这么回事。例如,美国大型超市连锁集团沃尔玛,每小时就要处理约100万笔交易,在企业的数据仓库中产生和存储的数据量高达2.5PB。企业通过分析每天产生的大量数据,对商品的库存和定价做出极致的优化,这样的努力对于企业业绩的提升可以说功不可没,这是不争的事实。
然而,在这里我们也要注意到两个重要的差异。
第一,同为海量数据,和传统意义上的销售额、库存量等数值数据相比,Google、Facebook等互联网企业所处理的网站点击流(clickstream)数据和社交数据在管理和分析方法上是大相径庭的。目前大数据潮流的核心,并不是数值数据等结构化数据,而是网站点击流数据和社交数据,或者是传感器数据等这些无法存放在传统关系型数据库中的非结构化数据。
第二,从结果来看,掌握用于海量数据管理和处理新技术的,已不是沃尔玛、花旗银行这样的大企业,而是互联网企业和社交媒体企业。和Facebook的30PB相比,沃尔玛的2.5PB不仅在数据量上,而且在数据的多样性(网站点击流、社交媒体上的文字、人与人之间的联系等)和数据产生频率上都有很大差别。在这些方面,传统型大企业有很多东西需要向新兴互联网企业和社交媒体企业学习。
笔者有幸采访过的美国B2B企业中,经常能够听到这样的声音:“Google、Amazon、Twitter、Facebook等公司每天都产生、管理和分析大量的数据,传统型大企业需要将这些面向消费者的企业作为学习的榜样。”
实际上,现在用于大数据存储和处理的技术,如Hadoop、NoSQL数据库[6]等,大多数是从Google、Amazon、Facebook这样的互联网企业、社交媒体企业中诞生的。
在互联网世界之外,也有大数据的身影,其中由传感器网络所产生的传感器数据是最具代表性的一种。对各种机器的状态进行采集,并存储和分析这些数据,这样的尝试从很早就已经开始了,如自动贩卖机的管理系统、公交车和汽车的运行管理系统、重型机械的监控系统等。然而,随着技术的进步和通信成本的下降,能够对各种信息进行采集并对数据进行廉价存储的环境已经日趋成熟,今后应该会迎来进一步的普及。目前带有GPS功能的智能手机,以及Suica、PASMO等交通IC卡等,都已经显现出这样的趋势。
今后,随着智能电网、智能城市有望在全世界推广,传感器数据也必定会不断增加。而且,由于传感器是每秒都在进行测量和记录的,它们所产生的数据量,很可能会快速超过网站上由人类产生的信息、文本等数据量。
序言
作为本书的主题,“大数据”一词无论是在我的家乡日本,还是在欧美的IT业界,都已成为时下当仁不让的热点。但这个词对中国的各位读者来说也许并非如此耳熟能详。在新浪微博、人人网、QQ空间等社交网络中发表的文本数据,以及由物联网所产生的各种传感器网络数据,这些都是大数据的一部分。无论中国的各位读者是否听说过“大数据”这个词,大数据每天都正从大家身边不断地产生。
当然,仅仅看到每天产生出的大数据是没有意义的。我们还必须通过对数据进行适当的收集、存储和分析,将由此所获得的信息转化为具体的行为,并最终付诸实施。
例如,从事B2C业务的企业,通过对从社交网络中收集到的和自家产品相关的言论进行分析,就可以在新产品投入市场后的第一时间了解其评价。不过,仅仅做到这一步的话,还只能享受到大数据所带来的一半价值,因为我们还需要根据数据的分析结果,发现产品不足,并对其进行改进。能够做到这一步,才可以说是真正享受到了大数据所带来的价值。
未来几年,大数据将对通信、金融、零售、制造、交通、物流、医疗、公共服务、农业等各个领域带来巨大的冲击。中国拥有世界上最多的人口,也必将成为全世界最大的数据生产国。另一方面,中国拥有清华大学、北京大学、浙江大学、上海交通大学等汇聚了众多优秀理工科人才的高等学府,有望培养出在欧美正十分紧俏的数据科学家。综上所述,我认为中国在成为世界最大的数据生产国的同时,还具备有效运用这些数据的潜力。
本书以“什么是大数据”为题介绍了大数据的基本知识、支撑大数据的技术、欧美及日本企业运用大数据的案例、大数据与个人信息保护及隐私保护之间的关系等。这些知识对于深入理解大数据是不可或缺的。本书自在日本上市以来,在大型书店取得了畅销书第一名的成绩,获得了极大的反响,在率先推出译本的韩国也备受好评。希望中国的各位读者能够从本书中获益。
城田真琴
2012年3月