基本信息
- 原书名:Beautiful Data: The Stories Behind Elegant Data Solutions
- 原出版社: O’Reilly Media
- 作者: Toby Segaran Jeff Hammerbacher
- 译者: 祝洪凯 李妹芳 段炼
- 丛书名: 北京华章图文信息有限公司O’Reilly精品图书系列
- 出版社:机械工业出版社
- ISBN:9787111315124
- 上架时间:2010-11-3
- 出版日期:2010 年10月
- 开本:16开
- 页码:354
- 版次:1-1
- 所属分类:计算机 > 软件工程及软件方法学 > 综合

【插图】

编辑推荐
探索海量在线数据集时面临的内在机遇和挑战
学习如何使用地图和数据“混搭”方式对都市犯罪趋势进行可视化
发现“众包”和透明如何改进药物研究现状
理解当新的数据和之前存在的数据交叠时如何向用户发送警告
学习处理DNA数据的大规模基础设施
内容简介
作译者
译者:祝洪凯 李妹芳 段炼 编者:(美国)托比(Toby Segaran) (美国)Jeff Hammerbacher
目录
第1章 在数据中观察生活
Nathan Yau
个人环境影响报告(PEIR)
your.flowingdata(YFD)
个人数据收集
数据存储
数据处理
数据可视化
要点
如何参与
第2章 美丽的人们:设计数据收集方法时牢记用户
Jonathan Follett和Matthew Holm
简介:用户共鸣正当其时
项目:关于一个新奢侈品的用户调查
数据收集面临的特殊挑战
设计解决方案
结论和反思
第3章 火星上的嵌入式图像数据处理
J.M.Hughes
译者序
我发现阅读完本书之后,一个很大的收获是对于自己了解的领域,如云存储、Deep Web、NLP等可以有更深的理解和实践指导,而对于那些不熟悉的领域,如探索数据生命、火星探测器、制作Radiohead视频等等则更是开拓了视野,不但对数据有了新的认识,而且激发了思考问题一些新的思维方式。
这本书令我很感怀的另一方面是,我发现这些“数据科学家”兢兢业业、他们在构建平台处理数据过程中,遇到很多困难和挑战,却是如此坚持、执着地探索数据之美。在翻译本书过程中,这种激情不仅激励着我完成这本书的翻译、也激励着我在生活、工作中要有毅力。而纵观我身边阿里巴巴云计算的同事们,这些“阿里数据科学家”们,也无一不是那种永远充满着激情、致力于我们的“飞天”梦想!
这是我翻译的第一本书,很感激机械工业出版社华章分社编辑陈冀康先生慷慨地引我入门,并且对因为我某段时期项目开发非常紧张而导致翻译进度几乎停滞的宽容和理解表示深深感激。感谢所有其他为本书付出努力的人们。
由于时间精力有限,本书的疏漏、错误之处在所难免,还望各位读者不吝指正。
李妹芳
于2010年6月26日
前言
这本书就是我们努力的结果,我们希望它能够展示数据处理工作可以多么的广泛(和美丽)。在本书中,你将了解从和政府协力作战到和火星登陆器一起工作的各个方面;你将了解如何使用统计程序,制作可视化应用,混合Radiohead视频;你将看到地图,DNA和一些我们真正只能称之为“数据哲学”的东西。
本书的版权费贡献给知识共享组织(Creative Commons)和阳光基金会(the Sunlight Foundation),它们致力于通过解放数据使世界变得更美好。我们希望你将会考虑你和数据亲身 “邂逅”的经历如何塑造了世界。
1. 本书的组织方式
本书的章节贯彻一条较为松散的曲线:从数据收集到数据存储、组织、检索、可视化及最后的数据分析。
第1章:在数据中观察生命。作者 Nathan Yau 着眼于在新兴的个人数据收集领域的两个项目背后的动机和挑战。
第2章: 美丽的人们:设计数据收集方法时牢记用户。 Jonathan Follett 和 Matthew Holm讨论了在全网Web上向人们收集数据时,信任、说服和测试的重要性。
第3章:火星上的嵌入式图像数据处理。J. M. Hughes 分析了设计在太空旅行下能够正常工作的数据处理系统所面临的挑战。
第4章:PNUTShell中的云存储设计。 Brian F. Cooper,Raghu Ramakrishnan 和 Utkarsh Srivastava 描述了雅虎所设计的把它的全球分布式数据中心转换为支持现代Web应用的通用存储平台的软件系统。
第5章:信息平台和数据科学家的兴起。 Jeff Hammerbacher 以Facebook的数据团队的历史演化作为特例,追溯了信息处理工具以及驱动这些工具的人们的演化。
第6章:照片档案的地理之美。 Jason Dykes 和 Jo Wood 引起人们去注意一个自愿者组织收集的彩色可视化空间数据的普及性及其力量。
第7章:数据发现数据。Jeff Jonas 和 Lisa Sokol 阐述了思考数据的新方式,为了完全管理这些数据,很多人需要采用这种方式。
第8章:实时的可移动数据。Jud Valeski 深入分析了Web上实时的分布式社会和定位数据当前存在的局限,讨论了解决该问题的一个可能方案。
第9章:探寻Deep Web。 Alon Halevy 和 Jayant Madhavan 描述了Google开发的用于搜索当前“受困”于Web表单之后的数据的工具。
第10章:构建 Radiohead 的“House of Cards”。 Aaron Koblin和Valdean Klump讲述了一个涉及激光、编程和“骑在巴士背上”的惊险故事,故事以一个获奖音乐视频结束。
第11章:都市数据可视化。 Michal Migurski 详细描述了释放和美化一些关于我们身边的最重要的数据的过程。
第12章:Sense.us的设计。Jeffrey Heer 重塑了作为社会空间的数据可视化,并使用这种新的视角来探索历时150年的美国人口普查数据。
第13章:数据所做不到的。 Coco Krumme关注于证明人们在很多方面误解和误用数据的实验性工作。
第14章:自然语言语料库数据。 Peter Norvi 通过从Web上获取的1兆规模的自然语言词汇语料数据,带领读者走进一些令人回味的实践,。
第15章:数据中的生命:DNA漫谈。 Matt Wood 和 Ben Blackburne 描述了数据之美,即 DNA 和创造、捕捉和处理数据需要的大量基础设施。
媒体评论
——Tim O’Reilly, O’Reilly Media公司创始人兼CEO