基本信息
- 原书名:Practical Data Analysis, Second Edition
- 作者: (美)赫克托·奎斯塔(Hector Cuesta) (美)桑帕斯·库马尔(Dr. Sampath Kumar)
- 译者: 刁晓纯
- 丛书名: 大数据技术丛书
- 出版社:机械工业出版社
- ISBN:9787111579212
- 上架时间:2018-1-23
- 出版日期:2017 年9月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 数据库 > 数据库存储与管理

内容简介
作译者
本书献给我的妻子Yolanda和我可爱的孩子Damian和Issac,他们为我的生活带来了无比的快乐。同时把本书献给我的父母Elena和Miguel,感谢他们对我的支持和爱护。
Dr. Sampath Kumar Telangana大学应用统计系的助理教授和系主任,他拥有理学硕士、哲学硕士和统计学博士学位,拥有5年研究生教学经验,有超过4年的工作经验。他是SAS和MATLAB软件高级程序员,专长是利用SPSS、SAS、R、Minitab、MATLAB等软件进行数据统计。他在不同的应用学科和纯统计专业(如预测建模、应用回归分析、多变量数据分析、运营管理等)方面具有教学经验。
审校者简介
Chandana N. Athauda 目前是BAG(Brunei Accenture Group)的员工,他在Brunei是一名技术顾问。他主要关注商务智能、大数据和数据可视化工具技术。他已经在IT行业从业超过15年(曾获前微软最有价值员工和微软TFS管理员)。他对IT行业充满了工作热情,他的工作职业从程序员贯穿到技术顾问。
如果有兴趣与Chandana讨论本书,请发送邮件到info@inzeek.net 或是上推特@inzeek。
Mark Kerzner 大数据架构师及培训师。他是Elephant Scale的创始人及负责人,这家企业为不同领域提供大数据的顾问咨询及培训。同时他也是《HBase Design Patterns》一书的作者。
我要感谢我的联合创始人Sujee Maniyam和他的同事Tim Fox,还要感谢所有的老师及学生。最后同样重要的是,感谢家人对我的帮助。
目录
作者简介
审校者简介
前言
第1章 开始1
1.1 计算机科学1
1.2 人工智能2
1.3 机器学习2
1.4 统计学2
1.5 数学2
1.6 专业领域知识3
1.7 数据、信息和知识3
1.7.1 数据、信息和知识之间的相互性3
1.7.2 数据的本质4
1.8 数据分析过程5
1.8.1 问题6
1.8.2 数据准备6
1.8.3 数据探索7
1.8.4 预测建模7
1.8.5 结果可视化8
译者序
针对本书,我的主要体会有三方面:
第一,本书包含丰富的案例。书中介绍的案例涉及垃圾邮件的分类分析、图像匹配、流行病暴发事件分析、社交网络的数据获取和分析、对文本型数据进行情感分析、股票价格以及黄金价格走势分析等。
第二,本书所涉内容包含了数据分析的全流程,包括了数据准备和处理、多类型建模、数据可视化展示等。初次接触数据分析的读者可以由浅入深地了解分析的全貌。
第三,本书充分体现了大数据的特点,既介绍了对结构化数据的处理也介绍了对非结构化数据的处理,数据类型丰富。书中所涉数据包括时间序列数据、数值型数据、多维度数据和社交媒体数据、文本型数据等多种形式,可以帮助读者获得对数据分析的真知灼见。
时隔几年,机械工业出版社联系上我,询问我是否愿意翻译本书第2版,我二话不说接下了这个任务,这几年随着数据工作方面的积累,对于本书,除了有更深的体会,也重新回顾、整理了当年翻译的内容。随着“大数据”技术的发展,本书最后一章也新增了对Cloudera VM和Apache Spark的介绍,使读者了解其在大数据领域的地位,并掌握一些常见的方法和操作。这又是一次温故而知新的历程。
书中部分内容是按照原文直译的,难免有不完整或者偏颇的地方,请读者批评指正,也欢迎广大读者与我交流沟通,我的邮箱是jacqueline_dut@hotmail.com。
刁晓纯
2017年6月
前言
书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言,并采用代码片段和详细描述的方式呈现本书的核心概念。
本书主要内容
第1章探讨数据分析的基本原理和数据分析步骤。
第2章解释如何清洗并准备好数据来开展分析,同时介绍数据清洗工具OpenRefine的使用方法。
第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。
第4章介绍应用朴素贝叶斯(Naive Bayes)算法来区分垃圾文本的一种二元分类法。
第5章展示一个应用动态时间规整方法来寻找图像间相似性的项目。
第6章解释如何使用随机漫步算法和可视化的D3.js动画技术来模拟股票价格。
第7章介绍核岭回归(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。
第8章描述如何使用支持向量机的方法进行分类分析。
第9章介绍对流行病进行模拟计算的基本概念并解释如何应用细胞自动机方法、D3.js和JavaScript语言来模拟流行病爆发。
第10章解释如何应用Gephi从Facebook获取社交媒体图谱并使之实现可视化。
第11章解释如何应用Twitter的应用程序编程接口(API)来获取Twitter的数据。读者也将看到如何改进文本分类分析方法并将其应用于情感分析。这一过程在自然语言工具包(Natural Language Toolkit, NLTK)中应用了朴素贝叶斯算法。
第12章介绍在MongoDB数据库中进行基本操作以及分组、过滤和聚合的方法。
第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型。
第14章解释如何使用Wakari平台,同时介绍在IPython中运用pandas进行数据处理和使用PIL图像处理库的方法。
第15章介绍如何在Cloudera VM上使用分布式文件系统及数据环境。最后,利用实际案例介绍Apache Spark的主要特征。
阅读准备
使用本书需要掌握如下技术: