利用Python进行数据分析(原书第2版)
·Python pandas创始人亲自执笔,Python语言的核心开发人员鼎立推荐
·针对Python 3.6进行修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题
基本信息
- 原书名:Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2nd Edition
- 作者: [美]韦斯·麦金尼(Wes McKinney)
- 丛书名: O'Reilly精品图书系列
- 出版社:机械工业出版社
- ISBN:9787111603702
- 上架时间:2018-7-21
- 出版日期:2018 年7月
- 开本:16开
- 页码:489
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > Python


【插图】

编辑推荐
阅读本书可以获得一份关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第二版针对Python 3.6进行了更新,并增加实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到最新版本的pandas、NumPy、IPython和Jupyter。
本书由Wes McKinney创作,他是Python pandas项目的创始人。本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。数据文件和相关的材料可以在GitHub上找到:
使用IPython shell和Jupyter notebook进行探索性计算
学习NumPy(Numerical Python)的基础和高级特性
入门pandas库中的数据分析工具
使用灵活工具对数据进行载入、清洗、变换、合并和重塑
使用matplotlib创建富含信息的可视化
将pandas的groupby功能应用于对数据集的切片、分块和汇总
分析并操作规则和不规则的时间序列数据
利用完整的、详细的示例学习如何解决现实中数据分析问题
内容简介
作译者
目录
第1章 准备工作7
1.1 本书内容7
1.1.1 什么类型的数据7
1.2 为何利用Python进行数据分析8
1.2.1 Python作为胶水8
1.2.2 解决“双语言”难题8
1.2.3 为何不使用Python9
1.3 重要的Python库9
1.3.1 NumPy9
1.3.2 pandas10
1.3.3 matplotlib11
1.3.4 IPython与Jupyter11
1.3.5 SciPy12
1.3.6 scikit-learn12
1.3.7 statsmodels13
1.4 安装与设置13
1.4.1 Windows14
1.4.2 Apple(OS X和macOS)14
1.4.3 GNU/Linux14
译者序
时过境迁,从本书英文版第1版2012年出版至今,已经过去了6年。这6年中,Python的主流版本从2.7升级到了3.6。无论是否情愿,大部分Pythoner都不得不学会适应新版本;而pandas则从0.1.0版本迭代到如今的0.22.0版本。版本号的持续增加意味着新技术、新特性的不断丰富。举例来说,将带有多层索引的数据透视表写入Excel在2015年之前是无法使用pandas完成的,在0.17版本后该功能被加入。因此,本书的第一版内容已经略显落后。
2017年10月下旬,本书作者Wes McKinney先生更新了本书的第2版。在第2版中,他将Python版本更新到3.6,介绍了pandas的一些新接口和功能,并新增了大量现实世界的数据分析实例,以确保本书的可实践性。我在2017年11月18日接到出版社的翻译邀请后便开始了翻译工作。McKinney先生的写作风格朴实、形象,因而我的翻译过程较为顺畅,但书中部分口语化的叙述也因为中英文表达方式的差异而增加了意译的难度。
在本书翻译过程中,我得到了很多帮助。首先要感谢华章公司的王春华编辑和冯秀泳编辑,他们在翻译过程中给了我耐心指导。在审稿时,来自国内Python圈的朋友们对本书进行了仔细而全面的审核,他们是网易数据工程师马喆诚、早稻田大学研究生梁垿、大疆工程师王波。感谢他们对本书的付梓而做出的贡献。此外,我还要感谢我的女朋友易慧娟,感谢你在生活中对我的各种好,我爱你!
为了让国内读者在第一时间读到这本畅销国外技术著作,出版社和我都加快了工作进度,但时间紧、任务重,再加之本人水平有限,翻译工作中难免会出现一些失误。欢迎读者将阅读过程中发现的问题发送至我的邮箱(xujingyi46@163.com)。
本书英文版的副书名是“Data Wrangling with Pandas, NumPy, and IPython”,其中 Wrangling是一个很难直译的词汇,它的原意是争执、争论,但在书中它描述的是将数据进行规整、处理的意思。希望读者读完本书后,可以使用好pandas、NumPy和IPython这些工具,更好地完成数据处理、分析的学习和工作。Enjoy it !
徐敬一
2018年5月于中国工商银行合肥后台中心
前言
本书第1版出版于2012年,彼时基于Python的开源数据分析库(例如pandas)仍然是一个发展迅速的新事物。在本次更新、拓展的第2版中,我在一些章节内进行了修改,以解释过去5年中发生的不兼容的变更、弃用和一些新特性。此外,我还添加了新内容,用以介绍在2012年还不存在或者不成熟的工具。最后,我会避免把一些新兴的或者不太可能走向成熟的开源项目写入本书。我希望本版的读者能够发现本书内容在2020年或者2021年仍然几乎像在2017年一样适用。
第2版中的主要更新包括:
所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
更新了Python第三方发布版Anaconda和其他所需Python包的安装指引
更新pandas库到2017年的最新版
新增一章,关于更多高级pandas工具和一些使用提示
新增statsmodels和scikit-learn的简明使用介绍
除了以上更新内容,我还重新组织了第1版的部分重要内容,使本书对新手来说更易于理解。
本书约定
以下印刷约定将在本书中使用:
斜体(Italic)
表示新的术语、URL、email地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、表达式和关键字等。
等宽粗体(Constant width bold)
表示命令或其他应当由用户键入的文本。
等宽斜体(Constant width italic)
表示应当由用户提供的值来替代的文本,或者其他由上下文决定的值。
本符号表示提示或建议。