基本信息
- 作者: (美)Willi Richert Luis Pedro Coelho
- 丛书名: 图灵程序设计丛书
- 出版社:人民邮电出版社
- ISBN:9787115356826
- 上架时间:2014-6-5
- 出版日期:2014 年6月
- 开本:16开
- 页码:210
- 版次:1-1
- 所属分类:计算机 > 计算机辅助设计与工程计算 > 综合
【插图】

编辑推荐
大量Python库的绝佳参考
用丰富的案例,细析机器学习技巧与方法
一个基于场景的教程,带你承袭正确的思维方式(数据探索)
内容简介
作译者
机器学习和机器人学博士,目前任职于微软Bing搜索核心研发团队。他从事多种机器学习领域的研究,包括主动学习和统计机器翻译。
Luis Pedro Coelho
计算生物学家,主要关注生物图像信息学和大规模图像数据的处理,致力于生物标本图像分析中机器学习技术的应用,他还是Python计算机视觉库mahotas的主要开发人员。他于1998年开始开发开源软件,2004年起从事Python开发,并为多个Python开源库贡献了代码。另外,Luis拥有机器学习领域世界领先的卡内基-梅隆大学的博士学位,并发表过多篇科学论文。
刘峰
百度LBS地图基础业务部资深研发工程师,新加坡南洋理工大学计算机工程系博士,研究领域包括机器学习、模糊神经网络等。2010年加入百度,主要从事大数据分析和挖掘方面的工作,近年来专注于无线定位、用户轨迹等LBS大数据的挖掘及机器学习应用。
目录
第1章 Python机器学习入门 1
1.1 梦之队:机器学习与Python 1
1.2 这本书将教给你什么(以及不会教什么) 2
1.3 遇到困难的时候怎么办 3
1.4 开始 4
1.4.1 NumPy、SciPy和Matplotlib简介 4
1.4.2 安装Python 5
1.4.3 使用NumPy和SciPy智能高效地处理数据 5
1.4.4 学习NumPy 5
1.4.5 学习SciPy 9
1.5 我们第一个(极小的)机器学习应用 10
1.5.1 读取数据 10
1.5.2 预处理和清洗数据 11
1.5.3 选择正确的模型和学习算法 12
1.6 小结 20
第2章 如何对真实样本分类 22
2.1 Iris数据集 22
2.1.1 第一步是可视化 23
2.1.2 构建第一个分类模型 24
译者序
如果在十年前,你不知道机器学习,那么可以理解,因为它还是一个科研实验室的玩具;如果在十年后的今天,作为IT从业人员的你,还没有听说过机器学习,那么你真是“奥特曼”了。
对于产品来说,机器学习技术的应用,可以给产品带来质的飞跃,提高产品的核心竞争力;对于IT从业人员来说,机器学习技术已经成为了一种必备的技能,掌握了它,可以在各大IT公司游刃有余,个人价值徒增。
《机器学习系统设计》就是一本带你在机器学习海洋中遨游的书。如果你只想学习基础理论,那么这本书或许并不适合你。它并没有深入机器学习背后的数学细节,而是通过Python这样一种广泛应用的脚本语言,从数据处理,到特征工程,再到模型选择,把机器学习解决实际问题的过程一一呈现在你的面前。这本书的最大特点在于:易上手、实践性强、贴近应用。它可以让你在很短的时间内了解机器学习的基本原理,掌握机器学习工具,然后去解决实际问题。从文字、声音到图像,从主题模型、情感分析到推荐技术,本书所教给你的都是最实际的技术,让你从一个新手迅速成长为大咖。
鉴于译者水平有限,书中难免有错误疏漏之处,欢迎读者批评指正。微博:@飞旋的世界。电子邮箱:gnefuil@gmail.com。
前言
本书大部分内容都将涉及“怎么做”。例如,怎么处理数据才能让机器学习算法最大限度地利用它们?怎么选择正确的算法来解决手头的问题?
我们偶尔也会涉及“为什么”。例如,为什么正确评估很重要?为什么在特定情形下一个算法比另一个算法的效果更好?
我们知道,要成为该领域的专家还有很多知识要学。毕竟,本书只介绍了一些“怎么做”和极小一部分“为什么”。但在最后,我们希望这些内容可以帮你“启航”,然后快速前行。
本书内容
第1章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过拟合的风险,这对我们提出了挑战。
第2章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。
第3章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。
第4章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。
第5章讲解了如何用逻辑回归判定用户的答案是好还是坏。在这个情景的背后,我们将学会用偏差?方差的折中调试机器学习模型。
第6章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。
第7章讨论了一个处理数据的经典课题,但它在今天仍然有意义。我们用它构建了一个推荐系统,这个系统根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。
第8章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。
第9章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时信任别人的专长比我们自己构建特征更好。
第10章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。
第11章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。
第12章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。
附录A罗列了一系列机器学习的优质资源。
阅读需知
本书假定读者了解Python,并且知道如何利用easy_install或pip安装库文件。我们并不依赖于任何高等数学知识,如微积分或矩阵代数。
媒体评论
——亚马逊读者评论