基本信息
- 原书名:Machine Learning for Hackers
- 原出版社: O'Reilly Media
- 作者: (美)Drew Conway John Myles White
- 译者: 陈开江 刘逸哲 孟晓楠
- 丛书名: O'Reilly精品图书系列
- 出版社:机械工业出版社
- ISBN:9787111417316
- 上架时间:2013-4-22
- 出版日期:2013 年4月
- 开本:16开
- 页码:288
- 版次:1-1
- 所属分类:计算机 > 人工智能 > 人机交互

编辑推荐
Drew Conway编*的《机器学习(实用案例解析)》比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,而且讨论了一些有生命力的新理论、新方法。本书为机器学习技术提供了一些非常棒的案例研究。
内容简介
计算机书籍
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。《机器学习:实用案例解析》比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,而且讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。《机器学习:实用案例解析》讨论的案例涉及分类、回归、聚类、降维、最优化问题等。这些案例包括:垃圾邮件识别、智能收件箱、预测网页访问量、文本回归、密码破译、构建股票市场指数、用投票记录对美国参议员聚类、给用户推荐R语言包、分析社交图谱、给问题找到最佳算法等。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R编程语言。
《机器学习:实用案例解析》主要内容:
开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断邮件是否是垃圾邮件;使用线性回归来预测互联网排名前1000网站的PV;利用文本回归理解图书中词与词之间的关系;通过尝试破译一个简单的密码来学习优化技术;利用无监督学习构建股票市场指数,用子衡量整体市场行情;根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;通过k近邻算法向用户推荐日语言包;利用Twitter数据构建一个“你可能感兴趣的人”的推荐系统;模型比较:给问题找到最佳算法。
作译者
John Myles White机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是ProjectTemplate和 log4r等流行R语言程序包的主要维护者。他拥有普林斯顿大学博土学位,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。
目录
前言 1
第1章 使用R语言 9
R与机器学习 10
第2章 数据分析 36
分析与验证 36
什么是数据 37
推断数据的类型 40
推断数据的含义 42
数值摘要表 43
均值、中位数、众数 44
分位数 46
标准差和方差 47
可视化分析数据 49
列相关的可视化 68
第3章 分类:垃圾过滤 77
非此即彼:二分类 77
漫谈条件概率 81
试写第一个贝叶斯垃圾分类器 82
第4章 排序:智能收件箱 97
译者序
大数据时代是机器学习最美好的时代,因为数据不再是问题,各类问题都可以收集到海量的数据。但是,对于很多人来说,这一门交叉学科本身却神秘而陌生,对于没有系统学习过相关基础学科的人来说尤其感到“高不可攀”。如今已出版的机器学习相关书籍中,很多都有这个特点:公式多,晦涩难懂。这让很多程序员出身的人望而却步。然而,在第一次读到本书的英文版时,译者就彻底相信:机器学习完全可以讲解得通俗易懂,让知识的传递实现“润物细无声”。
本书秉承的原则是:实践出真知,只要多动手,没有攻克不了的技术难题。因此作者预期的阅读对象是如电脑黑客般的人,要求对技术有发自内心的求知欲和好奇心,愿意自己动手而非纸上谈兵。全书精心选择了12个机器学习案例,由浅入深,面面俱到,既有基础知识(如数据分析),也有当前热门的社交网站推荐案例。书中的每一个案例都由作者娓娓道来,逐一剖析关键算法的代码,没有丝毫学究气息,触动每个机器学习初学者的内心最深处。
书中所有算法都采用R语言实现。R语言是一门用于统计学的开源脚本语言,基于它的开源性,有来自世界各地的开源拥护者贡献的各种统计学相关的程序包,稳定且方便,尤其是它对数据可视化的支持,更是一柄利器,既轻巧又实用。书中所有源代码和数据在原书的官方网站上都可以免费下载。在阅读过程中,犹如作者亲至身侧,为你讲解代码和思路,为你排除错误和优化效果。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。所选择的案例妙趣横生,如分析UFO目击记录、破译密码、预测股票、分析美国参议员“结党”的情况,等等,这里就不“剧透”了,大家自己去享受学习的乐趣吧。
书中12个案例之间的依赖关系不是特别强(除R语言基础知识外,其余某几章仅有个别知识点之间存在依赖性),可以像连续剧一样,逐一播放,也可以像一个个小品一般,挑感兴趣的内容分别播放。学习完这些案例之后,相信你会窥见机器学习的一斑,然后再根据自己的实际情况更深入地学习。
本书翻译工作由三位来自互联网世界的工程师通力协作完成,其中,来自新浪微博的陈开江负责完成前言及第1~4章的翻译;来自阿里B2B的刘逸哲负责完成第5、8、9和11章的翻译;来自阿里一淘的孟晓楠负责完成第6、7、10和12章的翻译;同时,全书审校工作由来自北京理工大学的罗森林教授义务承担。
本书能够得以出版,首先要感谢机械工业出版社的吴怡编辑,是她给了我们三位工程师这个学习知识并传递知识的机会,她经验丰富,在翻译过程中给予了我们许多建设性的指导意见。其次,要感谢罗森林教授,他在百忙之中为我们担任全书的审校工作,从而让国内的机器学习者能感受到这本书应有的魅力。最后,我们要感谢互联网,因为译者与本书的缘分始于互联网,从看到原书、报名翻译、组成翻译团队、翻译过程中的讨论,所有这样都是通过互联网完成的。
虽然经过罗森林教授认真审校并且给我们提出了宝贵意见,但是由于译者本身水平有限,书中译文势必还存在不妥甚至错误之处,恳请机器学习界的广大前辈、同仁们不吝赐教,促使我们继续为大家更好地传递先进技术,让更多机器学习爱好者成为机器学习的黑客。
我们坚信集体智慧是再高的个人智慧都无法企及的,因此真诚希望大家一起来贡献自己的智慧。三位译者的微博分别为:http://weibo.com/kaijiangidan(陈开江,@刑无刀)、http://weibo.com/liuyizhe10(刘逸哲,@刘逸哲)、http://weibo.com/u/1911115643(孟晓楠,@XiaonanMeng)。无论是对翻译本身有任何意见或建议,还是对机器学习方面有心得,都欢迎大家到我们的微博上交流、切磋,我们一起贡献自己的智慧,在集体智慧中互相学习,共同进步。
前言
当今各行业,尤其是互联网,数据规模越来越大,要从中有效地发现模式来提高生产力,用传统的方式已经几乎不可能,只能借助计算机来完成诸多使命。因此,机器学习这一新兴的学科变得越来越重要,它已经在搜索、推荐、数据挖掘等多个领域闪耀光芒。机器学习是一门交叉学科,内容涉及概率论、统计学、高等数学、计算机科学等多门学科。该学科致力于设计一种让计算机具有“学习”能力的算法,通过发现经验数据中隐藏的模式,实现对未知数据的预测。
大数据时代是机器学习最美好的时代,因为数据不再是问题,各类问题都可以收集到海量的数据。但是,对于很多人来说,这一门交叉学科本身却神秘而陌生,对于没有系统学习过相关基础学科的人来说尤其感到“高不可攀”。如今已出版的机器学习相关书籍中,很多都有这个特点:公式多,晦涩难懂。这让很多程序员出身的人望而却步。然而,在第一次读到本书的英文版时,译者就彻底相信:机器学习完全可以讲解得通俗易懂,让知识的传递实现“润物细无声”。
本书秉承的原则是:实践出真知,只要多动手,没有攻克不了的技术难题。因此作者预期的阅读对象是如电脑黑客般的人,要求对技术有发自内心的求知欲和好奇心,愿意自己动手而非纸上谈兵。全书精心选择了12个机器学习案例,由浅入深,面面俱到,既有基础知识(如数据分析),也有当前热门的社交网站推荐案例。书中的每一个案例都由作者娓娓道来,逐一剖析关键算法的代码,没有丝毫学究气息,触动每个机器学习初学者的内心最深处。
书中所有算法都采用R语言实现。R语言是一门用于统计学的开源脚本语言,基于它的开源性,有来自世界各地的开源拥护者贡献的各种统计学相关的程序包,稳定且方便,尤其是它对数据可视化的支持,更是一柄利器,既轻巧又实用。书中所有源代码和数据在原书的官方网站上都可以免费下载。在阅读过程中,犹如作者亲至身侧,为你讲解代码和思路,为你排除错误和优化效果。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。所选择的案例妙趣横生,如分析UFO目击记录、破译密码、预测股票、分析美国参议员“结党”的情况,等等,这里就不“剧透”了,大家自己去享受学习的乐趣吧。
书中12个案例之间的依赖关系不是特别强(除R语言基础知识外,其余某几章仅有个别知识点之间存在依赖性),可以像连续剧一样,逐一播放,也可以像一个个小品一般,挑感兴趣的内容分别播放。学习完这些案例之后,相信你会窥见机器学习的一斑,然后再根据自己的实际情况更深入地学习。
本书翻译工作由三位来自互联网世界的工程师通力协作完成,其中,来自新浪微博的陈开江负责完成前言及第1~4章的翻译;来自阿里B2B的刘逸哲负责完成第5、8、9和11章的翻译;来自阿里一淘的孟晓楠负责完成第6、7、10和12章的翻译;同时,全书审校工作由来自北京理工大学的罗森林教授义务承担。
本书能够得以出版,首先要感谢机械工业出版社的吴怡编辑,是她给了我们三位工程师这个学习知识并传递知识的机会,她经验丰富,在翻译过程中给予了我们许多建设性的指导意见。其次,要感谢罗森林教授,他在百忙之中为我们担任全书的审校工作,从而让国内的机器学习者能感受到这本书应有的魅力。最后,我们要感谢互联网,因为译者与本书的缘分始于互联网,从看到原书、报名翻译、组成翻译团队、翻译过程中的讨论,所有这样都是通过互联网完成的。
虽然经过罗森林教授认真审校并且给我们提出了宝贵意见,但是由于译者本身水平有限,书中译文势必还存在不妥甚至错误之处,恳请机器学习界的广大前辈、同仁们不吝赐教,促使我们继续为大家更好地传递先进技术,让更多机器学习爱好者成为机器学习的黑客。
我们坚信集体智慧是再高的个人智慧都无法企及的,因此真诚希望大家一起来贡献自己的智慧。无论是对翻译本身有任何意见或建议,还是对机器学习方面有心得,都欢迎大家到我们的微博上交流、切磋,我们一起贡献自己的智慧,在集体智慧中互相学习,共同进步。
媒体评论
——Wired
“O'eilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。”
——Business 2.0
“O'eilly Conference是聚集关键思想领袖的绝对典范。”
——CRN
“一本O'eilly的书就代表一个有用、有前途、需要学习的主题。”
——Irish Times
“Tim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去Tim似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。”
——Linux Journal
书摘
尽管Drew花了很长时间和数据圈子成员交流(包括R用户和非R用户数据圈子成员),但是Drew也使用Twitter与满足其他兴趣的圈子交流。其中一个特别的兴趣是他的学术职业生涯,他关注国家安全技术和政策。在图11—8中,我们突出了Drew网络的右半部分,它包含了来自这些兴趣相关的圈子的成员。和数据专家组类似,这部分包含了2个子组,一个是蓝色的,另外一个是绿色的。和前面的例子一样,节点的分割颜色和摆放位置可以反映出他们在网络中扮演的角色。
蓝色分割中的Twitter用户铺得很开:一部分离Drew很近,在网络的左边,而另外一些在网络的右边,接近绿色的组。那些靠近左边的用户与技术在国家安全中的角色这一话题有关,这些用户包括:Sean Gourley(sgourley)、Lewis Shepherd(1ewisshepherd)和Jeffrey Carr(Jeffrey Carr)。那些靠近绿色组的用户更加关注国家安全政策,和绿色组中的成员相似。在绿色组中,我们看到很多Twitter上著名的国家安全圈子成员,包括:AndrewExum(abumuqawama)、Joshua Foust(joshua Foust)和Daveed Gartenstein—Ross(daveedgr)。和前面一样,有趣的是,那些属于两个组的人被放置到聚类边缘,例如:Chris Albon(chrisalbon),他在两个圈子中都很杰出。
……