基本信息
- 原书名:Practical Machine Learning Cookbook
- 作者: (英)阿图尔·特里帕蒂(Atul Tripathi)
- 译者: 王喆 曹建勋
- 丛书名: 数据分析与决策技术丛书
- 出版社:机械工业出版社
- ISBN:9787111592129
- 上架时间:2018-6-25
- 出版日期:2018 年3月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 人工智能 > 人机交互

编辑推荐
从数据科学家视角探索机器学习现实应用所面临的挑战并提供有效解决方案
内容简介
作译者
目录
前言
第1章 机器学习引言 1
1.1 什么是机器学习 1
1.2 分类方法概述 2
1.3 聚类方法概述 2
1.4 监督学习概述 3
1.5 无监督学习概述 4
1.6 增强学习概述 4
1.7 结构化预测概述 5
1.8 神经网络概述 5
1.9 深度学习概述 6
第2章 分类 7
2.1 引言 7
2.2 判别函数分析:地下卤水地质化学测量 8
2.3 多元逻辑回归:理解学生的课程计划选择 15
2.4 Tobit回归:评估学生的学术能力 20
2.5 泊松回归:理解加拉帕戈斯群岛现存物种 27
第3章 聚类 38
3.1 引言 38
译者序
对于所有的IT行业从业者来说,机器学习也是一场思维方式的变革。所有主流的互利网公司甚至是传统行业的优秀公司都越来越重视数据的重要性,通过算法和机器学习模型来挖掘数据中的价值,以驱动公司业务的进一步增长。与此同时,越来越多的从业者转型成数据科学家、算法工程师,走在这场变革的最前沿。对于刚刚走出校园的应届生来说,无论是计算机相关专业,还是数学、物理等基础专业,抑或是生物、化学等应用学科专业,也都纷纷拥抱这场由数据和算法带来的革命,成为AI业界的新鲜血液。
我是一名有五年工作经验的算法工程师,在我工作的计算广告领域,也切身感受到行业发展之快,变化之迅速,以及人才需求之迫切。2015年之前,算法工程师这个“title”还是各个公司的小众群体,但时至2017年,优秀的算法工程师已经成为各大公司最火热也最紧缺的职位,而拥有优秀算法工程师的公司也因此大放异彩,像今日头条的推荐,滴滴的运筹规划,阿里的广告算法,都让其公司成为各自领域当之无愧的巨头。但在招聘和工作的过程中,我也发现了诸多不好的现象,许多工程师和应届生急于转行,忽视了算法和统计学的基础,也有很多算法工程师对于算法和模型的态度不够严谨,知其然而不知其所以然,不能将公司业务与算法更好地结合起来,这些都成为阻碍算法工程师成长的绊脚石。这也是我翻译本书的原因和动力,一本将机器学习、统计学基础和实际数据、实际分析工具结合起来的优秀参考书,能够极大提高我们的理论功底和动手水平。我自己在阅读原著并完成原著实例的过程中受益匪浅,也希望通过翻译本书让更多的从业者、有志于算法领域的在校生受益。
本书作者在机器学习领域拥有超过11年的从业经历,并在量化投资、图像处理、自然语言处理等多个领域拥有丰富的研究和开发经验。从他的书中,你明显可以发现“理论联系实际”的特点。无论是使用隐马尔可夫模型构建量化交易策略,还是使用决策树模型构建疾病护理体系,在介绍每种模型时,作者都会结合实际问题,用R语言实现并进行多维度的分析。在翻译本书的时候,我也感觉到读者需要颇深的统计学背景,力图用更偏统计学的语言描述算法模型,所使用的R语言也更多流行于学术科研和数据分析的领域。对于很多计算机背景的读者来说,本书是一个很好地熟悉统计学知识和R语言的机会。
本书是我与清华大学计算机系博士曹建勋一同翻译的,我们的合作非常愉快。最后,感谢本书的策划编辑张锡鹏和责任编辑缪杰在翻译过程中提供的诸多帮助。
由于译者水平有限,译文难免有错误之处,欢迎读者批评指正。
王喆
2017年10月31日于北京
前言
我们将首先介绍本书中包含的多种不同的机器学习主题,随后,基于现实世界的问题在不同的章节中对各个主题进行一一探讨,例如分类、聚类、模型选择和正则化、非线性问题、监督学习、无监督学习、增强学习、结构化预测、神经网络、深度学习,还有最后的案例研究。本书的机器学习算法以R语言作为编程语言。本书适用于R语言的初学者,但是熟悉R语言对理解和使用本书的代码肯定是会有所帮助的。
你将学习如何合理地决定使用哪类算法以及如何应用这些算法得到最佳的效果。如果你想要对图像、文字、语音或者其他形式的数据都建立有意义的多功能的应用,本书绝对会成为你的得力助手。
本书的主要内容
第1章涵盖了机器学习的各种概念。本章使读者初步了解本书涵盖的各个主题。
第2章包括以下算法:判别函数分析、多元逻辑回归、Tobit回归、泊松回归。
第3章包括以下主题和算法:层次聚类、二进制聚类、k均值聚类。
第4章包括以下主题和算法:压缩方法、降维方法和主成分分析。
第5章包括以下主题和算法:广义加性模型、平滑样条、局部回归。
第6章包括以下主题和算法:决策树学习、朴素贝叶斯、随机森林、支持向量机、随机梯度下降。
第7章包括以下主题和算法:自组织映射和矢量量化。
第8章包括以下主题和算法:马尔可夫链、蒙特卡洛模拟。
第9章包括以下主题和算法:隐马尔可夫模型。
第10章包括以下主题和算法:神经网络。
第11章包括以下主题和算法:递归神经网络。
第12章包括世界银行数据分析。
第13章包括再保险合同定价。
第14章包括用电量预测。
本书的重点
本书的重点是用R语言构建基于机器学习的应用。我们已经使用R语言构建过各种解决方案。我们的重点是利用R语言库和函数以最佳方式来克服现实世界的挑战。我们尽量保持所有代码的友好性和可读性。我们认为这将使读者能够很容易地理解代码,并在不同的场景中随时使用它。
媒体评论
本书前半部分将逐一讲解非常复杂的机器学习系统中的相关技术。你将从中学到如何利用机器学习的技术去探索新应用的领域并提升其效率。具体包括分类、神经网络、无监督和监督学习、深度学习、增强学习等方面的技术。
本书后半部分集中介绍三个不同的机器学习案例。所有案例都基于真实数据,并有针对性地提供了机器学习的解决方案。
通过阅读本书,你将:
深入理解如何应用机器学习技术
逐一实现高级的机器学习技术
解决你所遇到的现实问题,使你的应用产生更为优化的结果
针对机器学习系统,获得解决问题的实践经验
理解收集数据、数据预处理、训练模型、评估模型性能和改进模型性能的方法