基本信息
- 原书名:Machine Learning Algorithms
- 作者: (意)朱塞佩·博纳科尔索
- 译者: 罗娜
- 丛书名: 智能科学与技术丛书
- 出版社:机械工业出版社
- ISBN:9787111595137
- 上架时间:2018-10-29
- 出版日期:2018 年5月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 计算机科学理论与基础知识 > 计算理论 > 算法
教材

编辑推荐
熟悉机器学习的重要元素 了解特征选择和特征工程
评估线性回归的性能并学会平衡其误差
构建数据模型并通过使用不同类型的算法来了解其工作原理
学习调整支持向量机的参数 对数据集实现聚类
了解自然语言处理和推荐系统 从头开始架构机器学习体系
内容简介
作译者
Giuseppe Bonaccorso是一位拥有12年经验的机器学习和大数据方面的专家。他拥有意大利卡塔尼亚大学电子工程专业工程学硕士学位,并在意大利罗马第二大学、英国埃塞克斯大学深造过。在他的职业生涯中,担任过公共管理、军事、公用事业、医疗保健、诊断学和广告等多个业务领域的IT工程师,使用Java、Python、Hadoop、Spark、Theano和TensorFlow等多种技术进行过项目开发与管理。他的主要研究兴趣包括人工智能、机器学习、数据科学和精神哲学。
审校人员简介
Manuel Amunategui是SpringML公司数据科学项目副总裁。SpringML是一家初创公司,提供Google Cloud、TensorFlow和Salesforce企业解决方案。在此之前,他曾在华尔街担任量化开发人员,为一家大型股票期权交易商工作,之后担任微软的软件开发人员。他拥有预测分析和国际管理硕士学位。
他是数据科学爱好者、博主(http://amunategui.github.io),担任Udemy.com和O'Reilly Media的培训师,以及Packt出版社的技术审校人员。
Doug Ortiz是ByteCubed的一名高级大数据架构师,他在整个职业生涯中一直从事企业解决方案方面的架构、开发和集成工作。他帮助企业通过一些现有的和新兴的技术,诸如Microsoft BI Stack、Hadoop、NoSQL数据库、SharePoint以及相关工具和技术,重新发现和利用未充分利用的数据。他也是Illustris公司的创始人,可通过ougortiz@illustris.org与他联系。
在专业领域,他有多平台和产品集成、大数据、数据科学、R和Python方面的丰富经验。Doug还帮助企业深入了解并重视对数据和现有资源的投资,将其转化为有用的信息来源。他利用独特和创新的技术改进、拯救并架构了多个项目。他的爱好是瑜伽和潜水。
Lukasz Tracewski是一名软件开发人员和科学家,专攻机器学习、数字信号处理和云计算。作为开源社区的积极成员,他也是众多研究类出版物的作者。他曾在荷兰一家高科技产业作为软件科学家工作了6年,先后在光刻和电子显微镜方面帮助构建达到生产量与物理精度极限的算法及机器。目前,他在金融行业领导着一支数据科学团队。
4年来,Lukasz一直在自然保护领域利用他的专业技能提供无偿服务,如从录音或卫星图像分析中进行鸟类分类等。他在业余时间从事濒危物种的保护工作。
目录
前言
作者简介
审校人员简介
第1章 机器学习简介1
1.1 经典机器和自适应机器简介1
1.2 机器学习的分类2
1.2.1 监督学习3
1.2.2 无监督学习5
1.2.3 强化学习7
1.3 超越机器学习——深度学习和仿生自适应系统8
1.4 机器学习和大数据9
延伸阅读10
本章小结10
第2章 机器学习的重要元素11
2.1 数据格式11
2.2 可学习性13
2.2.1 欠拟合和过拟合15
2.2.2 误差度量16
2.2.3 PAC学习18
译者序
作为一种解释型语言,Python简单易学,开发生态成熟,有很多非常有用的库可以调用,无论是初学者还是专业的程序员都可以利用它方便地编写出所需要的程序。同时,Python可以方便地调用很多第三方库,从而给程序员带来了很大的便捷性。基于此,Python拥有庞大的用户群体以及繁荣的社区,这反过来也促进了Python的进一步发展。
与机器学习领域很多偏重于理论的图书相比,本书在简明扼要地阐明基本原理的基础上,侧重于介绍如何在Python环境下使用机器学习方法库,并通过大量实例清晰形象地展示了不同场景下机器学习方法的应用。从这个角度来说,本书是一本使机器学习算法通过Python实现真正“落地”的书,而这无疑将给想要或致力于机器学习应用的读者带来方法理解和实现上的巨大裨益。
感谢华东理工大学信息科学与工程学院的部分研究生,包括金宇尘、何翔、陈鹏、李福杰、余刚、骆楠、戚鹏程等,他们在本书的翻译过程中做了一些辅助性的工作。感谢崔冬等软件开发人员,他们在本书的审阅过程中提出了建设性意见和建议。这里还要特别感谢机械工业出版社张梦玲编辑的大力引荐和无私帮助。
限于本人水平,对本书中部分内容的理解或中文语言的表达难免存在不当之处,敬请读者批评指正,以便能够不断改进。
罗娜
2017年12月12日于上海
前言
本书涵盖的内容
第1章对机器学习领域进行简单的介绍,解释了生成智能应用的重要方法的相关基本概念。
第2章解释了关于最常见的机器学习问题的数学概念,包括可学习性的概念和信息论的一些内容。
第3章介绍了数据集预处理、如何选择信息量最大的特征以及进行降维的重要技术。
第4章描述了连续型变量的线性模型,重点介绍了线性回归算法,介绍了Ridge、Lasso和ElasticNet优化以及其他高级技术。
第5章介绍了线性分类的概念,重点介绍了逻辑回归和随机梯度下降算法,以及几个重要的评估指标。
第6章解释了贝叶斯概率理论,并描述了朴素贝叶斯分类器的结构。
第7章引入了支持向量机算法,着重介绍了线性和非线性分类问题。
第8章解释了层次决策过程的概念,并描述了决策树分类、Bootstrap和袋装树以及投票分类器的概念。
第9章介绍了聚类的概念,描述了k均值算法和确定聚类最佳数量的多种方法,还介绍了DBSCAN和谱聚类等其他聚类算法。
第10章继续第9章聚类的内容,介绍了凝聚聚类。
第11章解释了推荐系统中最常用的算法:基于内容和基于用户的策略、协同过滤和交替最小二乘法。
第12章解释了词袋的概念,并介绍了有效处理自然语言数据集所需的最重要技术。
第13章介绍了主题建模的概念,并描述了最重要的算法,如潜在语义分析和潜在狄利克雷分配。同时,还涵盖了情感分析问题,解释了最常用的解决问题的方法。
第14章介绍了深度学习领域的内容,解释了神经网络和计算图的概念,对TensorFlow和Keras框架的主要概念进行了简要的介绍并列举了几个实例。
第15章介绍了如何定义一个完整的机器学习管道,重点介绍了每一步的特点和缺点。
阅读本书须知
阅读本书不需要特别的数学基础知识。但是,为充分理解所有的算法,需要有线性代数、概率论和微积分的基本知识。
本书中的例子采用Python编写,使用了scikit-learn机器学习框架、自然语言工具包(NLTK)、Crab、langdetect、Spark、gensim和TensorFlow(深度学习框架),环境为Linux、Mac OS X或Windows平台的Python 2.7或3.3+版本。当一个特定的框架被用于特定的任务时,会提供详细的指导和参考内容。