深入理解XGBoost:高效机器学习算法与进阶
以机器学习基础知识做铺垫,深入剖析XGBoost原理、分布式实现、模型优化、深度应用等
基本信息

【插图】

编辑推荐
知名互联网公司资深工程师撰写,打通高效机器学习脉络,掌握竞赛神器XGBoost
以机器学习基础知识做铺垫,深入剖析XGBoost原理、分布式实现、模型优化、深度应用等
内容简介
目录
第1章 机器学习概述1
1.1 何谓机器学习1
1.1.1 机器学习常用基本概念2
1.1.2 机器学习类型3
1.1.3 机器学习应用开发步骤4
1.2 集成学习发展与XGBoost提出5
1.2.1 集成学习5
1.2.2 XGBoost6
1.3 小结7
第2章 XGBoost骊珠初探9
2.1 搭建Python机器学习环境9
2.1.1 Jupyter Notebook10
2.1.2 NumPy11
2.1.3 Pandas18
2.1.4 Matplotlib32
2.1.5 scikit-learn39
2.2 搭建XGBoost运行环境39
2.3 示例:XGBoost告诉你蘑菇是否有毒42
2.4 小结44
前言
在机器学习与人工智能的浪潮中,XGBoost凭借高效、便捷、扩展性强等优势,在众多开源机器学习库中脱颖而出,广受各大企业青睐。目前XGBoost已成为热门的机器学习开源项目之一,拥有强大的社区支持,技术也日趋成熟。
为什么要写这本书
最初写这本书的想法萌生于两年前。当时,一些刚接触XGBoost的同事让我推荐学习资料,但我发现除了英文论文和官方文档外,竟找不到一本XGBoost的入门书籍。当然,论文和官方文档是学习XGBoost的重要参考资料,但对于刚接触机器学习的初学者而言,学习这些资料的成本相对较高。如果没有足够的理论基础,初学者容易一开始就被细节和难点缠住,降低学习的积极性。
XGBoost涉及的相关知识较多,资料比较分散,苦于缺乏一个系统、完整的学习教程可以参考,学习者不得不在搜集资料上耗费大量时间。此外,对于XGBoost的应用也少有完整的案例剖析。想深入理解XGBoost的学习者,只能通过研究项目源码的方式进行学习,这显然不是一个特别高效的学习方式。
为了能够深入理解XGBoost中各个组件的实现原理,笔者也花费了很多时间和精力。在阅读了相关论文文档、深入研究源码并多次实践后,积累了很多学习笔记,对XGBoost也有了自己的理解,由此便萌生了将其整理成书的想法。这样既可以帮助更多的人快速了解和学习XGBoost,使自己的学习所得发挥更大的价值,也可以在梳理所学知识的过程中进一步提升。
本书特色
本书是国内少有的系统、全面地介绍XGBoost技术原理的书籍,以通俗易懂的方式对XGBoost的原理和应用进行介绍,力求帮助读者深入理解XGBoost。
(1)讲授循次而进,符合初学者的认知规律。本书首先介绍机器学习中的常用算法,帮助读者直观地理解算法的基本原理,打下良好的理论基础。然后由浅入深,鞭擗向里,带领读者深入探索机器学习前沿技术。
(2)内容涵盖全面,重视理解深度。本书不仅全面覆盖了决策树、Gradient Tree Boosting、目标函数近似、切分点查找算法等常见内容,还详细讲解了分布式实现、排序学习、模型解释性、DART等内容。
(3)案例实用丰富,帮助读者解决实际遇到的机器学习问题。本书在每个算法讲解之后都配有相应的编程示例,不仅使读者理解算法原理,还有助于提升灵活运用算法的能力。
另外,本书可以作为算法开发人员手边的工具书,在学习和工作的过程中随时查阅参考。
读者对象
人工智能领域的算法工程师
人工智能领域的架构师
其他对机器学习感兴趣的人
如何阅读本书
本书共有10章,具体内容如下。
第1章介绍了何谓机器学习和机器学习中的一些基本概念,以及机器学习应用开发的步骤,并对集成学习的历史发展、XGBoost的应用场景及其优良特性进行了概述。
第2章详细讲解了Python机器学习环境的搭建及常用开源工具包的安装和使用,并以一个简单的示例展示XGBoost的使用方法。
媒体评论
XGBoost(eXtreme Gradient Boosting),初惊艳于Kaggle竞赛,后以出众的效率和较高的准确度得到广泛应用。正如其名,它是Gradient Boosting思想的实现,最大的特点是能够通过并行实现加速计算,同时在算法上加以改进提高了精度。
XGBoost存在一定的学习门槛,资料又较为分散,缺乏一个系统、完整的学习教程可以参考。作者作为XGBoost开源社区贡献者,经长期积累与实践,潜心研思,总结成书,以飨读者。
理论先行:以机器学习常用算法为铺垫,打下良好的理论基础。
夯实基础:全面覆盖了决策树、Gradient Tree Boosting、目标函数近似、切分点查找算法等主要内容。
重视深度:深入阐述了分布式实现、排序学习、模型解释性等算法和技术。
案例丰富:算法讲解与应用案例相辅相成,以便读者灵活运用、融会贯通。
此外,本书也可作为算法开发人员的手边工具书,在学习和工作中随时查阅参考。