基本信息


【插图】

编辑推荐
适读人群 :由于对机器学习模型的分布式训练已经成为产业界的首选方式,计算机产业的从业者将会对本书介绍的内容有非常浓厚的兴趣(尤其因为本书有专门的章节讨论分布式机器学习的实战)
全面展示分布式机器学习理论、方法与实践
微软亚洲研究院机器学习核心团队潜心力作
鄂维南院士、周志华教授倾心撰写推荐序
内容前沿全面,讨论系统深刻,全彩印刷
内容简介
计算机书籍
介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向。
全书共12章。第1章是绪论,向大家展示分布式机器学习这个领域的全景。第2章介绍机器学习的基础知识。第3章到第8章是本书的核心部分,向大家细致地讲解分布式机器学习的框架及其各个功能模块。其中第3章给出整个分布式机器学习框架的综述,而第4章到第8章则分别针对其中的数据与模型划分模块、单机优化模块、通信模块、数据与模型聚合模块加以介绍。接下来的三章是对前面内容的总结与升华。其中第9章介绍由分布式机器学习框架中不同选项所组合出来的各式各样的分布式机器学习算法,第10章讨论这些算法的理论性质,第11章则介绍几个主流的分布式机器学习系统(包括Spark MLlib 迭代式MapReduce系统,Multiverso参数服务器系统,TensorFlow数据流系统)。最后的第12章是全书的结语,在对全书内容进行简要总结之后,着重讨论分布式机器学习这个领域未来的发展方向。
本书基于微软亚洲研究院机器学习研究团队多年的研究成果和实践经验写成,既可以作为研究生从事分布式机器学习方向研究的参考文献,也可以作为人工智能从业者进行算法选择和系统设计的工具书。
人工智能大潮中,市场上已有许多机器学习书籍,但是分布式机器学习的专门书籍还很少见。本书是希望学习和了解分布式机器学习的读者的福音。
作译者
陈薇:微软亚洲研究院机器学习组主管研究员,研究机器学习各个分支的理论解释和算法改进,尤其关注深度学习、分布式机器学习、强化学习、博弈机器学习、排序学习等。2011年于中国科学院数学与系统科学研究院获得博士学位,同年加入微软亚洲研究院,负责机器学习理论项目,先后在NIPS、ICML、AAAI、IJCAI等相关领域顶*国际会议和期刊上发表文章30余篇。
王太峰:蚂蚁金服人工智能部总监、资深算法专家。在蚂蚁金服负责AI算法组件建设,算法工作服务于蚂蚁金服的支付、国际、保险等多条业务线。在加入蚂蚁之前在微软亚洲研究院工作11年,任主管研究员,他的研究方向包括大规模机器学习、数据挖掘、计算广告学等。在国际顶*的机器学习会议上发表近20篇的论文,在大规模机器学习工具开源方面也做出过很多贡献,在微软期间主持开发过DMTK的开源项目。
高飞:微软亚洲研究院副研究员,主要从事分布式机器学习和深度学习的研究工作,并在国际会议上发表多篇论文。2014年设计开发了当时规模*大的主题模型算法和系统LightLDA。他还开发了一系列分布式机器学习系统,并通过微软分布式机器学习工具包(DMTK)开源在GitHub上。
目录
序言二
前 言
作者介绍
第1章 绪论/ 1
1.1 人工智能及其飞速发展/ 2
1.2 大规模、分布式机器学习/ 4
1.3 本书的安排/ 6
参考文献/ 7
第2章 机器学习基础/ 9
2.1 机器学习的基本概念/ 10
2.2 机器学习的基本流程/ 13
2.3 常用的损失函数/ 16
2.3.1 Hinge损失函数/ 16
2.3.2 指数损失函数/ 16
2.3.3 交叉熵损失函数/ 17
2.4 常用的机器学习模型/ 18
2.4.1 线性模型/ 18
2.4.2 核方法与支持向量机/ 18
2.4.3 决策树与Boosting/ 21
前言
最近几年,机器学习在许多领域都获得了前所未有的成功,由此也彻底改变了人工智能的发展方向,引发了大数据时代的到来。其中最富有挑战性的问题是由分布式机器学习解决的。所以,要了解机器学习究竟能够带来什么样前所未有的新机遇、新突破,就必须了解分布式机器学习。
相比较而言,机器学习这个领域本身是比较单纯的领域,其模型和算法问题基本上都可以被看成纯粹的应用数学问题,而分布式机器学习则不然,它更像是一个系统工程,涉及数据、模型、算法、通信、硬件等许多方面,这更增加了系统了解这个领域的难度。刘铁岩博士和他的合作者的这本书,从理论、算法和实践等多个方面对这个新的重要学科给出了系统、深刻的讨论。这无疑是雪中送炭,这样的书籍在现有文献中还难以找到。对我个人而言,这也是我早就关注但一直缺乏系统了解的领域,所以看了这本书,我也是受益匪浅。相信对众多关注机器学习的工作人员和学生,这也是一本难得的好书。
我是2012年在我组织的“数据科学与信息产业”会议上认识铁岩的。后来虽然见面不多,但我一直关注他的工作。他和合作者在百忙之中抽出宝贵的时间来写这本书,对整个机器学习、大数据和人工智能领域都是很大的贡献。相信他们的辛勤劳动会得到行业的回报。
鄂维南
2018年6月
序言二
如果说人工智能技术将造就人类的未来时代,那么作为人工智能的核心支撑,机器学习将会像电力一样无处不在。事实上,机器学习现在已经炙手可热,不仅学界关注、业界聚焦、政府重视,甚至在街头巷尾也常有所闻。回望十几年前很多人还以为机器学习是机械类专业内容,恍如隔世。
机器学习备受关注的原因之一,是它已经在众多现实应用中发挥了巨大作用,尤其在若干困难任务上带来了超出一般预料的成功。于是,人们热情高涨,对于以机器学习为核心的智能产业的前景无限憧憬,而如何让机器学习技术在业界的大规模任务中更充分地发挥威力,则成为热议的话题。
业界的大规模机器学习任务往往涉及如何充分地利用“大数据”、如何有效地训练“大模型”。使用价格昂贵的高性能设备,例如TB级内存的计算服务器未尝不可,但硬件能力的增长速度显然比不上机器学习所面对数据的增长速度,因此目前业界更主流的解决方案是分布式机器学习。
分布式机器学习并非分布式处理技术与机器学习的简单结合。一方面,它必须考虑机器学习模型构成与算法流程本身的特点,否则分布式处理的结果可能失之毫厘、谬以千里;另一方面,机器学习内含的算法随机性、参数冗余性等,又会带来一般分布式处理过程所不具备的、宜于专门利用的便利。
值得一提的是,市面上关于机器学习的书籍已有许多,但是分布式机器学习的专门书籍还颇少见。
刘铁岩博士是机器学习与信息检索领域的国际著名专家,带领的微软亚洲研究院机器学习研究团队成果斐然。此次他们基于分布式机器学习方面的丰富经验推出《分布式机器学习:算法、理论与实践》一书,将是希望学习和了解分布式机器学习的中文读者的福音,必将有力促进相关技术在我国的推广和发展。
周志华
于南京
2018年6月
媒体评论
相比较而言,机器学习这个领域本身是比较单纯的领域,其模型和算法问题基本上都可以被看成纯粹的应用数学问题。而分布式机器学习则不然,它更像是一个系统工程,涉及数据、模型、算法、通信、硬件等许多方面,这更增加了系统了解这个领域的难度。刘铁岩博士和他的合作者的这本书,从理论、算法和实践等多个方面对这个新的重要学科给出了系统、深刻的讨论,对整个机器学习、大数据和人工智能领域都是很大的贡献。我看了这本书受益匪浅。相信对众多关注机器学习的工作人员和学生,这也是一本难得的好书。
——鄂维南中国科学院院士,美国数学学会、美国工业与应用数学学会会士
普林斯顿大学、北京大学教授,北京大数据研究院院长
如果说人工智能技术将造就人类的未来时代,那么作为人工智能的核心支撑,机器学习将会像电力一样无处不在。如何让机器学习技术在业界的大规模任务中更充分地发挥威力,则成为热议的话题,目前更主流的解决方案是分布式机器学习。分布式机器学习并非分布式处理技术与机器学习的简单结合。一方面,它必须考虑机器学习模型构成与算法流程本身的特点,否则分布式处理的结果可能失之毫厘、谬以千里;另一方面,机器学习内含的算法随机性、参数冗余性等,又会带来一般分布式处理过程所不具备的、宜于专门利用的便利。
值得一提的是,市面上关于机器学习的书籍已有许多,但是分布式机器学习的专门书籍还颇少见。刘铁岩博士是机器学习与信息检索领域的国际著名专家,带领的微软亚洲研究院机器学习研究团队成果斐然。此次他们基于分布式机器学习方面的丰富经验推出《分布式机器学习:算法、理论与实践》一书,将是希望学习和了解分布式机器学习的中文读者的福音,必将有力促进相关技术在我国的推广和发展。
——周志华欧洲科学院外籍院士,ACM / AAAS / AAAI / IEEE / IAPR 会士
南京大学教授、计算机科学与技术系主任、人工智能学院院长