数据中心一体化最佳实践:设计仓储级计算机(原书第3版)
本书讨论了此类新型系统如何将数据中心本身当作一台超大规模仓储级的计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。
商品已成功飞到您的手机啦!快登录手机站看看吧!
> 扫一扫 下载客户端
> 微信关注“互动出版网”,便捷查询订单,更多惊喜天天有
编辑推荐
数据中心一体化最佳实践
设计仓储级计算机
(原书第3版)
路易斯·安德烈·巴罗索 (Luiz André Barroso)
[ 美 ]乌尔斯·霍尔兹勒(Urs H?lzle) 著
帕塔萨拉蒂·兰加纳坦(Parthasarathy Ranganathan)
徐凌杰 译
The Datacenter as a Computer
Designing Warehouse-Scale Machines
(Third Edition)
内容简介
书籍 计算机书籍
本书将介绍仓储级计算机(WSC)。这种计算平台是云计算的核心,支撑着我们每天都在使用的各种强大的互联网服务。本书讨论了此类新型系统如何将数据中心本身当作一台超大规模仓储级的计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。书中还详细讲述了WSC的架构设计,其中不仅涵盖影响其设计、运行和成本结构的主要因素,还包括相应的基础软件的各种特性。每一章都介绍了多个真实世界的案例,其中包括详尽的分析在线服务的基础设施信息。本书主要面向当今WSC系统的架构师和程序开发人员,希望能为有志于在此重要领域发展的人才打下一个坚实的基础,同时相关的内容也适用于那些仅想了解互联网基础设施信息的人群。
目录
译者序
致谢
作者简介
译者简介
第1章 绪论 1
1.1 仓储级计算机 2
1.2 规模化下的成本效益 3
1.3 不仅是服务器的简单堆砌 4
1.4 单个数据中心与多个数据中心 4
1.5 为什么WSC对你至关重要 5
1.6 WSC架构概述 6
1.6.1 服务器 6
1.6.2 存储 7
1.6.3 网络结构 8
1.6.4 建筑与基础设施 9
1.6.5 电力使用 11
1.6.6 故障与维修处理 12
1.7 本书概述 12
第2章 工作负载与基础软件 15
2.1 WSC系统栈 15
2.2 平台层软件 16
2.3 集群层基础软件 17
2.3.1 资源管理 17
2.3.2 集群基础软件 18
2.3.3 应用框架 18
2.4 应用层软件 19
2.4.1 工作负载多样性 19
2.4.2 网页搜索 20
2.4.3 视频服务 22
2.4.4 学术文章相似度搜索 23
2.4.5 机器学习 24
2.5 监控基础设施 27
2.5.1 服务层仪表盘 27
2.5.2 性能诊断工具 27
2.5.3 平台层健康监控 28
2.6 WSC软件的权衡 29
2.6.1 数据中心和台式机 29
2.6.2 性能与可用性工具箱 30
2.6.3 购买还是自建 32
2.6.4 长尾容忍 33
2.6.5 工程师应该知道的延迟数据 33
2.7 云计算 35
2.7.1 面向公有云服务的WSC和对内服务的WSC 36
2.7.2 云原生软件 36
2.8 仓储级信息安全 37
第3章 WSC硬件组件 39
3.1 服务器硬件 39
3.1.1 服务器和机架概述 40
3.1.2 大型SMP通信效率的影响 43
3.1.3 高性能服务器和低性能服务器 45
3.2 计算加速器 48
3.2.1 图形处理器 49
3.2.2 张量处理器 50
3.3 网络 52
3.3.1 集群网络 52
3.3.2 主机网络 56
3.4 存储 57
3.4.1 硬盘托盘与无盘服务器 57
3.4.2 WSC非结构化存储 58
3.4.3 WSC结构化存储 59
3.4.4 存储与网络技术相互作用 60
3.5 平衡的设计 61
3.5.1 系统平衡:存储层次结构 62
3.5.2 量化延迟、带宽及容量 62
第4章 数据中心基础:建筑、电力与冷却 65
4.1 数据中心概述 65
4.1.1 等级分类与规格 65
4.1.2 建筑基础知识 66
4.2 数据中心电力系统 68
4.2.1 不间断电源系统 68
4.2.2 配电单元 69
4.2.3 交流与直流配电架构对比 70
4.3 应用实例:冗余径向配电 71
4.4 应用实例:中压电源层 72
4.5 数据中心冷却系统 74
4.5.1 机房空调系统 76
4.5.2 冷水机组 77
4.5.3 冷却塔 77
4.5.4 自然冷却 79
4.5.5 对气流的考量 79
4.5.6 机架内冷却、行级冷却和液体冷却 81
4.5.7 基于集装箱的数据中心 82
4.6 应用实例:谷歌数据中心顶部冷却系统 84
4.7 本章小结 84
第5章 能耗与能效 85
5.1 数据中心能效 85
5.1.1 PUE指标 86
5.1.2 PUE指标的问题 88
5.1.3 数据中心能效损失来源 89
5.1.4 提升数据中心能效 90
5.1.5 基础设施之外的因素 91
5.2 计算能效 92
5.2.1 能效的测量 92
5.2.2 服务器能效 92
5.2.3 WSC使用画像 93
5.3 能耗成比例计算 95
5.3.1 能耗成比例程度低的原因 96
5.3.2 提升能耗成比例的能力 97
5.3.3 系统其他部分的能耗成比例 98
5.3.4 低功耗模式的相对有效性 99
5.3.5 软件在能耗成比例中的作用 100
5.4 通过专用定制提高能效 103
5.5 数据中心供电 105
5.5.1 部署适量的设备 105
5.5.2 数据中心超额用电 105
5.6 服务器能量使用趋势 107
5.7 本章小结 109
第6章 成本建模 111
6.1 资本成本 111
6.2 运营成本 113
6.3 案例分析 114
6.4 实际数据中心成本 116
6.5 建模部分使用的数据中心 117
6.6 公有云成本 118
第7章 故障处理与维修 119
7.1 软件容错 120
7.2 故障分类 121
7.2.1 故障严重性分级 122
7.2.2 导致服务级故障的原因 123
7.3 机器级故障 124
7.3.1 导致机器级故障的原因 127
7.3.2 故障预测 128
7.4 维修 129
7.5 容错不是隐藏错误 130
7.6 集群系统设计的故障统计 131
第8章 结束语 135
8.1 硬件 136
8.2 软件 137
8.3 经济性与能效 138
8.4 打造响应快速的大规模系统 139
8.4.1 不断演进的工作负载 139
8.4.2 残酷的阿姆达尔定律 139
8.4.3 为微秒级系统优化 140
8.4.4 长尾 140
8.5 展望 141
8.5.1 摩尔定律的终结 141
8.5.2 加速器与全局系统设计 141
8.5.3 软件定义基础设施 142
8.5.4 计算机体系结构和WSC的新纪元 143
8.6 总结 144
参考文献 145
媒体评论
5G时代的到来,意味着万物互连后的数据大爆炸和数据来源的更加多样,而传统的超算中心和新兴的互联网企业都有日益旺盛的算力需求,在人工智能、大数据、云计算、区块链、边缘计算等新一代信息技术迅猛发展的大趋势下,它们也在向彼此靠拢、相互融合、创新发展。数据中心一体化设计正是应对多样化工作负载融合创新的重要成果,值得每一位致力于此领域的研究人员和从业者认真思考和学习。
———张云泉,中国科学院计算技术研究所研究员、中国计算机学会高性能计算专委会秘书长、ACM 中国高性能计算专家委员会主席
今天,以谷歌、亚马逊、阿里等为代表的公司和机构,把成千上万的“电脑”以奇妙的方式组合起来,通过集中的方式、基于海量的数据,给世界上各种组织与个人提供“无穷”的计算与存储资源,从而为人类提供各式各样的信息服务。这本书从谷歌的实践和理解出发,结合世界上先进的计算机系统与体系结构领域的进展,向读者展示了这样一个“巨型电脑”的软硬件组成、核心要素、评价指标、成本分析以及未来发展趋势。如果你也想“造”一个这样的“巨型电脑”,那这本书一定应该在你的必读书目里!
——汪玉,清华大学教授
超大规模云数据中心是当前支撑互联网和人工智能发展的重要的基础设施,徐凌杰是这个领域的专家,他专业精到的译文让我们可以快速领略这个领域的前沿进展。
——刘军,浪潮集团人工智能与高性能计算总经理
AI终究会超越人的大脑,因为其结构与功能可迅速迭代优化,从而提升规模效率。徐凌杰是一位杰出的架构师,他的这本译作将谷歌数据中心作为仓储计算机的秘诀拆解到了末梢。开源精神、严谨的算法框架与技术解决方案,值得AI业者参考。
——杨静,新智元创始人