第1部分 入门 1
第1章 概述 3
1.1 从头开始构建站点 3
1.2 扩展小型站点 3
1.3 面向全球 4
1.4 服务替换 4
1.5 迁移数据中心 4
1.6 搬迁到/开放新建筑 5
1.7 应对高频率的办公室搬迁 5
1.8 评估站点(尽职调查) 6
1.9 处理合并和收购 6
1.10 处理频繁的计算机崩溃 7
1.11 克服大规模停机或工作中断 7
1.12 每个sa小组成员应该使用的工具 8
1.13 保证工具归还 9
1.14 需要文档系统和过程的原因 9
1.15 需要文档策略的原因 9
1.16 找出环境中的根本问题 10
1.17 为项目筹集更多资金 10
1.18 完成项目 10
.1.19 始终让客户满意 11
1.20 始终让管理层满意 11
1.21 始终让sa满意 11
1.22 防止系统变得过慢 12
1.23 妥善处理大批量的计算机 12
1.24 妥善安置大量的新员工 12
1.25 妥善安置大量的新sa 12
1.26 应对较高的sa小组离职率 13
1.27 应对较高的用户群减员率 13
1.28 小组新成员的注意事项 13
1.29 团队新管理人员的注意事项 13
1.30 寻找新工作 14
1.31 快速雇佣大量新sa 14
1.32 提高系统整体的可靠性 14
1.33 削减成本 15
1.34 增加功能 15
1.35 停止会造成损害的事情 15
1.36 建立客户信心 16
1.37 建立团队的自信心 16
1.38 改善团队有始有终的作风 16
1.39 处理不道德的请求 16
1.40 洗碗机在杯子上留下了污点 17
1.41 保住工作的注意事项 17
1.42 获得更多培训 17
1.43 设置优先级 17
1.44 完成所有工作 18
1.45 缓解压力 18
1.46 sa对管理人员的期望 18
1.47 sa管理人员对sa的期望 18
1.48 老板对sa管理人员的期望 19
第2章 摆脱困境 21
2.1 改进系统管理的几个技巧 21
2.1.1 使用故障报告系统 22
2.1.2 正确管理快速的请求 22
2.1.3 采用3种省时的策略 23
2.1.4 启动状态已知的新主机 24
2.1.5 其他技巧 25
2.2 小结 27
练习 28
第2部分 基本原理 29
第3章 工作站 31
3.1 基本方面 33
3.1.1 安装操作系统 34
3.1.2 更新系统软件和应用程序 39
3.1.3 网络配置 42
3.1.4 避免将动态dns和dhcp一起使用 44
3.2 更进一步 47
3.2.1 对完成任务充满信心 47
3.2.2 让客户参与标准化过程 47
3.2.3 标准配置的变化 48
3.3 小结 48
练习 48
第4章 服务器 51
4.1 基本方面 51
4.1.1 购买服务器专用的硬件 51
4.1.2 选择著名厂商的可靠产品 52
4.1.3 了解服务器硬件的费用 53
4.1.4 考虑维护合同和备件 54
4.1.5 维护数据完整性 56
4.1.6 把服务器放在数据中心 56
4.1.7 客户端服务器的操作系统配置 57
4.1.8 提供远程控制台访问 57
4.1.9 镜像引导盘 59
4.2 更进一步 60
4.2.1 增强可靠性和服务能力 60
4.2.2 另一种选择:比较便宜的工作站 63
4.3 小结 65
练习 66
第5章 服务 67
5.1 基本方面 67
5.1.1 客户要求 69
5.1.2 操作要求 70
5.1.3 开放式架构 72
5.1.4 简单性 75
5.1.5 厂商关系 75
5.1.6 计算机独立性 76
5.1.7 环境 76
5.1.8 限制访问 77
5.1.9 可靠性 78
5.1.10 一台或多台服务器 79
5.1.11 集中化和标准 80
5.1.12 性能 80
5.1.13 监控 82
5.1.14 服务的开展 82
5.2 更进一步 83
5.2.1 专用计算机 83
5.2.2 完全冗余 84
5.2.3 对扩展的数据流进行分析 85
5.3 小结 87
练习 87
第6章 数据中心 89
6.1 基本方面 90
6.1.1 位置 90
6.1.2 访问 92
6.1.3 安全 93
6.1.4 电源和制冷系统 94
6.1.5 灭火系统 101
6.1.6 机架 102
6.1.7 布线 108
6.1.8 贴标签 112
6.1.9 通信 113
6.1.10 控制台访问 114
6.1.11 工作台 115
6.1.12 工具和物资 116
6.1.13 停留空间 117
6.2 更进一步 118
6.2.1 更多的冗余 118
6.2.2 更多空间 119
6.3 理想的数据中心 119
6.3.1 tom梦想的数据中心 119
6.3.2 christina梦想的数据中心 121
6.4 小结 122
练习 123
第7章 网络 125
7.1 基本方面 125
7.1.1 osi模型 126
7.1.2 简洁的架构 127
7.1.3 网络拓扑 127
7.1.4 中间配线架 131
7.1.5 主配线架 135
7.1.6 分界点 136
7.1.7 文档 136
7.1.8 简单主机路由 137
7.1.9 网络设备 138
7.1.10 覆盖网络 140
7.1.11 厂商的数目 141
7.1.12 基于标准的协议 141
7.1.13 监控 142
7.1.14 单一管理域 143
7.2 更进一步 143
7.2.1 先进性与可靠性 144
7.2.2 多重管理域 144
7.3 小结 145
7.3.1 组网的不变内容 145
7.3.2 网络设计中变化的内容 145
练习 145
第8章 命名空间 147
8.1 基本方面 148
8.1.1 命名空间策略 148
8.1.2 命名空间变更程序 155
8.1.3 集中管理命名空间 155
8.2 更进一步 156
8.2.1 巨大的数据库 156
8.2.2 进一步自动化 157
8.2.3 基于用户的更新 157
8.2.4 “下一级”命名空间普遍存在 158
8.3 小结 158
练习 158
第9章 文档 159
9.1 基本方面 159
9.1.1 哪些内容需要归档 159
9.1.2 一个简单的模板 160
9.1.3 容易的文档来源 161
9.1.4 检查清单的功能 163
9.1.5 文档存储 163
9.1.6 wiki系统 164
9.1.7 搜索工具 165
9.1.8 推广问题 165
9.1.9 自管理和显性管理 166
9.2 更进一步 166
9.2.1 动态文档存储库 166
9.2.2 内容管理系统 167
9.2.3 尊重的文化 167
9.2.4 分类与结构 168
9.2.5 其他的文档使用方式 168
9.2.6 离线链接 170
9.3 小结 171
练习 171
第10章 灾难恢复和数据完整性 173
10.1 基本方面 173
10.1.1 灾难的定义 173
10.1.2 风险评估 174
10.1.3 法律义务 174
10.1.4 损害限制 175
10.1.5 准备工作 175
10.1.6 数据完整性 176
10.2 更进一步 177
10.2.1 冗余站点 177
10.2.2 安全性事故 177
10.2.3 和媒体的关系 178
10.3 小结 178
练习 178
第11章 安全策略 181
11.1 基本方面 182
11.1.1 询问适当的问题 182
11.1.2 编制公司的安全策略文档 184
11.1.3 技术人员应牢记的基本要点 189
11.1.4 管理和组织方面的问题 199
11.2 更进一步 208
11.2.1 让安全性深入人心 208
11.2.2 保持最新:联系和技术 209
11.2.3 制定衡量标准 209
11.3 组织概要 209
11.3.1 小型公司 210
11.3.2 中型公司 210
11.3.3 大型公司 210
11.3.4 电子商务网站 211
11.3.5 大学 211
11.4 小结 212
练习 212
第12章 道德规范 213
12.1 基本方面 213
12.1.1 事先通知征求同意 213
12.1.2 专业的行为规范 214
12.1.3 计算机使用指导方针 215
12.1.4 特权访问的行为规范 215
12.1.5 遵守版权法规 217
12.1.6 和执法部门合作 218
12.2 更进一步 221
12.2.1 建立隐私和监视方面的预期 221
12.2.2 对被迫做的违法的不道德的事的处理 222
12.3 小结 224
练习 224
第13章 服务台 227
13.1 基本方面 227
13.1.1 具有一个服务台 227
13.1.2 友好的界面 229
13.1.3 反映公司文化 229
13.1.4 具备足够的人员 229
13.1.5 定义支持范围 230
13.1.6 说明如何获得帮助 232
13.1.7 为服务台人员定义流程 233
13.1.8 建立升级过程 233
13.1.9 书面定义紧急情况 233
13.1.10 提供请求跟踪软件 234
13.2 更进一步 235
13.2.1 统计的改进 235
13.2.2 下班时间以及24×7支持 236
13.2.3 为服务台做好广告 237
13.2.4 针对提供服务和解决问题有不同的服务台 238
13.3 小结 238
练习 239
第14章 客户服务 241
14.1 基本方面 242
14.1.1 阶段a/第一步:问候 243
14.1.2 阶段b:问题确定 243
14.1.3 阶段c:计划和执行 247
14.1.4 阶段d:验证 249
14.1.5 忽略某一步骤的危险 250
14.1.6 一个团队 251
14.2 更进一步 252
14.2.1 基于模型的培训 252
14.2.2 整体改进 252
14.2.3 增加与客户的熟悉度 252
14.2.4 重要故障的特殊通知 252
14.2.5 趋势分析 253
14.2.6 了解流程的客户 254
14.2.7 符合流程的架构性决策 254
14.3 小结 254
练习 255
第3部分 改变过程 257
第15章 调试 259
15.1 基本方面 259
15.1.1 了解客户的问题所在 259
15.1.2 找到问题的根源而不是症状 260
15.1.3 实现系统化 261
15.1.4 使用正确的工具 262
15.2 实战指南 264
15.2.1 更好的工具 264
15.2.2 工具使用的正规培训 264
15.2.3 全面理解系统 265
15.3 小结 266
练习 267
第16章 一次将问题解决 269
16.1 基本方面 269
16.1.1 不要浪费时间 269
16.1.2 避免暂时性修复 270
16.1.3 向木匠学习 272
16.2 理想情况 274
16.3 小结 275
练习 275
第17章 变更管理 277
17.1 基本方面 277
17.1.1 风险管理 278
17.1.2 交流结构 279
17.1.3 时间安排 279
17.1.4 流程和文档编制 282
17.1.5 技术方面 283
17.2 实战指南 285
17.2.1 自动化前端 285
17.2.2 变更管理会议 285
17.2.3 改进流程 287
17.3 小结 288
练习 288
第18章 服务器升级 289
18.1 基本方面 289
18.1.1 步骤1:编写服务检查清单 290
18.1.2 步骤2:确定软件兼容性 291
18.1.3 步骤3:验证测试 292
18.1.4 步骤4:编写恢复计划 294
18.1.5 步骤5:选择一个维护时间窗 294
18.1.6 步骤6:在适当时机宣布升级 295
18.1.7 步骤7:执行测试 296
18.1.8 步骤8:拒绝客户的访问 296
18.1.9 步骤9:执行升级并进行监视 296
18.1.10 步骤10:测试所做的工作 297
18.1.11 步骤11:如果所有步骤失败,则执行恢复计划 297
18.1.12 步骤12:恢复客户访问 297
18.1.13 步骤13:通知客户升级完成/恢复计划 298
18.2 更进一步 298
18.2.1 同时添加和删除服务 298
18.2.2 重新安装 299
18.2.3 重用测试 299
18.2.4 记录系统变更 299
18.2.5 练习 299
18.2.6 在同一台机器上同时安装新旧版本 300
18.2.7 减少基础性变更 300
18.3 小结 301
练习 302
第19章 服务转换 303
19.1 基本方面 303
19.1.1 最大限度地降低对客户的影响 304
19.1.2 layer和pillar 305
19.1.3 通知 306
19.1.4 培训 306
19.1.5 小组优先 307
19.1.6 快速切换:一次全部完成 307
19.1.7 恢复计划 308
19.2 更进一步 309
19.2.1 迅速回滚 309
19.2.2 避免转换 310
19.2.3 web服务转换 310
19.2.4 供应商支持 311
19.3 小结 311
练习 311
第20章 维护时间窗 313
20.1 基本方面 314
20.1.1 时间安排 315
20.1.2 规划 316
20.1.3 飞行指导 316
20.1.4 变更建议 317
20.1.5 制定主控制计划 318
20.1.6 禁止访问 319
20.1.7 保证机制和协调 319
20.1.8 变更完成的最后期限 323
20.1.9 全面的系统测试 323
20.1.10 维护后通信 324
20.1.11 重新启用远程访问 325
20.1.12 第二天上午按时上班 325
20.1.13 事后检查 325
20.2 更进一步 326
20.2.1 指导一个新的飞行指导员 326
20.2.2 历史数据趋势分析 326
20.2.3 提供有限的可用性 326
20.3 高可用性站点 327
20.4 小结 328
练习 329
第21章 集中化和分散化 331
21.1 基本方面 331
21.1.1 指导原则 332
21.1.2 实现集中化的候选服务 333
21.1.3 实现分散化的候选服务 336
21.2 更进一步 337
21.2.1 合并采购 338
21.2.2 外包 339
21.3 小结 341
练习 342
第4部分 提供服务 343
第22章 服务监控 345
22.1 基本方面 345
22.1.1 历史监控 346
22.1.2 实时监控 347
22.2 实战指南 351
22.2.1 可访问性 352
22.2.2 普遍的监控 352
22.2.3 设备发现 352
22.2.4 端到端的测试 352
22.2.5 应用响应时间监控 353
22.2.6 扩展 354
22.2.7 元监控 355
22.3 小结 355
练习 356
第23章 电子邮件服务 357
23.1 基本方面 357
23.1.1 隐私政策 357
23.1.2 命名空间 358
23.1.3 可靠性 359
23.1.4 简单性 359
23.1.5 反垃圾邮件和防病毒 361
23.1.6 通用性 361
23.1.7 自动化 362
23.1.8 基本的监控 363
23.1.9 冗余 363
23.1.10 可扩展性 364
23.1.11 安全问题 365
23.1.12 通信 366
23.2 更进一步 366
23.2.1 加密 367
23.2.2 电子邮件保留策略 367
23.2.3 高级监控 368
23.2.4 大容量的列表处理 368
23.3 小结 369
练习 369
第24章 打印服务 371
24.1 基本方面 371
24.1.1 集中度 372
24.1.2 打印架构策略 373
24.1.3 系统设计 375
24.1.4 文档 376
24.1.5 监控 377
24.1.6 环境问题 378
24.2 更进一步 378
24.2.1 自动失败恢复和负载均衡 378
24.2.2 专人维护 379
24.2.3 粉碎纸张 379
24.2.4 对付打印机乱用 380
24.3 小结 381
练习 381
第25章 数据存储 383
25.1 基本方面 383
25.1.1 术语 384
25.1.2 存储管理 387
25.1.3 存储服务 392
25.1.4 性能 396
25.1.5 对新的存储解决方案进行评估 399
25.1.6 常见问题 400
25.2 更进一步 401
25.2.1 通过应用程序优化raid使用情况 401
25.2.2 存储限制:磁盘访问密度差距 402
25.2.3 持续的数据保护 403
25.3 小结 404
练习 404
第26章 备份和恢复 407
26.1 基本方面 408
26.1.1 恢复的原因 408
26.1.2 恢复的类型 410
26.1.3 公司指导方针 411
26.1.4 数据恢复服务水平协议和策略 411
26.1.5 备份时间表 412
26.1.6 时间和容量规划 417
26.1.7 耗材规划 418
26.1.8 恢复过程的问题 419
26.1.9 备份自动化 420
26.1.10 集中化 421
26.1.11 磁带清单 422
26.2 更进一步 423
26.2.1 故障演练 423
26.2.2 备份介质和异地存放 424
26.2.3 高可用性的数据库 425
26.2.4 技术的发展 426
26.3 小结 427
练习 428
第27章 远程访问服务 429
27.1 基本方面 429
27.1.1 远程访问服务的需求 430
27.1.2 远程访问策略 431
27.1.3 服务等级的定义 431
27.1.4 集中 432
27.1.5 外包 432
27.1.6 认证 434
27.1.7 周界安全 434
27.2 更进一步 435
27.2.1 设在家中的办公室 435
27.2.2 开销分析及缩减开支 435
27.2.3 新技术 436
27.3 小结 437
练习 437
第28章 软件存储库服务 439
28.1 基本方面 440
28.1.1 理解商业价值 440
28.1.2 理解技术需求 441
28.1.3 确定策略 441
28.1.4 选择存储库软件 442
28.1.5 制作处理指南 443
28.1.6 举例 443
28.2 更进一步 449
28.2.1 不同主机的不同配置 449
28.2.2 本地复制 449
28.2.3 软件存储库中的商业软件 450
28.2.4 不常见的操作系统 450
28.3 小结 451
练习 451
第29章 web服务 453
29.1 基础知识 454
29.1.1 web服务组件 454
29.1.2 web站点管理员角色 456
29.1.3 服务水平协议 456
29.1.4 web服务架构 456
29.1.5 监控 459
29.1.6 扩展web服务 459
29.1.7 web服务安全 462
29.1.8 内容管理 466
29.1.9 构建易于管理的中心web服务器 469
29.2 糖衣 471
29.2.1 第三方web主机服务 471
29.2.2 内容聚合应用程序 473
29.3 小结 474
练习 474
第5部分 管理实践 477
第30章 组织结构 479
30.1 基本方面 479
30.1.1 规模 480
30.1.2 投资模型 481
30.1.3 管理链的影响 483
30.1.4 技能选择 484
30.1.5 基础设施团队 485
30.1.6 客户支持 486
30.1.7 服务台 487
30.1.8 外包 488
30.2 更进一步 489
30.3 示例组织结构 490
30.3.1 小型公司 490
30.3.2 中型公司 490
30.3.3 大型公司 490
30.3.4 电子商务站点 491
30.3.5 大学和非盈利组织 491
30.4 小结 492
练习 492
第31章 理解和可见度 495
31.1 基本方面 495
31.1.1 良好的第一印象 496
31.1.2 态度、理解和客户 498
31.1.3 使工作重点与客户的期望保持一致 500
31.1.4 成为系统倡导者 501
31.2 更进一步 504
31.2.1 系统状态网页 504
31.2.2 管理会议 505
31.2.3 物理可见度 505
31.2.4 全体大会 506
31.2.5 业务通报 507
31.2.6 给所有客户发送电子邮件 508
31.2.7 午餐 509
31.3 小结 509
练习 510
第32章 保持快乐 511
32.1 基本方面 511
32.1.1 坚持到底 511
32.1.2 时间管理 513
32.1.3 沟通技巧 520
32.1.4 提高专业能力 524
32.1.5 留在技术领域 524
32.2 更进一步 525
32.2.1 学会谈判 525
32.2.2 热爱本职工作 529
32.2.3 “管理”自己的经理 534
32.3 进一步阅读 536
32.4 小结 537
练习 538
第33章 技术性管理者指南 539
33.1 基本方面 539
33.1.1 职责 539
33.1.2 与非技术性管理者相处 549
33.1.3 与员工相处 551
33.1.4 决策 555
33.2 更进一步 558
33.2.1 使团队更强大 558
33.2.2 向高层管理部门推销自己的部门 559
33.2.3 为自己的职业生涯做些工作 559
33.2.4 做些自己喜欢做的事情 559
33.3 小结 559
练习 560
第34章 非技术性管理者指南 561
34.1 基本方面 561
34.1.1 工作优先级和资源 561
34.1.2 士气 562
34.1.3 沟通 564
34.1.4 员工会议 564
34.1.5 年度计划 565
34.1.6 技术员工和预算流程 566
34.1.7 发展专业技能 567
34.2 更进一步 568
34.2.1 制定5年计划 568
34.2.2 单点联系 569
34.2.3 了解技术人员的工作 570
34.3 小结 571
练习 571
第35章 招聘系统管理员 573
35.1 基本方面 573
35.1.1 职责描述 573
35.1.2 技能级别 575
35.1.3 招聘 575
35.1.4 时间就是金钱 577
35.1.5 考虑团队因素 578
35.1.6 面试团队 580
35.1.7 面试过程 581
35.1.8 技术面试 582
35.1.9 非技术性面试 585
35.1.10 推销职位 586
35.1.11 雇员保留 587
35.2 更进一步 588
35.3 小结 588
练习 589
第36章 解雇系统管理员 591
36.1 基本方面 591
36.1.1 遵循公司人力资源部门的规定 592
36.1.2 使用终止检查列表 592
36.1.3 解除物理访问权限 592
36.1.4 解除远程访问权限 592
36.1.5 解除服务访问权限 593
36.1.6 拥有较少的访问权限数据库 595
36.2 更进一步 595
36.2.1 拥有单个认证数据库 595
36.2.2 系统文件更改 595
36.3 小结 596
练习 597
附录a 系统管理员的多种角色 599
a.1 一般角色 599
a.1.1 安装者 599
a.1.2 修理工 600
a.1.3 维护者 600
a.1.4 问题预防者 600
a.1.5 英雄 601
a.1.6 中坚分子 601
a.1.7 基础设施构建者 601
a.1.8 策略制定者 602
a.1.9 普通系统管理员 602
a.1.10 实验室技术员 603
a.1.11 产品发现者 603
a.1.12 方案设计者 604
a.1.13 特殊方案发现者 604
a.1.14 非需求方案设计者 604
a.1.15 待命专家 605
a.1.16 培训员 605
a.1.17 执法者 605
a.1.18 灾难忧虑者 606
a.1.19 细心的计划者 606
a.1.20 容量规划者 607
a.1.21 预算管理员 607
a.1.22 客户利益维护者 607
a.1.23 新技术论者 608
a.1.24 销售员 608
a.1.25 供应商联络者 608
a.1.26 梦想者 609
a.1.27 母亲 609
a.1.28 监视者 609
a.1.29 促进者 609
a.1.30 客户/系统管理员 610
a.1.31 客户支持 610
a.1.32 策略导航员 610
a.2 负面角色 610
a.2.1 新技术的盲目推崇者 611
a.2.2 新技术的阻碍者 611
a.2.3 喊“狼来了”的系统管理员 611
a.2.4 牛仔 611
a.2.5 奴隶、替罪羊或看门人 612
a.3 团队角色 612
a.3.1 端到端专家 612
a.3.2 局外人 612
a.3.3 问题定位者 612
a.3.4 烈士 612
a.3.5 执行重复任务的实干家 613
a.3.6 社会工作主管 613
a.3.7 中途休息先生 613
a.4 小结 614
练习 614
附录b 缩略词 615
参考书目 621