片上多处理器体系结构:改善吞吐率和延迟的技术
基本信息
- 原书名: Chip Multiprocessor Architecture: Techniques to Improve Throughput and Latency
- 原出版社: Morgan and Claypool Publishers
- 作者: (美)Kunle Olukotun Lance Hammond James Laudon [作译者介绍]
- 译者: 汪东升 王海霞 李鹏
- 丛书名: 计算机科学丛书
- 出版社:机械工业出版社
- ISBN:9787111253815
- 上架时间:2008-10-31
- 出版日期:2009 年1月
- 开本:16开
- 页码:153
- 版次:1-1
- 所属分类:
计算机 > 计算机组织与体系结构 > 微处理器/CPU
教材 > 教材汇编分册 > 高等理工
本版教材征订号:00450952932
编辑推荐
是讲授多核体系结构设计和优化的第一本著作
通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。...
推荐阅读
内容简介回到顶部↑
片上多处理器(chip multiprocessor),又称多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径。本书在简单介绍了片上多处理器的基本概念后,着重于从提高吞吐率和缩短响应时延两方面探讨片上多处理器的基本技术与设计方法。同时介绍了多核处理器的编程技巧,包括线程级猜测和事务型内存等热点技术。通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。
作译者回到顶部↑
本书提供作译者介绍
奥鲁克斯,博士是美国斯坦福大学计算机系教授,是当今计算机设计领域著名的学者和开拓者。他领导了第一个片上多处理器系统Hydra的开发,推动了片上多处理器的研究热潮,同时建立了Afara Websystems公司,该公司最终被Sun公司收购并将其处理器重命-名为Niagara。目前,他担任斯坦福大学普适并行实验室(Pervasive Parallelism Lab,PPL)领导人,该实验室的目标是把并行计算推广到所有的应用领域中。
.. << 查看详细
.. << 查看详细
目录回到顶部↑
出版者的话
译者序
摘要
第1章 cmp简介
1.1 一个新途径:片上多处理器
1.2 应用程序的并行性图景
1.3 一个简单的例子:超标量与cmp
1.4 本书:超越基本的cmp
参考文献
第2章 吞吐率优化技术
2.1 简单内核与服务器应用
2.2 与吞吐率有关的片上多处理器
2.3 通用服务器cmp分析
参考文献
第3章 自动的延迟优化技术
3.1 伪并行:“帮手”线程
3.2 tls系统的一个实例:hydra
3.3 自动并行化的总结思考
参考文献
第4章 基于手工并行编程的延迟优化技术
译者序
摘要
第1章 cmp简介
1.1 一个新途径:片上多处理器
1.2 应用程序的并行性图景
1.3 一个简单的例子:超标量与cmp
1.4 本书:超越基本的cmp
参考文献
第2章 吞吐率优化技术
2.1 简单内核与服务器应用
2.2 与吞吐率有关的片上多处理器
2.3 通用服务器cmp分析
参考文献
第3章 自动的延迟优化技术
3.1 伪并行:“帮手”线程
3.2 tls系统的一个实例:hydra
3.3 自动并行化的总结思考
参考文献
第4章 基于手工并行编程的延迟优化技术
译者序回到顶部↑
多核处理器是处理器发展的必然趋势。无论是移动/嵌入式应用、桌面应用还是服务器应用,都将采用多核的架构。然而多核处理器的研发和应用还有问题,诸如多核处理器设计、验证和调试、设计空间、编程模型等挑战性问题还有待于深入的探讨。本书是讲授多核体系结构设计和优化的第一本著作。.
本书在简单介绍了片上多处理器的基本概念后,着重从提高吞吐量和缩短响应时延两方面探讨片上多处理器的基本技术与设计方法。本书还介绍了多核处理器的编程技巧,包括线程级猜测和事务型内存等热点技术。通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。..
本书的作者Kunle Olukotun博士是美国斯坦福大学计算机系教授,是当今计算机设计领域著名的学者和开拓者。他领导了第一个片上多处理器系统Hydra的开发,推动了片上多处理器的研究热潮。同时,他创建了Afara Websystems公司,该公司最终被Sun公司收购并将其处理器重命名为Niagara。Lance Hammond是事务型缓存一致性与内存一致性(TCC)的主要设计者之一。Lames Laudon提出了交叉多线程(interleaved multithreading)的概念并在UltraSparc T1中得以应用。
感谢机械工业出版社对出版本书的支持,感谢清华大学微处理器与SoC技术研究中心的顾瑜、嵩天(现在北京理工大学)、郭三川和李崇民等博士在翻译和校对过程中所付出的辛勤努力。由于时间仓促及译者水平有限,文中难免有不当之处,还望读者批评指正。
汪东升
2008年9月于清华园...
本书在简单介绍了片上多处理器的基本概念后,着重从提高吞吐量和缩短响应时延两方面探讨片上多处理器的基本技术与设计方法。本书还介绍了多核处理器的编程技巧,包括线程级猜测和事务型内存等热点技术。通过阅读本书,读者可以在较短时间内熟悉和掌握片上多处理器研究的主流技术和最新的研究成果,为片上多处理器领域的科研和应用带来新的思路和灵感。..
本书的作者Kunle Olukotun博士是美国斯坦福大学计算机系教授,是当今计算机设计领域著名的学者和开拓者。他领导了第一个片上多处理器系统Hydra的开发,推动了片上多处理器的研究热潮。同时,他创建了Afara Websystems公司,该公司最终被Sun公司收购并将其处理器重命名为Niagara。Lance Hammond是事务型缓存一致性与内存一致性(TCC)的主要设计者之一。Lames Laudon提出了交叉多线程(interleaved multithreading)的概念并在UltraSparc T1中得以应用。
感谢机械工业出版社对出版本书的支持,感谢清华大学微处理器与SoC技术研究中心的顾瑜、嵩天(现在北京理工大学)、郭三川和李崇民等博士在翻译和校对过程中所付出的辛勤努力。由于时间仓促及译者水平有限,文中难免有不当之处,还望读者批评指正。
汪东升
2008年9月于清华园...
前言回到顶部↑
由于受诸多因素的影响,片上多处理器(chip multiprocessor),又称多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径。传统超标量指令发射技术无法从典型程序指令流中发掘出足够多的并行性,使得单核微处理器的性能再无法有效扩展。另外,处理器的功耗与散热问题日趋严重,除非使用水冷散热系统,否则很难继续依靠简单提高时钟频率的方法来改善微处理器性能。综合这些问题可以得到一个简单结论:目前单个微处理器芯片集成了数量空前的晶体管,如果继续保持每年或两年就完成新一代更大规模处理器的设计与调试工作,将会使成本直线上升以至无法完成设计工作。.
CMP通过在单个芯片中放人多个结构相对简单的处理器内核而不是使用一个巨大的处理器内核避免了上述问题。CMP内核既可采用简单流水线结构,又可以使用中度复杂的超标量处理器,无论选定哪种内核,CMP系统都可以随着半导体工艺的进步,在每一代新版处理器芯片中加入更多数量的高速处理器内核,来有效扩展处理器性能。此外,并行程序将多线程任务分发给CMP系统中几个内核并行执行,与单内核处理器相比可以取得显著的性能提升。尽管在许多实用的应用负载中并行线程已经非常常见,但仍有一些很重要的应用负载很难被划分为几个线程来并行执行。与传统多处理器系统相比,CMP系统中内核之间的通信延迟更低,从而使更多应用负载适于并行执行。但是某些关键应用中缺乏足够的并行度,可能成为这些系统中推广CMP应用的主要障碍。..
通过对比CMP与传统单处理器的优缺点,本书仔细研究了如何针对两种常见但截然不同的工作负载来更好地设计CMP:并行度较高且对吞吐率敏感的应用和并行度较低且对延迟敏感的应用。对吞吐率敏感的应用,如可迅速处理多个独立事务的服务器工作负载,需要综合考虑CMP中所有可能限制吞吐率的部件,如处理器核心、片上缓存和片外存储器接口。书中展示了在几个研究与实例系统(如SunNiagara)中如何进行设计折中。对延迟较敏感的应用,如桌面应用,其关注的焦点是如何降低内核之间的通信延迟,以及如何帮助程序员简化已有程序代码多线程化。本书介绍了多种可用于CMP系统的并行编程简化技术,并重点讨论了斯坦福大学在该领域的相关研究工作。为了证明CMP的潜在优势,书中给出了一些典型例子来加以说明。本书的其它关注焦点还包括线程级猜测(thread-level speculation,简称TLS)和事务型内存(transactional memory)。线程级猜测是一种将标准的串行程序自动切分成CMP上多个并行线程的方法。事务型内存模型使用硬件而非传统软件锁机制来保证一段指令的原子代码执行,可以显著简化并行编程工作量,有效降低并行代码的出错概率。
关键字
基本术语:片上多处理器(CMP),多核微处理器,微处理器功耗,并行处理,基本线程执行。
应用的类别:吞吐率敏感的应用,服务器应用,延迟敏感的应用,桌面应用,SPEC测试程序集,Java应用。
技术:线程级猜测(TLS),JRPM虚拟机,提取猜测线程的踪迹器(TEST),事务型内存,事务型缓存一致性与内存一致性(TCC),事务型锁消除(TLR)。
系统名称:DEC Piranha,Sun Niagara,Sun Niagara 2,Stanford Hydra。...
CMP通过在单个芯片中放人多个结构相对简单的处理器内核而不是使用一个巨大的处理器内核避免了上述问题。CMP内核既可采用简单流水线结构,又可以使用中度复杂的超标量处理器,无论选定哪种内核,CMP系统都可以随着半导体工艺的进步,在每一代新版处理器芯片中加入更多数量的高速处理器内核,来有效扩展处理器性能。此外,并行程序将多线程任务分发给CMP系统中几个内核并行执行,与单内核处理器相比可以取得显著的性能提升。尽管在许多实用的应用负载中并行线程已经非常常见,但仍有一些很重要的应用负载很难被划分为几个线程来并行执行。与传统多处理器系统相比,CMP系统中内核之间的通信延迟更低,从而使更多应用负载适于并行执行。但是某些关键应用中缺乏足够的并行度,可能成为这些系统中推广CMP应用的主要障碍。..
通过对比CMP与传统单处理器的优缺点,本书仔细研究了如何针对两种常见但截然不同的工作负载来更好地设计CMP:并行度较高且对吞吐率敏感的应用和并行度较低且对延迟敏感的应用。对吞吐率敏感的应用,如可迅速处理多个独立事务的服务器工作负载,需要综合考虑CMP中所有可能限制吞吐率的部件,如处理器核心、片上缓存和片外存储器接口。书中展示了在几个研究与实例系统(如SunNiagara)中如何进行设计折中。对延迟较敏感的应用,如桌面应用,其关注的焦点是如何降低内核之间的通信延迟,以及如何帮助程序员简化已有程序代码多线程化。本书介绍了多种可用于CMP系统的并行编程简化技术,并重点讨论了斯坦福大学在该领域的相关研究工作。为了证明CMP的潜在优势,书中给出了一些典型例子来加以说明。本书的其它关注焦点还包括线程级猜测(thread-level speculation,简称TLS)和事务型内存(transactional memory)。线程级猜测是一种将标准的串行程序自动切分成CMP上多个并行线程的方法。事务型内存模型使用硬件而非传统软件锁机制来保证一段指令的原子代码执行,可以显著简化并行编程工作量,有效降低并行代码的出错概率。
关键字
基本术语:片上多处理器(CMP),多核微处理器,微处理器功耗,并行处理,基本线程执行。
应用的类别:吞吐率敏感的应用,服务器应用,延迟敏感的应用,桌面应用,SPEC测试程序集,Java应用。
技术:线程级猜测(TLS),JRPM虚拟机,提取猜测线程的踪迹器(TEST),事务型内存,事务型缓存一致性与内存一致性(TCC),事务型锁消除(TLR)。
系统名称:DEC Piranha,Sun Niagara,Sun Niagara 2,Stanford Hydra。...
书摘回到顶部↑
第1章 CMP简介
微处理器作为现代计算机系统的核心,在过去的许多年中,其性能一直呈指数增长,图1-1所示的Intel处理器就是一个典型例子。微处理器性能快速增长的主要原因有两点。首先,在摩尔定律的作用下,处理器和存储芯片的基本单元——晶体管的速度越来越快,从而使由众多晶体管搭建的处理器性能得到迅速提升。其次,利用芯片上数量众多的晶体管,现代微处理器设计者能从软件代码中挖掘更多的并行性来改善程序性能,因此微处理器的实际性能增长速度甚至比摩尔定律所预测的还要快。
长期以来,挖掘和利用程序代码中并行性的各种策略具有一个有趣的共同点,即对软件程序员保持透明。从20世纪70年代微处理器问世至今,除了少量改动外,其实现都遵从传统的冯•诺伊曼计算模型。对程序员来说,计算机系统就是由执行串行指令流的单核处理器,以及存放程序代码和数据的“存储器”所组成。处理器设计通常采用与前代处理器向前兼容的策略,其根本原因是这种策略更为经济。数十年来,硬件设计者的工作被限制在冯•诺伊曼抽象模型下,并在已有基础上改进系统性能。从存储器的角度看,为了继续维护冯•诺伊曼模型,设计者在处理器中增加了更大的缓存(cache)和寄存器堆,前者可以将“存储器”中频繁访问的部分数据存放在物理上更接近处理器的小型快速存储器中;后者则可以将最频繁使用的少量数据存放在更小、更快的、由编译器管理的“存储器”区域中。大多数处理器内部结构优化和改进的主要目的是实现以下两个目标或其中之一:增加处理器指令队列中每时钟周期可发射的指令数,以及超越摩尔定律,更快地提升处理器时钟频率。
……
微处理器作为现代计算机系统的核心,在过去的许多年中,其性能一直呈指数增长,图1-1所示的Intel处理器就是一个典型例子。微处理器性能快速增长的主要原因有两点。首先,在摩尔定律的作用下,处理器和存储芯片的基本单元——晶体管的速度越来越快,从而使由众多晶体管搭建的处理器性能得到迅速提升。其次,利用芯片上数量众多的晶体管,现代微处理器设计者能从软件代码中挖掘更多的并行性来改善程序性能,因此微处理器的实际性能增长速度甚至比摩尔定律所预测的还要快。
长期以来,挖掘和利用程序代码中并行性的各种策略具有一个有趣的共同点,即对软件程序员保持透明。从20世纪70年代微处理器问世至今,除了少量改动外,其实现都遵从传统的冯•诺伊曼计算模型。对程序员来说,计算机系统就是由执行串行指令流的单核处理器,以及存放程序代码和数据的“存储器”所组成。处理器设计通常采用与前代处理器向前兼容的策略,其根本原因是这种策略更为经济。数十年来,硬件设计者的工作被限制在冯•诺伊曼抽象模型下,并在已有基础上改进系统性能。从存储器的角度看,为了继续维护冯•诺伊曼模型,设计者在处理器中增加了更大的缓存(cache)和寄存器堆,前者可以将“存储器”中频繁访问的部分数据存放在物理上更接近处理器的小型快速存储器中;后者则可以将最频繁使用的少量数据存放在更小、更快的、由编译器管理的“存储器”区域中。大多数处理器内部结构优化和改进的主要目的是实现以下两个目标或其中之一:增加处理器指令队列中每时钟周期可发射的指令数,以及超越摩尔定律,更快地提升处理器时钟频率。
……


点击看大图






加载中...
