从性能至上向性效兼顾发展
高性能计算(HPC)起源于科学计算,早期主要以技术(科学)计算为主要应用领域,解决面向科学的重大挑战性问题,后来工程计算和商业计算的加入丰富了HPC的内涵,也加快了其发展的速度。
在HPC系统发展的早期,业界更加关注其性能的提升,当时系统的功耗和可靠性问题并不突出,而随着HPC系统的性能越来越高,系统结构越来越复杂,体积也越来越庞大,因此其系统功耗也越来越为人所关注,甚至开始影响到HPC系统的结构设计。这从代表工业界最高性能和结构水平的IBM蓝色基因系统的发展即可以明确地看到。
性能方面目前业界正在努力突破千万亿次(Linpack值)大关,而在关注更高功耗效率的同时,HPC逐渐走向更广泛的应用,在高度和广度两个维度上向更高的层次迈进。
从TOP 500看HPC发展方向
每年发布2次的全球超级计算机TOP 500代表了HPC发展最高水平的状况。
从最新一期(2006年11月)发布的TOP500榜单来看,基于机群(Cluster)、星群(Constellations)和MPP(大规模并行处理机)结构的系统分别为361套、31套和108套,分别占72.2%、6.20%和21.60%。由于IBM的蓝色基因系统从2005年上榜后至今已快速升到28套,从而延缓了MPP系统份额的下滑。
综合来看,TOP500排行榜上,基于x86处理器的超级计算即已经占到330套,,因为价格便宜、搭建容易、操作使用简单、应用丰富,x86 架构在TOP 500上几年来一直处于上升的趋势。值得关注的是,在全球 TOP500 超级计算机的最新排名中,基于 AMD 皓龙处理器的系统数量增长很快,已经达到 113 个,占总数的 22.6%,比去年增长一倍多,同时也首次超过了 IBM Power 处理器成为 TOP500 中应用最多的第二大处理器。在排名前10的超级计算机中共有4部基于x86架构,其中的3个都采用了皓龙处理器。Cray公司为美国能源部Sandia国家实验室研制的基于AMD皓龙处理器的“红色风暴”系统在此次的TOP500排名中位列第二,运算速度高达101.4T每秒。
另一个值得注意的现象是,除了传统的军事、天文、气候、半导体、生命科学等HPC大户,非特定目的(Not Specified)的系统为286套,占到TOP 500的57.20%。以TOP500上排名第84位安装在上海超算中心的曙光4000A超级服务器为例,其主机采用了2560颗AMD皓龙处理器在国内 TOP100排行上位列第二。这套系统不仅用于自然科学基础研究,还应用在汽车碰撞、电磁辐射、流体力学、材料科学等十多个领域,为上海大众的新车型设计、航空一集团支线飞机开发设计、沪崇苏隧道设计等通用计算和商业计算提供计算能力。这都从不同的侧面反映出基于x86的HPC正在向更广的范围和领域扩张的事实――x86降低了HPC开发应用的成本和技术门槛。
千万亿次机的新思路
尽管在最新一期TOP500上排名第一的IBM蓝色基因Linpack值为280万亿次,离千万亿次系统还有相当的距离,但其实人类离千万亿次高性能系统并不遥远。
目前已知在造的千万亿次超级计算机有两台(日本理化学研究所和英特尔推出的专用机MDGrape-3也号称达到了千万亿次性能,但因为不能运行 Linpack基准测试程序而无缘Linpack性能竞赛王者的比拼):美国橡树岭国家实验室代号为面包师(Baker)的Cray超级计算机和美国能源部劳伦斯-利佛摩尔国家实验室的IBM Roadrunner系统。这两家机构都采用AMD皓龙处理器向千万亿次计算发起冲击,这也表明x86架构已经成为千万亿次超级计算机的主流架构。
最近关于千万亿次计算又有了新的进展。Intel公司在2007年初召开的国际固态电路年会上透露已经开发出一颗浮点运算能力为每秒千万亿次、拥有80个内核的单芯片,当然80内核芯片目前仅是Intel的一个研究项目,还停留在实验室阶段。而AMD却已经展示了一个基于其加速计算发展思路的 “单盒万亿次浮点计算”(Teraflop-in-a-Box)系统,这套由一颗AMD双核皓龙处理器和2个AMD R600流处理器构成的单机系统实现了每秒1万亿次以上的浮点计算,这将加速“万亿级计算时代”来临的步伐。
由于HPC所面临的计算模型差异巨大,对处理器和I/O的要求千差万别,因此从目前看还没有一种处理器类型将适合所有的计算模式,因此,在一个系统内混合多种处理器(异构系统)正在成为一个新的趋势。这种趋势的第一个信号是在HPC系统内出现了与标准处理器协同工作的FPGA或者其他种类的计算加速器(协处理器)。由于FPGA可以根据不同的应用实现可重构计算,同时在内存带宽、并行处理和低功耗方面有突出的优势,因此与主处理器配合可实现提高特定应用性能和降低系统功耗的双重目标,应用前景广阔。
AMD于去年推出了Torrenza开放式协作平台,开放了相关接口,允许第三方芯片通过其高速超传输(HyperTransport)总线与皓龙处理器协调工作。应对AMD的Torrenza,Intel迅速公布了其代号为Geneseo的细节,也计划开放架构,设计理念与Torrenza类似,但是由于Torrenza基于超传输(HyperTransport)总线,而Geneseo仍基于PC Express之上,很多功能无法实现,所以普遍认为Geneseo可能是Intel的权益之计,待其推出新总线技术Common System Interface" (CSI)后,可能会在CSI基础上推出类似Torrenza的计划。在Cray 公司正在开发的千万亿次HPC系统上,AMD的Torrenza开放式协作平台令Cray在基于4个插座的对称多处理(SMP)节点上,通过超传输总线将 AMD双核皓龙处理器与Cray自己的SeaStar 3D连线系统相连,提高系统计算能力。同时AMD还引入了GPGPU(General Purpose on GPU)应用的概念,通过企业级的流计算处理器,利用GPU上成熟的大规模并行处理器执行通用计算任务。
混合芯片HPC系统的设计理念的优点在于能够充分利用多种处理器芯片的性能特长,但又能相应节省电能。上文提到的IBM Roadrunner系统就各使用了16000颗的AMD 皓龙和16000颗IBM的Cell处理器,前者作为系统主运算处理器,后者则负责加速运算。据测算,这种结构将比全部使用通用处理器每年将节约数千万美元的电费。
这种新型结构的出现也给HPC的软件系统带来了新的课题――系统要变得更加智能以使不同的芯片能够协同工作。Roadrunner超级计算机就将采用一种先进的“混合编程 (hybrid programming)”软件,用于在AMD芯片和Cell芯片之间协调工作。软件由IBM和劳伦斯-利佛摩尔国家实验室联合开发。而这种软件的效能将成为混合芯片系统设计成败的关键。
功耗的严峻挑战
应该说随着高性能计算机处理器性能的不断提升和系统规模的不断变大,HPC系统性能突破千万亿次(1Pflops)仅仅是一个时间问题,但目前业界更关注的是新型的系统结构――关注HPC系统的效率问题。
现在一些大规模和超大规模HPC用户已经把能耗(每瓦特计算性能 Flops/W)和占地面积(每平方米计算性能Flops/m2)作为HPC选购的重要指标关注。一些HPC供应商也把降低能耗和减少系统占地面积作为战略课题来研究,甚至已经将功耗控制课题提高到体系结构设计的高度。目前排名TOP 500第一的IBM蓝色基因系统就是通过体系结构的创新实现了每瓦特和每平方米计算性能的巨大提高,而AMD皓龙处理器在HPC领域的份额迅速增长与其能耗优势也有很大关系。
正在建造中的IBM Roadrunner系统占地面积将达12000平方英尺,大小约相当于三个篮球场。尽管将采用先进的冷却和电源管理技术,但其功耗数值可想而知,不过随着四核计算时代的到来,x86架构超级计算机的能耗问题有望得到解决。根据计划,AMD将在2007年中发布四核皓龙处理器,这个业界首次在同一硅片上集成4个处理器核心的四核处理器在大幅提升性能的同时,保持着和双核处理器相同的功耗。随着双核、四核以及未来更多核心处理器在超级计算上的广泛应用,HPC系统所面临的能耗压力将大大缓解,x86多核处理器的应用将是解决HPC系统功耗问题的一个主要方向。
|
排名 |
安装地点 |
制造商 |
系统名称 |
处理器数量 |
Linpack值 |
Linpack峰值 |
处理器家族 |
|
1 |
DOE/NNSA/LLNL 美国 |
IBM |
eServer Blue Gene Solution |
131072 |
280600 |
367000 |
IBM Power |
|
2 |
NNSA/Sandia 国家实验室
美国 |
Cray |
Sandia/ Cray Red Storm, Opteron 2.4 GHz dual core |
26544 |
101400 |
127411 |
AMD皓龙 |
|
3 |
IBM Thomas J. Watson 研究中心 美国 |
IBM |
eServer Blue Gene Solution |
40960 |
91290 |
114688 |
IBM Power |
|
4 |
DOE/NNSA/LLNL 美国 |
IBM |
eServer pSeries p5 575 1.9 GHz |
12208 |
75760 |
92781 |
IBM Power |
|
5 |
Barcelona 超级计算中心 西班牙 |
IBM |
BladeCenter JS21 Cluster, PPC 970, 2.3 GHz, Myrinet |
10240 |
62630 |
94208 |
IBM Power |
|
6 |
NNSA/Sandia 国家实验室 美国 |
DELL |
PowerEdge 1850, 3.6 GHz, Infiniband |
9024 |
53000 |
64972.8 |
Intel EM64T |
|
7 |
CEA 法国 |
Bull SA |
NovaScale 5160, Itanium2 1.6 GHz, Quadrics |
9968 |
52840 |
63795.2 |
Intel安腾 |
|
8 |
NASA/Ames 研究中心/NAS 美国 |
SGI |
SGI Altix 1.5 GHz, Voltaire Infiniband |
10160 |
51870 |
60960 |
Intel安腾 |
|
9 |
GSIC 中心, 日本 |
NEC/Sun |
Sun Fire x4600 Cluster, Opteron 2.4/2.6 GHz and ClearSpeed Accelerator, Infiniband |
11088 |
47380 |
82124.8 |
AMD皓龙 |
|
10 |
橡树岭国家实验室 美国 |
Cray |
Cray XT3, 2.6 GHz dual Core |
10424 |
43480 |
54204.8 |
AMD皓龙 |
本文被浏览次 |