E级计算的挑战与思考
杨学军
国防科学技术大学
E级计算的挑战与思考
关键词:E 级计算
运算)是超级计算领域的下一个目标。高性能计算的发展符合“千倍定律”,即高性能计算机的计算速度每10年提高1000倍。同时,诸如高能核物理、材料化学、生命科学等一系列应用表现出了对计算性能的超高需求。因此,世界各主要国家纷纷制定了发展
E 级计算的计划。美国总统奥巴马在“Strategy for American Innovation ”(美国创新策略)报告中,将E 级计算列为21世纪美国最主要的技术挑战。2011年12月,美国国会通过了美国能源部科研经费申
请,提供1.26亿美元用于E 级计算的研究。美国国防部高级研究计划署提出了研究新的计算架构和编程模型的计划,预计于2018年完成E 级原型系统。日
本政府于2011年投资13亿美元用于E 级计算机的研究,并于当年11月研制成功了首台亿亿次(10.51P flops)计算机K-Computer 。预计日本在2020年前能完成第一台E 级超级计算机。欧盟、俄罗斯、印度等都有各自的E 级计算研究计划。
计算机功耗E级计算所面临的挑战
当前高性能计算发展的关键问题是:E 级计算能否通过P 级计算的简单堆砌扩展而得到?IBM 公司于2010年4月在“Some Challenges on Road from Petascale to Exascale ”(P 级到E 级计算发展之路上的一些挑战)报告中指
出,从P 级向E 级跨越有五大挑战:访存、通信、可靠性、能耗和应用。本文主要针对访存墙、通信墙、可靠性墙和能耗墙进行分析。所谓“墙”是指某一个指
从天河谈起
自2008年美国成功研制出世界首台千万亿次(Pflops ,每秒1015 次浮点运算)超级计算机“走鹃”以来,中、美、日三国在超级计算机领域的竞争呈现白热化。2009年,我国首台P 级超级计算
机研制成功;2010年,“天河一号”超级计算机在全球Top500排名中,以实测速度每秒2.566千万亿次位居世界第一;2013年,“天河二号”再次折桂,实测性能达到每秒3.386亿亿次(如图1)。
E 级计算(每秒1018次浮点
图1 中、美、日三国超级计算机性能峰值走势
运算速度(Flops)100P
1P
10T
100G
01    02    03    04    05    06    07    08    09    10    11    12    13 年份
中国        美国      日本
2010年11月,天河一号2.566千万亿次
2013年6月,
天河二号3.386亿亿次
标(比如计算性能)随着处理器数的增加而受限的现象。
挑战
访存墙 处理器处理速度和访存速度之间的不匹配引起了访存墙问题。凯西·耶力克(Kathy Yelick)在2009年计算机体系结构国际会议(International Symposium on Computer Architecture, ISCA)的主题报告“Ten Ways to Waste a Parallel Computer”(浪费并行计算机计算速度的十种行为)中指出:访存墙问题仍然是提升计算速度的第一大难题。近年来,多核技术的发展提高了单个处理芯片的计算性能,然而,多核处理器的出现只是提高了计算速度,不但没有缓解访存墙问题,反而使其变得更加严重。著名计算机体系结构专家托马斯·斯特林(Thomas Sterling)曾经提出质疑:多核将我们放在访存墙问题的错误一面,多核处理器最终是否会因为访存墙问题窒息而死?
通信墙 并行是当前提高超级计算机性能的主要途径,互连网络的规模随着计算机系统规模的增加而扩大,对计算机性能的影响也越来越大。E级计算对互连网络提出了更高的要求,互连网络已成为制约超级计算机发展的核心因素之一。
可靠性墙 受制作工艺和计算环境的影响,计算机系统在运行过程中可能发生故障,而且发生的概率随着系统规模的扩大而增长。计算机系统研究者一直致力于提高高性能计算系统的平均
无故障时间,然而这种努力见效
甚微。2012年11月排名Top500
第一位的“泰坦”(Titan)计算机
系统的平均故障间隔仅为5.99小
时。容错是现阶段应对故障的主
要方法,但容错通常和时间开销
相伴。研究结果表明,在P级计
算向E级计算发展的过程中,基
于保存全局检查点的传统主流容
错方法的时间开销可能达到甚至
超过系统的平均故障间隔。因此,
仅可靠性问题所引起的容错开销
就可能使计算无法顺利完成。
能耗墙 国际半导体技术蓝
图(International Technology Road-
map For Semiconductors, ITRS)预计
高性能CPU的功耗将达120~200
瓦。超级计算机系统的整体功耗
目前已经达到兆瓦量级,按照“泰
坦”系统的功耗类推,保持当前
的互补金属氧化物半导体(comple-
mentary metal-oxide-semiconductor
transistor, CMOS)工艺不变,未来
E级计算系统的功耗将达466.7兆
瓦,全年用电量为40.88亿千瓦
时,相当于长沙市2012年用电量
的1/5。未来的E级超级计算机必
须配备相应的发电站。
度量
通过上述分析不难发现,访
存、通信、可靠性、能耗等因素
严重制约了并行计算的可扩展性,
妨碍了并行计算系统性能从P级
向E级扩展。然而,这只是定性
的认识,是否存在定量的认识,
将“访存、通信、可靠性、能耗
等因素对并行计算可扩展性影响
的定量化”变为一个科学问题?
在度量系统的可扩展性方
面,曾经有两个著名的公式:阿
姆达尔(Amdahl)和古斯塔夫森
(Gustafson)。前者将计算工作分
为串行处理部分和并行处理部
分,从而得到了并行加速比受限
于串行工作量的结论;后者发现
很多并行程序随着应用规模的扩
大,程序中不能被并行化部分的
执行时间基本保持不变,从而得
到了系统规模可随应用规模的扩
展而扩展的结论。
然而,阿姆达尔和古斯塔夫
森公式仅以性能的提高为唯一目
标,未能度量访存、通信、可靠
性和能耗等要素对并行计算可扩
展性的影响。度量上述要素的难
点在于:(1)要素的量纲不统一;
(2)事件离散,应用规律千变万
化;(3)系统、技术千差万别。
我们的应对方案是:将要素不统
一的量纲,通过转变规约成一个
量纲,即时间量纲;采用相应的
统计方法;通过将问题分类进行
求解。基于上述思想,我们提出
了通用加速比公式:
()
()
Y
i
i
S P
S P=
+
其中,S Y(P)是考虑访存、
通信、可靠性和能耗等要素影响
后系统随其并行规模P变化的时
间加速比,S G(P)是传统古斯塔
夫森加速比,而C i(P)是各种要
素的开销因子。
案例
以可靠性墙量化方法为例,传统可靠性可以从多个角度进行度量,比如可靠度、故障发生频率等,大多与概率相关。为了将其规约到时间量纲,我们选用平均故障间隔时间作为可靠性自身的度量指标。同时,将容错所引起的开销采取统计平均处理(如
图2所示),从而得到如下公式:
其中,S R 是考虑容错要素的加速比,S P 是传统的不考虑容错要素的加速比,而R(P)是容错开销因子。通过研究,我们对R(P)因子有了新的认识:借鉴哲学家维特根斯坦的观点“世界是由事件构成的”,对于一个信息系统,如果认为这个系统也是由事件构成的,则某个要素的开销因子就是该要素所对应事件发生频率与其开销的乘积。这一乘积是对事件的一种度量方法,是事件系统中非常重要的一个量,笔者将其称为“事件动量”。将这一度量与随机过程研究方法相结合,可
以得到一套转移方程,用于描述由离散事件构成的很多系统。
基于上述公式,我们利用极限理论给出了可靠性墙的定义:假定在带有容错机制的系统上运行程序G ,可靠性墙定义为相应的可靠性加速比的上确界。根据可靠性墙的定义,我们
CFD 软件之中,提出了硬件故障在应用级网格上的传播理论,从而实现通过使用较少量网格达到检测硬件故障的目的,有效降低了故障检测的开销。
对策与思考
并行计算机体系结构 引
起通信墙、可靠性墙、能耗墙等问题的根本原因之一是系统规模的不断扩大。通过提高单个计算
结点的计算能力和性能功耗比,
从而降低系统的规模成为一个可行的研究方向。现在超级计算机计算结点的性能受限于CPU 的
速度,我们的方法是把通用处理器与专用处理器相结合,构建异构体系结构,从而提高单结点的计算能力。但异构体系结构的设计也有一些问题,如专用处理器能否解决大规模科学计算、如何发挥性能优势等。我们研究了基于流处理的异构并行体系结构,建立了大规模科学工程应用的可流化理论,提出了大规模科学工程应用的高效流化方法,“天河一号”就是进入国际Top500的首台CPU+GPU (商用流处理器)
千万亿次计算机。“天河二号”采用的是CPU 加另一种专用处理器——MIC 的异构并行体系结构。截至2013年6月,Top500排行榜中采用异构结构的超级计算机已经超过50台,其中有4
台进入前10名。需要注意的是,异构并行体系结构在缓解系统通信墙、可靠性墙和功耗墙的同时,
图2 容错开销统计平均示意图S R
=         S P          =
S P
  1+故障频率×单个故障的平均容错时间 1+R(P)
将实际系统进行了分类:常量系统(R (P )和增量系统
(R (P )(1))。
通过进一步研究,我们发现现有的容错方法虽然可以推迟可靠性墙的发生时间,但都不能消除可靠性墙问题。因此,必须
研究故障影响系统的规律、探索新的方法。我们对系统的硬件故障在软件中的传播行为进行了分析,建立了基于数据流分析的故障传播方程,通过求解该方程,能够计算得到故障所引起的错误是如何在程序中传播的。我们进一步将这一理论应用到具体的
杨学军
CCF会士。中国科
学院院士,国防科学技术大学教授。主要研究方向为计算机系统结构、计算机系统软件。xjyang@nudt.edu
徐新海
CCF会员。国防科学
技术大学助理研究员。主要研究方向为计算机系统结构、并行应用和容错。xhai.xu@gmail
使得高效并行应用程序的开发更加困难,即引起了编程墙的问题。微处理器体系结构 关于
摩尔定律能否延续的问题仍在讨论中,目前制造工艺已经进入22纳米时代,而20纳米以下的工艺会出现生产成本高和功耗高的问题。因此,提高处理器性能的主要方法是多核乃至众核。众核可以分为两类:第一类的核能力较强,我们称其为重核,代表是英特尔的MIC 架构;第二类的核能力较简单,我们称其为轻核,代表是英伟达的Kapler 架构。众核在提高处理器计算性能的同时,使得编程问题更加严重。随着访存压力的增大、能耗的增加,结点机计算能力与网络接口性能的匹配失衡,众核将导致访存墙、能耗墙和通信墙问题更加突出。
存储体系结构 存储体系
结构的发展将受益于多种技术途径:更深的存储层次、先进的封装技术(三维堆叠)、芯片间光互连技术。目前,通用处理器已经实现了3级缓存,至于未来是否会有4级缓存,我们还须等待。虽然多级缓存可以在一定程度上缓解访存墙问题,但缓存的行为是难以建模的。大数据时代的访存墙问题将更加严重,
我们最近的研究结果表明,对于Graph500的标准测试用例(即图搜索问题),现有的所有存储体系结构都不能很好地满足该类问题对访存的性能需求。
互连技术 高维互连是当
前超级计算互连技术的重要发展
趋势之一,如日本的“京”计算机采用六维Mesh/Torus 互连拓扑
结构,美国的Blue Gene/Q 计算机采用五维Torus 互连拓扑结构。我们认为互连的通信开销由网络接口开销和网络通信开销两部分组成。高维互连仅仅降低了网络通信开销,却没有缓解目前较为严重的网络接口开销。因此,低维多网的互连拓扑可能是E 级互连的解决之道。
软件技术 硬件技术的发
展在缓解访存墙、通信墙、可靠性墙和能耗墙问题的同时,加剧
了编程墙的问题,因此亟需发展
软件技术。然而,软件规模庞大,开发周期长、成本高、难度大,要真正发挥未来E 级计算系统的能力,软件的开发任务会变得相
当艰巨。针对这一问题,目前的解决方案是设计并行程序设计框架。在框架内,应用领域专家、数值计算专家和并行计算专家相互合作,设计出接口简单、界面友好的并行应用开发平台,基于该平台,用户可以以熟悉的方式开发高效并行应用程序。现有的
并行程序设计框架大多是针对各自应用领域独立设计的,而实际应用可能是多个尺度的框架。因此我们最终需要一个跨越多个应用框架的多尺度的综合框架,但多尺度的方程建模又是一个巨大的难题。
使能技术 加强基础研究,
使能技术的发展有望为“突破E 级计算”注入新的活力。纳米电子学、量子计算、光计算、生物
计算在近几年取得了快速发展。在纳米电子学方面,忆阻器、碳纳米管、石墨烯等技术引起了大家的关注。在量子计算方面,目
前的研究可以分为通用量子计算和专用量子计算两种技术路线。其中,通用量子计算依旧停留在数十个量子位纠缠的研究阶段;在专用量子计算方面,D-Wave 公司已经宣布成功研制了512位的专用量子计算机,用于专门模拟量子退火算法,牛津大学、麻省理工学院等团队还基于波子采样技术研究了相应的专用量子计算机。上述新兴使能技术的发
展都非常快,但笔者认为这些技术在未来的3~5年内还很难产出
实用的成果。
E 级计算的实现依然任重而道远,需要我们不懈的努力。■(本文根据CNCC 2013 特邀报告整理而成)整理:
作者:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。