超算冠军神威太湖之光仅仅是跑分强劲？完全用的来！_太湖_神威

文章目录 [+]

制作：铁流

监制：中国科学院打算机网络信息中央

超算冠军神威太湖之光仅仅是跑分强劲？完全用的来！_太湖_神威超算冠军神威太湖之光仅仅是跑分强劲？完全用的来！_太湖_神威科学

11月14日，新一期环球超级打算机500强（TOP500）榜单在美国盐湖城公布，中国神威太湖之光蝉联冠军，中国天河二号屈居次席。
除神威太湖之光和天河二号外，中国也在TOP500上榜总数上与美国持平。

（图片来自网络侵删）

正如天河2号得到6连冠后却由于利用了Intel公司的至强Phi打算卡而被一些别有用心之徒百般诋毁，在神威太湖之光实现了包括处理器在内的所有核心部件全部国产化后，网络上又传来了不和谐的音符——有媒体认为，神威太湖之光的“可用性能与理论性能相去甚远”，并以“HPL效率是74.16%”，“HPCG测试只有0.371PFLOPS，效率则只有0.3%，这比天河2号的1.1%还要低”来质疑神威太湖之光。

言下之意，便是神威太湖之光的可用性能与理论性能相去甚远，只能用来跑分根本就用不来。
那么什么是Linpack和HPCG，神威太湖之光真的只能用来跑分么？

什么是Linpack？

上面媒体的一段话引用了几个测试的结果，并以74.16%、0.3%、1.1%等实际数据来解释中国超算可用性能与理论性能相去甚远，非常具有迷惑性。
笔者大略的就Linpack测试和HPCG测试做个简要解释。

Linpack指的是矩阵求解，在科学打算中把实际问题抽象成方程组，然后离散成矩阵打算矩阵倍，代表的是传统的以矩阵为根本的数值打算方法，常用于理科和工科的数值求解和数值仿照。
那么为何超算大多以Linpack测试成绩论高低呢？缘故原由就在于很多科学打算模型都包含了矩阵求解，比如解微分方程，因此在超算任务中具有不可取代性——像辐射流体力学便是求解微分方程；而核爆炸仿照实在便是辐射流体力学+蒙特卡洛预测；雷达截面的矩量法打算也有赖于解微分方程；业内专家还见告笔者“现在的深度学习算法的核心算法与Linpack的是一个”.......因此，linpack测试并非是一些跑分软件那样：不服跑个分，而是真正具有实战代价的测试。

Linpack效率指的是实际打算时的次数除以理论打算，举例来说：

神威太湖之光的理论性能为125.4 PFlops，Linpack浮点性能93PFlops，Linpack效率为74.16%。

天河2号的理论性能54.9Pflops，Linpack双精浮点性能33.8PFlops, Linpack效率61.5%

泰坦的理论性能27 Pflops，Linpack双精浮点性能17.6 PFlops，Linpack效率为65.19%。

红杉的理论性能为20.1Pflops，Linpack测试双精浮点性能为16.3P，Linpack效率高达81%。

这里要解释一点，便是超算的规模越大，Linpack测试效率的提高就越难——规模大到如一定程度，坚持一段韶光的稳定运行是非常难的，何况是太湖神威之光93PFlops的高性能。
而神威太湖之光在Linpack测试性能是美国超算泰坦5倍以上的情形下，Linpack测试效率大幅领先于泰坦，这就非常名贵了！
至于红杉的Linpack测试效率为何会高达81%，笔者会不才文做讲解。

其余还要解释的的一点，天河2号Linpack效率低于美国泰坦的缘故原由——一方面是由于天河2号的规模更大，影响了效率；另一方面是由于天河2号采取的是Intel的至强PHI打算卡，而该打算卡就以理论性能强大，但稳定性能相对偏低著称——同样利用E5和至强PHI打算卡的美国超算Stampede，不仅运算能力仅为天河2号的五分之一旁边（未升级前，升级后为三分之一），整机效率比天河2号更低，只有60.7%。

总而言之，以神威太湖之光的规模，取得Linpack效率达到74.16%已经非常厉害了，在采取异构打算的超算中属于顶尖水平，大家千万不要被一些无良媒体误导了。

异构超算在Linpack效率上天然低于同构超算

对付笔者认为的神威太湖之光Linpack效率达到74.16%属于顶尖水平的结论，大概某些人会提出异议，比如会列举出TOP500排名第四的美国超算红杉，红杉的理论性能为20.1Pflops，Linpack测试双精浮点性能为16.3P，Linpack效率高达81%。

那么为何红杉的Linpack效率如此之高呢？缘故原由就在于和神威太湖之光、天河2号、泰坦等采取异构打算的超算不同，红杉采取的依旧是传统的同构打算技能。

超算可以分为两种架构。
采取同构打算架构的超算只须要纯挚利用一种处理器，在同一类型的处理器上实行打算任务。
举例来说，中国超算神威蓝光采取了申威1600，美国的米拉和红杉采取了PowerPC-A2处理器，这些超算都没有采取GPU或其它类型的众核芯片等加速器。
因此，红杉、米拉、神威蓝光都是采取同构打算架构超算的代表。

异构打算利用CPU、GPGPU、GPDSP、ASIC、FPGA和其它类型的众核处理器来处理不同类型的打算任务。
采取异构打算架构的超算会利用至少2种类型的处理器，个中异构打算架构中通用CPU卖力逻辑繁芜的调度和串行任务，加速器卖力并行度高的任务，实现打算加速。
详细来说，采取异构打算架构的超算在运算中既利用处理器，又利用GPU或众核芯片等加速器。
以中国天河2号和神威太湖之光为例，天河2号有16000个打算节点，每个节点由2片Intel-E5-2692和3片Xeon-Phi组成，共利用了32000片Intel-E5-2692和48000片Xeon-Phi。
神威太湖之光虽然只采取了申威26010众核处理器，看起来像同构超算，但由于申威26010集成了4个管理核心和256个运算核心，一片申威26010便是一个打算节点，管理核心实行类似于天河打算节点中E5的功能，而256个运算核心则发挥了类似于Xeon-Phi的加速浸染，因此也属于异构超算。

由于异构编程须要提前预知模型并做分外优化，而且很多运用未必适宜异构模型，使得采取异构打算的超算对付编程和优化的哀求更高——一位业内人士就评价，“异构编程太劳心劳力了，高端人才的精力该当用在关注自己的专业上来，而不是当代码狗......年纪大一点的科研职员就不愿自己编代码了，一些年青但不愿劳思操心的科研职员也不愿意编写异构代码......”。
因此，采取异构打算的超算在Linpack效率上天然低于采取同构打算的超算。

那么既然同构超算在编程方便和效率上具有上风，为何环球超算都转向异构打算呢？缘故原由就在于，这样超算可以得到更高的性能，之前抱怨异构编程太劳心劳力的业内朋友就表示，“超算方面众核是近些年的趋势，虽然编程劳心费力，但是在性能面前我们还是得忍，相同本钱谁不想性能更好，科研对性能的需求可以用饥渴来形容”。

唠唠叨叨说这么多，紧张是为了打一个补丁，防止别有用心之徒用美国同构超算和中国异构超算比Linpack效率，进而抹黑中国超算Linpack效率低下何况前者的规模远远小于后者。

什么是HPCG

目前，评价超算的指标有不少，除了测试Linpack的TOP500,还有强调的是内存带宽和延迟的Graph500，Graph500对全部系的内存带宽和内存延迟有很高的哀求，而打算能力本身已经不影响测试结果了，这种测试倾向于访存密集型运算，在大数据剖析等场景下比较故意义。

除Graph500之外，还有强调节能环保的Green500。
那么，在Graph500和Green500排行榜上，神威太湖之光的表现如何呢？Graph500名列第二，Green500名列第三。

不过，也有工程师认为无论是TOP500，还是Graph500都过于极度——TOP500过于强调打算性能，Graph500过于强调带宽和延迟等成分，因此采取了新的标准HPCG。

HPCG是美国正在推的一个新测试标准，目前还没有被业界广泛接管，HPCG代表了共轭梯度迭代法的一类运用的打算和通信特色，仅仅代表了某一个方面的特色，并不能涵盖超算的以是特色。
HPCG比较重视打算性能和通信的平衡，如果打算性能和通信不是一个量级的，即便两项指标分开看都很强，但也会导致HPCG偏低的结果。

其余，HPCG也存在一些毛病，据业内人士先容，“由于针对详细硬件构造修正共轭梯度算法很随意马虎得到高得多的成绩，为了避免这一点，HPCG代码目前还在锁定状态，不准修正算法本身。
但在利用中，用户是会修正算法的，这使得这一测试会分开实际”。

在某媒体的宣布中，“但在更具实战意义的HPCG性能（高性能共轭梯度基准测试）中，太湖之光只有0.371PFLOPS，效率则只有0.3%，这比天河2号的1.1%还要低”，0.3%和1.1%的数据和该媒体的这种表述很随意马虎让人误认为，天河2号和神威太湖之光的HPCG测试结果非常差，但实际上，在HPCG测试排行榜中，天河2号位列第一，而神威太湖之光为列第三，这实在是很不错的成绩。
而且一位业内人士预测，“大概神威还没有好好进行优化”。

必须指出的是，神威太湖之光的HPCG低于天河2号，并非是由于打算性能或在通信上不如天河2号，正好相反，在打算性能上神威太湖之光大幅领先于天河2号，而在互联网络方面，神威太湖之光也不逊色于天河2号——虽然在带宽上有差距，但在实际运用中，带宽指标比较延迟等指标而言并不太主要（延时指的是1个CPU把自己的打算结果交给其他CPU，如及时送到，其他CPU就能连续打算，否则就要等待了，芯片、链路、协议等都会影响延时）。
因此，神威太湖之光在HPCG上逊色于天河2号，缘故原由就在于打算性能实在是过于刁悍，以至于产生了打算和通信上的不平衡，并终极导致自HPCG上逊色于天河2号。

神威太湖之光能否用得起来？

对付神威太湖之光根本用不起来的说法，实在只要关注新闻，就能明白这是彻里彻外的谎话。
凭借“神威•太湖之光”刁悍的打算性能，海内科研单位在景象景象、航空航天、海洋科学、新药创制、前辈制造、新材料等重1办法域取得了一批运用成果——由中科院软件所、清华大学和北京师范大学报告的“环球大气非静力云分辨仿照”课题，由国家海洋局海洋一所和清华大学报告的“环球高分辨率海浪数值模式”课题，由中科院网络中央报告的“钛合金微构造蜕变相场仿照”课题分别入围了戈登贝尔奖，使中国在该领域实现零的打破。
戈登贝尔奖是高性能打算运用领域的最高奖，神威太湖之光用事实解释，完备自主研发的超算不仅可以用起来，还能用的好。

其余，笔者先容几个神威太湖之光的详细运用：

运用一：基于国产平台的国产地球系统模式。

公共地球系统模式是一个MPMD的大型并行系统，经历了30年的建立与发展，核心代码量超过150万行，是目前环球利用最广泛的地球模式，也是高性能打算的传统运用。
CESM打算模式多样，各个部分并不相同，对打算机器以及并行算法都有不同哀求，在移植、加速以及优化算法等方面都具有较高的寻衅。
清华大学地学中央、清华大学打算机系为了将代码量巨大的CAM模式扩展到神威系统的百万打算核上，对公共大气模式CAM的代码重构与性能优化设计了与神威系统打算、存储模型相匹配的打算代码，有效地提高了打算性能。
与纯主核版本相比，同时利用主、从核的优化程序能取得22倍的性能提升。
通过利用24,000个主核以及1,536,000个从核，环球范围25公里分辨率的仿照速率可以达到2.81模式年/天

运用二：航天翱翔器统一算法数值仿照。

国家打算流体力学实验室基于”神威·太湖之光“超级打算机，对”天宫一号“翱翔器两舱简化形状（长度10余米、横截面直径近3.5米）陨落翱翔（H=65km、62km、Ma=13）绕流状态大规模并行仿照，利用16，384个处理器在20天内便完成常规须要12个月的打算任务，打算结果与风洞实验结果吻合较好，为”天宫一号“翱翔试验供应主要数据支持。

运用三：纳米线热导率的大规模分子动力学仿照

低维纳米材料由于具有许多独特的光、热、电、磁等性子，已成为当前材料领域研究的主要方向。
当前的实验丈量技能在处理纳米尺度传热时碰着许多困难，实验丈量结果会存在较大的偏差。
分子动力学(NAMD)仿照方法能够细致刻画院子振动周期内的微不雅观过程，已经成为研究低维纳米构造导热性子的紧张手段。
非平衡分子动力学仿照（NEMD）由于类似于直接的实验丈量，并且仿照收敛快，打算效率高，能够处理像纳米线、多晶这样的不屈均构造，因此得到广泛运用。

中科院过程所利用“神威·太湖之光”打算机系统的大规模并行打算能力，仿照体系原子数目达到明晰20亿量级，单一方向空间特色尺度达到500微米以上，从而可以稽核低维纳米材料力学和热学性子的一些临界尺寸效应。
打算取得了良好的性能，有效扩展到122,880个主核，共计798万个打算核心，并达到了70%的并行效率。

除上述先容的运用之外，还有基于受体库的药物结合能力研究与生物大分子的分子动力学仿照、岛礁培植浮式平台的移植与优化、真实冲动漫渲染系统研究与运用等详细运用。
在最近曝光率非常高的深度学习方面，无锡超算中央和北邮互助，实现在SW26010芯片上，对占卷积神经网络90%打算韶光的卷积层操作进行深度优化，比较今年八月份的事情有26%的性能提高，在SW26010单核组上还实现了智能围棋神经网络的正向传播过程......从上述例子可以看出，神威太湖之光不仅拥有可以用来争夺戈登贝尔奖的运用，还有科学研究和商业用场的超算渲染方面发挥着巨大浸染。

结语

虽然有不雅观点认为不能过度看中Linpack成绩，但考虑到Linpack在科学打算中的实际代价，以及至今没有可以替代Linpack的威信测试，超算的Linpack成绩依然非常具有借鉴意义，从这个角度上讲，将神威太湖之光环球最强超算的冠冕当之无愧。
虽然神威太湖之光并没有在所有的测试中得到第一，但这并非是可以诋毁神威太湖之光的情由——以神威太湖之光在一些测试中仅夺得第二名、第三名就否定这台100P超算，这种否定办法绝不是科学的态度。

关于神威太湖之光超算到底是只能跑分还是真正的科研利器，戈登贝尔奖和文章里先容的详细运用已经对各种质疑做出了有力的还击。

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学威信品牌。

本文由科普中国领悟创作出品，转载请注明出处。