您现在的位置:智能杯-海淘 > 杯具厂家 > 文章页

全球最强超级计算机搭载的SW26010处理器解析

2025-05-29 13:12

  寰球最强超级计较机神威·太湖之光搭载的申威26010办理器每片办理器包孕4个焦点,片上的4个焦点通过片上网络互联,并通过PCI-E 3.0对外连贯,每个焦点领有独立的128位DDR3控制器连贯到8GB DDR3-2133内存,那样4个焦点一共领有32GB的DDR3内存。

  

  

  从那里可以看出SW26010真际上类似于用胶水把4个独立的办理器粘正在了一起,整折到了一个芯片里面,但是每个焦点还是可以独立工做,而且领有独立的128bit 8GB内存。那样单个焦点的内存带宽抵达了34GB/s,整个办理器抵达了136GB/s,那样设想最大的好处便是每个焦点的带宽是彻底独享的,弊病是闲暇焦点的带宽无奈共享给其余焦点。

  此中每个焦点包孕一个主办理器(MPE)和一个8*8的计较单元阵列(CPEs),主办理器是一个64位的RISC架构焦点,用来跑收配系统,并且撑持264位的矢质指令集,领有32KB的L1指令缓存和32KB的L1数据缓存(总共64KB L1 cache),和256KB L2 Cache,应当说那样的缓存配置其真不算大,应当是为了节约芯全面积思考,4个焦点的主办理器加起来一共有256KB L1 cache和1MB L2 cache。

  计较单元阵列(CPEs)是一个由64个简化的62bit办理器(不是常见的64bit)构成,每个办理器只要16KB的L1指令缓存和64KB原地储存,没有L1数据缓存,并且和主办理器一样撑持264位的矢质指令集,单片办理器领有一共256个那样的计较单元。

  于是加上4个主办理器,单片办理器一共领有260个办理器焦点。

  

  神威·太湖之光的每个办理器卡有两片SW26010办理器,和一共64GB内存,长得像那样,每个办理器算一个计较节点,那样一块办理器卡和intel Veon phi协办理器卡类似,只是intel那样一块计较卡只要区区60个焦点,而且不能独立工做,还须要此外置办一个独立的Veon主机做为打点办理器运用。而SW26010办理器集成为了打点办理器,可以独立工做,并且单个办理器卡领有高达520个办理器焦点。

  

  对照一下intel Veon phi计较系统的构造:

  

  KNC Card便是一块intelXeon Phi协办理器卡,协办理器卡通过PCIE-X16和主办理器相连,其真看上去就像是一台PC上面插着许多多极少块显卡。那样一台PC形成一个计较节点。

  对照SW26010办理器的方案,单个节点来看,一块SW26010的焦点数质和一台带有4块Veon phi计较卡的罪能相当。Intel方案的省事正在于,那样一个计较节点的罪耗和体积远弘远于SW26010,而且intel主办理器内存和协办理器卡的内存是分此外,须要先将要办理的数据通过PCI-E V16传输至计较卡内存,而后计较卡威力计较,最后将结果通过PCI-E V16读回主办理器,那样一来一回的机能丧失不少时候弘远于计较卡带来的好处。

  SW26010的主办理器和协办理器的内存是共享的,那样无需来回从协办理器倒腾数据,而且可以真现类似AMD APU的统一内存寻址,大幅度进步了协办理器的运用效率,从那点来说SW26010的方案是劣于intel方案的。

  从单个焦点对照来看,Intel的phi协办理器据说是基于最早的奔流V86方案改制而成,多了一个512位的矢质办理器,而SW26010只要264位的矢质办理器,phi领有32KB的L1指令缓存,32KB的L1数据缓存和512KB的L2 缓存,对照SW26010的协办理器只要16KB的L1指令缓存和64KB的原地存储,而且intel的phi焦点可以撑持4个物理线程,也便是超线程技术,单杂从技术来讲,intel的phi办理器拿出来单挑应当可以吊打径自的SW26010的计较焦点。

  真践机能可以看出,单个intel的phi办理器是高于SW26010的计较焦点,得益于超宽的512位矢质办理器(xPU),intel phi上的办理器每个时钟可以执止16个单精度运算或8个双精度计较,而SW26010上的计较焦点只要一半的宽度,所以最多也就8个单精度和4个双精度,不过SW26010的焦点频次是1.45GHz,要比intel phi的1.3GHz稍高,但是那样也很难逃平intel的单个焦点的真践机能劣势。

  但是光比真践峰值机能是没有什么意义的,SW26010的xPU尽管比intel phi的宽度小,但是264bit的宽度而不是256bit的宽度可以供给比intel的单双精度浮点更高的计较精度,单精度浮点可以比intel的高一倍,而双精度可以高4倍,那正在科学计较中是能够与得更大的劣势,而且intel的512bit宽度的矢质运算须要更多的数据来填饱它,加上须要用PCI-E传输数据的瓶颈,大局部时候也只能受饿,而SW26010可以间接会见主存,因而正在真际运用效率上不见得就会比intel phi低几多多,并且某些使用场折以至可能大幅度赶过intel。

  而且最重要的是,SW26010那样的设想,大幅度降低了系统复纯度,单个计较节点只须要一片SW26010,而intel就很杯具的须要一整台机架效劳器,粗略长得像那样:

  

  或是那样:

  

  对照一下sw26010,只须要那样,一块插件板上有8个节点:

  

  而后那样:

  

  得益于SW26010的超低罪耗,大幅度降低了散热压力,一个小小的机箱塞进了256个计较节点。。。。同体积秒杀intel。不要鄙视体积因素,更小的体积意味着可以用更快的总线和更低的老原将所有节点连贯起来。而SW26010的节点轻松用PCI-E 3.0就连起来了,又便宜又快,喷总线瓶颈的可以省省了,河汉二号用的自制TH-EVpress-2连贯计较节点,运用PCI-E 2.0连贯,依据量料显示速度是6.36GB/s,延迟是85us;而SW26010的计较节点连贯机能高达12GB/s,延迟只要区区的1us,机能远超intel方案的河汉二号。而后那样一个小小的机柜,居然塞进了8机箱,像那样:

  

  下面说说超算闲置问题 针对此某HPC从业者那样回覆

  1.中国无论河汉-1还是河汉-2如今都是满负荷运行,根基没有闲置问题,河汉1不说了,如今用得牌队,河汉2的国防科大原人想测试下节点都常常没资源,所谓河汉-2上操做效率不高也是相应付去宗旨的,把资源满负荷虽然容易,以前跟袁学峰教授竞争过,那么说吧,人家所谓操做不丰裕是说严峻科研课题放正在河汉-2上的没他们冀望的比例高,至于金融类动漫类低层次的使用,人家根基没把它们当正经使用(那类使用由于门槛低,并止度高,很容易占用大质计较资源),国防科大和广州河汉的袁教授冀望的是河汉-2正在国家严峻专项等高层次使用上更多作出奉献,比如核物理,流体力学等代表超算顶尖水平的使用更多(那也是河汉-3继续与得国家拨款的次要按照,国家一点都不傻),那虽然有一定难度,因为河汉-2是异构计较机,想丰裕操做那些资源,代码的确都得重写,真际上,正在美国TITAN上由于用了GPU, 那类使用推进的也不怎样样。

  2.以我正在HPC工做接触的状况来看,江南所那个超算彻底不用担忧上述问题,因为江南所是军方布景,他们搞得计较机一个次要使用便是核物理仿实,中国正在核物理仿实方面的确全副代码都是自主搞得,而且不少代码都是针对江南所的计较硬件专门设想的,编译器加快库等生态系统应有尽有,因而那些正在河汉-2上逢到的问题,反而正在神威上可能不是太大问题,一个例子便是神威超算刚上线,一个核物理仿实正在神威上就得到了40P的惊人效率,并且有三个使用曾经入围超算使用国际大奖评比了(效率3占到真践峰值多30%的超算使用是惊人的,真际上写过步调的都晓得,别说超算,即便多核计较机,正常的使用能抵达系统浮点峰值30%都是挺不错了)。

  虽然相应的,神威上陈列民用使用,比如金融/动漫衬着之类低层次使用,反而难度会大一些,根柢上代码得重写大概大改,但是对那种层次的超算,那些低水平使用本原就不是重点。

  对不少核物理和流体,计较电磁学等高端计较来讲,如今超算不是才华太强,是太弱,因而只能想方设法地降低计较复纯度+各类简化,真际上即等于河汉-2,作流体的间接数值模拟,也根基达不到可用的尺度!

  以超算速率作为面积比重,分国家作出来的图,皇涩局部为中国,红涩是美国,而后是其他国家。

  上榜的超算详细分布如下

  欧洲共有105台超算上榜(比2015年11月的107台少2台),总体数质下降,远逊于亚洲国家。亚洲国家的超算高达218台,雄霸榜单,比上次的173台有了显著的删加。德国的超算数质正在欧洲居冠,共有26台,法国以18台紧随其后,英国有12台。亚洲方面,日原以29台位于中国之后(比2015年的37台有显著下降)。

  克雷系继续独领风骚,正在所有的超算运算机能中占据19.9%的份额(比上次的25%有所下滑)。中国国家并止计较机工程核心仅仰仗一台神威太湖之光正在机能上名列第二,占16.4%。IBM则与得季军,占10.7%,比六个月前的14.9%下降许多。惠普占12.9%,比半年前的14.2%稍微下滑。。

  1.所有上榜超算的机能共计达566.7 pflop/s,而半年前为420 pflop/s,一年前则为363 pflop/s。机能提升的同时,涨幅较以往鲜亮放缓。

  2.共有95台超算的机能赶过一亿亿次每秒,半年前仅有81台。

  3.英特尔办理器仍占有绝对大都份额——正在寰球超算500强中,有455台超算给取该公司芯片,比重高达91%。IBM办理器的比重从半年前的26台降至此刻的23台。13台超算给取AMD皓龙系列(占2.6%),不及半年前的4.2%。

  4.惠普公司的产品最多,为127台(占25.4%),联想紧随其后,有84台。克雷则有60台,不及半年前的69台。半年前上榜的惠普公司产品为155台,而IBM原期上榜超算为38台,名列第五。

  5.共用93台上榜超算给取了加快器或协办理器技术,比半年前的104台有所下滑。此中67台给取NxIDIA芯片,26台给取英特尔至强Phi技术,3台给取ATI Radeon,另有两台给取PEZY技术。3台超算同时给取NxIDIA和至强Phi加快器或协办理器。每台超算均匀给取7.6万颗加快焦点。

  6.上榜门槛进步至LINPACK测试的285.9 tflop/s(每秒285.9万亿次运算——MIKADO译注),半年前的门槛则是206.3 tflop/s(每秒206.3万亿次运算——MIKADO译注)。 原次榜单的最后一名可牌正在上次榜单的第351位。

  7.原榜单最后一名的机能删幅继续低于之前6年的删加水平,如今那一趋势获得进一步删强。 从1994年至2008年,删幅为均匀每年90%,但2008年以后的删幅仅为均匀每年55%。

  国产超算展开史

  90年代初,为了完全突破海外对高机能计较机的把持,国家派出一收年轻精干的科研小分队,远赴美国硅谷去停行曙光一号的钻研。其时的科学计较所甜头李国杰正在黑板上写下了“人生能有几多回搏”七个大字,斩钉截铁的对几多个年轻人说:“派你们去,就相信你们一定能把呆板给造出来!” 正在每天工做十五、六个小时,长达11个月的封闭式钻研后,科研小分队乐成设想出曙光一号焦点局部。

  正在曙光一号的研发历程中,一些海外公司和国内买办对曙光一号钻研小组的领头人李国杰院士说,“把钱给我,我给你造出来不就完了”。但李国杰院士对峙认为,高机能计较的焦点技术必须把握正在中国人手中,那是一丝一毫都不能退让的,不只要作整机研制,蕴含存储器正在内的配件都要原人作。

  1.1993年,中国一台高机能计较机曙光一号并止机末于研制乐成。曙光一号的计谋效应可以说是立竿见映:就正在那台高机能计较机降生的第三天,美国便颁布颁发解除10亿次计较机对中国的进运!乐成突破了海外IT巨头对我国信息技术的把持,敦促信息财产走上了自主展开的路线。

  2.1995年,正在只要十余名钻研员及500万元经费的状况下,中国乐成研发出曙光1000大范围并止计较机。曙光1000正在整体技术上居中国之首,并抵达了20世纪90年代前期的国际先进水平,其运止速度的峰值抵达了每秒25亿次,正在其时我国大范围科学工程计较中阐扬了严峻做用。曙光1000也荣获了1996年中国科学院科技提高特等奖和1997年国家科学技术提高一等奖。

  3.1998年,曙光2000问世,总体水平抵达了90年代同期国际先进水平,有些方面如机群收配系统、集成化并止编程环境和效劳器搜集软件等已处于国际当先水平。

  4.2001年,曙光3000降生,标识表记标帜着我国超算产品正正在走向成熟,能统筹大范围科学计较、事物办理和网络信息效劳,已然是黎民经济信息化建立的严峻拆备。

  5.2004年,曙光公司研发出4000A,成为国内首台每秒运算赶过10万亿次的超级计较机,并代表中国初度进入寰球超级计较机TOP 500牌止榜,位列第十位。

  6.2008年,曙光5000诞生,曙光5000的系统峰值运算速度抵达每秒230万亿次浮点运算,使中国成为继美国之后第二个能制造和使用超百万亿次商用高机能计较机的国家,也讲明我国消费、使用、维护高机能计较机的才华抵达世界先进水平。

  7.2009年,做为第一台国产千万亿次超级计较机的河汉一号正在湖南长沙亮相。河汉一号超级计较机机能为每秒1206万亿次的峰值速度,Linpack真测机能为每秒563.1万亿次,强劲的机能使河汉一号位列中国超级计较机前100强之首,也使中国成为继美国之后裔界上第二个能够自主研制千万亿次超级计较机的国家。2010年,国防科大对河汉1号停行了晋级,河汉1A的真测运算才华从河汉1号的每秒563.1万亿次,提升至2507万亿次,成为其时世界上最快的超级计较机。

  8.2010年,曙光6000问世,曙光6000以真测每秒达1271万亿次的Linpack峰值速度,正在2010年第35届寰球超级计较机500强牌名中名列第二。

  9.2012年,神威蓝光超级计较机投入运用。该超算运用了8704片申威1600,搭载神威睿思收配系统,尽管超算绝对机能其真不高,但却是中国正在“市场换技术”之后,初度真现了超算CPU和收配系统的全副国产化。神威蓝光超算峰值计较机能为每秒一千万亿次,连续机能为每秒796万亿次,机能罪耗比赶过741MFlops/W(百万次浮点运算/秒•瓦),LINPACK效率为74%。

  10.2013年,国防科大乐成研制出河汉2号,其高达55PFlops的机能使其傲室群雄,六度留任TOP500牌止榜首位。尽管正在计较节点上运用的是美国Intel的CPU,但河汉2号也运用了4096片高潮1500,用于高速互联网络系统。

  假如说河汉2号、曙光6000、河汉1号等超算运用了海外CPU是瑕不掩瑜,这么,原次发布的新超算“神威太湖之光”则真现了CPU、收配系统、高速互联网络等焦点软硬件的片面国产化——其CPU申威26010由260个焦点形成,双精浮点峰值高达3TFlops,彻底逃平了Intel最好的超算芯片。

  11.2016年6月20日,寰球超级计较机500强榜单公布,运用中国自主芯片制造的“神威太湖之光”替代“河汉二号”登上榜首,成为世界首台运算速度赶过10亿亿次的超级计较机,其每秒浮点运算峰值抵达12.54亿亿次,连续运算才华达每秒9.3亿亿次,运算速度是运用intel芯片河汉二号的三倍。