湘江畔的国防科技大学正值暑期,校园里静悄悄的,但校内的 “天河”大楼机房内却一派热闹景象。长达数十米的机箱整齐排列着,发出高速运转的低沉“嗡嗡”声,指示灯明暗交错,“天河二号”副总设计师肖立权正带领团队攻关新一代高性能计算机,向新的“中国速度”发起冲锋。
1997年,博士毕业留校的肖立权成为国防科技大学计算机学院计算机研究所的一名科研人员。从那时起,他就与巨型机一起成长。他参与了“银河”“天河”高性能计算机多代机型的研制,从一名普通的科研人员一步步成长为国防科技大学超级计算机团队的核心骨干。
“走别人没有走过的路很难,但我喜欢挑战!”这是肖立权常说的一句话。20世纪末,大规模计算机系统中通常采用电互联技术,传输速率低且易受干扰,影响系统稳定性。这是我国研制千万亿次级超级计算机路上的一块绊脚石。
如何搬开这块绊脚石?用光互联替代电互联是最优解决方案,研究所将这一重任交给了肖立权。这条别人没有走过的路,注定充满坎坷。
2003年,肖立权受领任务后,立即着手解决这项技术难题。然而,按照他的思路做出来的系统根本跑不起来。
“是哪里出了问题?”那个夏天,肖立权满脑子都在问为什么,午休时闭上眼睛,脑海中也都是屏幕上滚动的数据。“没法睡!去实验室!”
肖立权架起示波器、逻辑分析仪,全神贯注观察着,生怕错过关键数据。
解决思路一次次提出,但又一次次推翻。有一天,肖立权突然冒出一个想法:是不是数据传输有问题?灵光突现,他一下找到了解决问题的“钥匙”。由此,我国光互联技术在大规模计算机系统中得到有效验证,这为后续该技术在超级计算机系统中的应用奠定了坚实基础。
此后,肖立权瞄准这一技术领域,啃下了一个又一个“硬骨头”,解决了光互联替代电互联的系列技术难题,成功研制出我国首台采用光互联技术的并行计算机互联通信系统,使传输速率从原有的400Mbps一路飙升为10Gbps,实现数量级飞跃。
2010年11月,“天河一号”凭借优异性能登上世界超算500强榜首,中国超算首次问鼎世界超算桂冠;2013年6月,“天河二号”以峰值运算速度每秒5.49亿亿次,持续计算速度每秒3.39亿亿次,轻松摘得世界超算500强桂冠,我国超级计算机研制达到世界领先水平;2013年11月,“天河二号”蝉联世界超算500强榜首……
作为“天河一号”“天河二号”的副总设计师,肖立权瞄准世界高性能计算机技术前沿,不断探索创新,取得了丰硕成果。
高速互联通信是决定大规模并行计算机系统实用效率的关键,美国对中国严格封锁高速互联技术转让。当时,“天河一号”在国内首次创新性地采用了CPU+GPU异构融合体系架构,其内部数万个CPU和GPU需要通过互联通信系统实现信息交换,难度可想而知。组织并全面负责互联通信系统自主设计研制任务的肖立权压力很大。
闯关路很艰难,但肖立权走得很扎实。寒来暑往,他不仅协助制定系统的总体技术方案、技术路线和设计指导原则,还经常盯在试验一线,从原理验证到工程实践,一个环节都不放过。在他的带领下,团队开展关键技术、核心技术攻关,成功将“天河一号”送上世界超算第一的宝座。
虽然获得了国际声誉,但肖立权没有丝毫懈怠,他早已瞄准了运算速度更快的亿亿次超级计算机系统——“天河二号”。在原有基础上,他带领团队进行了10个月的“封闭攻关”,“天河二号”高速互联通信系统性能得到提升,是当时国际商用互联系统的两倍。它可以把上万颗微处理器联系起来,共同解决同一个计算问题,解决了高效互联中“微处理器越多效能越低”的世界难题。
在这条自主创新的道路上,肖立权带领项目组进行了长达1年的封闭设计工作,自主研制出互联通信系统最核心的两块芯片:路由器和网络接口。
一台超级计算机系统好比一个大城市,互联通信系统就是城市的公路网,路由器就是立交桥,网络接口就是主干道出入口。一个城市公路网市政设施建设得再好,立交桥和主干道出入口不设计好,城市交通依然拥挤不堪。
依靠自主创新,肖立权带领团队掌握了属于自己的核心关键技术。这是“天河二号”在发展迅猛、竞争激烈的世界超算领域长时间保持领先地位的主要原因,一如TOP500主要撰稿人杰克·唐加拉所说:“中国自主研发了内部互联技术,这是买不来的,这是他们基于芯片、路由器及自主生产的交换器开发出来的。”
“我们参加世界排名并不仅仅是为了得第一。世界超算500强榜单其实是一个交流平台,只有在国际上有了声誉,别人才愿意和我们交流。”肖立权深知,只有自立自强,掌握自主核心关键技术,才能在国际上掌握发言权,让世界听到来自中国的声音,让中国更好地了解国际前沿发展趋势。
今年夏天,肖立权没有放松,他正带领团队全力投入新一代高性能计算机的研制攻关,他的目标是,摘取“超级计算机的下一顶皇冠”。
方娇 来源:中国青年报