今天是
设为首页 加入收藏 打印 中国天气首页 生活 旅游 繁體中文
中国天气网>海南 > 专题频道 > 国庆

气象高性能计算这40年 从“上机”到上云

【字体:   2018-09-20 15:39:51   来源: 中国气象报  

数十年前,当用户抱着厚厚的纸质材料、拎着沉重的数据磁带前去“上机”,路上偶尔停下来喘口气时,能否从永恒流逝的时光中,瞥见坐在办公室里,敲击鼠标键盘就可提交计算需求的今天,以及计算资源、业务系统高度集约在“云端”的未来?

【在中国气象局,“上机”曾是一项苦中有乐的差事。乐,是因为可以亲手操作大型计算机;苦,则是因为免不了一番体力劳动。】

很多人都曾在不经意间“目睹”过气象部门早期的大型计算机——它出现在上个世纪八十年代初期陈冲主演的电影《苏醒》中:一位技术员在大型机通过计算上取得成果后,兴奋地冲了出去。

电影《苏醒》的制片方选择在中国气象局取景并非偶然。在改革开放初期,气象部门的大型计算机处于国内先进水平,它们是1980年投入运行的气象部门首个大型现代化建设项目——北京气象通信枢纽(BQS)的一部分,当年是由周恩来总理亲自批准建设的。

为建设BQS系统,中国气象局从日立公司引进了M-160Ⅱ和M-170两台大型计算机。使用这两台大型计算机,需要先小心翼翼地穿纸带、凿卡片,然后通过光电读卡机将程序读入到计算机里。虽然如此,它们的性能在当时十分强大,主要用于国际气象通信业务,也被拿来研发数值预报模式,有时还会对外开放,全国各地都有人特地前来使用。那一段时间,到气象局排队用大型计算机的人很多,有些甚至只能安排到半夜、凌晨时段,从招待所的被窝里爬出来,抱着一摞卡片跑进机房。

1985年,国家气象中心利用世界银行第一批农业贷款引进了日本富士通M360计算机,可以通过键盘录入并编辑程序,人与计算机终于可以抛弃打孔卡,进行近似实时的信息交互了。只不过,这种交互还需要通过专门的渠道:由类似于PC机的阴极摄像管显示屏以及键盘组成的“终端”。这些“终端”通过专线与主机的前置机相连,而专线长度有限,因此一般都是在主机房附近开辟专门的房间,内设若干“终端”,供使用计算机的人来此录入、调试和运行作业。人们为这种需要抱着厚厚一摞纸质材料、拎着沉甸甸的数据磁带来到“终端室”录入、调试和运行程序作业的工作过程起了一个专有名词:“上机”。“上机”一直持续到20世纪90年代末期,才随着中国气象局骨干网络的建成而消失。

与“上机”的繁琐步骤相映衬的,是人们对设备的百般呵护。中国气象科学研究院DPS7计算机机房内的恒温恒湿控制大费周章。那时还没有加湿器,要往空调送风口里吹水蒸气,水蒸气由一个密闭的电炉烧开水产生。可北京的自来水里矿物质颇多,电炉没过多长时间就结起水垢,只好改烧蒸馏水。为此,单位专门买了十几个塑料水桶运水。水通过电梯运至三楼,再由四轮推车运至机房门口,最后由几个年轻人两人一桶将盛满蒸馏水的水桶挑到空调机房。这个活儿,单位的几位弟兄轮流干了好几年。后来,大家把这活承包给了几位生活相对贫困的在读研究生,每次两个人,每人十元。清贫的研究生们年轻力壮,干得乐此不疲。

上个世纪80年代的设备,还没有“高性能计算机”这个听上去就颇有气势的称呼,使用繁琐之余,性能与今天的设备也不可同日而语。中国气象科学研究院使用的国产晶体管计算机DJS108计算速度只有不到1MFLOPS,内存只有32KB,没有磁盘,使用64/128KB的磁鼓。但这并不能阻止科研人员的探索,就是在这台机器上,气象部门研究出了我国最早进入实用阶段的数值天气预报模式。

此后,又利用陆续引进的大型计算机,将数值模式预报业务体系从无到有,慢慢建立起来。

【是继续坚守为数值模式发展立下了汗马功劳的向量机,还是转向代表未来发展方向的阵列机?专家之间、领导之间进行了激烈的讨论。】

20世纪90年代是我国数值模式预报业务蓬勃发展的时期,我国跻身少数能够发布中期数值预报的国家。理所当然地,数值模式繁荣的背后,少不了高性能计算与通信网络的大发展。随着高性能计算机能力的明显增强,银河Ⅱ、CRAY J90、CRAY EL98、CRAY C92、IBM SP、IBM SP2、曙光1000A……一系列高性能计算机陆续引入气象业务部门, T42L9、T63L16、 T106L19等模式随之成熟,科研与数据处理需求也得到了满足。尤为重要的是,随着9210工程的逐步落实,我国气象数据实现了首次实时收集和分发,数据从观测站到达预报员眼前的时间,从1小时以上缩短到了10分钟以内。

正当气象部门的计算能力蓬勃发展之际,高性能计算机本身也悄然迎来了变革。以CRAY为代表的并行向量处理结构超算,似乎碰到了发展的天花板。这类向量机运算效率很高,CPU很容易达到接近饱和的状态,但扩展能力较差。我们知道,气象业务与科研对计算能力的需求是不断增长的,但向量机却不能通过相对简单的升级来满足需求的增长,只能购买性能更强的新机,导致升级成本居高不下。更为严重的问题是,向量机生产厂商的推陈出新速度,已经赶不上需求的增长速度了。

就在此时,以大规模并行处理为特点的阵列式超算开始发展。由成百上千计算节点组成的并行处理系统,可以获得很高的峰值运算速度,且由于系统的内存分布于各个节点,具有易扩展性。

表面上看,从向量机迁移到阵列机理所当然,但毕竟两者结构完全不同,数值模式的移植远非复制粘贴那样简单,需要经过一系列复杂的调试、优化过程,面临许多未知的困难。是继续沿用向量机,降低模式研发运行的难度,还是转向阵列机,获得更强的计算能力和易扩展的优势?一场激烈的讨论在气象部门展开。

最终,代表着未来的阵列机赢得了“主动权”,上个世纪90年代后期,随着IBM SP、IBM SP2的先后引进,阵列机在气象部门全面铺开,后续的IBM Cluster1600、IBM FlexP460也遵循着这一路线。在这些超算上,中国气象局自主研发的新一代全球/区域通用数值天气预报系统(GRAPES)走过了从启动研发到业务化的光辉历程。

高性能计算机发展的方向是众核计算。在气象部门最新引进的“派-曙光”国产高性能计算机上,设有众核小规模试验子系统,为数值模式的移植与优化未雨绸缪。】

时光来到2018年,在改革开放的第40个年头,中国气象局新一代高性能计算机系统“派-曙光”启动了业务化应用。新系统计算能力达到每秒8189.5万亿次浮点运算,存储能力达到23088TB。在引进“派-曙光”以后,中国气象局高性能计算机系统总体规模跃居气象领域世界第三位,仅次于英国气象局和日本气象厅。

但气象部门并未满足于此,因为高性能计算机领域的革新同样永无止境。曾蝉联世界超算冠军的“神威·太湖之光”基于众核处理器构建,在看得见的未来,这也代表了未来超算的发展方向,而如何将业已成熟的数值模式移植到众核架构的超算上,无疑是气象部门即将面临的一大挑战。

在“派-曙光”中,气象部门特意配置了小规模试验子系统,支持GPU/众核环境下气象模式的研发与试验,希望借此为将来迁移到众核系统做好准备。

与此同时,气象部门的计算资源还在一步步迈向集约、开放与共享,以往“一套系统一台机器”造成的烟囱林立现象正逐渐改善。集约化管理数据资源和高性能计算资源,构成丰沛的数据资源池,开放共享、各取所需,正是大势所趋。

站在改革开放40周年这个节点上,气象信息化发展也进入了新的阶段。而作为气象信息化基础设施的高性能计算资源,正为气象信息化与智慧气象建设的进一步发展铺就康庄大道。

(作者:国家气象信息中心副总工程师 沈文海 采访整理:刘钊 责任编辑:李慧)

编辑: 中国天气网海南站
转载请注明“来源:中国天气网”。
收藏此页】 【打印

相关新闻