近日,全省科技大会颁发了2023年度广东省科学技术奖,来自深圳的鹏城实验室牵头研制的国产E级高性能人工智能算力平台获得广东省科技进步奖特等奖。在获奖之际,中国工程院院士、鹏城实验室主任高文院士接受了包括南方财经全媒体记者在内的媒体采访。
“鹏城云脑Ⅱ”是首个全国产E级智算平台,由鹏城实验室联合龙头企业等单位研制。在国家、广东省与深圳市的大力支持下,该项目基于国产NPU开展了E级智算架构关键技术攻关,成功研制了全自主高性能E级智算体系架构与集群,研发了覆盖高性能算子库和编译器的AI计算架构及一站式AI协同开发环境,解决了中高端NPU生态的国产替代问题,突破了大规模并行训练技术,填补了国产智算上千亿级大模型高效率训练技术空白,已支持鹏城系列大模型等上千个AI模型训练。
“省科技进步特等奖这一荣誉不仅是对团队努力的认可,也是对国家科技发展战略的支持和肯定。”高文表示,30多年前,中国是没法做超级计算的,很多机器都是进口的,但到现在中国可以自己做超算,龙头企业及其他芯片厂商都在努力打造国产芯片生态,这对国家构建自主高端的人工智能计算竞争力意义重大。
目前国内芯片综合性能较强
南方财经:缺少高性能芯片已经成为影响我国人工智能发展的重要问题。国产E级高性能人工智能算力平台,能发挥什么作用?跟一些龙头企业建设的万卡芯片集群等相比有何区别?
高文:高性能单一芯片的处理能力要非常强,而且功耗不能太高,这就要求设计能力和工艺生产能力要比较强。我们希望把工艺做得再好一点,所以对于高性能芯片设计能力和制造工艺的要求是很强的。目前,我们设计的最新芯片跟国外比起来,可能在功耗上会有点被动,但在性能上总体来说没有那么大的制约,综合起来的性能还是很强的,还不是到完全没有防御能力的阶段或者断崖式的性能落差。随着时间的推移,我们可以通过三维堆叠技术集成,把国产最先进制程工艺芯片做到提升一个制程性能台阶,让功耗节省一半。目前国内很多单位都在攻关新的制造工艺,慢慢地也在弥补短板。
南方财经:“鹏城云脑II”有何突出技术优势?研发过程中遇到哪些挑战,如何解决?
高文:“鹏城云脑II”做出来后,我们主要在做大模型的训练,所以在通信技术上我们做了很多优化和设计,让任何两点之间的通信处理都控制在两个微秒之内,让通信的速度能够提上来。去年,系统在跑的时候会出现一些故障的情况,大概每隔1到2天都会出现故障,就会导致整个机器都要停下来,然后再重启,一开始一停下来就是5个多小时,这是很大的资源浪费。后面我们想了很多办法,让有了故障后,系统的重启时间可以短一些,让系统的工作效率可以提高。另外,去年我们也发现不同数据的组合、编排方式不同,导致训练出来的结果也不一样,所以我们尽量通过既有经验,找出技术规律,把数据重新编排,让模型训练效果达到更佳。
南方财经:普通人如何直观地理解E级算力?除了训练大模型,“鹏城云脑II”还有哪些可披露的主要工作?
高文:E级运算代表计算的速度是按照每秒10的18次方进行。鹏城云脑的E级运算最大的功能就是可以提供很强劲的训练AI模型的能力。训练AI模型后有很多用途,过去实验室也在这方面布局了很多应用,比如面向智慧城市里的智能交通流量分析的模型,比如病毒肆虐过程中,也可以用计算的方法来仿真模拟未来病毒可以变异的种类,就可以提前做好准备等。目前我们部署了八大应用软件的研发,包括智慧城市、智能交通、金融、生物医药等领域,这些领域能全面支撑国家战略需求、地方经济社会发展需求和中小企业发展,比如深圳本地的云飞励天、优必选等公司都有用到来训练自己的模型,促进企业的发展。
将技术成果应用在生活多方面
南方财经:该平台成功研制了全自主高性能E级智算体系架构与集群,如何助力企业转型升级或催生新的产业形态?
高文:算力要走在世界第一梯队,其实就是计算速度要足够快。从这个角度讲,也可以用一堆芯片堆起来完成这个指标,但用最好的工艺可以打造出相当于别人十几个芯片能力的系统,集成度越高,优势也就越强。尽管国内现在芯片设计制程受限,却可以完成世界最好芯片的80%性能,但要注意这只是单个芯片的计算能力。
其实一个系统的能力不仅仅是靠单个芯片的简单累加,因为芯片连接的时候,还有很多通信体系结构的性能好坏,对整个系统有比较大影响的。所以我们在体系结构方面会引入更好的技术,通过整体系统就可以弥补单个芯片简单叠加达不到的指标。现在国内在做高性能芯片方面,我们从硬件来讲并没有比西方落后,在这方面也没有太多的挑战性。
如果有很强的算力,很好的模型,能应用在生活上很多方面,比如自动驾驶,就需要把运行中各种各样可能发生的情况放到系统模型内,等到下次这车再遇到同样情况的时候,就知道怎么处理。但是现有的系统,如果没有数据做训练的话,很难适应,可能会出现各种各样的错误。所以自动驾驶系统不是一次训练就结束了,要在第一次模型训练好后,需要把每天更新的数据再重新训练,这样系统才会越用越好用。所以有了好的算力系统模型,这方面的发展就会越来越快。又比如低空领域的物流方面,如果搭建好了低空的算力模型,送快递时在“最后一公里”上靠低空就可以完成,那么交通运输部门的压力也会缓解很多,这也是算力发挥效率的作用。
南方财经:“鹏城云脑II”在构建国产智算生态方面做了哪些工作?如何促进中端GPU生态的自主创新?
高文:以前大家做大模型训练,更多用英伟达芯片做的系统,这是因为英伟达芯片做了接近20年,花了很多钱和精力去教育市场、培训市场,也做了很多成功的案例,同时也在学术界发表了很多论文,由此慢慢把平台做出来,直到国际上大家都广泛接受。而在国内,如果你要从零开始做一样的芯片,就要花大量的时间和金钱。但我们现在使用兼容搭桥的方法,把原来在国外企业写的程序,转换到国内龙头企业编写的程序,比较熟练的人大概10到20分钟就能完成,由此让原本熟悉国外生态的人,用国产芯片就比较简单,就非常容易迁移到新的环境下。
对于国内的高校,我们也正在鼓励他们直接在国产算力平台生态上做东西,比如组织一些培训营和比赛,通过培养一些新生代在新的平台上使用,目前已持续了三四年的时间。现在用国产芯片做出来的系统越来越多,其实每个系统里面的硬件都不尽相同,如果用别的系统设计的东西在上面跑程序,可能会造成损失,对于追求极致的程序员来说,当他熟练后,肯定还会用国产自主的平台直接写东西,这样效率会更高,可能会提高5%~20%。所以我们也鼓励国产企业能够在这方面多给高校教育和学术组织做更多贡献,让整个生态慢慢做大,把精英留住。
南方财经:你如何看待广东的科研环境和发展空间?对广东科创领域有哪些建议?
高文:深圳总体创新生态环境很好,思维很活跃也很接地气,研发活动与市场化是紧密对接,“鹏城云脑II”做出来后,在真正使用的时候,除了大企业在真正关注外,政府也有很好的政策比如拿出10%的算力对创业企业进行开放,这个支撑效果也很好,所以深圳的中小企业愿意跟着政府的节奏进行互动,也让互动的渠道更加通畅。