最近几天,寒武纪发布了第三代云AI芯片思源370,基于思源370的两款加速卡MLU370—S4和MLU370—X4,以及全新升级的Cambricon Neuware软件栈。
寒武纪第三代云AI芯片思源370
基于7nm制程工艺,思源370是寒武纪第一款采用小芯片技术的AI芯片,集成390亿个晶体管,最大运算能力高达256TOPS,是寒武纪第二代产品思源270的两倍搭载最新的寒武纪智能芯片架构MLUarch03,相比峰值计算能力的提升,思源370的实测性能更胜一筹以ResNet—50为例,MLU370—S4加速卡实测性能是同尺寸主流GPU的两倍MLU370—X4加速卡实测性能与同尺寸主流GPU相当,能效明显领先
寒武纪MLU370—S4和MLU370—X4加速卡
思源370也是国内首款支持LPDDR5 R5内存的云AI芯片内存带宽是上一代的3倍,内存访问效率是GDDR6的1.5倍
同时,寒武纪在Neuware上升级了寒武纪软件栈,加入了推理加速引擎MagicMind,实现了训练和推送的一体化,显著提高了开发部署效率,降低了用户的学习成本,开发成本和运营成本。
新一代智能处理器架构MLUarch03
寒武纪智能处理器架构MLUarch03拥有新一代张量运算单元,内置的增压器模块大大提高了卷积效率采用了新的多算子硬件融合技术,在软件融合的基础上大大减少了算子的执行时间片内通信带宽是上一代MLUarch02的两倍,片内共享缓存容量是MLUarch02的2.75倍引入了新的MLUv03指令集,更加完整,高效,前向兼容
增压器与多操作员的硬件融合技术
得益于7nm先进工艺和全新的MLUarch03架构,思源370芯片的最大计算能力可达256TOPS,是上一代思源270的两倍相比峰值计算能力的提升,思源370在实测性能和能效方面都有更好的表现以ResNet—50为例,MLU370—S4加速卡实测性能是同尺寸主流GPU的两倍MLU370—X4加速卡实测性能与同尺寸主流GPU相当,能效明显领先
7nm先进工艺和全新MLUarch03架构加持下,思源370实测性能和实测能效均超越市场主流GPU产品。
*测试环境:
mlu 370—s : nf 5468m 6/2x英特尔至强金牌6330 CPU 2.0GHz/MagicMind v0.6
mlu 370—x 43360 nf 5468m 6/2x英特尔至强金牌6330 CPU 2.0GHz/MagicMind v0.6
思源370全面加强了FP16,BF16,FP32的浮点运算能力,支持推理和训练任务此外,思源370还是国内首款支持LPDDR5的云AI芯片内存带宽是上一代产品的3倍,访问和存储效率是GDDR6的1.5倍
值得强调的是,寒武纪坚持自研智能芯片架构和指令集,是全球在这一技术方向积累最深的公司之一。
寒武纪智能芯片架构的演变
先进的小芯片技术
思源370采用小芯片技术,将两个AI计算核心封装在一个芯片中每个MLU芯片都有一个独立的人工智能计算单元,内存,输入输出和MLU结构控制和接口通过MLU—Fabric可以保证两个MLU模具之间的高速通讯,不同MLU模具组合规格的产品可以为用户提供适合不同场景的高性价比AI
思源370采用小芯片技术,可以实现不同计算能力,内存和编解码的结合。
MLU织物是实现核心粒子技术的关键它提供低功耗,低延迟和超高带宽的两个MLU—Die的互连,支持芯片上统一的内存获取和地址映射,创建虚拟路径避免进程死锁,在数据校验错误发生时支持数据重传,保证数据准确性
感谢上帝
Mind是寒武纪新搭建的推理加速引擎,也是业界首个基于MLIR图编译技术实现商业化部署能力的推理引擎MagicMind支持跨框架模型分析,自动后端代码生成和优化在MLU,GPU,CPU训练的算法模型上,借助MagicMind,用户可以以极小的开发成本将推理业务部署到寒武纪全系列产品上,获得有竞争力的性能
MagicMind的优势不仅在于它能提供极致的性能,可靠的精度和简洁的编程界面,让用户可以专注于业务本身,在不了解芯片更多细节的情况下,实现模型的快速高效部署MagicMind的插件设计也能满足追求性能或功能差异化竞争力的客户需求
推理引擎MagicMind是寒武纪软件栈Cambricon Neuware新升级的重要组成部分。
集成培训的坎布里康新软件
为了加快用户端到端的业务落地,减少从模型训练研发到模型部署的繁琐过程,寒武纪统一基础软件平台寒武纪统一基础软件平台Cambricon Neuware集成了所有底层的训练和推理。自公告披露日起15个交易日后的6个月内,通过集中竞价方式减持不超过5079万股,且任意连续90日内减持股份总数不超过公司股份总数的1%;自公告披露日起3个交易日后6个月内,通过大宗交易减持不超过650.11万股,且任意连续90日内减持股份总数不超过公司股份总数的2%。
软件栈,包括底层驱动,运行时库,算子库以及工具链等,将MagicMind和深度学习框架Tensorflow,Pytorch深度融合,实现训推一体依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升算力利用率,降低运营成本
在通用性方面,Cambricon Neuware支持FP32,FP16混合精度,BF16和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉,语音,自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
全新推理加速引擎MagicMind和训推一体特性,将为用户带来更为便捷,高效的开发体验,大幅降低学习成本,开发成本和运营成本。因股东自有资金需要,南京招行拟通过集中竞价,大宗交易方式减持寒武纪股份,合计不超过650.11万股,即不超过公司总股本的62%。。
领先的媒体性能,支持8K解码
思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂,更繁重,低延时要求的计算机视觉任务。
解码方面,思元370集成了强大的媒体性能,可支持132路1080p视频解码或10路8K视频解码编码方面,全新编码器通过灵活的码率优化控制,多参考帧,二次编码等特性组合,在相同图像质量的情况下比上一代产品节省42%带宽,有效降低带宽成本
思元370视频编码质量显著提升
*测试环境:
MLU270—S4:SYS—4029GP—TRT/2x Intel Xeon Gold 6140 CPU 2.30GHz
MLU370—S4:NF5280M5/2x Intel Xeon Gold 5218R CPU 2.1GHz
视频内容:BQTerrace_1920x1080_60.yuv
内置安全模块,加强数据安全保护
寒武纪高度重视用户隐私,保护数据和模型的安全,在思元370芯片内置安全模块,切实保障用户信息安全思元370是寒武纪第一颗支持国内外主流加密标准的云端芯片,支持用户数据,深度学习模型的加解密以及计算结果的加密输出,通过信任根的方式,保障AI芯片在启动及运行过程中加载的所有代码的安全性,还支持远程认证,用户可在业务运行过程中远程验证AI环境安全性通过多方面的安全特性,思元370系列产品将更好地确保用户AI业务安全
安全启动验证过程
搭载思元370的两款AI加速卡正式亮相
此次发布中,两款基于思元370的加速卡正式亮相:高密度,半高半长,功耗75W的MLU370—S4智能加速卡和高性能,全高全长,功耗150W的MLU370—X4智能加速卡与上一代产品相比,370系列加速卡在性能,能效方面都有更为卓越的表现例如,对标准ResNet—50v1进行软件定制优化后,MLU370—X4加速卡性能高达30204fps
寒武纪MLU370—S4加速卡
在Cambricon Neuware SDK上实测,在常用的4个深度学习网络模型上,MLU370—S4加速卡的性能平均接近市场主流70W GPU的2倍而在能效方面,MLU370—S4优势更为明显,处理相同AI任务相较于70W GPU用电量减少50%以上,将有力地帮助用户实现双碳目标
相比主流同尺寸GPU产品,MLU370—S4加速卡性能优势明显
*测试环境:MLU370—S4:NF5468M6/2x Intel Xeon Gold 6330 CPU 2.0GHz/MagicMind v0.6
MLU370—S4加速卡在解码方面具有强劲竞争力,相较于同尺寸GPU,可提供3倍的解码能力和1.5倍的编码能力总体而言,MLU370—S4加速卡的能效出色,体积小巧,可在服务器中实现高密度部署
寒武纪MLU370—X4加速卡
MLU370—X4加速卡的优势则表现为高性能,算力可达256TOPS,加强了FP16,FP32的计算性能,新增BF16计算类型。
在Cambricon Neuware SDK上实测,常用的4个深度学习网络模型中,MLU370—X4加速卡与市场主流150W GPU相比,性能表现2项持平2项更优,实测能效则为GPU的2倍比如YOLOv3网络中,MLU370—X4的性能是150W GPU性能的1.5倍,能效为GPU的2.5倍
相比主流GPU产品,MLU370—X4性能领先
*测试环境:MLU370—X4:NF5468M6/2x Intel Xeon Gold 6330 CPU 2.0GHz/MagicMind v0.6
MLU370—S4,MLU370—X4加速卡规格
370系列加速卡广受客户期待,思元全系列产品为产业升级提供算力支撑
从云端推理思元270,边缘推理思元220,云端训练思元290,到最新发布的推训一体思元370,寒武纪为用户提供了覆盖不同场景,不同算力规模的全系列产品此次发布的256TOPS算力的思元370主要面向中高端推训场景,与主要面向训练的512TOPS高端产品思元290形成协同,共同为客户提供全功能,全场景的智能算力
思元370在2020年三季度流片,相关加速卡产品于2021年二季度陆续送测客户目前,部分客户已完成测试,导入,产品进入早期销售阶段
思元370系列加速卡已与国内主流互联网厂商开展深入的应用适配,在语音,视觉等场景的性能表现超出客户预期。降价幅度根据市场价格确定。
阿里云基础设施异构计算负责人张伟丰博士表示:阿里云基础设施异构计算团队已经完成了思元370的测试及导入,结合阿里云震旦异构计算加速平台完成了ODLA的接口适配,总体性能表现超出预期双方将在vODLA池化,HALO编译以及面向业务场景的性能调优等技术领域深度合作
百度异构计算架构师黎世勇对思元370也同样充满期待,他说:自2018年起,百度与寒武纪展开了多维度的软硬件协作,思元100等产品服务百度语音合成等多种业务场景我们相信,伴随着思元370等新产品的落地,双方软硬件充分结合的生态势必将发挥更大的效能,助力人工智能行业多场景落地
除互联网之外,最近几年来,寒武纪在智慧金融,智慧能源,智慧交通等行业与合作伙伴共同完成了诸多落地案例。
今年年初,招商银行已成功上线基于寒武纪上一代云端推理产品思元270的智能模型推理服务,并凭借高效,便捷,安全的服务赢得了金融客户的高度认可招商银行人工智能实验室负责人李金龙介绍了寒武纪与招商银行的合作内容,就未来深化合作表示说:寒武纪第三代产品思元370,在性能,通用性和软件易用性等方面均达到业内领先水平,我们希望与寒武纪继续深化合作,一同为智慧金融等应用场景提供更高质量的人工智能计算服务
思元370系列加速卡已与国内主流服务器合作伙伴完成适配浪潮信息副总裁,人工智能和高性能产品线总经理刘军表示:浪潮跟寒武纪长久以来保持着紧密合作,思元370在性能,能效等方面较之思元270均有大幅提升,我们期待双方未来能够携手为更多行业和领域提供人工智能计算相关服务刘军还介绍了与寒武纪之前合作的进展:浪潮搭载寒武纪芯片的AI服务器已经在中国移动,互联网,智算中心等客户和行业中实现落地
。