今天,寒武纪发布了第三代云AI芯片思源370,以及基于思源370的两款加速卡MLU370—S4和MLU370—X4。
同时,寒武纪升级了Cambricon Neuware软件栈,增加了推理加速引擎MagicMind,实现了训练和推送的一体化,显著提高了开发部署效率,降低了用户的学习成本,开发成本和运营成本。
寒武纪发布了新一代智能处理器架构MLUarch03,其拥有新一代张量运算单元和内置的增压器模块,大大提高了卷积效率采用全新的多运营商硬件融合技术,在软件融合的基础上大大减少运营商执行时间,片内通信带宽是上一代MLUarch02的两倍,片内共享缓存容量是MLUarch02的2.75倍引入了新的MLUv03指令集,更完整,更高效,前向兼容
增压器和多操作员的硬件融合技术。
在7nm先进工艺和全新MLUarch03架构的支持下,思源370芯片的运算能力可达256TOPS,是上一代思源270的两倍与峰值计算能力的提升相比,思源370在实测性能和能效方面表现更好以ResNet—50为例,MLU370—S4加速卡实测性能是同尺寸主流GPU的两倍MLU370—X4加速卡实测性能与同尺寸主流GPU相当,同时能效大幅领先
支持7nm先进技术和新的MLUarch03架构。当前的疫情来势汹汹。
思源370的实测性能和能效都超过了市场上主流的GPU产品。此外,黑龙江省哈尔滨市,黑河市,江西省上饶市,浙江省杭州市今天也报告新增阳性病例。。
*测试环境:
mlu 370—s : nf 5468m 6/2x英特尔至强金牌6330 CPU 2.0GHz/MagicMind v0.6
mlu 370—x 43360 nf 5468m 6/2x英特尔至强金牌6330 CPU 2.0GHz/MagicMind v0.6
思源370全面提升了FP16,BF16,FP32的浮点运算能力,同时支持推理和训练任务此外,思源370是国内首款支持LPDDR5的云AI芯片,内存带宽是上一代的3倍,内存访问效率是GDDR6的1.5倍
寒武纪智能芯片架构的演变。
思源370采用小芯片技术,将两个AI计算核心封装在一个芯片中每个MLU芯片都有独立的人工智能计算单元,内存,输入输出和MLU结构控制和接口,并通过MLU结构确保两个MLU芯片之间的高速通信它可以通过结合不同MLU模具的不同规格的产品,为用户提供适合不同场景的高成本人工智能
思源370采用小芯片技术,可以实现不同计算能力,内存和编解码的结合。近两周,我国累计报告新增本土阳性病例400余例,其中370例与内蒙古,甘肃等地疫情有直接或间接联系,影响12个省,自治区,直辖市。
MLU—织物是实现核心技术的关键它为两个MLU—Die提供低功耗,低延迟和超高带宽的互连,支持芯片上统一的内存获取和地址映射,创建虚拟路径以避免进程死锁,在出现数据验证错误时支持数据重传,确保数据准确性
得益于核心技术,思源370可以通过不同的组合为客户提供更加多样化的产品选择本次寒武纪发布了两张加速卡,未来还会推出更多基于思源370的产品
MagicMind是寒武纪新搭建的推理加速引擎,也是业界首个基于MLIR图编译技术实现商业化部署能力的推理引擎MagicMind支持跨框架模型分析,自动后端代码生成和优化在MLU,GPU和CPU训练的算法模型上,借助MagicMind,用户可以以极小的开发成本将推理业务部署到寒武纪的整个系列产品上,获得有竞争力的性能
MagicMind的优势在于,它不仅可以提供极致的性能,可靠的精度和简洁的编程界面,让用户专注于业务本身,还可以在不了解芯片更多底层细节的情况下,实现模型的快速高效部署MagicMind的插件设计也能满足客户在性能或功能上寻求差异化竞争力的需求
加速引擎MagicMind是寒武纪软件栈Cambricon Neuware新升级的重要组成部分。
为了加快用户的端到端业务,减少从模型训练和开发到模型部署的繁琐过程,寒武纪统一基础软件平台Cambricon Neuware集成了训练和推理的所有底层软件栈,包括底层驱动,运行时库,操作库和工具链等并将MagicMind与深度学习框架Tensorflow,Pytorch深度融合,实现训练与推送的融合依靠训练和推送的融合,用户可以在寒武纪系列计算平台上无缝完成从模型训练到推理部署从云到边的全过程,进行灵活的训练推理业务混合和潮汐式业务切换,能够快速响应业务变化,提高算力利用率,降低运营成本
通用性方面,Cambricon Neuware支持FP32,FP16混合精度训练,BF16,自适应精度训练等多种训练方式,提供灵活高效的训练工具高性能的算子库已经完全覆盖了视觉,语音,自然语言处理,搜索推荐等典型的深度学习应用,能够满足用户对算子覆盖和模型精度的需求
全新的推理加速引擎MagicMind以及训练和推送的融合,将为用户带来更加便捷高效的开发体验,大大降低学习成本,开发成本和运营成本。
思元 370 升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂,更繁重,低延时要求的计算机视觉任务。
解码方面,思元 370 集成了强大的媒体性能,可支持 132 路 1080p 视频解码或 10 路 8K 视频解码编码方面,全新编码器通过灵活的码率优化控制,多参考帧,二次编码等特性组合,在相同图像质量的情况下比上一代产品节省 42% 带宽,有效降低带宽成本
思元 370 视频编码质量显著提升
* 测试环境:
MLU270—S4:SYS—4029GP—TRT/2x Intel Xeon Gold 6140 CPU 2.30GHz
MLU370—S4:NF5280M5/2x Intel Xeon Gold 5218R CPU 2.1GHz
视频内容:BQTerrace_1920x1080_60.yuv
寒武纪高在思元 370 芯片内置安全模块,切实保障用户信息安全思元 370 是寒武纪第一颗支持国内外主流加密标准的云端芯片,支持用户数据,深度学习模型的加解密以及计算结果的加密输出,通过信任根的方式,保障 AI 芯片在启动及运行过程中加载的所有代码的安全性,还支持远程认证,用户可在业务运行过程中远程验证 AI 环境安全性通过多方面的安全特性,思元 370 系列产品将更好地确保用户 AI 业务安全
安全启动验证过程
此次发布中,两款基于思元 370 的加速卡正式亮相:高密度,半高半长,功耗 75W 的 MLU370—S4 智能加速卡和高性能,全高全长,功耗 150W 的 MLU370—X4 智能加速卡与上一代产品相比,370 系列加速卡在性能,能效方面都有更为卓越的表现例如,对标准 ResNet—50v1 进行软件定制优化后,MLU370—X4 加速卡性能高达 30204fps
寒武纪 MLU370—S4 加速卡
在 Cambricon Neuware SDK 上实测,在常用的 4 个深度学习网络模型上,MLU370—S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍而在能效方面,MLU370—S4 优势更为明显,处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上,将有力地帮助用户实现双碳目标
相比主流同尺寸 GPU 产品,
MLU370—S4 加速卡性能优势明显
* 测试环境:
MLU370—S4:NF5468M6/2x Intel Xeon Gold 6330 CPU 2.0GHz/MagicMind v0.6
MLU370—S4 加速卡在解码方面具有强劲竞争力,相较于同尺寸 GPU,可提供 3 倍的解码能力和 1.5 倍的编码能力总体而言,MLU370—S4 加速卡的能效出色,体积小巧,可在服务器中实现高密度部署
寒武纪 MLU370—X4 加速卡
MLU370—X4 加速卡的优势则表现为高性能,算力可达 256TOPS ,加强了 FP16,FP32 的计算性能,新增 BF16 计算类型。
在 Cambricon Neuware SDK 上实测,常用的 4 个深度学习网络模型中,MLU370—X4 加速卡与市场主流 150W GPU 相比,性能表现 2 项持平 2 项更优,实测能效则为 GPU 的 2 倍比如 YOLOv3 网络中,MLU370—X4 的性能是 150W GPU 性能的 1.5 倍,能效为 GPU 的 2.5 倍
相比主流 GPU 产品,MLU370—X4 性能领先
* 测试环境:
MLU370—X4:NF5468M6/2x Intel Xeon Gold 6330 CPU 2.0GHz/MagicMind v0.6
MLU370—S4,MLU370—X4 加速卡规格
。