寒武纪科技

产品技术

寒武纪为人工智能领域提供高能效的通用智能芯片

MLU370-X8 智能加速卡

MLU370-X8 智能加速卡 训推一体人工智能加速卡

MLU370-X8采用双芯思元370配置,为双槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力,同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源,同时MLU370-X8搭载MLU-Link多芯互联技术,每张加速卡可获得200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理任务。
 

产品规格

板卡型号

MLU370-X8

计算架构

Cambricon MLUarch03

制程工艺

7nm

计算精度支持

FP32、FP16、BF16、INT16、INT8、INT4

 

 

峰值性能

 

 

256 TOPS (INT8)

128 TOPS (INT16)

96 TFLOPS (FP16)

96 TFLOPS (BF16)

24 TFLOPS (FP32)

内存类型

LPDDR5

内存容量

48GB

内存带宽

614.4 GB/s

视频编解码

最高可支持至8K;

264路HEVC全高清视频解码;

48路HEVC全高清视频编码;

图片编解码

图片编解码最高分辨率支持16384x16384;

8000 Frames/s 全高清图片解码;

6000 Frames/s 全高清图片编码;

系统接口

x16 PCIe Gen4

MLU-Link™接口
4 ports, 16 Lanes, 50 Gbps
MLU-Link™带宽
聚合带宽200GB/s Bi-direction

形态

全高全长双槽位

最大热功耗

250W

散热设计

被动



在寒武纪基础软件平台 SDK上实测,在常见的4个人工智能模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和寒武纪基础软件平台 CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。

 

应用领域

性能对比

性能对比

*测试环境

250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0

350W GPU: Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2

合作伙伴

浪潮
浪潮
  • 浪潮

  • 地址:具体请查看官方网站

  • 电话:400-860-0011

  • 网址:www.inspur.com