2023年12月11日发(作者:贵英逸)
智能AI计算芯片对比
下面是本人接触到的AI芯片,主要涉及华为、比特大陆-算丰、英伟达。其他还有寒武纪、地平线、瑞芯微等没有接触过就不对比了。
易开发性:比特大陆>英伟达>华为
性能:华为>英伟达>比特大陆(性能不是很好对比,每家实现的算子性能有差异,不能单纯对比TOPS)
带宽
(GB/s)
算力内存解码编码功耗备注
昇腾31016TOPS INT8
LPDDR4x
8/4GB
H.264/H.265 16路
1080P@30FPSJPEG
1080P@256FPS
H.264/H.265 4x 16路
1080P@30FPSJPEG 4x
1080P@256FPS
视频:8路1080P@30FPSJPEG:
1080P@240FPS
1路
1080P@30FPS
9.5WCaffe/TensorFlow
Atlas3004x4TFLOPS62TOPS@INT8
LPDDR4x
4x 8GB
4路
1080P@30FPS
67W
HI3559A
4TOPS@INT8-
NNIE+2TOPS@INT8-DSP
LPDDR4x
4GB
5W
算丰
BM1880终
端芯片
算丰
BM1682云
端芯片
算丰
SC1/SC1+
Nvidia
jetson
TX2
1TOPS@INT8(Winograd
算计可达2TOPS@INT8)
LPDDR4
最大4GB
2路
1080P@30FPSFHD:1080P@75FPS
2.5W
多框架支持
CaffeONNX
3TFLOPS8路1080P@30FPS可堆叠多颗芯片
2TFLOPs/4TFLOPs16/32GB501颗BM1680/2颗
1TFLOPS4TOPS@INT8
LPDDR4x
8GB
D2D
35D2H/H2D
20
8路1080P@30FPS7.5W
实测BM1682 VS HI3559A(单NNIE)网络有快有慢,并不是某个芯片一定快。
bm1682
YOLOv3_352x38432.65ms
1
YOLOv3_288x320
mobilenetv2_288x320
MTCNN_16x56
CNN_48x168
19.31ms
3.16ms
0.246ms
0.649ms
0.193ms
3.75ms
2
33.74ms
4
61.17ms
hi3559a
41.4ms
2023年12月11日发(作者:贵英逸)
智能AI计算芯片对比
下面是本人接触到的AI芯片,主要涉及华为、比特大陆-算丰、英伟达。其他还有寒武纪、地平线、瑞芯微等没有接触过就不对比了。
易开发性:比特大陆>英伟达>华为
性能:华为>英伟达>比特大陆(性能不是很好对比,每家实现的算子性能有差异,不能单纯对比TOPS)
带宽
(GB/s)
算力内存解码编码功耗备注
昇腾31016TOPS INT8
LPDDR4x
8/4GB
H.264/H.265 16路
1080P@30FPSJPEG
1080P@256FPS
H.264/H.265 4x 16路
1080P@30FPSJPEG 4x
1080P@256FPS
视频:8路1080P@30FPSJPEG:
1080P@240FPS
1路
1080P@30FPS
9.5WCaffe/TensorFlow
Atlas3004x4TFLOPS62TOPS@INT8
LPDDR4x
4x 8GB
4路
1080P@30FPS
67W
HI3559A
4TOPS@INT8-
NNIE+2TOPS@INT8-DSP
LPDDR4x
4GB
5W
算丰
BM1880终
端芯片
算丰
BM1682云
端芯片
算丰
SC1/SC1+
Nvidia
jetson
TX2
1TOPS@INT8(Winograd
算计可达2TOPS@INT8)
LPDDR4
最大4GB
2路
1080P@30FPSFHD:1080P@75FPS
2.5W
多框架支持
CaffeONNX
3TFLOPS8路1080P@30FPS可堆叠多颗芯片
2TFLOPs/4TFLOPs16/32GB501颗BM1680/2颗
1TFLOPS4TOPS@INT8
LPDDR4x
8GB
D2D
35D2H/H2D
20
8路1080P@30FPS7.5W
实测BM1682 VS HI3559A(单NNIE)网络有快有慢,并不是某个芯片一定快。
bm1682
YOLOv3_352x38432.65ms
1
YOLOv3_288x320
mobilenetv2_288x320
MTCNN_16x56
CNN_48x168
19.31ms
3.16ms
0.246ms
0.649ms
0.193ms
3.75ms
2
33.74ms
4
61.17ms
hi3559a
41.4ms