本站公告

  • 版权说明:网站所有内容均来自互联网用户共享内容,不代表众星棋牌官网立场,若侵犯您的权益,请与我们联系。

  • 投诉/建议:欢迎与众星棋牌官网合作、投诉、建议,意见可以发送详细内容至邮件:67801662@qq.com

上线高利用率AI芯片CAISA,「鲲云科技」众星棋牌官网提出芯片数据流架构模式

编辑:石亚琼

配图

众星棋牌官网6月23日,鲲云科技在深圳的产品发布会发布全球首款数据流AI芯片CAISA,其定位于AI终端推理,目前已完成量产。

根据官方介绍,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,

峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA芯片提供超过340Gbps的带宽。

鲲云援引第三方数据显示,搭载CAISA芯片的加速卡仅拥有英伟达同类产品 1/3的峰值算力,但是其通过95.4%的芯片利用率可以实现3倍左右的的实测性能。

大部分厂商的AI芯片均为指令集的计算架构,此次鲲云科技发布的CAISA芯片则为数据流架构。鲲云表示,数据流架构AI芯片提供较之于指令集架构AI芯片更高的计算效率。指令集的计算架构要求芯片的计算和控制是分离的,而控制过程中模块间的数据移动以及数据计算的过程中会存在等待周期,这会使得芯片的计算模块存在闲置情况,这也是现有芯片利用率普遍低于30%的原因。而数据流架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元。在实测中,数据流芯片可以与同峰值算力的指令集芯片表现出更高的芯片利用率以及更高的实测算力。

本次发布会鲲云科技也带来了AI计算平台星空加速卡X3以及X9。

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为轻量化规格,X3加速卡因此可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等。基于CAISA芯片的X3加速卡动态功耗为20W左右。英伟达边缘端旗舰产品Xavier 在深度学习网络ResNet-50, YOLO v3中实测获得的芯片利用率分别为21.1%、6.8%,而星空X3加速卡的结果为92.3%及82.4%,远高于前者。总体算力表现可以达到Xavier的1.48-4.12倍。

X3 vs Xavier 性能对比图

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。最优实测性能下,X9处理延时相比于T4降低1.83-32倍。

X9 vs T4 性能对比图

尽管数据流架构显著的提高了芯片算力的利用率,但是指令集的架构支持各式各样的数据组合,具有较强的通用性。CAISA目前工艺水平为28nm,这在晶体管数量、处理速度、温升等方面较之于更加先进工艺的芯片将会存在的劣势。

(责任编辑:众星棋牌官网)