白家电

中国半导体新纪元阿里含光800 AI处理器闪耀登场三大应用领域性能超越GPU4-11倍

2019年,阿里巴巴集团在杭州云栖大会上披露了他们的首款AI芯片——含光800,这一事件引起了业界的广泛关注。自那以后,一年过去了,阿里云异构计算产品研发总监龙欣在今年的线上云栖大会分享了含光800推出后的最新进展。他提到,虽然这款芯片尚未对外发布,但其NPU实例已经正式提供给用户使用,并且不需要白名单即可在阿里云实例上购买。

含光800主要面向数据中心中的CNN类型模型推理加速,其应用场景包括城市大脑、图像视频审核以及拍立淘等。拍立淘作为一个典型案例,每天有两千多万用户使用该功能进行图片搜索和个性化推荐,这要求极高的AI能力。

包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩和量化压缩等特点,含光800特别针对CNN算法设计,同时保持一定灵活性,以实现全栈软件支持在特定应用中实现高性价比。

去年的发布时,张建锋表示,在ResNet-50测试中,含光800性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。但是在昨天的分享中并没有提及具体峰值性能,而是强调其可用性。为了让购买实例用户可以自动安装NPU驱动和SDK,同时系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架如TensorFlow、MXNet。

据龙欣介绍,在实际应用中相比GPU,有4-11倍性能提升。在城市大脑中的行人检测应用中,4核含光800支持100路视频,比主流GPU25路推理性能提升4倍;车辆检测中,可支持85路视频,比主流GPU10路推理性能提升8.5倍。在直播、短视频内容识别应用中的ResNet50 V2模型中,可达到20000 FPS,比主流GPU1800 FPS性能提升11倍;而Inception V4模型处理帧率为5000 FPS,比主流GPU460FPS加速比10.8倍。此外,在直播视频增强和HDR点播中,也显示出了显著的优势。

尽管这一代芯片已取得显著成就,但其落地仍需时间,不仅软件也扮演着关键角色。这可能也是为什么今年会议上的关注度并不如去年那么高的一个原因。不过,对于未来何时会出现下一代AI芯片的问题,我们还需要继续观察。