彩电

闪耀处理器智慧触手可及含光800 AI芯片强势登场三大应用领域GPU比拼力度超出4-11倍手机处理器

2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的第一款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可以说是高调亮相。今年,在阿里线上云栖举行的一场芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他指出:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称为ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存、网络带宽最高达到30Gbit/s。”主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核以及拍立淘等。此外,更值得关注的是含光800在具体应用中的表现。

尽管它尚未对外发售,但其性能通过阿里云输出。正如雷锋网去年的文章所述,科技巨头自研芯片是因为有大量数据,以及内部广阔的AI应用需求,如电商应用、视觉应用、语音交互和自然语言理解等。拍立淘作为一个典型案例,它需要通过一张图片搜索四亿多种商品,并且进行个性化推荐,这就需要极强的AI能力。

因此,为了提升效率和性价比,阿里希望通过自研硬件到软件方案来提升性能。在硬件方面,有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、三维卷积等;高能效低延时、高密度计算与存储;软硬协同支持权重稀疏压缩以及可编程模型扩展。

去年发布时,张建锋曾表示,在业界标准ResNet-50测试中,其推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;而能效比500 IPS/W,是第二名的3.3倍。不过龙欣昨天没有提及含光800峰值性能,而是强调其可用性。他说:“作为并没有在公开市场发售的芯片,由于我们将其通过ArilCloud输出。”

为了让用户能够开箱即用,他们提供自动安装NPU驱动和SDK,并且系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow 和 MXNet示范教程。龙欣还强调,其中包含三大场景落地使用后,与GPU相比具有4-11倍性能提升。在这些场景中,我们看到了令人印象深刻的情况:

城市大脑:传统GPU需40颗处理300ms视频流,而含光800只需4颗降至150ms。

拍立淘:传统GPU识别新商品图片需1小时,而含光800仅需5分钟。

行人检测:4核含光800克支持100路视频,比主流GPU25路提升4倍。

车辆检测:同样为4核,可支撑85路视频,比主流GPU10路提升8.5倍。

内容识别(ResNet50 V2):帧率达到20000 FPS,比主流GPU1800 FPS提高11倍。

视频质量增强(Inception V4):处理帧率达到5000 FPS,比主流GPU460FPS提高10.8倍。

至于语音交互或自然语言理解等领域,则尚未给出具体数值。此次分享虽然较去年较少,但仍显示了涉足这领域取得显著成果。而对于未来是否会有更先进版本,或许还要继续观察。但无疑,即便拥有如此团队也不能保证快速实现规模化部署,这其中软件扮演着关键角色,要获得客户认可也是艰难一途。