阿里含光800 AI处理器亮相后在人物场景下的性能大放异彩高达GPU的4-11倍
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这款当时最强的AI推理芯片的发布引发了巨大关注。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大型图像视频审核、拍立淘等。”更引人关注的是含光800在具体应用中的表现。
龙欣也指出了科技巨头自研芯片的一个重要原因,那就是内部大量数据以及AI需求的驱动,他说:“我们内部有广阔的AI应用场景,比如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。”
对于拍立淘来说,它拥有两千多万日活用户,每天要通过一张图片搜索4亿多商品,在30多亿张图片库中进行匹配,并根据用户习惯提供个性化推荐,这需要很强大的AI能力。因此,阿里希望通过自研硬件到软件方案提升性价比。
作为一个典型案例,一些特定的优化让含光800特别针对CNN算法模型设计,但保持一定灵活性,再匹配全栈软件支持,在特定应用和算法中实现高性价比。去年张建锋发布时说,“在业界标准ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”
不过龙欣并没有提及含光800峰值性能,而是强调其可用性。他表示,“作为并没有公开市场发售的芯片,我们通过阿里云输出。”为了让它能够开箱即用,他们允许购买实例用户自动安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow 和MXNet示范教程。
至于具体应用中的表现,他提到“目前三大场景下相比GPU,有4-11倍性能提升”。例如,在行人检测中使用四核含光800可以支持100路视频,比主流GPU25路性能提升4倍。在车辆检测中同样使用四核可支持85路视频,比主流GPU10路性能提升8.5倍。而且在内容识别方面,可以达到20000 FPS帧率,对比主流GPU1800 FPS增加11倍;Inception V4模型处理帧率为5000 FPS,对比460FPS增加10.8倍;直播视频增强为500 FPS,对比50FPS增加10倍;点播HDR为66 FPS,对比英伟达A100训练GPU6.6次提高。
至于语音交互、自然语言理解等语言方面实际优势情况,则未被明确提及。此次分享虽然只是15分钟,而且包含了许多去年已知消息,所以可能反映出当前紧张贸易关系使得对此类话题更加谨慎。不过,从长远来看,即便有强大的团队快速设计出新产品,要大规模落地仍然需要很长时间,而这个过程软件起到的作用尤为直接,因此获得客户认可也不是易事。