阿里含光800 AI处理器亮相后在人物场景下的性能远超GPU高达4-11倍
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了他们的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布引发了巨大的关注。今年,在阿里线上的云栖大会中,有一个关于芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”
更值得注意的是,这款芯片在具体应用中的表现。尽管含光800尚未对外发售,其性能通过阿里云输出。正如去年雷锋网文章所述,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,在电商应用、视觉应用、语音交互、自然语言理解、机器翻译等方面都有广阔的AI应用。
例如拍立淘,每天要处理两千多万用户使用图片搜索功能时,从4亿多商品中找到合适商品,并根据用户习惯进行个性化推荐。这就需要很强的AI能力。因此,对于提升性价比来说,从硬件到软件方案都是必不可少的一部分。
包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN、高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等特点,使得含光800特别针对CNN算法模型进行设计,但同时保持一定灵活性,再匹配全栈软件支持在特定应用和算法中实现高性价比。
去年张建锋发布含光800时说,“在业界标准ResNet-50测试中,它们推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过昨天龙欣并没有提及含光800峰值性能,而是强调其可用性,他表示:“作为并没有公开市场销售过的设备,我们将其通过阿里云输出。”为了让购买者能够开箱即用,他们提供自动安装NPU驱动和SDK,同时系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow或MXNet,并提供示范教程。
至于实际应用中的相对于GPU性能提升情况,由于具体场景不同而有所差异。在城市大脑中的行人检测应用中,以40颗传统GPU为基准,可使用仅需4颗NPU完成任务;拍立淘商品库每天新增10亿商品图片,用传统GPU识别需1小时,而用NPU只需5分钟。此外,在直播内容识别方面,与主流GPU相比较,其帧率可以达到20000 FPS,即11倍之快;而用于视频质量增强,则可实现10倍之快。
虽然此次分享给出的信息并不丰富,而且由于当前全球经济形势复杂可能导致某些话题被慎重处理,但更重要的是,即便有先进技术,也需要长时间的大规模落地过程才能真正见效果。此刻,只是在这条道路上不断前行。而未来是否会有一代新的AI芯片问世,那仍然是一个未知数。