在科技的海洋里一颗璀璨的星辰阿里含光800 AI处理器高调亮相后它如何在三大场景中展现出超凡的力量甚
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短地介绍了阿里的首款AI芯片含光800,这款当时最强AI推理芯片的一发布就引发了巨大的关注,可谓高调亮相。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速。”
更引人关注的是含光800在具体应用中的表现。去年雷锋网报道过,当时科技巨头自研芯片是因为有大量数据,在内部AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五线上的分享中,龙欣也表示,有广阔的AI应用,如电商应用、视觉应用、语音交互、自然语言理解等。
拍立淘就是一个典型例子,它每天新增10亿商品图片,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,以用户习惯为基础进行个性化推荐,这就需要很强的人工智能能力。
因此,对于包含拍立淘这样的特定业务需求,由于其独特性的原因,其所需硬件架构对于速度和能效都有着特别严格要求,因此这些方面都必须要经过深入优化。这个过程包括:
深度优化CNN及视觉类算法
加速卷积和矩阵乘,加持反卷积、孔洞卷积、3D卷积、插值以及ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化
除此之外,还应具有高能效、高密度计算与存储,以及极大减少I/O需求,同时软硬协同支持权重稀疏压缩以及计算量化压缩指令集支持可编程模型扩展,并且覆盖FP16/BFP16向量计算直接加速各种激活函数如ReLu/Sigmoid/Tanh,也可支持未来新型激活函数。此外,该设备还具备一定灵活性,以适应全栈软件方案实现高性价比。
去年发布时,当涉及到业界标准ResNet-50测试时,其性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。而现在则更多强调其可用性,即使它并没有公开市场发售,而是在阿里云输出。这一切都是为了让用户能够开箱即用,并自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow/MXNet示范教程。
至今为止,在行人检测应用中,每四核心含光800处理100路视频,比主流GPU25路视频性能提升4倍。在车辆检测中,每四核心处理85路视频,比主流GPU10路视频性能提升8.5倍。在直播内容识别使用ResNet50 V2模型,每四核心帧率达到20000 FPS,比主流GPU1800 FPS性能提升11倍。在Inception V4模型下,每四核心处理帧数5000 FPS,比主流GPU460FPS性能加速10.8倍。此外,还有一些点播HDR场景每四核心处理66 FPS,与A100训练机相同但速度快六六折提高,从而显示出了显著优势。
至于语音交互或自然语言理解等领域实际操作情况,我们仍需期待进一步信息披露以获得准确答案。但无疑,无论何种形式,只要具备如此卓越表现,那么该技术将会给予我们一次前所未有的体验,让我们共同见证这一突破性的成果。