测评

小米芯片强势搭载阿里含光800 AI处理器人物识别场景性能超越GPU4-11倍

在2023年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建峰再次推出了公司的自研AI芯片——含光800。尽管这款芯片已经在2019年发布,但它依然是当时最强大的AI推理芯片之一,因此其高调亮相引起了广泛关注。

今年的线上云栖大会中,阿里云异构计算产品研发总监龙欣分享了含光800近一年来的最新进展。他表示,含光800 NPU实例现在正式对外服务,不需要白名单即可购买,并且提供了ebman1.24xlarge实例,这一实例支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s的网络带宽,主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等。

更值得关注的是含光800在具体应用中的表现。在去年的一篇文章中提到过,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。周五的线上分享中,龙欣也提到了这一点,他说阿里巴巴内部有广阔的AI应用领域,如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。

拍立淘作为一个典型案例,它拥有两千多万日活用户,而他们使用该功能时,要通过一张图片,在4亿多商品中进行搜索,以及在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强大的AI能力。因此,阿里希望通过自研的含光800从硬件到软件方案来提升性价比。

包含以下几个方面:深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、三D卷积等;高能效低延时、高密度计算与存储减少I/O需求;软硬协同支持权重稀疏压缩和量化压缩;指令集支持可编程模型扩展。此外,还覆盖FP16/BFP16向量计算直接加速各种激活函数,同时保持一定灵活性以适应未来新型激活函数。

去年,当张建锋发布含光800时,他说它在业界标准ResNet-50测试中的推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍,而能效比500 IPS/W,是第二名的3.3倍。不过,在昨天分享中并没有提及至于峰值性能,而是强调其可用性,即使未对外发售,也可以通过阿里云输出。

为了让购买实例用户能够开箱即用,系统自动安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow 和 MXNet,并提供示范教程。龙欣强调,它们主要用于数据中心或大型端上的CNN类模型推理加速,可扩展到其他DNN模型,而且目前已展示出相对于GPU有4-11倍性能提升。在行人检测场景下,它可以支持100路视频,比主流GPU 25路更多四倍;车辆检测场景下,可以支持85路视频,比主流GPU 10路增加8.5倍;而Inception V4模型处理帧率达到5000 FPS,比主流GPU460FPS性能加速度11倍。此外,对于直播视频增强任务,该设备可以实现10倍之差距,再次证明了其显著优势。而对于HDR点播任务,即便英伟达A100训练所需时间只有10 FPS,他们仍旧能够实现6.6倍之快。这表明虽然涉及复杂算法,但包含智慧创新的设计,使得它们能有效地提高工作效率与成本节约效果。