2022年芯片行情阿里含光800 AI处理器在人物场景下的高性能展现AI处理速度比GPU快4-11倍
2022年,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在杭州云栖大会上介绍了公司的首款AI芯片含光800。这款当时最强AI推理芯片的发布引起了广泛关注。今年,阿里云线上举办了一场关于芯片设计发展现状与未来的论坛,异构计算产品研发总监龙欣分享了近一年来含光800的最新进展。
龙欣表示,含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买。它支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s网络带宽,最适合数据中心的CNN类型模型推理加速,如城市大脑、图像视频审核和拍立淘等业务。
更值得关注的是含光800在具体应用中的表现。在拍立淘这个典型应用中,它需要处理超过两千万日活用户生成的图片,以在4亿多商品中进行搜索,并且根据用户习惯推荐商品,这种复杂任务需要强大的AI能力。通过自研硬件到软件方案,阿里希望提升性价比。
包含三个方面优化特色的含光800包括深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD等模型进行优化。此外,它具备高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和量化压缩功能。
虽然去年张建锋展示了其业界标准ResNet-50测试性能达到78563 IPS,比目前业界最好AI芯片性能高4倍;而能效比500 IPS/W,是第二名3.3倍,但龙欣并没有提供新的峰值性能数据,而是强调其可用性。他指出,由于未对外发售,只有通过阿里云输出给用户自动安装NPU驱动和SDK,并预装主流深度学习框架提供TensorFlow、MXNet示范教程。
实际应用中相比GPU,有4-11倍性能提升。在行人检测中,可支持100路视频,比主流GPU25路提升4倍;车辆检测可支持85路视频,比10路提升8.5倍;直播内容识别使用ResNet50 V2模型帧率20000 FPS,比1800FPS提升11倍;Inception V4模型处理帧率5000 FPS,比460FPS提升10.8倍。点播HDR多核心版本实现66 FPS,对比英伟达A100训练GPU10 FPS,有6.6倍性能加速比。
尽管这次分享并不如去年那样详尽,但仍然展现了含光800在三大场景下的高效运行能力,为未来可能的大规模落地奠定基础。不过,由于当前贸易紧张关系影响企业话语权,上述信息也可能受到一定限制。此外,即使拥有强大的团队设计出先进芯片,大规模应用仍需长时间准备过程,其中软件作用尤为关键,同时获得客户认可也是挑战之一。