中国最好的芯片阿里含光800 AI处理器在人物场景中的应用性能远超GPU高达4-11倍提升
在2023年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次登台,他的演讲中有着不容忽视的重量。回顾去年的一场盛会,当时他向全世界展示了公司自研的AI芯片——含光800。这款当时最强大的AI推理芯片之发布,就如同一道亮丽的风暴,在科技界掀起了巨大波澜。
今年,随着时间的流逝,阿里的这款AI处理器得到了进一步发展和完善。在一个专门讨论芯片设计与未来的论坛上,阿里云异构计算产品研发总监龙欣分享了近一年来含光800所取得的最新进展。他介绍说:“我们已经将含光800 NPU实例正式对外服务,不需要任何白名单限制,即可在我们的服务器上购买。其中包括ebman1.24xlarge型号,它支持最高8核NPU和96核vCPU、384G内存,并且网络带宽可达30Gbit/s。”这款芯片主要面向数据中心中的CNN类型模型推理加速,对于业务领域如城市大脑、图像视频审核以及拍立淘等都具有显著提升。
更引人注目的是,在实际应用中的表现。尽管含光800尚未对外市场发售,其性能通过阿里云平台输出,这让许多业内人士感到好奇。据雷锋网之前报道,科技巨头自研芯片是因为内部大量数据需求驱动,他们希望通过自主研发来提高效率和性价比。而现在,我们看到这些期望正在逐步实现。
例如,在拍立淘这个典型应用中,有超过2000万日活用户使用该功能进行图片搜索,这项任务需要极其强大的AI能力。此类需求促使企业追求更高效能、高性能的解决方案,如今涉及电商、视觉识别、语音交互、自然语言理解以及机器翻译等多个方面。
为了实现这一目标,Arri巴巴希望从硬件到软件全面优化其方案,以此提升性价比。就硬件而言,含光800在三个方面具备独特优势:深度优化CNN及视觉算法,加速卷积和矩阵乘法,以及针对ResNet-50等模型进行优化。此外,它还提供高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和量化压缩指令集支持,可编程模型扩展以适应未来新激活函数要求。
至于软件层面,由于NPU驱动自动安装,可以直接利用公共镜像CentOS 7.6/7.7或Ubuntu 16.04,并预装主流深度学习框架提供TensorFlow/MXNet示范教程,让用户可以开箱即用,而无需过多配置细节。
对于具体应用中的表现,比GPU性能提升4-11倍是一种普遍趋势。在行人检测中4核含光800能够支撑100路视频,比主流GPU25路视频快4倍;车辆检测中相同配置可支撑85路视频,比10路视频快8.5倍;而在内容识别应用中ResNet50 V2模型下,可达到20000 FPS,比1800 FPS快11倍;Inception V4模型下,可达到5000 FPS,比460FPS快10.8倍。此外,对直播质量增强也显示出显著优势,其中4核包含800直播增强性能为500 FPS,与50FPS相比提高10倍;点播HDR则是66 FPS,与英伟达A100训练GPU仅需6.6秒完成当前工作量一样长,但速度却远超前者四倍!
虽然去年张建锋提出了很多令人瞩目的数字,但今年龙欣并没有给出新的峰值性能数据,而是侧重于它作为一种成熟产品已被广泛部署并获得实际效果证明。他表示:“虽然我们没有公开销售但已经通过Alibaba Cloud输出。”因此,无论是在城市管理还是商品推荐,都体现出了Arri巴巴隐藏力量的一个重要部分——它的自主创新能力。
然而,也有人注意到,此次会议上的关注程度似乎不如去年那么热烈,而且介绍内容并不丰富。这可能源于目前国际贸易环境下的谨慎态度。但另一方面,这表明即便拥有如此强大的团队仍然要面临长期的大规模落地挑战,是软件与客户认可采用过程中的关键环节之一。而对于Arri 巴巴未来是否会推出下一代AI处理器的问题,只有时间才能给出答案。