半导体芯片新贵含光800 AI处理器亮相超越GPU的三大场景性能神话
在2023年的一次线上云栖大会上,阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋再次推出了他们自研的AI芯片——含光800。这款芯片已经证明了其强大的性能,在去年的发布会上,张建锋展示了含光800在业界标准ResNet-50测试中的惊人表现,它能够实现78563 IPS的推理速度,这一成绩比目前市场上的其他AI芯片高出4倍,并且能效比达到了500 IPS/W,比第二名的性能提升了3.3倍。
一年过去了,阿里云异构计算产品研发总监龙欣在这次线上云栖大会中继续分享了含光800近一年来的最新进展。尽管没有直接公布含光800的峰值性能,但龙欣强调该芯片已经正式对外服务,不需要白名单即可购买,并且支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s网络带宽。它主要面向数据中心中的CNN类型模型推理加速,以及城市大脑、图像视频审核等业务。
龙欣指出,随着电商应用、视觉应用、语音交互和自然语言理解等领域越来越依赖于强大的AI能力,阿里巴巴希望通过自研硬件方案来提升效率和性价比。在拍立淘这个典型例子中,即使是日活用户数量巨大(两千多万)的场景,也需要极为强劲的AI处理能力以进行个性化推荐。
包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩和量化压缩等特点,含光800特别针对CNN算法模型设计,同时保持一定灵活性,以配合全栈软件支持实现高性价比。此外,该芯片还提供TensorFlow和MXNet示范教程,便于用户快速集成到现有系统中。
实际应用方面,由于其可用性得到了改善,现在可以自动安装NPU驱动和SDK,而且系统方面支持公共镜像CentOS 7.6/7.7 和 Ubuntu 16.04。至今为止,在三大AI应用场景中,如城市大脑、拍立淘商品库识别以及行人检测,都显示出相对于GPU有4-11倍性能提升。例如,在行人检测应用中,只需4颗含光800就能处理100路视频,而主流GPU则只能达到25路;而在车辆检测中,则是85路视频,与主流GPU相比提升8.5倍;而在内容识别应用中的ResNet50 V2模型下,其帧率可以达到20000 FPS,比主流GPU提高11倍。
此外,还有一些新的数据也被披露出来。在直播视频增强中,可达500 FPS,对比主流GPU仅有的50 FPS,加速10倍;而点播HDR则是66 FPS,与训练所需英伟达A100 GPU相比较,可以实现6.6倍加速。而关于语音交互或自然语言理解领域实例优势尚未详细介绍给出具体数值。
尽管今年云栖大会对含光800关注度较去年略减,而且涉及到的信息并不全面,但这一事件仍然凸显了作为科技巨头之一 阿里的持续创新力与探索未来可能性的决心,无疑为整个行业树立了一面旗帜。不过,就如同任何先进技术一样,大规模落地将是一个漫长过程,其中软件发挥着不可忽视的地位。