测评

北斗芯片驱动的阿里含光800 AI处理器在亮相后展示了其在人物识别等场景下的卓越性能其处理速度高达4

在2023年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次推出了公司的自研AI芯片——含光800。尽管这款芯片已经在2019年杭州云栖大会上首次亮相,但它依然引起了强烈的关注,因为它标志着一个新的时代:科技巨头自主研发芯片。

一年后,阿里的异构计算产品研发总监龙欣在今年的线上云栖大会上分享了含光800近一年来的最新进展。他表示,含光800 NPU实例现在已经对外服务,不需要白名单就可以购买,并且支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核和拍立淘等。

更值得注意的是,在实际应用中,含光800表现出色。比如在拍立淘这个典型应用中,它通过AI能力为用户提供个性化推荐。在这里,含光800不仅提升了效率,还降低了延时,使得用户体验更加流畅。

从硬件到软件,全面的方案是阿里的目标,以此来提升性价比。其特点包括深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型进行优化。此外,它还具有高能效、高密度计算与存储,以及软硬协同支持权重稀疏压缩等功能。

至于具体性能,比去年的业界标准ResNet-50测试结果来说,其中包含78563 IPS性能,即使是在业界最好的AI芯片性能之下,也达到了4倍之多。而能效比则是500 IPS/W,是第二名的3.3倍。这意味着除了速度快以外,还有较好的能源使用效果。

不过,与去年不同的是,这次龙欣并没有提及峰值性能,而是强调其可用性。他说:“作为未曾公开市场销售过的一款芯片,我们通过阿里云输出。”为了让客户能够轻松使用,他指出系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架,如TensorFlow、MXNet,同时提供示范教程。

至于具体应用中的表现,比如城市大脑中的实时处理交通视频或者拍立淘商品库图片识别,都显示出了显著的优势。在行人检测中,一颗4核NPU可支撑100路视频;车辆检测中,则可支撑85路视频。在内容识别应用中的ResNet50 V2模型,可达到20000 FPS帧率,比主流GPU高11倍;而Inception V4模型,可达到5000 FPS帧率,比主流GPU高10.8倍。在直播增强质量或点播HDR等场景下,其优势同样明显,有时甚至超过A100这样的专业训练GPU十几倍以上。

虽然目前关于语音交互或自然语言理解领域应用案例并不详细,但这只是时间问题。一旦这些新兴领域得到充分开发,那么我们将看到更多令人印象深刻的事迹发生。但无论如何,对于科技爱好者而言,只要涉及到创新的探索,就充满期待。