行业动态

天玑威龙争锋800 AI处理器闪耀亮相三大场景性能超越GPU4-11倍

更新时间 2025年01月07日 2025年01月07日

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注，也可谓是高调亮相。今年，在阿里线上云栖举行的一场芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买，实例名称是ebman1.24xlarge，最多支持8核NPU和96核vCPU，384G内存，网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速，业务包括城市大脑、图像视频审核、拍立淘等。”

更令人关注的是含光800在具体应用中的表现。在去年的文章中，我们提到科技巨头自研芯片，是因为有大量数据，在内部的AI需求推动下，他们希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也指出，阿里巴巴内部有广阔的AI应用，这些应用包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

一个典型的例子就是拍立淘，它拥有两千多万日活用户，而这些用户需要通过一张图片，在4亿多商品中进行搜索，以及在30多亿张图片库中进行匹配，并根据用户习惯进行个性化推荐，这就需要非常强大的AI能力。

因此，为了提升硬件到软件方案上的性价比，就产生了包含以下三个方面特色：

深度优化CNN及视觉类算法

加速卷积和矩阵乘，以支持反卷积、三维卷积以及插值等操作

针对ResNet-50/SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab模型优化

除了硬件特点之外，还有一系列软硬协同功能，如支持权重稀疏压缩和量化压缩，以及可编程模型扩展能力，使得含光800既能针对CNN算法模型进行设计，又保持一定灵活性以适应全栈软件支持，从而实现特定应用和算法中的高性能。

去年，当张建锋发布含光800时，他说它在业界标准ResNet-50测试中的推理性能达到了78563 IPS，比目前业界最好的AI芯片性能高4倍；其能效比为500 IPS/W，比第二名高3.3倍。不过龙欣昨天没有提及含光800峰值性能，而是强调了其可用性。他表示：“作为并没有公开市场销售过的大规模生产出来直接销售给客户使用的大规模系统”，“我们让购买实例的人员自动安装NPU驱动程序以及SDK。”同时，“我们的系统方面则提供公共镜像CentOS 7.6/7.7 和 Ubuntu 16.04，还预装主流深度学习框架TensorFlow 和 MXNet.”

至于实际使用情况显示，其具有四种不同场景下的显著优势：对于城市大脑处理交通视频，其延迟从300ms降至150ms；对于拍立淘商品库识别新商品图片时间由1小时缩减至5分钟；对于行人检测，可同时处理100路视频，对传统GPU来说只能处理25路；而对于车辆检测，则能够同时处理85路视频，对传统GPU来说只能处理10路。此外，它还展示了一些其他如直播质量增强等领域的情况，但具体数字尚未公布。

尽管如此，由于当前贸易关系紧张的情况下，让公司更加谨慎地讨论关于芯片的话题，因此这次会议上的涉及内容并不丰富，而且介绍也比较简单。但不可否认的是，即便团队能够快速设计出一款新的chip，但要将其大规模落地仍然是一个漫长过程，这个过程软件发挥着更加直接作用。而获得客户认可采用也不容易。所以，无论如何都看不到这一代Chip只是开始阶段。

你可能也会喜欢...