行业动态

国产芯片制造最新消息阿里含光800 AI处理器焕发神威三大场景实测性能超越GPU爆表4-11倍

更新时间 2025年01月07日 2025年01月07日

在2023年的一次线上云栖大会上，阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋再次展现了公司在人工智能领域的最新进展。自从两年前发布含光800 AI处理器以来，这款芯片已经成为了行业内最强大的AI推理设备之一，其高调亮相震惊了整个科技界。

一年过去了，阿里云异构计算产品研发总监龙欣在今年的线上论坛中分享了含光800推出后的最新情况。尽管这款芯片尚未正式对外销售，但它已经成为了一种可供购买和部署于阿里云实例上的NPU实例。这意味着用户可以轻松地获得包含8核NPU和96核vCPU、384G内存以及30Gbit/s网络带宽的高性能计算资源，以支持城市大脑、图像视频审核和拍立淘等复杂应用场景。

更令人瞩目的，是含光800在实际应用中的卓越表现。在去年的文章中，我们了解到科技巨头自研芯片是因为内部数据驱动，并希望通过自研来提升效率和性价比。而现在，龙欣详细说明了包括电商应用、视觉分析、语音交互及自然语言理解等广泛AI应用场景，其中拍立淘作为一个典型案例，其庞大的日活用户群体依赖于强大的AI能力进行个性化推荐。

为了实现这一目标，阿里巴巴致力于从硬件到软件全面优化其解决方案。含光800以深度优化CNN及视觉算法而闻名，同时具备加速卷积与矩阵乘操作，以及针对特定模型（如ResNet-50）的优化。此外，它提供高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等多项功能，使其适应各种DNN模型，并且具有灵活性以满足不断变化的需求。

至今为止，在业界标准ResNet-50测试中，含光800显示出了78563 IPS推理性能，比目前业界最好的AI芯片性能高4倍；同时，它还拥有500 IPS/W能效比，是第二名性能仅有的3.3倍。这一显著提升得益于它独特的设计，可以直接用于数据中心并扩展到其他DNN模型。

不过，在昨天的分享中，龙欣并没有提及峰值性能，而是强调了它作为一种可用性的突破，因为即便未公开市场发售，它仍然通过阿里云输出供用户使用。他进一步解释道：“我们让购买实例的用户可以自动安装NPU驱动和SDK，同时系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04，还预装主流深度学习框架。”

对于三大AI应用场景——行人检测、车辆检测以及内容识别——含光800展示出了令人印象深刻的4-11倍性能提升。在行人检测中，它能够支撑100路视频，比主流GPU多25路；车辆检测则支持85路视频，比主流GPU少10路，但速度快8.5倍；而在内容识别方面，对ResNet50 V2模型进行帧率测试时，可达到20000 FPS，比主流GPU速度快11倍；对于Inception V4模型，则可达到5000 FPS，比主流GPU速度快10.8倍。此外，在直播视频增强方面，可达500 FPS，与主流GPU相比提高10倍，而点播HDR则达到66 FPS，即使面对英伟达A100训练所需时间也能实现6.6倍加速比。