测评

千亿芯片大骗局阿里含光800 AI处理器在人物识别场景下性能超越GPU4-11倍

更新时间 2025年01月07日 2025年01月07日

在2023年的阿里云栖大会上，集团首席技术官兼阿里云智能总裁张建锋重新回顾了他们旗下自研的AI芯片含光800。尽管这款当时最强的AI推理芯片已经发布两年，但其高调亮相仍旧令人印象深刻。今年的线上云栖大会中，有一个专门讨论芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了近一年后的最新进展。

龙欣表示：“含光800 NPU实例现在正式对外服务，不需要白名单就可以在阿里云实例上购买，其实例名称为ebman1.24xlarge，最多支持8核NPU和96核vCPU、384G内存、网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速，业务包括城市大脑、图像视频审核、拍立淘等。”

更引人关注的是含光800在具体应用中的表现。在雷锋网去年的文章中提到，科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，他们希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也表示，阿里巴巴内部有广阔的AI应用场景，如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。

例如，在拍立淘这个功能中，有着两千多万日活用户，它们要通过一张图片，在4亿多商品库中搜索，以及30多亿张图片库进行匹配，并根据用户习惯进行个性化推荐，这就需要很强大的AI能力。因此，阿里希望通过自研硬件方案提升性价比。

至于含光800本身，它具有三个方面特色：深度优化CNN及视觉类算法，加速卷积和矩阵乘，以及针对ResNet-50等模型优化、高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等特点。

去年发布时，当涉及到业界标准ResNet-50测试时，与目前业界最好的AI芯片性能相比，该设备性能高4倍，而能效比500 IPS/W，比第二名高3.3倍。不过昨天分享并没有提及含光800峰值性能，而是强调其可用性，即便作为并未公开市场发售的芯片，也可以直接使用。

为了让包含8颗NPU核心（即通常意义上的GPU）的设备能够开箱即用，提供自动安装NPU驱动和SDK系统支持公共镜像CentOS 7.6/7.7或Ubuntu 16.04，还预装主流深度学习框架如TensorFlow/MXNet，并提供示范教程。此外，将涉及到其他DNN模型扩展，以实现更多场景下的加速效果。

此次分享给出的最新数据表明，在行人检测应用中，与主流GPU相比，可支持100路视频；车辆检测可支撑85路视频；而对于直播内容识别中的ResNet50 V2模型，每秒帧数可达20000 FPS，比主流GPU快11倍。在Inception V4模型处理帧率为5000 FPS，比主流GPU快10.8倍。而在直播质量增强方面，可实现10倍性能加速。

不过，对于语音交互或自然语言理解领域具体优势尚未详细介绍。