白家电

芯片封测龙头股排名前十的阿里含光800 AI处理器亮相后三大场景性能惊人GPU高达4-11倍

更新时间 2025年01月07日 2025年01月07日

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800，这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注，几乎是高调亮相。

今年，在一次线上云栖活动中，有一个关于芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他指出：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买。这些实例支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速，其业务包括城市大脑、图像视频审核以及拍立淘等。”

更令人关注的是，含光800在具体应用中的表现。尽管它尚未对外发售，但其性能通过阿里云输出。在去年的文章中，我们提到过科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，他们希望通过自研芯片来提升效率和性价比。而周五的线上分享中，龙欣也表示，阿里巴巴内部有广阔的AI应用领域，如电商应用、视觉应用、语音交互、自然语言理解及机器翻译等。

例如，在拍立淘这个功能使用过程中，它需要透过一张图片，在4亿多商品中搜索，以及在30多亿张图片库进行匹配，并根据用户习惯进行个性化推荐，这就需要很强大的AI能力。因此，阿里的目标是在硬件和软件层面提升性价比。

对于这款新型AI处理器，我们可以回顾三个方面：深度优化CNN及视觉类算法，加速卷积和矩阵乘以支持反卷积等；高能效低延时、高密度计算与存储减少I/O需求；软硬协同支持权重稀疏压缩及量化压缩，以及指令集支持可编程模型扩展。这意味着含光800特别针对CNN算法模型设计，但保持一定灵活性，再匹配全栈软件支持实现高性价比。

去年，当张建锋发布含光800时，他宣称该产品在业界标准ResNet-50测试中的推理性能达到了78563 IPS，比目前业界最好的AI芯片性能高4倍，而能效比500 IPS/W，是第二名3.3倍之多。不过，在昨天龙欣分享会上的话题集中讨论的是其可用性的重要性，而非峰值性能。他强调，“作为并没有在公开市场发售的芯片，由于不涉及销售，所以我们能够让购买实例用户自动安装NPU驱动和SDK。”

为了让用户开箱即用，上述系统还提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04，并预装主流深度学习框架，如TensorFlow或MXNet，还提供示范教程。此外，他也强调其主要用于数据中心与大型端上的CNN类模型推理加速，可扩展至其他DNN模型，而且目前已显示出四种场景中的GPU性能提升为4-11倍。

举个例子来说，以城市大脑为背景，该系统需实时处理杭州主城区交通视频，从而原本需40颗传统GPU才能完成任务，每次延迟300ms。但使用含光800仅需四颗，便能降低到150ms时间。再看拍立淘商品库每天新增10亿商品图片识别速度由传统GPU所需1小时缩短至5分钟；行人检测则从100路视频增加到400路视频，同时车辆检测从85路增至200路视频，其中两者都展示了显著提升。

此外，对于直播内容识别应用下的ResNet50 V2模型，用包含4核NPU设备运行帧率达到20000 FPS，比主流GPU1800 FPS提高11倍。在Inception V4模型下，与此相同，即便只有460FPS（约为A100训练级别），但仍然获得10.8倍加速。而点播HDR情况下，由于英伟达A100只能维持10FPS，而隐藏7000 FPS使得利用NPU实现6.6倍加速效果显著。