彩电

中国最好的芯片阿里含光800 AI处理器在人物场景中的应用性能远超GPU高达4-11倍提升

更新时间 2025年01月07日 2025年01月07日

在2023年的阿里云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次登台，他的演讲中有着不容忽视的重量。回顾去年的一场盛会，当时他向全世界展示了公司自研的AI芯片——含光800。这款当时最强大的AI推理芯片之发布，就如同一道亮丽的风暴，在科技界掀起了巨大波澜。

今年，随着时间的流逝，阿里的这款AI处理器得到了进一步发展和完善。在一个专门讨论芯片设计与未来的论坛上，阿里云异构计算产品研发总监龙欣分享了近一年来含光800所取得的最新进展。他介绍说：“我们已经将含光800 NPU实例正式对外服务，不需要任何白名单限制，即可在我们的服务器上购买。其中包括ebman1.24xlarge型号，它支持最高8核NPU和96核vCPU、384G内存，并且网络带宽可达30Gbit/s。”这款芯片主要面向数据中心中的CNN类型模型推理加速，对于业务领域如城市大脑、图像视频审核以及拍立淘等都具有显著提升。

更引人注目的是，在实际应用中的表现。尽管含光800尚未对外市场发售，其性能通过阿里云平台输出，这让许多业内人士感到好奇。据雷锋网之前报道，科技巨头自研芯片是因为内部大量数据需求驱动，他们希望通过自主研发来提高效率和性价比。而现在，我们看到这些期望正在逐步实现。

例如，在拍立淘这个典型应用中，有超过2000万日活用户使用该功能进行图片搜索，这项任务需要极其强大的AI能力。此类需求促使企业追求更高效能、高性能的解决方案，如今涉及电商、视觉识别、语音交互、自然语言理解以及机器翻译等多个方面。

为了实现这一目标，Arri巴巴希望从硬件到软件全面优化其方案，以此提升性价比。就硬件而言，含光800在三个方面具备独特优势：深度优化CNN及视觉算法，加速卷积和矩阵乘法，以及针对ResNet-50等模型进行优化。此外，它还提供高能效低延时、高密度计算与存储减少I/O需求，以及软硬协同支持权重稀疏压缩和量化压缩指令集支持，可编程模型扩展以适应未来新激活函数要求。

至于软件层面，由于NPU驱动自动安装，可以直接利用公共镜像CentOS 7.6/7.7或Ubuntu 16.04，并预装主流深度学习框架提供TensorFlow/MXNet示范教程，让用户可以开箱即用，而无需过多配置细节。

对于具体应用中的表现，比GPU性能提升4-11倍是一种普遍趋势。在行人检测中4核含光800能够支撑100路视频，比主流GPU25路视频快4倍；车辆检测中相同配置可支撑85路视频，比10路视频快8.5倍；而在内容识别应用中ResNet50 V2模型下，可达到20000 FPS，比1800 FPS快11倍；Inception V4模型下，可达到5000 FPS，比460FPS快10.8倍。此外，对直播质量增强也显示出显著优势，其中4核包含800直播增强性能为500 FPS，与50FPS相比提高10倍；点播HDR则是66 FPS，与英伟达A100训练GPU仅需6.6秒完成当前工作量一样长，但速度却远超前者四倍！

虽然去年张建锋提出了很多令人瞩目的数字，但今年龙欣并没有给出新的峰值性能数据，而是侧重于它作为一种成熟产品已被广泛部署并获得实际效果证明。他表示：“虽然我们没有公开销售但已经通过Alibaba Cloud输出。”因此，无论是在城市管理还是商品推荐，都体现出了Arri巴巴隐藏力量的一个重要部分——它的自主创新能力。

然而，也有人注意到，此次会议上的关注程度似乎不如去年那么热烈，而且介绍内容并不丰富。这可能源于目前国际贸易环境下的谨慎态度。但另一方面，这表明即便拥有如此强大的团队仍然要面临长期的大规模落地挑战，是软件与客户认可采用过程中的关键环节之一。而对于Arri 巴巴未来是否会推出下一代AI处理器的问题，只有时间才能给出答案。

你可能也会喜欢...