热点资讯

阿里含光800 AI处理器芯片利好最新消息高调亮相后在人物识别等场景中表现突出落地性能比GPU高4-

更新时间 2025年01月07日 2025年01月07日

在2019年的杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短地介绍了阿里的首款AI芯片含光800。这款当时最强的AI推理芯片的一发布就引发了巨大的关注，可谓是高调亮相。

今年的阿里线上云栖有一个芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买，实例名称是ebman1.24xlarge，最多支持8核NPU和96核vCPU，384G内存，网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速，业务包括城市大脑，大图像视频审核拍立淘等。”

更引人关注的是含光800在具体应用中的表现。尽管它还未对外发售，但性能通过阿里云输出。正如雷锋网去年文章中所说，科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，以提升效率和性价比为目的。周五的线上分享中，龙欣也表示，阿里巴巴内部有广阔的AI应用场景，如电商、视觉、语音交互、自然语言理解、机器翻译等。

一个典型的例子就是拍立淘，它拥有两千多万日活用户，这项功能需要通过一张图片，在4亿多商品中搜索，在30多亿张图片库中进行匹配，并根据用户习惯提供个性化推荐，这就需要很强的AI能力。

因此，对于提升性价比，从硬件到软件方案都非常重要。做个简单回顾，有三个方面：

深度优化CNN及视觉类算法

加速卷积和矩阵乘，加支持反卷积、孔洞卷积、三维卷积、高级插值操作

针对ResNet-50、SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab等模型优化

高能效低延时、高密度计算与存储减少I/O需求

软硬协同支持权重稀疏压缩，以及量化压缩

指令集支持可编程模型扩展

去年发布时，“在业界标准ResNet-50测试中”，含光800性能达78563 IPS，比目前业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名3.3倍。但是在昨天分享中并没有提及其峰值性能，而是强调其可用性，他表示，“作为并没有公开市场发售的芯片，我们通过Aray Cloud输出。”为了让它能够开箱即用，还自动安装NPU驱动和SDK，同时系统支持公共镜像CentOS 7.6/7.7 和Ubuntu 16.04，并预装主流深度学习框架提供TensorFlow/MXNet示范教程。

至于实际应用中的优势，他给出了三大场景：行人检测（100路视频）、车辆检测（85路视频）以及内容识别（20000 FPS ResNet50 V2）。

不过关于语音交互或自然语言理解等其他语言方面应用实例优势，没有给出具体数据。不过，可以看得出，即便有强大的团队快速设计出一款芯片，但要大规模落地仍然需要很长时间，这个过程软件发挥着更加直接作用。此次共享可能由于紧张贸易关系而变得谨慎，也许未来会有一些新的消息更新。