阿里含光800 AI处理器亮相后在人物场景下的性能高达GPU的4-11倍手机处理器十大排名中领先位置
在2023年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次推出了公司的AI芯片含光800。这款当时最强AI推理芯片的发布不仅引起了业界的关注,也为其自研芯片项目增添了新的动力。
一年之后,在2024年的一场线上论坛中,阿里云异构计算产品研发总监龙欣继续分享了含光800近一年来的最新进展。他表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s,是面向数据中心CNN类型模型推理加速的业务。
更值得关注的是,尽管未对外发售,但通过阿里云输出,我们了解到含光800在具体应用中的表现。据雷锋网去年的报道,这些科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。
一个典型应用就是拍立淘,它拥有两千多万日活用户。在这个平台上,要透过一张图片,从四亿多商品中搜索,并在三十多亿张图片库中进行匹配,同时根据用户习惯进行个性化推荐,这需要很强大的AI能力。因此,阿里的目标是通过硬件到软件方案提升性价比。
包含以下三个方面:
深度优化CNN及视觉类算法
加速卷积和矩阵乘,支持反卷积、孔洞卷积、3D卷积、插值、ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化
除了硬件设计之外,还包括高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩计算量化压缩指令集支持可编程模型扩展除INT8/INT16量化加速还覆盖FP16/BFP16向量计算直接加速各种ReLu/Sigmoid/Tanh等激活函数以及未来新型激活函数。
虽然去年发布时提到其性能比目前业界最好的AI芯片性能高4倍,但今年龙欣并没有提及峰值性能,而是在于它可用性的强调。他表示:“作为并没有在公开市场发售的芯片,由于我们将其输出至阿里云。”为了让含光800能够开箱即用,系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架提供TensorFlow/MXNet示范教程。
至今已证实,在城市大脑中使用40颗传统GPU处理杭州主城区交通视频需300ms,而使用含光800仅需4颗延时降至150ms。在行人检测应用中,可支持100路视频,比主流GPU25路;车辆检测中,可支撑85路视频,比主流GPU10路;直播内容识别ResNet50 V2模型帧率达到20000 FPS,比主流GPU1800 FPS;点播HDR实现6.6倍性能加速比。
尽管此次分享时间较短且信息相对简单,但从实际应用角度看出,其确凿地展示了在三大场景下的高端设备对于提高运算速度与效率所带来的潜力。此举不仅体现了技术创新,更彰显了企业战略布局与行业影响力的转变。