热点资讯

阿里含光800 AI处理器高调亮相三大场景应用中人物体验性能提升4-11倍揭秘芯片精密制造之道

在2021年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800。这款当时最强的AI推理芯片的发布引发了巨大的关注,可谓高调亮相。

今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大规模图像视频审核、拍立淘等。”更引人关注的是含光800在具体应用中的表现。

含光800未对外发售,其性能通过阿里云输出。正如去年雷锋网文章中所说,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。周五线上的分享中,龙欣也表示,有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

一个典型例子就是拍立淘,它拥有两千多万日活用户。在使用这项功能时,要通过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯提供个性化推荐,这就需要很强的人工智能能力。

因此,对于提升硬件到软件方案并结合其特点,即深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD等模型优化,以及高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等方面,都有着重要意义。此外指令集支持可编程模型扩展,也覆盖FP16/BFP16向量计算除直接加速各种激活函数,还能支持未来新型激活函数。

去年发布时,“在业界标准ResNet-50测试中”,含光800推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。但是在昨天分享中没有提及峰值性能,而是强调其可用性,他表示,“作为并没有公开市场发售的芯片,我们通过Arli Cloud输出。”

为了让包含这个信息,让购买实例用户可以自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow/MXNet示范教程。龙欣强调“我们的应用主要是在数据中心和大型端上,以CNN类模型推理加速为主,可扩展到其他DNN模型。”

目前在具体应用场景中的相比GPU有4-11倍性能提升。例如,在城市大脑处理杭州交通视频,每次传统GPU需40颗延迟300ms,但使用含光800仅需4颗延迟150ms;拍立淘商品库新增10亿商品图片,用传统GPU识别需1小时,用含光800后缩减至5分钟。而今昨天给出的最新数据显示,在行人检测(100路视频)、车辆检测(85路视频)以及内容识别(20000 FPS Resnet50 V2)分别提高了4-11倍。而直播增强则从主流GPU50 FPS增加至500FPS,从而实现10倍性能加速。