行业动态

闪耀智慧含光800 AI处理器登场三大应用领域GPU之上性能腾飞

2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可谓是高调亮相。今年,在阿里线上云栖举行的一场芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”

更令人关注的是含光800在具体应用中的表现。在去年的文章中,我们提到科技巨头自研芯片,是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用,这些应用包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

一个典型案例就是拍立淘,它拥有两千多万日活用户,当这些用户使用该功能时,要通过一张图片,从4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要极强的大规模处理能力。

因此,为了提升这种硬件到软件方案上的性价比,加速卷积和矩阵乘,以及支持反卷积、三维卷积等操作,同时提供针对ResNet-50及其他模型优化、高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等特点,使得含光800成为行业标准ResNet-50测试中的新冠军,其性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之高。

不过龙欣昨天分享并没有提及含光800峰值性能,而是强调其可用性。他表示:“作为并没有在公开市场发售的芯片,由于我们直接输出。”为了让它开箱即用,便于购买实例用户自动安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow和MXNet,以便提供示范教程。此外,他还强调了其主要是在数据中心或大型端上的CNN类模型加速,以及可扩展至其他DNN模型领域,其中相较GPU,有4-11倍性能提升。

此前给出的数据显示,在城市大脑中的实时处理,每传统GPU40颗,都能降低至150ms;而对于拍立淘商品库每天新增10亿商品图片识别时间由1小时缩短至5分钟。最新分享则展示了行人检测(100路视频)、车辆检测(85路视频)以及内容识别(20000 FPS)的显著提升。在Inception V4模型处理帧率达到5000 FPS,比主流GPU460FPS提高10.8倍,而直播HDR则实现6.6倍性能加速比。

尽管这次会议并不如去年那么火热,但更多的人们关心的是实际落地情况如何,以及未来可能出现什么新的突破。而从这一系列数字来看,无疑充分证明了自研chip为何重要——既节省成本,又能满足复杂任务所需速度与精度。随着技术不断进步,将会看到更多这样的创新出现,为不同行业带来革命性的变化。但真正关键的问题还在于如何将这些优势转化为客户真正能够体验到的价值,并且让它们被广泛采纳,这才是真正衡量成功的一个标准。而且,就像任何重大项目一样,从概念提出到成熟部署是一个漫长而艰难过程,只有耐心持续投入才能期待结果。而关于未来是否会有更先进版本,则仍需观察未来的发展路径。