中国芯片公司有哪些阿里含光800 AI处理器高调亮相如同雄鹰展翅后三大场景落地性能比GPU高4-11
在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的问世,让整个行业都为之瞩目,就像一颗璀璨的星辰在夜空中闪耀。
一年之后,在2023年的线上云栖大会期间,阿里云异构计算产品研发总监龙欣再次带来了关于含光800近一年来的最新进展。龙欣表示,含光800 NPU实例已经正式对外服务,不需要任何白名单即可在阿里云实例上购买。这个支持8核NPU和96核vCPU、384G内存、网络带宽最高达到30Gbit/s的实例,是面向数据中心CNN类型模型推理加速的一个重要工具,其业务涉及城市大脑、图像视频审核以及拍立淘等领域。
更令人关注的是,这款未对外发售的芯片性能如何。在去年的一篇文章中,我们提到科技巨头自研芯片是因为有大量数据,以及内部AI需求驱动,而希望通过自研芯片提升效率和性价比。周五分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互以及自然语言理解等,其中拍立淘作为一个典型案例,它需要通过图片搜索4亿多商品,在30多亿张图片库中进行匹配,并根据用户习惯提供个性化推荐,这就需要极强的AI能力。
为了提升硬件与软件方案中的性价比,包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型优化、高能效低延时、高密度计算与存储软硬协同支持权重稀疏压缩等特点。去年发布时,含光800在业界标准ResNet-50测试中表现出了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。不过今年分享并没有提及峰值性能,而是强调其可用性。
为了让用户能够开箱即用,无需额外安装NPU驱动或SDK,只需系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架如TensorFlow和MXNet,并提供示范教程。此次分享给出的具体应用场景包括城市大脑、大型端上的CNN类模型推理加速,以及其他DNN模型扩展。在三大AI应用场景下,它展示了4-11倍性能提升,比如城市大脑从40颗传统GPU降至仅需4颗延迟减少至150ms;拍立淘商品库每天新增10亿商品图片识别时间从1小时缩短至5分钟;行人检测增量到100路视频,从主流GPU25路升级到8.5倍;车辆检测增量到85路视频,从主流GPU10路升级到11倍加速。而且,在直播内容识别方面,可达20000 FPS,对比主流GPU1800 FPS提升11倍;Inception V4处理帧率达到5000 FPS,对比460FPS提高10.8倍。此外,在HDR点播,也实现了6.6倍加速。
尽管此次会议中的介绍相较于去年略显简洁,但它揭示了一种可能性:即便存在强大的团队设计出先进技术,但要将其成功落地仍然是一个复杂而漫长过程。这意味着软件对于使得这些先进硬件成为现实起到了关键作用,同时获得客户认可也是一个挑战。随着全球贸易环境变得更加紧张,一些曾经热议的话题可能会变得更加谨慎。但不管怎样,都不能忽视这项技术背后蕴藏的大无限可能。