测评

中国芯片惊天骗局阿里含光800 AI处理器震撼亮相GPU超越之举在三大场景中展现出令人瞩目的性能优势

在2019年杭州云栖大会上,阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这个新闻轰动了整个科技界,因为它标志着一个新时代的开始,那是一个自研芯片和异构计算架构将彻底改变数据处理方式的大时代。

一年之后,在2020年的线上云栖大会上,阿里云异构计算产品研发总监龙欣再次登场,他带来了关于含光800近一年来的最新进展。龙欣表示,尽管含光800尚未对外正式发售,但这款AI推理芯片已经正式提供给用户使用,不需要任何特殊权限即可在阿里云实例中购买。它支持最多8核NPU和96核vCPU、384G内存以及30Gbit/s网络带宽,这使得其成为面向数据中心CNN类型模型推理加速的理想选择。

更令人振奋的是,含光800在实际应用中的表现。这款芯片已被证明能够显著提升效率和性价比。在拍立淘这样的应用中,它能够快速搜索4亿多商品中的特定商品,并且能高效地进行个性化推荐。这一切都离不开强大的AI能力,而含光800正是为了满足这一需求而设计出来的。

除了硬件优化,含光800还具备软硬协同支持权重稀疏压缩、量化压缩等功能,使其能够适应各种复杂算法,同时保持灵活性。此外,它还覆盖FP16/BFP16向量计算,以及未来可能出现的新激活函数,这让它成为一个高度灵活且高性能的解决方案。

去年发布时,张建锋宣称在业界标准ResNet-50测试中,含光800可以达到78563 IPS,比目前市场上最好的AI芯片性能高出4倍;而能效比达到了500 IPS/W,是第二名3.3倍之佳。但是在今年龙欣分享时并没有提及峰值性能,而是强调了其可用性。他指出尽管包含白名单,但通过阿里云输出,使得用户可以轻松安装NPU驱动和SDK,并且系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow、MXNet等。

至于具体应用中的表现,与GPU相比,其性能提升为4-11倍。在城市大脑处理交通视频时,从40颗传统GPU降低到仅需4颗;拍立淘识别10亿商品图片从1小时缩短至5分钟。而在行人检测与车辆检测方面,其优势更是明显:行人检测增强100路视频,比主流GPU25路提升四倍;车辆检测增强85路视频,比主流GPU10路提升八五倍。

此外,在直播与短视频内容识别中,以ResNet50 V2模型运行,其帧率达20000 FPS,比主流推理GPU1800 FPS提升11倍;Inception V4模型下,该设备帧率达5000 FPS,比主流推理解析器460FPS提升十余倍。此类高速运算对于提高视频质量极为关键,如直播增强500 FPS,对比50 FPS有10 倍加速效果,而点播HDR则实现6.6 倍加速效果,即便英伟达A100也无法匹敌这些成绩。

虽然今年对待隐私保护更加谨慎,但我们应该看到,无论如何,一旦真正落地大规模使用,则软件将起到决定性的作用。因此,我们期待着未来的发展,将会看到更多关于这款革命性的AI芯片及其潜力无限的大型项目落地生根。