台积电之所以如此强大就如同阿里含光800 AI处理器的高调亮相像一位才子在舞台上展露风采在后三大场景
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的高调亮相,让业界瞩目的同时,也预示着一个全新的时代。今年,阿里云线上举办了一个芯片设计发展现状与未来的论坛,异构计算产品研发总监龙欣就分享了含光800推出近一年后的最新进展。
龙欣表示,含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买。其配置包括8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核、拍立淘等。
更值得关注的是,在具体应用中,含光800表现出了令人瞩目的优势。在拍立淘这个典型应用中,这款芯片能够帮助用户快速搜索商品并进行个性化推荐,这些都需要非常强大的AI能力。
为了提升硬件到软件方案的性价比,阿里的工程师们深度优化CNN及视觉类算法,并支持各种模型,如ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN和DeepLab等。此外,还有针对量化加速和可编程模型扩展的指令集支持,以适应未来新型激活函数。
去年,当时业界标准ResNet-50测试中,含光800显示出78563 IPS(图片每秒)的性能,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。而且,它作为尚未公开市场发售的芯片,只通过阿里云输出,因此其应用主要集中在数据中心和大型端设备,以CNN类模型推理加速为主,可扩展到其他DNN模型中。目前在具体场景中的使用已显示出4至11倍于GPU性能之上的提升。
例如,在行人检测应用中,每四颗含光800处理器可以支持100路视频,比主流GPU多25路;而车辆检测则是85路视频,比主流GPU多10路。此外,在直播或短视频识别方面,可以实现20000 FPS帧率,与主流GPU相比速度快11倍。在点播HDR任务中,则实现66 FPS,对比传统方式要快10倍。
尽管如此,由于当前贸易环境紧张,以及可能存在更多保密性的考虑,此次会议对于包含许多公众早已熟知信息的情况下,没有给予太多关注。不过,从实际应用角度看,无论是软件还是硬件,都面临着巨大的挑战,其中软硬协同支持权重稀疏压缩与计算量化压缩等技术也显得尤为重要。随着技术不断进步,我们期待看到将来如何解决这些问题,同时也期待了解下一代AI芯片何时会问世,为我们带来更前沿科技成果。