测评

台积电神器含光800 AI处理器闪耀亮相GPU对手无力匹敌三大场景性能激增4-11倍

2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布极大地吸引了公众的关注。今年,随着线上云栖大会的召开,阿里云异构计算产品研发总监龙欣再次分享了含光800近一年来的最新进展和成果。

他指出:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。这些实例配备8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s,是专为数据中心CNN类型模型推理加速而设计。”其中包括城市大脑、图像视频审核以及拍立淘等应用场景。

更令人振奋的是,尽管含光800尚未对外发售,其性能已经通过实际应用得到了验证。在具体应用中的表现也显示出其卓越之处。例如,在拍立淘这个拥有两千多万日活用户的大型平台中,由于其庞大的商品库(超过4亿件商品)和图片库(超过30亿张图片),用户搜索过程需要高强度的AI能力以提供个性化推荐。此类任务正是含光800优化所针对的领域。

为了提升效率和性价比,同时满足内部广阔范围内各种AI需求,如电商、视觉处理、语音交互及自然语言理解等,阿里巴巴自主研发包含硬件到软件方案的一整套解决方案,以此来应对未来挑战。涉及到的关键特点包括深度优化CNN与视觉类算法,加速卷积与矩阵乘运算,以及针对ResNet-50、SSD/DSSD等模型进行特别优化。

在去年的发布会上,当时还展示了该芯片在业界标准ResNet-50测试中的表现,即可实现78563 IPS,比目前市场上的其他AI芯片性能高达4倍,并且能效比达到了500 IPS/W,与第二名相比提高3.3倍。不过,此次分享并未披露关于峰值性能的情况,而是更加侧重于其可用性,因为它是一种未公开销售但已通过Arı Cloud输出的产品。

为了确保新设备能够快速部署使用,系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主要深度学习框架,如TensorFlow 和 MXNet,还提供示范教程。这使得开发者可以轻松接入NPU驱动程序并开始使用SDK,从而最大限度地减少集成时间。此外,它们还支持扩展到除了CNN以外的大量其他DNN模型,使其成为一个灵活且强大的工具箱。

至今为止,在三大场景中,即行人检测、大规模车辆检测以及内容识别应用中,对于GPU来说,该芯片体现出了显著优势——分别是4倍、高达11倍甚至8.5倍!这不仅意味着对于复杂任务如视频分析或直播质量增强,它们能提供超越传统GPU所能匹敌的情报速度。而对于行人检测,可以支持100路视频流;车辆检测则有85路流;同时,对于内容识别,就能够保持20000 FPS帧率,比当前主流GPU快11倍!

因此,无论是在数据中心还是端末设备方面,这款自主研发出的含光800都显示出了巨大的潜力,为各类业务模式带来了前所未有的速度提升。然而,我们仍需继续观察以确定是否会有一系列新的创新落地,以进一步探索这一领域前沿技术可能蕴藏的地平线。但无疑,一旦成功,它将标志着我们迈向一个全新的时代,其中智能计算不再仅限于专业团队,而每个人都能享受到先进科技带来的便捷与力量!