一文了解AI芯片市场走向:未来GPU收益或滑落第二
曾是弃儿的人工智能,如今,已经蓬勃发展了很长一段时间了。现在,人们对提供高性能视觉识别、匹配或甚至超越人类技能的产品和技术产生了浓厚的兴趣和投资。同样,语音和音频识别正变得越来越普遍,我们甚至开始看到更专业的应用,比如在半导体设计中加入优化的物理设计。我们被人工智能的各种可能性所迷惑了,但往往不太清楚的是投资真正流向了哪里,也不知道什么是雄心,什么是炒作,什么是现实。
现在我们有多种方法可以解决这个问题,例如按实际运用或执行的项目来进行划分。我们拥有独特的视角,因为我们的互联技术被运用于许多定制的人工智能设计中。正如我们将看到的,这些人工智能可能会主导整个世界。将这一观点与麦肯锡最近的分析相结合,我们可以得出一些有趣的、在某些情况下甚至令人惊讶的见解。
首先,麦肯锡(McKinsey)的预测显示出惊人的数据:2017年至2025年,人工智能类半导体将成为半导体市场的领头羊,其年复合增长率将比其它所有半导体的总和高出5倍。无论你对人工智能未来的发展有何看法,不参与到这个市场游戏中实在是过于遗憾。Tractica的一项调查将进一步解读了这种增长:将中央处理器(CPU)与图形处理器、现场可编程门阵列、特定用途集成电路进行比较。到2019年,基于中央处理器的营业额将从30亿美元左右起步,到2025年将增长到120亿美元左右。基于图形处理器的系统(GPU)的收入将在2019年接近60亿美元,到2025年将增长到约200亿美元。现场可编程门阵列(FPGA)的贡献非常小,到2025年可能只有10亿美元左右。但特定用途集成电路(ASIC)市场份额将从2019年的约20亿美元增长到2025年的约300亿美元。到2022年左右,基于特定用途集成电路的人工智能将在份额上超过基于图形处理器的人工智能。
就算在我们实际运用过程中遇到困难也不要太惊讶。基于中央处理器的平台将很好地用于低成本、低性能的应用中---比如智能微波,因为系统设计者不想处理这些非标加工。图形处理器使人工智能革命成为现实,并将继续在相对高性能的数据中心中发挥重要作用。在这样的领域中,功率和成本都不是问题,在机器人和增强现实耳机等新兴应用的原型中也是如此。但是,对于那些寻求高性能且低成本的供电系统的批量生产,或者在不考虑成本和差异化性能的大型数据中心来说,特定用途的集成电路一直是最佳解决方案。
一般认为,数据中心人工智能主要是训练机器通过一系列训练来识别不同图像,而终端人工智能主要是通过推理,用这些经过训练的机器在投入到实际运用中。现实情况更为复杂。如果你将训练和推论与数据中心和终端人工智能进行对比,数据中心的训练无疑是一个巨大的市场,因为根据麦肯锡的数据显示,其市场份额从2017年的10亿美元增长到2025年的50亿美元,而这一市场主要由几家非常大的公司所垄断。针对终端人工智能的训练是一个非常小的市场,可能在2025年市场份额能达到10亿,主要运用在超出通信范围的汽车语音系统。
当然,终端人工智能的推理是一个拥有众多参与者的巨大市场,从零增长到2025年的50亿美元左右,这一数据已经超出了我们大多数人的预期。但真正令人惊讶的是数据中心的发展,2017年已经达到50亿美元左右,预计到2025年将增长到100亿美元左右,而且这个市场也有非常多的参与者。是什么驱动着他们的发展?我们更倾向于认为是新型运用,如公共监控和面部识别,但最常见的应用发生在金融业。事实上,信用卡公司是最早将机器学习商业化运用的机构之一。你是否曾经在刚买了一大笔东西之后收到信用卡公司的垃圾邮件并且公司提供了更高的信用额度?或者在你刚买了一双昂贵的运动鞋和价值5美元的汽油后,他们就把你的卡给注销了吗?你得感谢人工智能。数据中心中的这类推理很可能是人工智能的主要驱动力。
现在让我们看看芯片架构。在终端上,我们发现每一项运用只有仅仅几个实用案例,并且通常具有严格的潜在要求,以及为执行这些运用而严格优化的系统级芯片结构。这需要特殊定制的处理元素(通常是多种类型的)和高度定制的芯片数据流。随着这些芯片中处理元素的数量和类型不断增加,对于人工智能核心的对缓存一致性的需求也在增加,以便将它们全部联系起来。加速器核心和系统级芯片设计的其他部分之间的紧密集成需求也在增加。这类设计的硬件架构可能会变得很复杂,但通过将这些复杂的人工智能算法中的复杂性传递给硬件系统,可以大大简化软件。既然汽车已经成为创新发展的最重要的人工智能前沿设备,我们看到人工智能需求通常与功能安全结合在一起也就不足为奇了。事实上,我们不仅在汽车、卡车和其他车辆上看到了这一点,而且越来越多地在机器人和无人机上看到了这一点。
数据中心中的执行需求是非常不同的,训练和推理之间也存在着一些差异。数据中心服务的提供者希望通过神经网络的不同通道获得高吞吐计算,而不希望让实际运用发展成某一特定的任务。他们希望人工智能可以凭借一套通用的硬件系统去解决问题,因此他们越来越倾向于使用同质处理元素的空间分布式网格架构,这些元素通常是一些拓扑组织,形状多如网格、圆环等。
而我们倾向于看到用于训练的同质网格体系,来与上文提到的通用体系相配套。在数据中心的推断中,更常见的是带有巧妙地嵌入缓存内存的异构网格,这也是我们认为更具实用性的一方面。
此外,在架构方面,到芯片外/芯片内存储器的带宽仍然是一个很重要的限制器。尽管GDDR6得到了很多人的关注,但是HBM2也因为这个原因很快被人们广泛采用。如果GDDR6能满足你的需要,它可以比HBM2便宜得多。在这些芯片结构中,逻辑设计本身可以是强大的,可以达到或超过完全的芯片的限制。这使得人们对芯片或芯片之间的开放通信接口越来越感兴趣,比如CCIX、OPENCAPI和GEN-Z。
我的观点:
1.特殊定制的人工智能将主导所有其他平台,包括终端设备和数据中心。
2.毫无疑问,推理将成为人工智能领域最大的焦点,但更令人惊讶的是,基于数据中心的推理将产生比终端推理更多的收益。
3.在紧密集成的系统级芯片设计中,处于终端的架构将需要与人工智能保持高速缓存一致性,而云架构将更严重地依赖于分布式配置。
4.此外,在云计算中,内存带宽推动人们更多地采用HBM2和GDDR6,这也不奇怪。但是多晶粒架构也将受到巨大规模的分布式配置的推动。
一句话总结就是:人工智能非常庞大,但并不存在标准的人工智能芯片。最佳芯片架构根据所执行的功能类型、执行的地点、执行的时间和功率预算范围的不同而有所改变。
(选自:Semiengineering编译:网易智能参与:Yuki)