机器学习是一个计算过程,因此它与计算力紧密相关,也就是与承载机器智能算法的芯片和半导体紧密相关。最明显的是,计算力和计算架构决定了机器学习的训练和推断速度,从而影响该技术的发展进度。然而,这些关系远比上面描述的更加微妙:硬件决定了研究者和工程师在设计、开发机器学习模型时使用的方法。芯片的能耗等特性也决定了机器学习在现实世界中的应用。从更广泛的角度来说,计算力也很重要,因为其具备特殊的地理影响。半导体通过复杂的国际供应链进行设计、装配及部署。市场结构和该领域公司之间的竞争影响着机器学习的发展。此外,从国家安全的角度来看,这些供应链也很重要,硬件成为对人工智能必备的基础器械有直接影响的政府工业和贸易政策竞技场。
本文旨在深入探讨计算力与机器学习发展之间的关系。更具体地说,本文要探索计算架构、机器学习方法和供应链的变化对人工智能未来的影响。为此,本文尝试理清这一底层硬件层与深远的社会影响及 AI 相关风险之间的特殊关系。一方面,这一探索凸显了硬件如何加剧对无处不在的监控、技术失业和地缘政治冲突的一系列担忧。另一方面,它也凸显了促进计算力发展在解决这些问题上可能发挥的重要作用。
第一部分将研究算力在机器学习发展中所起的作用,并指出在近期关于该技术社会影响的报告中,其影响被扁平化。第二部分将探讨机器学习硬件的专门化趋势,以及它对控制和隐私的影响。第三部分将讨论半导体供应链及其对机器学习地缘政治的影响。第四部分将介绍在机器学习工作流程中改变数据和算力之间平衡的研究进展,以及它对技术的经济影响。最后,我们将介绍硬件作为行动杠杆的潜在作用。
第一部分:机器学习和算力
以计算机视觉领域为例,该领域聚焦于提高机器从图像和
视频中提取可理解特征的能力。20 世纪 90 年代和 21 世纪早期的「传统」方法聚焦于在人为定义的特定特征上运行算法执行图像处理和分类。相对地,神经网络可以自己学习用于分类的相关特征,而不需要在算法中进行预定义。
扩展算力和数据可用性改变了计算机视觉领域的实践方法。从数据方面来看,消费网络的增长产生了大量可用于机器学习系统训练的图像。包含 2 万类别、1400 万张标注图像的 ImageNet 数据集为研究者提供了图像处理研究的常用数据集。从 2000 年的每芯片 3700 万晶体管到 2009 年的每芯片 23 亿晶体管,算力在 21 世纪继续发展。这一趋势随着一类特殊的计算架构 GPU 的出现而持续增强。GPU 因其并行计算的特性尤其适用于神经网络。
基于自动学习特征和并行训练的特性,神经网络得以显著超越该领域的早期方法,ImageNet 大规模视觉识别挑战赛是这一过渡趋势的典型标志。自 2010 年举办以来,该挑战赛聚集了很多研究者在视觉识别任务上进行系统设计的竞争。从 2010 年到 2011 年,传统方法从未将误差率降到 25% 以下。由 Hinton 带领的团队在 2012 年开发的 AlexNet 首次实现了 25% 以下的识别准确率,有研究者称「ImageNet 2012 引发了 AI 大爆炸」。
第二部分:计算力专门化
计算力不是简单的数量问题。芯片的特殊架构很大程度上决定了该芯片能否有效解决给定的计算问题。总的来说,该行业正拥有日益专门化的机器学习平台,这一领域的持续增长也吸引了越来越多的商业兴趣。从这个角度来说,硬件的发展方向与软件截然相反:尽管研究领域一直致力于构建更通用的学习系统,但芯片领域仍在持续转向更窄的专门化方向。
有两个因素塑造了机器学习硬件的市场。一个是性能与灵活性之间的负相关关系。尽管通用计算力可以支持广泛的任务,而且经过简单配置就能承担新的任务,但它往往会被为特定目的而构建的硬件所超越。然而,这种性能的提升是有代价的:专用硬件适应相对较小的用例集,而且其体系架构在部署后不太容易改变。
另外一个重要的因素是,用于训练机器学习模型以完成任务的硬件可能与用于利用已经训练的模型进行推理的硬件有很大不同。这是因为机器学习工作流程的每个步骤都有不同的需求。例如,能耗对于在移动设备上运行的计算机视觉系统来说可能非常重要,虽然该系统最初在数据中心上训练时能耗可能并不重要。
背景:从 CPU 到 GPU
GPU 是当今机器学习工作流程的支柱,也是训练和推理的主要平台,被广泛用于基础研究及市场上机器学习驱动产品的实际开发和部署。
GPU 在机器学习中发挥的巨大作用来自一个意想不到的历史融合。顾名思义,GPU 最初是为支持计算机图形和图像处理应用而设计的。为此,GPU 采用了一种架构,将计算任务分布在大量要并行处理的内核中。这点与 CPU 不同,CPU 采用的内核数量更少,功能更强大,优化后只需同时处理几个任务。
这种并行架构使得 GPU 非常适合机器学习应用。从根本上说,神经网络的训练和推理依赖于大量相同矩阵乘法运算的执行。
日益专门化:FPGA 和 ASIC
作为机器学习的主要硬件平台,GPU 的新用途反映了现有技术的选择。随着机器学习热度越来越高,专门为这些应用程序设计硬件的想法也变得更有吸引力。业内的讨论聚焦于将现场可编程门阵列(FPGA)和专用集成电路(ASIC)作为机器学习下一个主要平台的可能性。
FPGA 不同于 CPU 和 GPU,因为它不在
存储的
内存中运行程序。相反,FPGA 是标准化「逻辑块」的集合,一旦收到制造商的芯片,编程人员就可以配置这些逻辑块之间的关系。ASIC 是专门为某一目的而设计的芯片板,在制造后不容易重新配置。
在机器学习推理的背景下,FPGA 和 ASIC 特别有吸引力。这两种设备的能耗都小于 CPU 和 GPU,而且由于它们更加专业,其速度也更快。这些优势以损失灵活性、增加成本为代价。FPGA 和 ASIC 无法轻易、快速配置来用于执行各种各样的任务。与 CPU 和 GPU 相比,它们都更贵一些。ASIC 价格更高,因为它是「定制」项目,生产成本高、耗时长。这使得它们只有在大量使用时才具有成本效益。
前景
目前仍然不清楚更专门化、更不灵活的硬件是否会取代 GPU 在机器学习训练和推理中的地位。FPGA 和 ASIC 生产商发布的性能基准表明在两类任务上它们都能显著超越 GPU。谷歌声称,相比当前的 GPU 和 CPU,其 TPU ASIC 能以 15 到 30 倍的速度执行推理。而聚焦于机器学习专用硬件的创业公司 Graphcore 也声称,他们的 8 块「IPU」卡拥有相当于 128 块当前 GPU 卡的性能。
尽管如此,基准问题仍然存在,系统地评估这些宣言也很有挑战性。GPU 领导者英伟达对谷歌宣称的 TPU 性能提出了挑战,并指出谷歌的芯片无法与英伟达最新一代硬件进行比较。同时,半导体行业目前并不像在 CPU 领域中那样拥有评估机器学习专业硬件的通用方案。
影响:训练和推断的地理布局
1.推断的地理布局
机器学习可以不断被集成到各种产品和服务中,并且在一些以前认为不切实际的情况下使用。对于公民自由意志主义者来说,FPGA 和 ASIC 支持将机器学习作为一种监控手段来使用:小型、低功耗的设备现在可以结合计算机视觉的进步来识别人和物体,即使是在带宽较低的地区。对于那些担心机器学习被滥用的人来说,专门化硬件可能效果更好,因为其中的不法活动更容易被追踪和截断。
另一个令人担忧的事实是,当发现缺陷后,FPGA 和 ASIC 不够灵活的架构可能会使修复机器学习系统变得更具挑战性。越来越多的研究继续强调这一点,即机器学习系统经常会产生偏见、歧视性的结果,并且可能容易受到恶意操纵。当一个训练好的机器学习模型被「硬连线」到芯片中时,发现它有这些缺陷可能会使修复过程变得更加昂贵和漫长,因为它需要更换处理器本身,而不是修改软件。这种问题在「嵌入式」环境中比较常见,在这种环境下,芯片随产品一起销售和分发,一旦芯片离开工厂,就没有统一的方法来改变它们的行为。
同时,FPGA 和 ASIC 也提出了一种可能性,即机器学习可能会以更稳健的隐私保护方式来构建。因为专门的计算能力使得机器学习推断能够在设备端完成。
随着用于机器学习的 FPGA 和 ASIC 进入市场,并试图在该技术的应用中找到可行的位置,这种情况一直悬而未决。
2.训练布局
意识到训练布局和推理布局非常不同是很重要的。FPGA 和 ASIC 在传统上限定于作为机器学习系统训练的平台。同时,在使用专业硬件进行训练这一方向上,谷歌和其它公司也在持续探索,近期的现实情况表明对于很多研究者和从业者而言,在训练阶段中 GPU 仍然是主导。并且由于训练过程在可见未来内也许仍然是计算密集的,很可能机器学习模型的构建将仍然在集中化的数据中心上进行。
这种机理模式会影响机器学习的管理。对最复杂、最精细模型的训练将继续在少数有财力维持或租用必要计算能力的参与者中进行。然而,一旦训练完成,机器学习模型就可以更广泛地传播与部署。毫无疑问,一些类型的机器学习模型将继续接受「作为服务」,推理会在云中进行。然而,FPGA 和 ASIC 打开了推断的大门,不再局限于这种特殊方式。同时,这些平台——特别是 ASIC——更加不灵活,使得分布后更加难以修改。
第三部分:供应链和算力
CPU、GPU、FPGA 和 ASIC 都是复杂的半导体全球供应链中的最终产品。上文我们探讨了改变计算架构对机器学习的社会影响,现在我们深挖半导体制造业更广泛的商业影响力。
半导体制造业的地理位置和在国家安全中的战略资产地位使得算力成为 AI 地缘政治的重要竞技舞台。
半导体供应链
第二部分讨论的硬件平台只是半导体行业的一个维度。半导体芯片,这种「由数十亿部件组成,用于
存储、传输和处理数据的小型
电子设备」是「信息时代的基础建设技术」。这些芯片使计算机能够运行软件应用,是「从
手机到游戏系统,再到飞机和工业器械、军事设备和武器」等大量设备的关键组成部分。鉴于其广泛应用,半导体是一个体量庞大的全球行业。2015 年,全世界的半导体销售额达到 3350 亿美元,比 2012 年增长 15%。
生产一块半导体芯片需要很多步骤。一些公司是「集成器件制造商」(IDM),管理从始至终的整个半导体生产流程,包括设计、制造、装配、测试和包装。采用该模型的企业包括英特尔、
三星和德州仪器。
但是,很多企业仅负责供应链中的特定部分,将该生态系统中的任务按需求外包给其它公司。在机器学习硬件的讨论中,「无晶圆厂(fabless foundry)」的角色非常重要。这些企业主要负责设计半导体芯片然后将芯片制造工序外包出去,通常叫做「fabrication」。采用这一模型的企业包括 AMD、Broadcom、Qualcomm。机器学习硬件开发的领导企业中有很多都是「fabless」。这样这些企业就避免了大量资金支出,节省了构建和维护芯片「制造」的费用。建立一家半导体制造高级工厂耗资可能高达 200 亿美元。
GPU 市场由英伟达主导,这是一家无晶圆厂(fabless)。根据一份行业分析,2017 年第三季度,英伟达占 GPU 市场份额高达 72.8%,剩余份额由 AMD(另一家 fabless foundry)控制。两家公司的总部都在加州圣塔克拉拉。
FPGA 市场同样由几家 fabless foundry 主导。2016 年,赛灵思以 53% 的市场份额主导 FPGA 市场。另一家 FPGA 生产商 Altera 公司占据 36% 的市场份额,该公司于 2015 年被英特尔收购。随后是竞争者 Microsemi (7%) 和莱迪思半导体公司(Lattice Semiconductor)(3%)。从 2015 年开始 FPGA 市场的局势大致保持稳定。这些公司全都在美国,且除了莱迪思,其它公司的总部都在加州。
评估机器学习专用芯片 ASIC 的市场份额则更具挑战性。首先,该市场仍在快速发展:目前在 ASIC 的大规模生产和销售方面没有强力玩家。截至本文写作时,仅谷歌将其 TPU ASIC 分配给少数研究者,并通过谷歌云服务提供有限的 TPU 计算循环(computing cycle)。由于这些芯片是为特定目标而高度定制的,最终定义 ASIC 这一「市场」可能比较有难度。
由于机器学习硬件的主导者是「fabless foundry」,它们依靠该生态系统中的其它公司来提供其设计芯片的实际产品。仅制造芯片的这些公司叫做「纯晶圆代工企业」(pure play foundry)或「晶圆代工厂」(foundry),该领域是高度整合的。2016 年,台积电(TSMC)占据晶圆代工全球市场的 59%。其后是 GlobalFoundries(11%)、联华电子 (UMC) (9%) 和中芯国际 (SMIC) (6%)。TSMC 和 UMC 的总部在台湾,SMIC 在中国,GlobalFoundries 在美国。尽管 GlobalFoundries 在美国,但是它由阿布扎比酋长国国有投资机构阿布扎比高级技术投资公司(ATIC)控股。
设计机器学习芯片的主要「fabless foundry」之间的关系较为稳定,少数企业承包芯片制造任务。在 GPU 领域,英伟达将大量高性能 GPU 生产任务外包给台积电。2009 年,GlobalFoundries 不再属于 AMD 芯片制造业务的一部分,因为当时 AMD 谋求转型为「fabless foundry」。由于这一历史关系,AMD 与 GlobalFoundries 合作密切,不过 AMD 最近宣布将把新 GPU 生产任务分配给 GlobalFoundries 和台积电。
在 FPGA 领域,芯片设计者和代工厂之间的关系稍微不同。赛灵思过去与联华电子合作,但是近期硬件的生产将更多与台积电合作。Altera 2015 年被英特尔收购,它主要承接英特尔的硬件制造任务。莱迪思与联华电子和台积电合作,还有一些小的代工厂。
这些竞争者的地理分布反映了该行业的整体结构。美国企业占据全球市场的最大份额,2016 年半导体销售额占全球市场的 50%。但是,半导体设备的实际制造主要在美国以外的其它地区。2015 年,世界 3/4 的高级半导体制造产能位于韩国、台湾、日本。这将继续推动半导体制造从美国向亚太地区的转移这一历史趋势。1980 年,美国占据全球半导体制造产能的 42%,这一数字逐年下降,2007 年该数字降至 16%。