英特尔 VS 三星 VS 台积电,愈演愈烈
三大尖端代工厂——英特尔、三星和台积电——已开始填补其路线图中的一些关键部分,为未来几代芯片技术增加了积极的交付日期,并为显著提高性能和缩短定制设计的交付时间奠定了基础。
与过去不同,过去只有一张行业路线图决定如何进入下一个工艺节点,而如今,三家最大的代工厂正越来越多地开辟自己的道路。它们都朝着同一个大方向前进,拥有 3D 晶体管和封装、一系列支持和扩展技术以及更大、更多样化的生态系统。但它们在方法、架构和第三方支持方面出现了一些关键差异。
这三者的路线图显示,晶体管的微缩将至少持续到 18/16/14 埃范围,未来某个时候可能会从纳米片和叉片场效应晶体管 (FET ) 转向互补场效应晶体管 (CFET)。关键驱动因素是人工智能/机器学习和需要处理的数据激增,在大多数情况下,这些将涉及处理元件阵列,通常具有高水平的冗余和同质性,以实现更高的产量。
在其他情况下,这些设计可能包含数十或数百个芯片,一些用于特定数据类型,另一些用于更通用的处理。这些芯片可以以 2.5D 配置安装在基板上,这种方法在数据中心获得了青睐,因为它简化了高带宽存储器(HBM)的集成,也在移动设备中得到了推广,其中还包括其他功能,例如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂都在致力于完整的 3D-IC。并且还会有混合选项可用,其中逻辑堆叠在逻辑上并安装在基板上,但与其他功能分开,以最大限度地减少热量等物理影响——这种异构配置被称为 3.5D 和 5.5D。
快速和大规模定制
最大的变化之一是将特定领域的设计以比过去更快的速度推向市场。这听起来可能很平常,但对于许多尖端芯片来说,这是竞争的必需品,它需要从根本上改变芯片的设计、制造和封装方式。要使这一方案发挥作用,需要结合标准、创新的连接方案和多种工程学科,而在过去,这些学科之间的互动有限,甚至没有互动。
有时被称为「大规模定制」,它包括通常的功率、性能和面积/成本 (PPA/C) 权衡,以及快速组装选项。这是异构芯片组件的前景,从扩展的角度来看,它标志着摩尔定律的下一阶段。十多年来,整个半导体生态系统一直在逐步为这一转变奠定基础。
但让异构芯片(本质上是来自多家供应商和代工厂的强化 IP)协同工作是一项既必要又艰巨的工程挑战。第一步是以一致的方式将芯片连接在一起,以实现可预测的结果,而这正是代工厂投入大量精力的地方,特别是在通用芯片互连快速通道 (UCIe) 和线束 (BoW) 标准方面。虽然这种连接性是这三者的关键要求,但它也是主要分歧领域之一。
在完全集成 3D-IC 之前,英特尔代工厂目前的解决方案是开发业内人士所称的芯片「插槽」。该公司没有针对商业市场对每个芯片进行特性描述,而是定义了规格和接口,以便芯片供应商可以开发这些功能有限的微型芯片来满足这些规格。这解决了商业芯片市场的一大障碍。从数据速度到热量和噪音管理,所有部件都需要协同工作。
英特尔的方案在很大程度上依赖于其于 2014 年首次推出的嵌入式多芯片互连桥 (EMIB)。英特尔技术开发副总裁 Lalitha Immaneni 表示:「EMIB 基座的真正酷之处在于你可以添加任意数量的芯片。」「我们对设计中可以使用的 IP 数量没有限制,而且它不会增加中介层的尺寸,因此它具有成本效益,并且与工艺无关。我们提供了一个封装组装设计套件,它就像传统的组装 PDK。我们为他们提供设计规则、参考流程,并告诉他们允许的结构。它还会为他们提供我们将其带入组装所需的任何附属品。」
根据设计,一个封装中可以有多个 EMIB,并辅以热界面材料 (TIM),以散发可能滞留在封装内的热量。TIM 通常是设计用于将热量从源头传导出去的垫片,随着封装内的计算量增加以及基板变薄以缩短信号需要传输的距离,TIM 变得越来越常见。
但基板越薄,散热效果就越差,这会导致热梯度与工作负荷有关,因此很难预测。消除这些热量可能需要 TIM、额外的散热器,甚至可能需要更奇特的冷却方法,例如微流体。
台积电和三星都提供桥接器。三星在 RDL 中嵌入了桥接器(一种称为 2.3D 或 I-Cube ETM 的方法),并使用它们将子系统连接到这些桥接器,以加快硅片的使用寿命。一些集成工作将在已知良好的模块中预先完成,而不是依赖插座方法。
Arm 首席执行官 Rene Haas 在最近的三星代工厂活动上发表主题演讲时表示:「将两个、四个或八个 CPU 组合成一个系统是非常成熟的客户知道如何做的事情。但是如果你想构建一个 SoC,它有 128 个连接到神经网络的 CPU、内存结构、与 NPU 接口的中断控制器、连接到另一个芯片的片外总线,那么这需要大量工作。在过去的一年半里,我们看到许多人都在构建这些复杂的 SoC,希望从我们这里得到更多。」
三星还一直在组建小型芯片供应商联盟,针对特定市场。最初的概念是一家公司制造 I/O 芯片,另一家公司制造互连,第三家公司制造逻辑,当这种方法被证明可行时,其他公司就会加入其中,为客户提供更多选择。
台积电尝试过多种不同的方案,包括 RDL 和非 RDL 桥接、扇出、2.5D 晶圆基板芯片 (CoWoS) 和集成芯片系统 (SoIC),后者是一种 3D-IC 概念,其中芯片使用非常短的互连线封装和堆叠在基板内。事实上,台积电几乎为每种应用都提供了工艺设计套件,并且一直在积极创建用于先进封装的组装设计套件,包括与之配套的参考设计。
挑战在于,愿意投资这些复杂封装的代工厂客户越来越希望获得高度定制的解决方案。为了实现这一点,台积电推出了一种名为 3Dblox 的新语言,这是一种自上而下的设计方案,融合了物理和连接结构,允许在两者之间应用断言。这种沙盒方法允许客户利用其任何一种封装方法——InFO、CoWoS 和 SoIC。这对台积电的商业模式也至关重要,因为该公司是三家公司中唯一一家纯代工厂——尽管英特尔和三星近几个月都已疏远了代工业务。
「我们从模块化的概念开始,」台积电先进技术和掩模工程副总裁 Jim Chang 在 2023 年 3Dblox 首次推出时的一次演示中说道。「我们可以用这种语言语法加上断言来构建完整的 3D-IC 堆叠。」
Chang 表示,造成这种情况的原因是物理和连接设计工具之间缺乏一致性。但他补充说,一旦开发出这种方法,它还可以在不同的设计中重复使用芯片,因为大部分特性已经明确定义,而且设计都是模块化的。
图 1:台积电的 3Dblox 方法。来源:台积电
三星随后于 2023 年 12 月推出了自己的系统描述语言 3DCODE。三星和台积电都声称他们的语言是标准,但它们更像是新的代工厂规则平台,因为这些语言不太可能在自己的生态系统之外使用。英特尔的 2.5D 方法不需要新的语言,因为规则是由插槽规范决定的,它以缩短上市时间和为芯片开发人员提供更简单的方法为代价,实现了一些定制化。
芯片挑战
芯片具有明显优势。它们可以在任何合理的工艺节点上独立设计,这对于模拟功能尤其重要。但如何将各个部分组合在一起并产生可预测的结果一直是一项重大挑战。事实证明,DARPA 提出的最初类似乐高的架构方案比最初设想的要复杂得多,需要广大生态系统付出大量持续努力才能实现。
芯片组需要精确同步,以便关键数据能够无延迟地处理、存储和检索。否则,可能会出现时间问题,即一项计算要么延迟,要么与其他计算不同步,从而导致延迟和潜在的死锁。在任务或安全关键型应用中,一秒钟的损失都可能造成严重后果。
简化设计流程是一项极其复杂的工作,尤其是针对特定领域的设计,因为没有统一的标准。这三家代工厂的目标是为开发高性能、低功耗芯片的公司提供更多选择。据估计,目前所有前沿设计中约有 30% 到 35% 都由谷歌、Meta、微软和特斯拉等大型系统公司负责,前沿芯片和封装设计的经济性发生了重大变化,PPA/C 公式和权衡也发生了重大变化。
为这些系统公司开发的芯片可能不会进行商业销售。因此,如果他们能够实现更高的每瓦性能,那么设计和制造成本可以通过降低冷却功率和提高利用率来抵消——并且可能减少服务器数量。对于销售给移动设备和商用服务器的芯片来说,情况正好相反,高昂的开发成本可以通过大量生产来摊销。先进封装中的定制设计对两者都有经济效益,但原因却大不相同。
缩小、放大和缩小
据估计,在这些复杂的小芯片系统中,将有多种类型的处理器,一些是高度专业化的,另一些则更通用。由于功率预算有限,至少其中一些可能会在最先进的工艺节点上开发。先进节点仍然提供更高的能源效率,这使得更多的晶体管可以封装到相同的区域中,以提高性能。这对于 AI/ML 应用至关重要,因为要更快地处理更多数据,需要在高度并行的配置中进行更多的乘法/累加运算。更小的晶体管提供更高的能源效率,允许每平方毫米硅片进行更多的处理,但需要改变栅极结构以防止泄漏,这就是 forksheet FET 和 CFET 即将问世的原因。
简而言之,工艺领先仍然具有价值。率先将尖端工艺推向市场对企业有利,但这只是更大难题中的一块拼图。三家代工厂都宣布计划向埃级工艺迈进。英特尔计划今年推出 18A 工艺,几年后再推出 14A 工艺。
图 2:英特尔的工艺路线图。来源:英特尔代工厂
与此同时,台积电将在 2027 年增加 A16(见下图 3)。
图 3:台积电进入埃时代的缩放路线图。来源:台积电
三星将在 2027 年左右利用其 SF1.4 将分辨率提升至 14 埃,显然跳过了 18/16 埃。(见图 4)
图 4:三星的工艺扩展路线图。来源:三星代工厂
从工艺节点的角度来看,这三家代工厂都处于同一轨道上。但进步不再仅仅与工艺节点有关。人们越来越关注特定领域的延迟和每瓦性能,而这正是在真正的 3D-IC 配置中逻辑堆叠的优势所在,使用混合键将芯片连接到基板和彼此。通过平面芯片上的导线移动电子仍然是最快的(假设信号不必从芯片的一端传输到另一端),但将晶体管堆叠在其他晶体管之上是次优选择,在某些情况下甚至比平面 SoC 更好,因为一些垂直信号路径可能更短。
在最近的一次演讲中,三星代工厂代工业务开发副总裁 Taejoong Song 展示了一个路线图,该路线图以逻辑叠加技术为特色,将逻辑叠加技术安装在基板上,将 2nm(SF2)芯片与 4nm(SF4X)芯片组合在一起,两者都安装在另一块基板上。这基本上是 2.5D 封装上的 3D-IC,也就是前面提到的 3.5D 或 5.5D 概念。Song 表示,该代工厂将从 2027 年开始在 SF2P 上堆叠 SF1.4。这种方法特别吸引人的地方在于散热的可能性。通过将逻辑与其他功能分开,热量可以通过基板或五个暴露面中的任何一个从堆叠的芯片中排出。
图 5:三星用于 AI 的 3D-IC 架构。来源:三星
与此同时,英特尔将利用其 Foveros Direct 3D 将逻辑堆叠在逻辑上,无论是面对面还是面对面。根据英特尔的最新白皮书,这种方法允许来自不同代工厂的芯片或晶圆,连接带宽由铜通孔间距决定。该论文指出,第一代将使用 9µm 的铜间距,而第二代将使用 3µm 的间距。
图 6:英特尔的 Foveros Direct 3D。来源:英特尔
「真正的 3D-IC 配备了 Foveros,然后还配备了混合键,」英特尔的 Immaneni 说。「你不能走传统的设计路线,把所有东西放在一起,然后进行验证,然后发现,『哎呀,我遇到了问题。』你不能再这样做了,因为你会影响你的上市时间。所以你真的想提供一个沙盒来让它变得可预测。但即使在我进入这个详细的设计环境之前,我也想运行我的机械/电气/热分析。我想看看连接性,这样我就不会有开路和短路。3D-IC 的负担更多地在于代码设计,而不是执行。」
Foveros 允许将主动逻辑芯片堆叠在另一个主动或被动芯片上,并使用基础芯片以 36 微米间距连接封装中的所有芯片。通过利用先进的分类技术,英特尔声称它可以保证 99% 的已知良好芯片和 97% 的组装后测试良率。
与此同时,台积电的 CoWoS 已被 NVIDIA 和 AMD 用于其 AI 芯片的先进封装。CoWoS 本质上是一种 2.5D 方法,使用中介层通过硅通孔连接 SoC 和 HBM 内存。该公司对 SoIC 的计划更加雄心勃勃,将逻辑上的内存与传感器等其他元素一起封装在生产线前端的 3D-IC 中。这可以显著减少多层、尺寸和功能的组装时间。台积电声称,与其他 3D-IC 方法相比,其键合方案可以实现更快、更短的连接。一份报道称,苹果将从明年开始使用台积电的 SoIC 技术,而 AMD 将扩大对这种方法的使用。
其他创新
工艺和封装技术的到位为更广泛的竞争选择打开了大门。与过去由大型芯片制造商、设备供应商和 EDA 公司定义芯片路线图不同,小芯片世界为最终客户提供了做出这些决策的工具。这在很大程度上是由于可以放入封装中的功能数量与可以放入 SoC 光罩限制内的功能数量不同。可以根据需要水平或垂直扩展封装,在某些情况下,它们可以通过垂直布局规划来提高性能。
但鉴于云端和边缘领域的巨大机遇(尤其是随着人工智能的普及),三大代工厂及其生态系统正在竞相开发新功能和新特性。在某些情况下,这需要利用他们已有的资源。在其他情况下,这需要全新的技术。
例如,三星已经开始详细规划定制 HBM 计划,其中包括 3D DRAM 堆栈,其下层是可配置的逻辑层。这是第二次采用这种方法。早在 2011 年,三星和美光就共同开发了混合内存立方体,将 DRAM 堆栈封装在逻辑层上。在 JEDEC 将 HBM 变成标准后,HBM 赢得了这场战争,而 HMC 则基本消失了。但 HMC 方法没有什么问题,只是时机不对。
三星计划在新形式中提供定制 HBM 作为一种选择。内存是决定性能的关键要素之一,在内存和处理器之间更快地读写和来回移动数据的能力会对性能和功耗产生重大影响。如果内存的大小适合特定的工作负载或数据类型,并且如果某些处理可以在内存模块内部完成,那么需要移动的数据就会减少,那么这些数字可能会显著提高。
图 7:三星路线图和创新。来源:Semiconductor Engineering/MemCon 2024
与此同时,英特尔一直在研究一种更好的方法来为密集排列的晶体管供电,随着晶体管密度和金属层数量的增加,这个问题一直存在。过去,电源是从芯片顶部向下输送的,但在最先进的节点上出现了两个问题。一是实际上为每个晶体管提供足够的功率的挑战。二是噪声,它可能来自电源、基板或电磁干扰。如果没有适当的屏蔽——由于电介质和电线越来越薄,在每个新节点上屏蔽变得越来越困难——噪声会影响信号完整性。
通过芯片背面供电可以最大限度地减少此类问题,并减少线路拥堵。但这也带来了其他挑战,例如如何在不损坏结构的情况下在较薄的基板上钻孔。英特尔显然已经解决了这些问题,并计划今年推出其 PowerVia 背面供电方案。
台积电表示,计划在 2026/2027 年实现 A16 背面供电。三星的时间表大致相同,将在 SF2Z 2nm 工艺中实现背面供电。
英特尔还宣布了玻璃基板的计划,这种基板可以提供比 CMOS 更好的平面度和更低的缺陷率。这在先进节点尤其重要,因为即使是纳米级的凹坑也会引起问题。与背面供电一样,处理问题也比比皆是。好处是玻璃的热膨胀系数与硅相同,因此它与硅元件(如芯片)的膨胀和收缩兼容。经过多年的冷落,玻璃突然变得非常有吸引力。事实上,台积电和三星都在研究玻璃基板,整个行业都开始用玻璃进行设计,在不破裂的情况下处理它,并对其进行检查。
与此同时,台积电高度重视建立生态系统和扩大其工艺产品。许多业内人士表示,台积电的真正优势在于能够为几乎任何工艺或封装提供工艺开发套件。据《日经新闻》报道,该代工厂生产了全球约 90% 的最先进芯片。它还拥有所有代工厂中最先进的封装经验最丰富、生态系统最大、最广泛,这一点很重要。
这个生态系统至关重要。芯片行业非常复杂和多样化,没有一家公司可以包办所有事情。未来的问题是这些生态系统到底有多完整,特别是如果流程数量继续增长的话。例如,EDA 供应商是必不可少的推动者,任何流程或封装方法要想成功,设计团队都需要自动化。但是流程和封装选项越多,EDA 供应商就越难以支持每一个渐进式更改或改进,并且公告和交付之间的滞后时间可能会更长。
结论
最近的供应链故障和地缘政治让美国和欧洲确信,他们需要将制造业迁回本土并「友好移居」。对半导体晶圆厂、设备、工具和研究的投资是前所未有的。这对三大代工厂的影响还有待观察,但它无疑为新技术提供了一些动力,例如共封装光学器件、大量新材料和低温计算。
所有这些变化对市场份额的影响越来越难以追踪。这不再关乎哪家代工厂在最小的工艺节点上生产芯片,甚至也不再关乎出货的芯片数量。一个先进的封装可能有几十个小芯片。真正的关键是能够快速高效地向客户提供重要的解决方案。在某些情况下,驱动因素是每瓦性能,而在其他情况下,可能是获得结果的时间,而功耗是次要考虑因素。还有一些情况下,它可能是只有一家领先的代工厂才能提供足够数量的功能组合。但很明显,代工厂的竞争比以往任何时候都要复杂得多,而且情况正在变得更为复杂。在这个高度复杂的世界中,简单的比较指标已不再适用。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码