再见,大芯片!HelloChiplet!
再见,⼤芯⽚!HelloChiplet!
看微博的时候好羡慕⼀些博主,可以发 9 格统⼀主题不同内容的照⽚,轮到⾃⼰的时候,怎么也凑不出来。这就是没积累,⼈家的九宫格,是积累出来的,不是⼀天之内拼凑出来的。
不知道是不是每⼀个做市场的⼈,最后都会成为话痨,动辄指点江⼭。反正我的观点呢,也是积久了,必须发九宫格的那种。
⽂章不过是摆事实,提观点,做预测。为了速成,我把观点,放在第⼀章⾥了。因此,简短版,就是第⼀章。
读⽂者请打赏10 块,⼀杯咖啡的钱。(本⽂为此打开原创声明,在⽂末打赏的朋友,将直接⽀持给作者Winnie shao博⼠)
个⼈观点,不代表任何公司。
⽬录
前⾔
1、为什么做chiplet
2、Chiplet 的历史与现状
2.1 AMD
2.1.1 EPYC (Naples)
2.1.2 EPYC (Rome)
2.1.3 Ryzen (Matisse)
2.2 Intel
2.2.1 Altera Stratix 10 FPGA
2.2.2 Lakefield SoC
2.2.3 Barefoot the Tofino 2 chip 7nm plus chiplet switch ASIC
2.3 Xlinix
2.4 Marvell Mochi
2.5 Hisilicon
2.6 HBM
3、Chiplet 的技术挑战
3.1 Interconnect interface 的标准化
3.1.1 DARPA Chips 项⽬
3.1.2 OCP ODSA
3.1.3 OIF,JEDEC,CCIX 和其它
3.2 封装技术
3.2.1 MCM - Multi Chip Module
3.2.2 Interposer
3.2.3 TSV
3.2.4 TSMC CoWoS
3.2.5 Fan-Out Wafer-level packaging
3.2.6 InFo WLP and fan-in WLP
3.2.7 Samsung FOPLP
3.2.8 Intel EMIB
3.2.9 Intel Foveros
3.2.10 价格与性能的折衷
3.2.11 ⾼价值⼩批量的芯⽚
3.2.12 ⼤规模⽣产类型的芯⽚
3.3 KGD&测试
3.4 EDA ⼯具
3.5 多供应商的电源,功耗管理问题
4 Chiplet 的商业模式挑战
参考⽂献
1、为什么做chiplet
这⼀轮chiplet 的风潮,是AMD 引领的。但是绝对不仅仅影响AMD,⽽是冲击了整个半导体⾏业。
其实chiplet 不算是新概念,早在Marvell 在2016 年公布Mochi 架构之前,2014 年海思与TSMC 的CoWoS 合作产品就上了新闻。
为什么要做chiplet,站在不同的位置,动机肯定不同。但是有⼀点有意思的地⽅,这是⼀个以fab 的⾓度,解决摩尔定律失效问题的⽅案,虽然TSMC 并没有把chiplet 当作⼀个新技术突破,⽽是把interposer 当作新技术突破,但半导体业界的其它公司的⽴场各不⼀致。Marvell 最初说的是Mask 太贵,Xilinix 是突破die size 上限(可怕的FPGA 公司),AMD 说良率问
题,Intel 上来就是mix-and-match,⽽Darpa,Facebook,要的是第三⽅
chiplet 的开放繁荣市场。
站在Fab 的位置,⾼良率的收益显著,即使算上封装的开销,其次可以不同⼯艺节点的die 混封,有利于最新⼯艺的销售。⽽且如果把memory 与logic 单元封装在⼀起,⽆论是性能,功耗,还是尺⼨⼤⼩⽅⾯的收益,其实还有管脚(pin)的收益,都是巨⼤,当然,这种情况下,价格就⼩贵了。
因此单纯从⽣产⾓度看,⼤型最先进⼯艺的芯⽚,或者对性能,功耗和尺⼨有超⾼要求,⽽价值⽐较⾼的芯⽚,适合做chiplet 的设计。
Chiplet 是针对超贵芯⽚的⼀种相对省钱设计,在初期。
站在2014 年左右开始chiplet 计划的fabless 的芯⽚设计公司⾓度看,如果公司内部的产品线复杂,例如海思,Marvell,⽽每⼀个产品的数⽬不巨⼤(Marvell 的VP,公开抱怨过苹果与三星,这种公司杀⼊半导体设计产业,造成出货量骤减,新⼯艺⼜贵),chiplet 的重⽤性的好处巨⼤。
在2016 年,Darpa 启动的Chips 项⽬,把这种chiplet Reuse 的想法,推到了整个产业界⾯前。但是AMD 的EYPC 系列的成功,才真正让chiplet 进⼊主流业界视线。
更多的玩家进⼊,更多的设计样本,推动成本的下降,成本的下降推动chiplet ⽣态发展。chiplet 的发展前景如何,特别是独⽴第三chiplet 供应商的商业模式是否成⽴,谁会从中获益,谁会被产业链优化出局,现在尚未可知。
特别是互联⽹公司的介⼊,让这个本⾝就具有颠覆⾏业能⼒的技术,更为特出的重要。
2、Chiplet 的历史与现状
本来应该按时间顺序写,但是我想想,按照公司来写,其实参考性更⾼。⼀个公司的发展路径,是⼀个公司和它的上下游合作伙伴的智慧结晶。半导体⾏业的架构师,多数拿着超过市场平均价的⾼薪,规划着5 年,甚⾄10 年的路标,真是集智慧,对⾏业理解,和对⾏业影响⼒为⼀⾝的强者⼯作。
⽽chiplet 起初是fab 为了解决fab 中的⼀些问题⽽提出来的⽅案,⽽且技术突破的难点都在fab 侧。因此我把fab 的技术发展列为技术挑战,⽽不是历史。
2.1 AMD
2.1.1 EPYC (Naples)
EPYC 是AMD 在服务器CPU 市场上的翻⾝帐开始,在发布会上,AMD 明晃晃的提出打破摩尔定律的限制,这个来⾃fab 的说法。
每个EPYC 处理包括4 个Zeppelin die,使⽤的还是2D 的 MCM (Multi-chip module)封装。AMD 的⾰命性 the Infinity Fabric,不仅仅是die-to-die 的互联总线,还是
processor-to-processor 的互联总线。从这⾥也可以看出来,cache coherent 互联总线设计,和CPU 的设计关系紧密,凡是 cache coherent 互联总线的标准背后都有家CPU的设计公司。
图 2.1 AMD EPYC 1st Gen
Zeppelin die 包含2 个core complex-CCX。⼀个Zeppelin die 做桌⾯产品,2个Zeppelin die 做⾼端桌⾯产品, 4 个Zeppelin die 就是服务器产品。
图 2.2 Zeppelin Die
单独看,每个Zeppelin die 都包括单独的memory, IO complex,infinity
Fabric 的控制与接⼝,下图更清晰⼀点。每个Zeppelin die 是213mm^2,4 个die 就是
852mm^2。AMD 给了如果⽤⼀个single chip 设计的话,die 的⼤⼩⼤约就是777mm^2,也就是说有10%的⾯积损耗,但是777mm^2 ⾮常接近reticle limit size 了。
名词解释 reticle limit size,这是光刻机能够处理的最多的尺⼨。对于193i
immersion steppers 这个限制就是33*26, 856mm2, TSMC 的12nm ⼯艺,估计TSMC 会设置成815 这类数字。
对于单⼀产品的⽣产测试,良率,最后的价格,我相信,AMD 的⼯程师与架构师⼀定反复核算过。Intel 的⼯程师与架构师采取冗余设计来保护single chip 设计,这也是同⼀个die,有不同的核数的原因。这两种⽅式都是在提⾼良率,降低制造成本,以损失性能的代价。
但是如果从公司层⾯看,对于研发成本,⼀个Zeppelin die 可以覆盖服务器和桌⾯两个市场,这个收益明显。想想AMD $6.48 billion 的收⼊,与Intel 的$70.848billion,合情合理。[TSMC 台积电的2018 收⼊是US$32.47 billion]
其实从Intel 的lakefield 上看,10nm CPU/GPU die 加 22nm 的I/O die,尺⼨上的收益明显,重⽤22nm 的I/Odie,对于开放成本,时间,相⽐收益也是不错的。
图 2.3 EPYC(Naples)的架构
最后放⼀张chiplet 的代价。
图2.4 EPYC(Naples)内部带宽
2.1.2 EPYC (Rome)
Rome 的设计,甚⾄⽐Naples 还难做决定。要提⾼IPC,要双倍性能。
⽽且不能再⼀个die,同时兼顾服务器和PC 市场。AMD 试图在⼀个chiplet 上加倍核数(就是说要设计⼀个400+mm^2),然后保持4 个die 的设计,然⽽向现实妥协的结果是9个die 的设计。
⽽且从⼀个chiplet 上包含内存控制器,I/O 和Infinity 互联的接⼝,转变为有⼀个中央集中式I/O 和内存控制器die,⽽且这个集中IOD 仍然有14nm ⼯艺,CCD 仍然保持8 个核的设计。8 个CCD die,⼀个IOD,最⾼核数为64 个。
每个CCD 上的核数,可以根据良率变化,每个SKU 上的chiplet 数⽬也可以选择,因此真正最终产品的核数,有多种组合。
好消息是Rome 的下⼀代Milan 仍然是9die 的设计,有点tock 的意思。⽽且I/Odie 看起来变化不⼤,不知道是不是重⽤旧设计,仅仅升级⼯艺,但是Milan 的CCD 的设计有增强。这也是chiplet 设计的好处,不同的die 可以分离演进。服务器的IOD 和Client 的IOD 也演进为两个设计。
Rome 的CCD 的⾯积是74mm2,包括了3.9B 的transistors。对⽐Zepplin 的CCX⾯积⼤约是88mm2,2.8B 的transistors,感觉改进还是巨⼤的,7nm 的⼯艺进步也是显著的。
Rome 的IOD 有125mm2,
图 2.5 EPYC(Naples)与 EPYC (Rome)
图2.6 EPYC (Rome)
图 2.7 AMD Chiplet 设计路标
2.1.3 Ryzen (Matisse)
我这⾥并不想过多的分析Ryzen,只是想指出,Ryzen 产品线重⽤了 EYPC Rome 的CCD。只是单独配了⼀个Client IOD。
对于产品线复杂的公司,chiplet 设计,极好的降低了总研发费⽤。
图 2.8 Ryzen (Matisse) 架构
图 2.9 Ryzen (Matisse)
2.2 Intel
Intel 真是⼀个复杂的公司,⾸先,它可不是fabless,它是唯⼀⼀家有fab 的半导体设计公司。真⼼想知道,它的这种超强商业模式,在这轮chiplet 浪潮中,会不会受影响呢。
前⾯有说, chiplet 是fab 主导开始的,解决最新⼯艺贵,且良率低,或者超⼤芯⽚到达物理极限的问
题的。Intel 在fab 技术和制定业界标准上都强,EMIB, HBM 的3D 封装, AIB 的总线,Foveros,CXL 这些都是Intel 的出品。
2.2.1 Altera Stratix 10 FPGA
Stratix 10 是Intel 第⼀款使⽤EMIB 的设计,中⼼是FPGA die,周围是6 个
chiplet。4 个⾼速transceiver chiplet 和2 个⾼带宽memory chiplet。这6 个chiplet,是来⾃三个不同fab 的6 个不同⼯艺chiplet,⽤来证明不同fab 之间的强⼤互操作性。
图 2.10 Stratix 10
2.2.2 Lakefield SoC
Stratix 10 是⽤的EMIB,所谓的2.5D 封装技术, Lakefield 亲孩⼦,就是⽤上了3D 封装,当然Intel 重新给它了⼀个名字Foveros。
图 2.11 Lakefield 架构
Lakefield 有两个技术有趣点,⼀是不同核的big.little 混合架构,⼆是
chiplet 设计,⼀个compute die,⼀个base die。Base die,主要是I/O 功能,性能不敏感,因此可以⽤22nm ⼯艺,⽽混合了⼤⼩CPU 核,IPU,GPU 的compute die,会持续演进,⽤
7nm,5nm ⼯艺。
3D Foveros 封装技术,从名字上可以感觉⼀⼆,我们留到技术挑战那章再讲。
2.2.3 Barefoot the Tofino 2 chip 7nm plus chiplet switch ASIC
这是Ethernet Switch(以太⽹交换机)市场的第⼀款分离为chiplet 的设计,broadcom 的7nm Trident 4倒是还是单⽚设计。
Switch ASIC 长期以来都是把模拟和逻辑部分放在⼀起设计的,模拟部分,其实和逻辑部分,演进的时间表完全不同。如果是单芯⽚设计,模拟部分也不得不随着逻辑部分的⼯艺演进前进。如果采⽤chiplet 分离设计,例如Barefoot 的模拟部分,采⽤⽼⼀点的⼯艺,Barefoot 没有透露,因此⼤家从28nm,16nm,12nm 都有猜,逻辑部分则是最新的7nm ⼯艺。
Chiplet 不仅仅带来了模拟部分的⼯艺节省,⽽且还可以通过不同的chiplet 配置,来提供不同的SKU。对⽐传统的单⽚设计,⼲脆disable ⼀部分芯⽚的⽅式,这种chiplet 就经济实惠多了。图2.12 Barefoot 的Tofino2
想想Barefoot 的startup 出⾝,猜有chiplet 的设计,也算是顺理成章。
2.3 Xlinix
讲chiplet FPGA 公司必须有名字。FPGA 公司因其属性和⾼利润性,⼀直是各种先进⼯艺的率先使⽤者。⽽FPGA ⼀开始采⽤Chiplet ⽅案,就是为了打破fab 的物理限制,做超⼤芯⽚。
讲真,其实所有AISC 的新应⽤领域,都是从FPGA 的设计开始的。
2011 Virtex-7 2000T 就是4 个die 的chiplet 设计。⽂献20 中的Xilinx 的⽩⽪书,是⽐较好的对于chiplet 技术的⼀个探讨。Chiplet 并不是⼀个新技术,只是在新⼯艺节点越来越贵,竞争越来越激烈的半导体市场上,⼜重新被⼴泛应⽤了⽽已。
Xilinx 号称提供业界唯⼀的同构和异构的3D IC。
图2.13 virtex-7 系列
2.4 Marvell Mochi
Marvell 提出Mochi 概念,最⼤的驱动⼒是降低成本,模块化芯⽚设计,像LEGO 那样,提⾼模块的重⽤性。借助基本模块的重⽤,还能在保持灵活性的同时,加快新产品的上市时间。
图2.14 Mochi 应⽤的案例智能⼿机
2015 年当时的Marvell CEO Sehat Sutardja 估计到2018 年开⼀个Mask 的价格是$10million (我也不知道这个价格,是不是对,知道的同志们,可以吱⼀声),因此要有25M 的出货量的产品,ROI 才合算。不知道⼤家对25M 这个数字是否有感觉,但是基本上,服务器(约
12M),4G (约7M),汽车(86M)这种市场就不⽤考虑最新⼯艺了。
图2.15 芯⽚研发成本
Marvell 采⽤了Kandou Glasswing IP 作为die-to-die 的接⼝,⽽Kandou 依然⾮常活跃在chiplet 的互联标准组织中。但是这个chiplet 互联标准,是⼀个新⽣态的核⼼标准,竞争者众多。
2.5 Hisilicon
海思的第⼀⽚公开的chiplet 设计,就是2014 年TSMC 16nm FinFet ⽹络芯⽚。这个时间,这个⼯艺,这个CoWoS,都是闪闪亮的顶配。
左右3d怎么看
图2.16 CoSoW
海思因为其属性,公开消息并不多。往往是因为合作伙伴,需要展⽰⾃⼰的技术突破,海思才被迫营业,站台⽰众。这个海思1616 就是这样挂在TSMC 的⽹站上的。
晟腾910 的8 个chiplet 设计,融合了HBM die,逻辑部分与I/O 部分分离,两个dummydie,超⼤总die size 等特点。也算是业界标杆性设计。
图 2.17 Ascend910
2.6 HBM
HBM 从设计开始就是3D 封装的,因此有些讨论chiplet 的⽂章,并不包括HBM。但是在我看来,凡是采取多die 封装的,都算是chiplet 的范畴。Memory die 也是chiplet,⽽且memory 公司卖Known good die 的历史蛮长。
2016 年 AMD Radeon R9 Fury X 是第⼀个采⽤HBM 的芯⽚。Nvidia 紧随其后。
Fujitsu 的PostK supercomputer 设计,也采⽤了CPU die 与HBM ⼀起封装的设计,因此A64FX 芯⽚的管脚,要⽐⼀般的芯⽚精简不少。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。