内存——尤其是DRAM慢慢的变成了人们关注的焦点,因为它发现了自己正处在提高系统性能的关键路上。
这并不是DRAM第一次成为人们关注的焦点。问题是,并不是所有的事情都以相同的速度发展,从处理器性能到晶体管设计,甚至到制造这些设备的技术,所有的事情都出现了串行瓶颈。现在轮到回忆了。
Rambus的IP核心产品营销高级总监Frank Ferro表示:“在瓶颈方面,内存系统再次处于前沿。人工智能正在推动对内存容量和带宽的巨大需求。为了让DRAM市场保持活跃,可能有必要进行规模化、封装,甚至是激进的存储单元(bit-cell)的创新。
为了满足我们对内存的需求,将当前的DRAM扩展到更小的维度以增加容量是一种明显的策略。但是DRAM可能会遇到规模束缚。所以我们就需要新方法。也就是说,DRAM的扩展结束之前已经被错误地预测过了。十多年前,ITRS的路线图说90nm制程将是DRAM的发展趋势。Objective Analysis总负责人Jim Handy表示,我们现在处于16nm (1z)的位置。
DRAM有几种不同的风格,能够吸引不同的应用,甚至在人工智能中也是如此。对于ML训练,HBM是优先的选择。这是一种超过摩尔的方法,将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。
这是一项相对较新的技术,而且这种能力是要付出代价的,但ML-training件制造商愿意为此付出代价。
除了普通的DDR内存,还有最初用于图形的GDDR和用于低功耗的LPDDR。后两者正被应用于汽车中的边缘推理和高级驾驶员辅助系统(ADAS),以寻求容量、延迟、带宽、功率和价格的平衡。
Rambus研究员、著名发明家Steven Woo表示:“DRAM有很多吸引人的特点,包括读写时间、功率和无限的续航能力。”
这些好处是使用DRAM最明显的原因:
内容很容易在字节级访问
访问时间相对较快
读写操作对称
只要电源一直开着,它就可以无限保存数据
耐用
大批量生产的技术,制造成本已经大幅度的降低
这些特性为任何其他想要挑战DRAM的技术或方法设置了很高的门槛。Cadence的IP集团产品营销总监马克 格林伯格(Marc Greenberg)表示,“就其售价而言,这是一项令人震惊的技术,”然而,如果DRAM停止缩放会发生什么呢?跟着时间的推移,这些优势会消失吗?
DRAM扩展
所有DRAM变体的核心是基本存储单元bit cel——电容器。Greenberg 解释:“DRAM绝大多数都是一个模拟电路。它们不会像数字电路那样缩小,”缩放到更小的尺寸意味着缩小电容器的尺寸。这使得每个电容层上剩下的电子更少,这使得存储单元的状态更不稳定。所以,诀窍在于找到一种方法,把更多的电子放到一个占地面积更小的电容器上。
使这成为可能的第一个变化是制造一个垂直型电容器结构而不是一个水平的。这样做才能够使电容器表面垂直放置,使其在不影响芯片表面的情况下生长。但这种增长是有限度的。据TechInsights的退休研究员Dick James介绍,即使是现在,DRAM存储单元的纵横比也高达30:1。Rambus指出,相比之下,迪拜的哈利法塔的高宽比仅为6:1,这仅为迪拜塔的五分之一。
当这些锥形圆柱体的底部缩小,以便更多的东西可以装到芯片上时,高度必须增加,以保持相同的电容器表面积,从而推动长径比。Handy:“超高k电介质能够最终靠增加每区域的电容来进一步利用DRAM,尽管这些材料很难管理。”
简化DRAM位元电容,不按比例放大。先进的纵横比可以是这里所示的两倍。
DRAM已经突破了许多预测的限制,到目前为止,这种情况还在继续。基本比例预计通过1γ(γ)节点的发展。提前1 1α和β,节点之间有1.5到2年, 这花了我们6年的时间。HBM也提供了更大的容量与给定的存储单元。随着堆码技术成本的下降,这也有助于延长DRAM寿命。
除了容量之外,带宽是另一个主要需求。Rambus的Woo表示,这一速度每5到6年就翻一番。虽然这有助于更快地提取内容,但也使线路设计更加精巧。对于记忆内外的信号而言,内存完整性是一个重要的问题。此外,数据速率也对电源构成了挑战。特别是对于ML系统,数据移动是功率的主要贡献因素,因此必须在增加带宽的同时尽量降低功率。
参考建筑技术也有助于更好地利用我们的记忆,部分原因是成本原因。Handy表示,手机已经从使用NOR flash和SRAM转向使用NAND flash和DRAM。这使得设计更具挑战性,但NAND闪存和DRAM的低成本使其值得一做。
虽然这可能会大量使用到DRAM,但另一种技术已经在侵蚀了DRAM市场。事实证明,更大的平均延迟不是通过添加更多的DRAM来实现的,而是通过在快速内存之后添加更多的Flash来实现的。Handy在一个单独的博客中详细说明了原因,因为它不是直观的。
尽管考虑了所有这些因素,DRAM的需求似乎并没有减少,问题仍然是扩展能持续多久,以及之后会发生什么。
一种新的堆叠方法
来自一家名为Tezzaron的公司表示,当HBM利用当前的模具堆叠技术,有一个新的堆叠方法,Tezzaron声称它比当今的技术水平有优势。虽然该技术并不是专门针对内存的,而且Tezzaron也不是专门针对内存的公司,但他们一直在使用DRAM作为这种方法的开发工具。
HBM的挑战在于晶圆片在堆叠之前要进行烧制。这样做是为了确保只有好的骰子被堆叠。因此,骰子必须相对较厚,以承受处理,因为骰子是操纵。由于这种厚度,通孔(TSV)是用来连接的骰子之间的堆栈。
当DRAM存储单元的长径比非常高时,互连的长径比在10:1左右达到顶峰。为了保持物理刚度,晶圆片的厚度不能再低于100μm, 10μm TSV的宽度。为了填充这样一个TSV,铜是必须的材料,作为电镀铜柱。其他金属不能深入到TSV那么深。铜的问题在于它的热膨胀系数(TCE)与周围的硅有很大的不同。因此,当温度变化时,它会在硅上产生显著的应力,这足以改变该区域任何关键晶体管的性能。
因此,每个TSV周围都设立了“隔离”( keep-out)区;电路在几十微米以内是禁止工作的。同时,TSV的间距也具有相同的数量级。Tezzaron的首席营销官David Chapman表示:“这些大一点的TSV会迫使你使用更宽的TSV间距,而且它们必须远离电路。”
Tezzaron的方法是在晶圆层面操作,而不是在模具层面。前两个晶圆通过铜-铜混合键结合。氧化物键首先形成,并提供机械键合压力来产生金属铜键。Chapman:“这种方法最酷的特点是,在退火之前,氧化物键很弱(暂时的),如果第一次尝试结果不令人满意,就能够直接进行校准检查和返工。”这种技术不使用填料、焊料或粘合剂。在两个晶圆片上的SiO2和两个晶圆片上的铜互连之间形成一个分子键。
第一个键合步骤产生一个双晶片叠。其中一边是原始晶片的背面,大约10μm厚度。除了薄的晶圆片与厚的晶圆片结合在一起,使薄的晶圆片保持坚固外,在机械上是非常不稳定的。根据Tezzaron的说法,研磨对键合的完整性没有影响。
这可以用另外两个晶圆片重复,产生两个双晶圆堆叠。然后可以将两个薄的薄片粘在一起(相对于原始的晶圆片,这将是背面对背面的),形成一个四层的薄片堆叠。这样的一个过程的研磨和进一步的堆叠的步骤是可以重复的。当他们都在适当的位置时,产生厚度足以机械稳定的管芯。一个四模叠片的厚度可以和一个标准模片的厚度相同。
堆叠过程从(a)将两个面对面的晶圆片粘接成(b)单个分子结合单元,然后(c)将一边磨下去以暴露超接点。两个这样的单元可以(d)背对背粘合,从而创建(e)一个与标准晶圆片厚度相同的四晶圆片堆叠
另外,根据通孔制作的时间不同, 硅通孔技术(TSV)可大致分为以下四类:(1)在互补金属氧化物半导体(Complementary metal Oxide Semiconductor,CMOS)工艺完成之前,先进行盲孔制作并填充导电材料, 然后对硅片背面减薄露出盲孔开口形成互联,为先通孔工艺;(2)在CMOS工艺和后端工艺(Back end of line,BEOL)之间制作通孔,为中通孔工艺;(3)在BEOL工艺完成之后再制作通孔,当通孔制成后即与电路相连,为后通孔工艺;(4)在硅片减薄、键合后再进行制作硅孔,为键合后通孔工艺。
每个晶片使用10层金属,共80层
通过粘合晶片,它不再可能只与已知切片进行工作。因此,收益率成为一个更重要的考虑因素。Chapman:“没有百分百优质的切片——它们都需要修补。只要切片的质量保持在可修复的范围内,就能够得到合理的成品率。由于可以创建许多超接点来在切片之间进行通信,所以修复方案不必局限于一个切片。Chapman认为,堆叠的晶片越多,就有越多的修复机会,从而提高产量。
产量随层数增加而增加
如何在堆栈中分配晶片,这是一个架构问题。可以在一层上使用存储单元,在另一层上使用高性能逻辑,在第三层上使用SerDes互连。在他们的开发工具(他们称之为DiRAM)中,他们在逻辑进程的底部放上感测放大器,然后在DRAM进程的上层放上位单元。
当DRAM存储单元停止缩放时,这可能是下一个步骤。至于是否会在此之前采取行动,查普曼承认,“这让很多人感到害怕。“Tezzaron已经在小范围内实现了这一点,但它还需要被证明。然而,由于它不使用新设备,也不涉及新物理,因此采用它的障碍比采用一项全新技术的障碍要低。
一项取代DRAM的新技术?
如果要在调整现有的技术和采用全新的技术之间做出合理的选择,技术人员总是会选择已知的技术。只有当所有较容易的道路都走到尽头时,才会容忍更高的风险。DRAM技术已经成熟,产量极高,成本低廉,创造了巨大的市场惯性。
传统观点认为,任何新的内存技术都需要适应DRAM和NAND闪存(存储类内存空间)之间的要求。用新技术完全取代DRAM是一个更大的问题,尽管Handy表示3D Crosspoint (来自英特尔和美光)可能会“削弱”DRAM的销售。
开发人员继续在新的非易失性内存(NVM)上工作,但是如果目标是替换DRAM,而不是扩展它,那么大多数新方法都有一些致命的缺陷。他建议,该行业必须碰壁才能进行转型,需要一两个大客户来迅速提高初始销量,以便将成本降至DRAM的水平。
然而,Nantero正在用一种新的非易失性技术瞄准DRAM。由碳纳米管(CNT)制成,他们称之为NRAM (N代表“纳米管”)。如果它能满足DRAM的其他特性——这是其他NVM还没有做到的——那么它可能会有更大的前景。但要想取得商业上的成功,这种方法还有很长的路要走。Nantero有一个授权客户富士通(Fujitsu),他们使用它作为NVM,而不是DRAM。富士通(Fujitsu)高级市场经理TongSwan Pang表示,这么做的原因不是技术本身,而是DRAM市场的性质,以及许多内存制造商的使用经验。
该技术依靠范德瓦尔斯原子力的作用。在小型分离时,碳纳米管实际上结合在一起,将随机质量的碳纳米管变成电极之间的导体。当它们分开时,传导会中断。静电是用来建立连接的,用电压把它们连接在一起。相反电压产生的热振动破坏了这些连接。Nantero的首席系统架构师Bill Gervasi表示:“相邻的原子通过范德华力相互结合。”
虽然可能有大量的碳纳米管,但只有底部几埃的碳纳米管会发生切换,因此该技术对碳纳米管的厚度不敏感。另一个挑战是,电极上的金属倾向于穿透空间,使电池短路。Gervasi:“IBM和三星尝试过,但失败了;他们试图让整个单元转换。“Nantero所做的是添加了第二层不同种类的CNT。开关层是一个编织的随机物质,而上层有碳纳米管,碳纳米管与碳垫对齐。碳垫作为金属的屏障,保护细胞。
NRAM存储单元示意图
在制造过程中,碳纳米管被纺成晶圆片,然后蚀刻以分离单个晶圆Cell。也可以在一个交叉点阵列中堆叠多层单元组来优化性能。创建的拼接的宽度、深度和高度都达到了预期的性能,才能与DDR4内存时序相匹配。他们的DDR4设备有四层。一旦拼接被设计,它可以重复创造所需的整体能力。
四层交叉点阵列
目前,set和reset之间的电阻差大约是10:1。他们正在努力将这个比例提高到30:1。缩小存储单元的大小是有帮助的,因为它增加了电阻,用更少的电流读取存储单元。他们已经将单元的宽度缩小到了2纳米。
其中,基本单元是一个1R单元(只有一个电阻),但他们也可以用选择晶体管创建1T1R单元。晶体管将被放置在底层的硅上,并与CNT存储单元互连。无论内存大小如何,这都使它们的切换速度达到5ns。Gervasi :“在同样的速度下,DRAM的密度可能是它的16倍,”他们能够最终靠使用一个1T2R单元来提高速度,并为需要性能和能够承受额外成本的应用程序区分感知电流。
虽然数据保留不是易失性内存的典型问题,但他们声称能够将数据保存数百年到数千年,甚至更久。DRAM确实有无限的持久性;Nantero已经测试了他们的方法,1013个读写周期并没有损耗。一些数字表明,如果你每秒写1000次,那么你在300年后就会达到这个极限。
如果这项技术能够证明它的价值,它将为DRAM市场增加强有力的砝码——特别是作为存储类内存的NVM竞争者。(有趣的是,Nantero将其称为内存类存储。)Cadence公司的Greenberg:“这是一项光明的技术。然而,在短期内取代DRAM是不可行的。DRAM的消亡(就像CMOS消亡一样)之前已经被预测过很多次了,但是都没有被预测到,所以我们不能认为在可预见的未来它即将到来。
来源:翻译自semiengineering