基于三维存储器的处理器

文档序号:781146 发布日期:2021-04-09 浏览:7次 >En<

阅读说明:本技术 基于三维存储器的处理器 (Three-dimensional memory based processor ) 是由 张国飙 于 2016-02-13 设计创作,主要内容包括:基于三维存储器的处理器含有多个计算单元,每个计算单元含有一逻辑电路(220)和堆叠在其上的、相邻的第一和第二三维存储阵列(210、230),第一三维存储阵列(210)的所有周边电路(15A、15A`、17A)和第二三维存储阵列(230)的所有周边电路(15B、15B`、17B)均位于逻辑电路(220)外部,并将其包围。第一和第二三维存储阵列(210、230)均与逻辑电路(220)重叠。(A three-dimensional memory based processor contains a plurality of compute units, each compute unit containing a logic circuit (220) and first and second adjacent three-dimensional memory arrays (210, 230) stacked thereon, all peripheral circuits (15A, 15A &#39;, 17A) of the first three-dimensional memory array (210) and all peripheral circuits (15B, 15B&#39;, 17B) of the second three-dimensional memory array (230) being external to and surrounding the logic circuit (220). The first and second three-dimensional memory arrays (210, 230) each overlap the logic circuit (220).)

基于三维存储器的处理器

本申请是申请号为201610083747.7,申请日为2016年2月13日的中国专利申请的分案申请。

技术领域

本发明涉及集成电路领域,更确切地说,涉及处理器。

背景技术

处理器需要进行各种复杂计算。常规处理器仅对常规加法和常规乘法效率较高,但其它计算都需要耗费大量时钟周期才能完成。为此,以往技术提出采用查找表(LUT)来完成部分计算。例如,美国专利5,046,038提出利用LUT来实现除法器、美国专利5,954,787提出用LUT来实现三角函数计算器、美国专利6,263,470提出利用LUT来实现Reed-Solomon解码器等。

下面以美国专利9,207,910来具体描述利用LUT来实现一指数单元。如图1A所示,该指数单元采用两个LUT 210、230。其中,通过LUT A 210可以查找输入x的log(x)值240,然后在乘法器220将log(x)的值与K相乘,获得的积250再通过LUT B 230可以查出x的指数值260。该专利还披露了一种数字处理器DSP 200X,它含有多个平行的指数单元200-1, 2001-2… 200-N,故同时计算多个输入x1, x2… xN的指数。

上述采用LUT的处理器都面临一个共同问题,即LUT 210, 230都采用SRAM存储元,SRAM必须形成在衬底上,其存储元面积很大,占用了大量衬底资源。因此,现有技术采用的LUT的阵列大小不能过大。如专利9,207,910所述,单个LUT的大小一般限制在32kb。因此,现有技术中,LUT的输入变量只能是小字宽,这导致LUT对计算速度的提升有限。当处理器采用大量平行计算时,这些LUT需要被重复多次,这需要耗费大量衬底面积,增加处理器成本。

现有技术的处理器还面临一个问题,由于不同类型计算采用的逻辑电路差别很大,它们完成这些计算所花的时间差别很大。这对于含有多种计算类型的处理器来说,它很难对这些计算进行流水线(pipelining)操作。这对系统性能的整体提升不利。基于上述困难,有必要找到一种大容量、廉价的存储器来为处理器存储LUT。

发明内容

本发明的主要目的是提供一种性能更好的处理器。

本发明的另一目的是提供一种成本更低的处理器。

为了实现这些以及别的目的,本发明提出一种基于三维印录存储器(3D-P)的处理器。3D-P是三维存储器(3D-M)的一种,其存储的信息是在工厂生产过程中采用非电方式录入的,这些信息是永久固定的,一般出厂后不能改变。

由于3D-P存储元不需要实现电编程,其二极管的所有导电能力可以用来读取存储元中所存储的数据。因此,与可以编程的3D-M比较,3D-P的读电流可以增加十倍以上。故3D-P的读延迟为10ns级。如果再采用小阵列(即字线数目小于1024),3D-P的读延迟可以降到ns级。因此,3D-P作为LUT存储器,能满足处理器对速度的要求。

3D-P采用交叉点阵列,其存储元面积为4F2(F为工艺特征尺寸)。加上采用三维集成(可堆叠8层或8层以上),3D-P容量远大于SRAM(SRAM存储元面积为~50F2, 比3D-P存储元大~100倍)。采用3D-P存储LUT后,一个处理器芯片上可以存储数据总量高达1Tb的LUT。这意味着处理器可以携带字宽很大的LUT,这能极大地提高处理器的性能。

更重要的是,3D-P位于衬底电路之上,除了其周边电路以外,3D-P基本不占衬底面积。因此,3D-P可以集成在各种逻辑电路上。因此,3D-P不仅不会增加处理器芯片面积,反而还能减低芯片面积。这对现有技术来说是不可想象的。采用3D-P作为LUT的载体后,还有一个显著优势:无论计算多么复杂,采用LUT后,不同类型的计算时间是结构化,即它们的延迟基本上都是整数倍差异的。这样便于对复杂计算采用流水线操作。

相应地,本发明提出一种基于3D-P的处理器,其特征在于包括:一衬底,该衬底上含有一衬底电路,该衬底电路包括至少一逻辑电路和该3D-P的至少一周边电路;一堆叠在该衬底上的至少一个印录存储层,所述印录存储层的信息在工厂生产过程中录入,所述印录存储层存储一LUT;所述印录存储层通过该周边电路与该逻辑电路耦合,所述逻辑电路和所述查找表构成一计算单元。

附图说明

图1A是一种现有技术中指数单元的电路框图;图1B是一种基于上述指数单元的数字处理器。

图2图是一种三维印录存储器(3D-P)的截面图。

图3是存储层16A中一个3D-P阵列的电路图。

图4比较两种3D-P存储元的I-V特性曲线。

图5是一种3D-P的读延迟和阵列字线数n的关系曲线图。

图6是一种基于3D-P的指数单元,该图为衬底电路之顶视图(即 3D-P阵列已被移除)。

图7A是一种GF加法器的电路框图;图7B是一种基于3D-P的GF加法器,该图为衬底电路之顶视图(即 3D-P阵列已被移除)。

图8A是一种基于指数单元的DSP;图8B是一种基于多个计算单元的DSP。

注意到,这些附图仅是概要图,它们不按比例绘图。为了显眼和方便起见,图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中,相同的符号一般表示对应或类似的结构。

具体实施方式

图2表示一种三维印录存储器(3D-P)。它含有一衬底电路层0K及多个堆叠于其上并相互堆叠的存储层16A、16B。衬底电路层0K含有晶体管0t及其互连线0i。其中,晶体管0t形成在一半导体衬底0中;互连线0i位于衬底0上方。在该实施例中,为了保证衬底电路0K的速度,互连线0i含有3个(或3个以上)互连线层0M1-0M3。每个存储层(如16A)含有多条位线(如2a,沿y方向)、字线(如1a,沿x方向)和存储元(如16Aaa)。存储层(如16A)通过接触通道孔(如1av)与衬底0耦合。这里,衬底电路层0K含有3D-P阵列的周边电路。

图2还显示两种3D-P的存储元16Aaa和16Baa。每个存储元都含有一个二极管14。二极管12具有如下的广义特征:在读电压下,其电阻较小;当外加电压小于读电压或者与读电压方向相反时,其电阻较大。二极管膜可以是P-i-N二极管,也可以是金属氧化物(如TiO2)二极管等。存储元16Baa是一种低阻存储元(一般称为‘1’存储元);存储元16Aaa是一种高阻存储元(一般称为‘0’存储元)。高阻存储元16Aaa比低阻存储元16Baa多含有一层绝缘膜(或高阻膜)12。作为一个简单的例子,绝缘膜12可以是一层二氧化硅膜。由于该高阻绝缘膜12的存在,高阻存储元16Aaa的电阻远高于低阻存储元16Baa。3D-P存储的信息在工厂生产时录入,出厂后不能改写。

图3存储层16A中一个3D-P阵列的电路图。在此图中,有二极管表示低阻存储元,无二极管表示高阻存储元。该阵列中所有地址线是连续的,并不与同一存储层的其它存储阵列共享地址线。相应地,该3D-P阵列有m根位线,n根字线。在该实施例中,字线数目(n)小于位线数目(m);位线和X解码器15耦合,字线和Y解码器/读出电路17耦合。

从 图2和图3可以看出,3D-P采用交叉点阵列,其存储元面积为4F2(F为工艺特征尺寸)。加上采用三维集成(可堆叠8层或8层以上),3D-P容量远大于SRAM(SRAM存储元面积为~50F2, 比3D-P存储元大~100倍)。采用3D-P存储LUT后,一个处理器芯片上可以存储数据总量高达1Tb的LUT。这意味着处理器可以携带字宽很大的LUT,这能极大地提高处理器的性能。

更重要的是,3D-P位于衬底电路之上,除了其周边电路以外,3D-P基本不占衬底面积。因此,3D-P可以集成在各种逻辑电路上。因此,3D-P不仅不会增加处理器芯片面积,反而还能减低芯片面积。这对现有技术来说是不可想象的。

图4比较两种3D-P存储元(‘0’和‘1’)的I-V特性曲线。由于3D-P的存储元是采用非电方式编程的,其‘0’和‘1’存储元具有不同的物理/化学形态(图2的存储元16Aaa和16Baa)。在这个例子中,‘0’和‘1’存储元的I-V曲线有很大不同。3D-P的读与可编程3D-M(即3D-W)很不相同。由于3D-W存储元需要采用电方式编程,其读电压和读电流受到很多限制。而 3D-P不需要电编程,它可以采用较大的读电压V`read,其读电流I`read比3D-W的读电流大一个数量级。也就是说,3D-P的读延迟比3D-W小一个数量级。考虑到3D-W的读延迟为100ns级,3D-P的读延迟为10ns级(假设相同的存储阵列,1k x 1k)(参考专利申请“基于三维存储器的计算系统”)。

图5是一种3D-P的读延迟和阵列字线数n的关系曲线图。3D-P的读延迟与n成正比。如果将n的数目从1k降低到低100级(如200根左右),则3D-P的读延迟还可以进一步降低到ns级。这个速度使3D-P作为LUT存储器,能满足处理器对速度的要求

图6是一种基于3D-P的指数单元200,该图为衬底电路之顶视图(即 3D-P阵列已被移除)。在该图中,LUT A 210的印录存储层(右斜线填充的面积)LUT B 230的印录存储层(左斜线填充的面积)覆盖了乘法器220。输入270通过LUT A 210的X解码器15A、15A`选择所需的对数值,然后读出电路17A输出现有的log(x)值240。经过乘法器与K相乘后,其结果250被送到LUT B 230的X解码器15B、15B`选择相应的指数值,获得最终结果260。注意到, LUTA 210和LUT B 230均有一边,其下方的衬底不含有3D-P的周边电路,这样便于乘法器220布线。

图7A是一种GF加法器的电路框图。该GF加法器300的具体介绍见美国专利申请2006/0123325A1。其中,多项式乘法器310将X、Y相乘,所得积的前7位340被送到LUT 320进行mod计算,后8位360与mod计算的值350在加法器330相加,获得最终结果Z。

图7B是一种基于3D-P的GF加法器,该图为衬底电路之顶视图(即 3D-P阵列已被移除)。与图6类似,多小时乘法器310和加法器均被3D-P阵列320覆盖。该3D-P阵列有一边,其下方的衬底不含有3D-P的周边电路,这样便于衬底逻辑电路与外界接口。

图8A是一种基于指数单元的DSP 200X`。它含有多个平行的指数单元200-1`,2001-2`… 200-N`,它们均采用3D-P作为LUT的存储载体,并同时计算多个输入x1, x2… xN的指数。图8B是一种基于多个计算单元的DSP 200Z`。它含有多种计算单元,包括指数单元200`、GF乘法单元300、除法单元400`等。这些计算单元均采用3D-P作为LUT的存储载体,并进行平行计算。采用3D-P作为LUT的载体后,有一个显著优势:无论计算多么复杂,采用LUT后,不同类型的计算时间是结构化,即它们的延迟基本上都是整数倍差异的。这样便于对复杂计算采用流水线操作。

本发明提出的基于3D-P的处理器应用广泛,使用它的计算单元包括:乘法单元、除法单元、三角函数单元、指数单元、对数单元、GF乘法单元、错误检测及纠正ECC单元、加密单元、解密单元、或函数单元(函数单元可以采用LUT实现任意函数)。它可以应用到各种处理器中,包括:中央处理器CPU、现场编程门阵列FPGA、数字处理器DSP、图像处理器GPU、视频处理器video processor、或通讯处理器modem等。

应该了解,在不远离本发明的精神和范围的前提下,可以对本发明的形式和细节进行改动,这并不妨碍它们应用本发明的精神。因此,除了根据附加的权利要求书的精神,本发明不应受到任何限制。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种处理器的计时方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!