基于三维存储器的处理器

文档序号：781146 发布日期：2021-04-09 浏览：7次 >En<

阅读说明：本技术 基于三维存储器的处理器 (Three-dimensional memory based processor ) 是由张国飙于 2016-02-13 设计创作，主要内容包括：基于三维存储器的处理器含有多个计算单元,每个计算单元含有一逻辑电路(220)和堆叠在其上的、相邻的第一和第二三维存储阵列(210、230),第一三维存储阵列(210)的所有周边电路(15A、15A`、17A)和第二三维存储阵列(230)的所有周边电路(15B、15B`、17B)均位于逻辑电路(220)外部,并将其包围。第一和第二三维存储阵列(210、230)均与逻辑电路(220)重叠。(A three-dimensional memory based processor contains a plurality of compute units, each compute unit containing a logic circuit (220) and first and second adjacent three-dimensional memory arrays (210, 230) stacked thereon, all peripheral circuits (15A, 15A ', 17A) of the first three-dimensional memory array (210) and all peripheral circuits (15B, 15B', 17B) of the second three-dimensional memory array (230) being external to and surrounding the logic circuit (220). The first and second three-dimensional memory arrays (210, 230) each overlap the logic circuit (220).)

基于三维存储器的处理器

本申请是申请号为201610083747.7，申请日为2016年2月13日的中国专利申请的分案申请。

技术领域

本发明涉及集成电路领域，更确切地说，涉及处理器。

背景技术

处理器需要进行各种复杂计算。常规处理器仅对常规加法和常规乘法效率较高，但其它计算都需要耗费大量时钟周期才能完成。为此，以往技术提出采用查找表（LUT）来完成部分计算。例如，美国专利5,046,038提出利用LUT来实现除法器、美国专利5,954,787提出用LUT来实现三角函数计算器、美国专利6,263,470提出利用LUT来实现Reed-Solomon解码器等。

下面以美国专利9,207,910来具体描述利用LUT来实现一指数单元。如图1A所示，该指数单元采用两个LUT 210、230。其中，通过LUT A 210可以查找输入x的log(x)值240，然后在乘法器220将log(x)的值与K相乘，获得的积250再通过LUT B 230可以查出x的指数值260。该专利还披露了一种数字处理器DSP 200X，它含有多个平行的指数单元200-1, 2001-2… 200-N，故同时计算多个输入x₁, x₂… x_N的指数。

上述采用LUT的处理器都面临一个共同问题，即LUT 210, 230都采用SRAM存储元，SRAM必须形成在衬底上，其存储元面积很大，占用了大量衬底资源。因此，现有技术采用的LUT的阵列大小不能过大。如专利9,207,910所述，单个LUT的大小一般限制在32kb。因此，现有技术中，LUT的输入变量只能是小字宽，这导致LUT对计算速度的提升有限。当处理器采用大量平行计算时，这些LUT需要被重复多次，这需要耗费大量衬底面积，增加处理器成本。

现有技术的处理器还面临一个问题，由于不同类型计算采用的逻辑电路差别很大，它们完成这些计算所花的时间差别很大。这对于含有多种计算类型的处理器来说，它很难对这些计算进行流水线（pipelining）操作。这对系统性能的整体提升不利。基于上述困难，有必要找到一种大容量、廉价的存储器来为处理器存储LUT。

发明内容

本发明的主要目的是提供一种性能更好的处理器。

本发明的另一目的是提供一种成本更低的处理器。

为了实现这些以及别的目的，本发明提出一种基于三维印录存储器（3D-P）的处理器。3D-P是三维存储器（3D-M）的一种，其存储的信息是在工厂生产过程中采用非电方式录入的，这些信息是永久固定的，一般出厂后不能改变。

由于3D-P存储元不需要实现电编程，其二极管的所有导电能力可以用来读取存储元中所存储的数据。因此，与可以编程的3D-M比较，3D-P的读电流可以增加十倍以上。故3D-P的读延迟为10ns级。如果再采用小阵列（即字线数目小于1024），3D-P的读延迟可以降到ns级。因此，3D-P作为LUT存储器，能满足处理器对速度的要求。

3D-P采用交叉点阵列，其存储元面积为4F²（F为工艺特征尺寸）。加上采用三维集成（可堆叠8层或8层以上），3D-P容量远大于SRAM（SRAM存储元面积为~50F²，比3D-P存储元大~100倍）。采用3D-P存储LUT后，一个处理器芯片上可以存储数据总量高达1Tb的LUT。这意味着处理器可以携带字宽很大的LUT，这能极大地提高处理器的性能。

更重要的是，3D-P位于衬底电路之上，除了其周边电路以外，3D-P基本不占衬底面积。因此，3D-P可以集成在各种逻辑电路上。因此，3D-P不仅不会增加处理器芯片面积，反而还能减低芯片面积。这对现有技术来说是不可想象的。采用3D-P作为LUT的载体后，还有一个显著优势：无论计算多么复杂，采用LUT后，不同类型的计算时间是结构化，即它们的延迟基本上都是整数倍差异的。这样便于对复杂计算采用流水线操作。

相应地，本发明提出一种基于3D-P的处理器，其特征在于包括：一衬底，该衬底上含有一衬底电路，该衬底电路包括至少一逻辑电路和该3D-P的至少一周边电路；一堆叠在该衬底上的至少一个印录存储层，所述印录存储层的信息在工厂生产过程中录入，所述印录存储层存储一LUT；所述印录存储层通过该周边电路与该逻辑电路耦合，所述逻辑电路和所述查找表构成一计算单元。

附图说明

图1A是一种现有技术中指数单元的电路框图；图1B是一种基于上述指数单元的数字处理器。

图2图是一种三维印录存储器（3D-P）的截面图。

图3是存储层16A中一个3D-P阵列的电路图。

图4比较两种3D-P存储元的I-V特性曲线。

图5是一种3D-P的读延迟和阵列字线数n的关系曲线图。

图6是一种基于3D-P的指数单元，该图为衬底电路之顶视图（即 3D-P阵列已被移除）。

图7A是一种GF加法器的电路框图；图7B是一种基于3D-P的GF加法器，该图为衬底电路之顶视图（即 3D-P阵列已被移除）。

图8A是一种基于指数单元的DSP；图8B是一种基于多个计算单元的DSP。

注意到，这些附图仅是概要图，它们不按比例绘图。为了显眼和方便起见，图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中，相同的符号一般表示对应或类似的结构。

具体实施方式

图2表示一种三维印录存储器（3D-P）。它含有一衬底电路层0K及多个堆叠于其上并相互堆叠的存储层16A、16B。衬底电路层0K含有晶体管0t及其互连线0i。其中，晶体管0t形成在一半导体衬底0中；互连线0i位于衬底0上方。在该实施例中，为了保证衬底电路0K的速度，互连线0i含有3个（或3个以上）互连线层0M1-0M3。每个存储层（如16A）含有多条位线（如2a，沿y方向）、字线（如1a，沿x方向）和存储元（如16Aaa）。存储层（如16A）通过接触通道孔（如1av）与衬底0耦合。这里，衬底电路层0K含有3D-P阵列的周边电路。

图2还显示两种3D-P的存储元16Aaa和16Baa。每个存储元都含有一个二极管14。二极管12具有如下的广义特征：在读电压下，其电阻较小；当外加电压小于读电压或者与读电压方向相反时，其电阻较大。二极管膜可以是P-i-N二极管，也可以是金属氧化物（如TiO₂）二极管等。存储元16Baa是一种低阻存储元（一般称为‘1’存储元）；存储元16Aaa是一种高阻存储元（一般称为‘0’存储元）。高阻存储元16Aaa比低阻存储元16Baa多含有一层绝缘膜（或高阻膜）12。作为一个简单的例子，绝缘膜12可以是一层二氧化硅膜。由于该高阻绝缘膜12的存在，高阻存储元16Aaa的电阻远高于低阻存储元16Baa。3D-P存储的信息在工厂生产时录入，出厂后不能改写。

图3存储层16A中一个3D-P阵列的电路图。在此图中，有二极管表示低阻存储元，无二极管表示高阻存储元。该阵列中所有地址线是连续的，并不与同一存储层的其它存储阵列共享地址线。相应地，该3D-P阵列有m根位线，n根字线。在该实施例中，字线数目(n)小于位线数目(m)；位线和X解码器15耦合，字线和Y解码器/读出电路17耦合。

从图2和图3可以看出，3D-P采用交叉点阵列，其存储元面积为4F²（F为工艺特征尺寸）。加上采用三维集成（可堆叠8层或8层以上），3D-P容量远大于SRAM（SRAM存储元面积为~50F²，比3D-P存储元大~100倍）。采用3D-P存储LUT后，一个处理器芯片上可以存储数据总量高达1Tb的LUT。这意味着处理器可以携带字宽很大的LUT，这能极大地提高处理器的性能。

更重要的是，3D-P位于衬底电路之上，除了其周边电路以外，3D-P基本不占衬底面积。因此，3D-P可以集成在各种逻辑电路上。因此，3D-P不仅不会增加处理器芯片面积，反而还能减低芯片面积。这对现有技术来说是不可想象的。

图4比较两种3D-P存储元（‘0’和‘1’）的I-V特性曲线。由于3D-P的存储元是采用非电方式编程的，其‘0’和‘1’存储元具有不同的物理/化学形态（图2的存储元16Aaa和16Baa）。在这个例子中，‘0’和‘1’存储元的I-V曲线有很大不同。3D-P的读与可编程3D-M（即3D-W）很不相同。由于3D-W存储元需要采用电方式编程，其读电压和读电流受到很多限制。而 3D-P不需要电编程，它可以采用较大的读电压V`_read，其读电流I`_read比3D-W的读电流大一个数量级。也就是说，3D-P的读延迟比3D-W小一个数量级。考虑到3D-W的读延迟为100ns级，3D-P的读延迟为10ns级（假设相同的存储阵列，1k x 1k）（参考专利申请“基于三维存储器的计算系统”）。

图5是一种3D-P的读延迟和阵列字线数n的关系曲线图。3D-P的读延迟与n成正比。如果将n的数目从1k降低到低100级（如200根左右），则3D-P的读延迟还可以进一步降低到ns级。这个速度使3D-P作为LUT存储器，能满足处理器对速度的要求

图6是一种基于3D-P的指数单元200，该图为衬底电路之顶视图（即 3D-P阵列已被移除）。在该图中，LUT A 210的印录存储层（右斜线填充的面积）LUT B 230的印录存储层（左斜线填充的面积）覆盖了乘法器220。输入270通过LUT A 210的X解码器15A、15A`选择所需的对数值，然后读出电路17A输出现有的log(x)值240。经过乘法器与K相乘后，其结果250被送到LUT B 230的X解码器15B、15B`选择相应的指数值，获得最终结果260。注意到， LUTA 210和LUT B 230均有一边，其下方的衬底不含有3D-P的周边电路，这样便于乘法器220布线。

图7A是一种GF加法器的电路框图。该GF加法器300的具体介绍见美国专利申请2006/0123325A1。其中，多项式乘法器310将X、Y相乘，所得积的前7位340被送到LUT 320进行mod计算，后8位360与mod计算的值350在加法器330相加，获得最终结果Z。

图7B是一种基于3D-P的GF加法器，该图为衬底电路之顶视图（即 3D-P阵列已被移除）。与图6类似，多小时乘法器310和加法器均被3D-P阵列320覆盖。该3D-P阵列有一边，其下方的衬底不含有3D-P的周边电路，这样便于衬底逻辑电路与外界接口。

图8A是一种基于指数单元的DSP 200X`。它含有多个平行的指数单元200-1`,2001-2`… 200-N`，它们均采用3D-P作为LUT的存储载体，并同时计算多个输入x₁, x₂… x_N的指数。图8B是一种基于多个计算单元的DSP 200Z`。它含有多种计算单元，包括指数单元200`、GF乘法单元300、除法单元400`等。这些计算单元均采用3D-P作为LUT的存储载体，并进行平行计算。采用3D-P作为LUT的载体后，有一个显著优势：无论计算多么复杂，采用LUT后，不同类型的计算时间是结构化，即它们的延迟基本上都是整数倍差异的。这样便于对复杂计算采用流水线操作。

本发明提出的基于3D-P的处理器应用广泛，使用它的计算单元包括：乘法单元、除法单元、三角函数单元、指数单元、对数单元、GF乘法单元、错误检测及纠正ECC单元、加密单元、解密单元、或函数单元（函数单元可以采用LUT实现任意函数）。它可以应用到各种处理器中，包括：中央处理器CPU、现场编程门阵列FPGA、数字处理器DSP、图像处理器GPU、视频处理器video processor、或通讯处理器modem等。

应该了解，在不远离本发明的精神和范围的前提下，可以对本发明的形式和细节进行改动，这并不妨碍它们应用本发明的精神。因此，除了根据附加的权利要求书的精神，本发明不应受到任何限制。

14页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种处理器的计时方法及装置

基于三维存储器的处理器

相关技术

网友询问留言