用于面积受限硬件的低深度AES SBox架构

文档序号：1895332 发布日期：2021-11-26 浏览：25次 >En<

阅读说明：本技术 用于面积受限硬件的低深度AES SBox架构 (Low-depth AES SBox architecture for area-constrained hardware ) 是由 P·埃克达尔 A·马克西莫夫于 2020-03-06 设计创作，主要内容包括：一种替换盒SBox电路(300,500),当被包括在密码电路中时执行SBox计算步骤。该SBox电路(300,500)包括：第一电路部分(301,503),其包括根据8位输入信号(U)来生成4位第一输出信号(Y)的数字电路；第二电路部分(303,505),其被配置为与第一电路部分(301)并行地操作,并根据8位输入信号(U)来生成32位第二输出信号(L),其中,32位第二输出信号(L)包括四个8位子结果；以及第三电路部分(305),其被配置为通过将四个8位子结果中的每一个8位子结果与4位第一输出信号(Y)的相应的一个位进行标量相乘来产生四个初步的8位结果(K),以及通过将四个初步的8位结果(K)相加来产生8位输出信号(R)。第一电路部分(301,503)被配置为通过执行包括第一线性矩阵运算(307)、伽罗瓦域GF乘法(309)、以及GF求逆(311)的计算,根据输入信号(U)来生成4位第一输出信号(Y)；以及第二电路部分(303,505)被配置为通过执行包括第二线性矩阵运算的计算,根据输入信号(U)来生成第二输出信号(L)。(A substitution box SBox circuit (300, 500) performs SBox calculation steps when included in a cryptographic circuit. The SBox circuit (300, 500) includes: a first circuit portion (301, 503) comprising a digital circuit for generating a 4-bit first output signal (Y) from an 8-bit input signal (U); a second circuit part (303, 505) configured to operate in parallel with the first circuit part (301) and to generate a 32-bit second output signal (L) from the 8-bit input signal (U), wherein the 32-bit second output signal (L) comprises four 8-bit sub-results; and a third circuit portion (305) configured to generate four preliminary 8-bit results (K) by scalar multiplying each of the four 8-bit sub-results with a respective one bit of the 4-bit first output signal (Y), and to generate an 8-bit output signal (R) by adding the four preliminary 8-bit results (K). The first circuit part (301, 503) is configured to generate a 4-bit first output signal (Y) from the input signal (U) by performing a calculation comprising a first linear matrix operation (307), a galois field GF multiplication (309), and a GF inversion (311); and the second circuit portion (303, 505) is configured to generate the second output signal (L) from the input signal (U) by performing a calculation comprising a second linear matrix operation.)

技术领域

在此呈现的实施例涉及设备、其中的方法、控制器、计算机程序、以及计算机程序产品。具体而言，它们涉及以下

技术领域

/关键字并与之关联：高级加密标准AES、SBox、硬件实现、关键路径。

背景技术

技术背景/现有技术

高级加密标准(AES)是美国国家标准与技术研究院(NIST)标准化的加密算法，是当今使用最广泛的加密算法之一。它被用于保护TLS协议中的Web流量，并且也用于3GPPLTE系统中作为三种空中接口加密方法之一。

AES的硬件实现也很常见，尤其是在诸如LTE网络之类的高速应用中，但是同样在数据通信(Datacom)中，对硬件加速加密算法的需求对于直接在网络接口卡(NIC)中终接加密网络流量并且从而减轻主CPU的负载的高负载服务器至关重要。

AES加密算法在[1]中有详细描述，但将在此对其进行非常简要的介绍。AES是一种采用两个输入变量(明文(P)和密钥(K))的块密码，并产生密文(C)作为输出。P和C的大小决定了密码的块大小，在AES的情况下，这是128位，因此P和C的大小都是128位。密钥K的大小可以是128、192或256位。输入P被分成16个字节，并且排列成4×4个字节的矩阵形式，称为状态矩阵。该算法包括对状态矩阵执行的一系列运算，从而将明文越来越多地加扰成最终的密文输出。这些运算在所谓的轮次中被分组在一起。AES中的每一轮执行以下运算：SubBytes、ShiftRows、MixColumns、以及AddRoundKey。取决于K的大小(128、192或256位)，该算法执行10、12或14轮这些轮次。对于硬件实现，每轮之间的状态矩阵通常被存储在某种寄存器(触发器或锁存器)中。这意味着对电路进行钟控的最大钟控速度是由信号能够从一个寄存器移动到下一个寄存器的速度来决定的。信号的速度主要取决于信号在被存储在锁存器中之间必须经过的门数。信号经过的门数通常被称为信号的深度，或路径深度。电路的关键路径是电路中的任何组成信号的最长路径(要经过的门最多)。

本公开重点将放在AES的所谓的SBox或替换盒(substitution box)上，它是SubBytes运算的基本构造块。它也是门数最多、轮函数深度最高的运算。因此，最小化用于实现它的门数以及该电路的深度是一个有趣且有价值的研究目标。最小化门数减少电路的面积和功耗，并且如前所述，最小化关键路径增大算法的可能钟控速率，从而使加密/解密更快。

AES SBox的高效硬件设计是一个深入研究的课题。如果期望绝对最大速度，最有可能使用的是简单的表查询实现，这自然导致面积较大。在许多实际情况下，加密子系统的物理面积是有限的，设计人员无法为AES轮次中涉及的SBox实现表查找，尤其是在FPGA中实现时。对于这些情况，需要研究如何仅使用逻辑门来实现AES SBox，重点关注面积和最大钟控速度。电路的最大钟控速度由以下项决定：电路的关键路径或深度；从输入信号的变化中获得稳定的输出信号所花费的最坏情况时间。

实现AES时的另一方面是需要逆向密码。块密码的许多运算模式仅使用加密功能，因此不需要逆向密码。如果需要正向SBox和逆向SBox两者，组合这两个电路通常是有益的。这是因为AES SBox的主要运算是域元素求逆，这自然是它自己的逆，期望两个电路的许多门可以被共享。

图1是SBox电路101的框图，该电路有利地用于AES电路中以将8位输入103映射到8位输出105。

在电路级别，SBox 101定义了8个布尔函数，每个函数以8个位作为输入。从数学的角度来看，正向AES SBox被定义为非线性函数I(g)和仿射函数A(g)的组合，使得SBox(g)＝A(I(g))。非线性函数I(g)＝g^-1是由不可约多项式x⁸+x⁴+x³+x+1定义的有限域GF(2^8)中的元素g的乘法逆。构造GF(2^8)上的逆的电路非常大，因此期望将其最小化。

Rijmen[2]描述了朝着小面积实现的第一步。该理念是通过对GF((2⁴)²)进行基变换，GF(2⁸)中的逆向计算可以被简化为子域GF(2⁴)中简单得多的逆向计算。

2001年，Satoh等人发表的[3]使此理念更进一步，并将逆向计算简化到子域GF(2²)。这种方法被称为塔域构造。2005年，Canright发表的[4]以Satoh等人的工作为基础，研究了子域表示的重要性，测试了导致最小面积设计的许多不同的同构。此构造可能是面积受限的组合AES SBox的最常被引用和使用的实现。

在一系列论文中，Boyar、Peralta等人针对子域反相器(inverter)以及最小化逻辑电路面积的新启发法两者提出了一些非常有趣的理念[8、9、10、11]。他们在GF(2⁴)上导出了一个深度为4且门数仅为17的反相器。[10]中的构造是本发明的起点。

在Boyar之后，其他几篇论文关注低深度实现，例如[5]。2018年，Reyhani等人的两篇论文[12、6]介绍了正向SBox和组合SBox两者的最著名实现(到目前为止)。

理论上比较结果

首先，介绍本文使用的记法。门名称以大写字母GATE书写(例如：“与”AND、“或”OR)。记法mGATEn表示类型为GATE的m个门，每个门有n个输入(例如：XOR4、8XOR4、NAND3、2AND2)。当输入数n缺失时，假设门具有最小输入数，通常只有2(MUX为3)。

1.标准方法

标准方法中考虑的基本基元元素是：{XOR，XNOR，AND，NAND，OR，NOR，MUX，NMUX，NOT}。

NOT门(“非”门)的协商。在电路的某些位置，需要使用信号的反相版本。然而，有很多方法来协商使用NOT门的需要。在此列出了其中的一些。

方法1.协商NOT门的一种方法是更改生成该信号的前一个门以替代地产生反相信号。例如，将“异或”XOR切换成“同或”XNOR，将“与”AND切换成“与非”NAND等。

方法2.在各种技术中，有些门可以产生正信号和其反相版本。例如，许多实现中的XOR门同时产生这两种信号，因此反相值是可用的。

方法3.可以在反相信号之后更改后续的门，以使得在给定反相输入的情况下，后续的方案将产生正确的结果。

综上所述，认为用标准方法对电路求值时可忽略NOT门；在标准方法中，它们几乎不能算作全门(full gate)。但是，为了完整性，结果表中包含了NOT门的数量。不过，其中一些NOT门可以进一步被协商。

在标准方法中，电路面积是通过对基本基元的数量进行计数来计算的，基本基元之间没有任何大小区别。NOT门被忽略。深度是根据电路路径上基本基元的数量来计数的。因此，电路的总深度是关键路径的延迟。NOT门被忽略。

2.技术方法

面积.存在来自不同供应商(英特尔、三星等)的许多ASIC技术(90nm、45nm、14nm等)，这些技术具有不同的特性。为了开发ASIC，需要获得特定技术的“标准基元库”，该库通常包括比上面列出的标准元素大得多的基元，使得设计有更广泛的构造基元选择。

然而，即使考虑标准基元，例如XOR，对于不同的技术而言，该基元也具有不同的面积和延迟。这加大了比较由两个团队开发的相同逻辑的两个电路(当这些团队选择应用不同的技术时)的难度。

为了公平比较学术界各种解决方案的电路面积，通常使用术语“门等效(GE)”，其中1GE是最小NAND门的大小。然后，电路大小(就GE而言)被计算为面积(电路)/面积(NAND)→t GE。了解每个标准或技术基元的估计GE值使得能够计算就GE而言的电路的估计面积大小。尽管各种技术对于标准基元具有略微不同的GE，但这些GE数字仍然相当接近。对于本公开，已决定使用由三星的STD90/MDL90 0.35μm 3.3V CMOS技术[7]数据手册中给出的GE值。要使用的基元没有速度x因子。

深度.不同的基元(如XOR和NAND)不仅在GE方面不同，而且在门的最大延迟方面也不同。

通常，数据手册包括每个门以及每个输入-输出组合的延迟(例如，以ns为单位)tPHL和tPLH。切换特性{tPHL、tPLH}被计算为在输入切换50％电压阈值的时间与输出信号从高到低(tPHL)或从低到高(tPLH)切换50％的电压的时间之间的差。在此建议通过XOR门的延迟对所有被使用的门的延迟进行归一化。即，在关键路径的测量中采用XOR门的最坏情况延迟作为1个单位。然后查看每个标准基元，并针对该基元的所有输入-输出路径而选择最大的切换特性{tPHL、tPLH}。然后，它们被除以XOR门的最大延迟，从而获得所使用的每个门的归一化延迟单位。

对于多路复用器(MUX和NMUX)，选择位的传播延迟被忽略，因为在大多数情况下，选择位通常是电路的输入。例如，在组合SBox中，选择位控制计算正向SBox还是逆向SBox，该选择已准备好并且不在电路信号传播时切换，因此它是一个稳定信号。

上面提出的方法类似于GE的理念，但被用于计算电路的深度，以XOR延迟被归一化。选择XOR作为延迟计数的基本元素的原因是电路最有可能有很多XOR门，因此现在可以比较标准方法与技术方法之间的深度。

先前的工作

1.正向SBox

使用最广泛的设计来自Canright在2005年发表的[4]。2005年以后，在正向SBox的速度和面积方面已经进行了多次改进设计的尝试。Boyar等人在2012年发表的[10]中构造了先前最小的已知实现，而Ueno等人在2015年发表的[5]具有最短关键路径的纪录。最近，Reyhani等人提出了更好地平衡面积速度权衡的新构造[12]。先前的结果总结在表1中。

表1.正向SBox的先前结果。

2.组合SBox

使用最广泛的设计来自Canright在2005年发表的[4]。该设计的主要缺点是相对较大的关键路径(大深度)。2005年以后，在速度和面积方面也有很多改进设计的尝试，但几乎所有人都只专注于实现正向SBox。这在仅使用算法的加密部分的特定运算模式下具有相关性。2018年，Reyhani等人发表的[6]中公开了关于组合SBox的新结果。它提高了速度和深度两者。先前的结果总结在表2中。

表2.组合SBox的先前结果。

现有解决方案的问题

在此描述的技术的本质是它能够在关键路径方面做得好得多。因此，使用本文公开的优化的实现能够以高于先前实现的频率被钟控，从而加速加密和解密，或者在ASIC或FPGA中使用比例如表查找更少的基元来实现。随着通信速度的提高和物联网(IoT)设备越来越小，对硬件中面积优化后的加密算法的需求越来越大，这将变得越来越重要。

发明内容

在硬件中实现加密算法时，决定可能的钟控速度的主要参数是设计的深度(或关键路径)。对于高级加密标准(AES)[1]，此路径由SBox子组件主导。因此，目标是为SBox找到给出尽可能低的深度的布尔表达式。对于面积受限的ASIC，保持SBox的面积小也很重要。

根据本发明的一个方面，上述和其他目标通过实现SBox功能的技术(例如，方法、装置、非暂时性计算机可读存储介质、程序装置，例如当被包括在密码电路中时)达成。在一些实施例的一个方面，一种SBox电路包括第一电路部分、第二电路部分、以及第三电路部分。所述第一电路部分包括根据8位输入信号(U)来生成4位第一输出信号(Y)的数字电路。所述第二电路部分被配置为与所述第一电路部分并行地操作，并根据所述8位输入信号(U)来生成32位第二输出信号(L)，其中，所述32位第二输出信号(L)包括四个8位子结果。所述第三电路部分被配置为通过将所述四个8位子结果中的每一个8位子结果与所述4位第一输出信号(Y)的相应的一个位进行标量相乘来产生四个初步的8位结果(K)，以及通过将所述四个初步的8位结果(K)相加来产生8位输出信号(R)。此外，所述第一电路部分被配置为通过执行包括第一线性矩阵运算、伽罗瓦域GF乘法、以及GF求逆的计算，根据所述输入信号(U)来生成所述4位第一输出信号(Y)；以及所述第二电路部分被配置为通过执行包括第二线性矩阵运算的计算，根据所述输入信号(U)来生成所述第二输出信号(L)。

在与本发明一致的一些实施例但不一定是全部实施例的一个方面，所述第三电路部分包括根据下式执行计算的数字电路：

R＝Y₀·M₀·U⊕...⊕Y₃·M₃·U，

其中：

每个M_i是一个8×8矩阵，表示所述8位输入U上的8个线性方程，

i＝0..3，

L＝M₀·U||M₁·U||M₂·U||M₃·U，

⊕表示“异或”XOR运算，以及

||表示并置。

在与本发明一致的一些实施例但不一定是全部实施例的另一方面，所述第一电路部分、所述第二电路部分以及所述第三电路部分中的每一个是从选自以下任何一项或多项的数字电路来配置的：

“异或”XOR门；

“同或”XNOR门；

“与”AND门；

“与非”NAND门；

“或”OR门；

“或非”NOR门；

多路复用器MUX；

NMUX门；

“非”NOT门；

“与或”反相器AOI；以及

“或与”反相器OAI。

在与本发明一致的一些实施例但不一定是全部实施例的另一方面，所述第一电路部分和所述第二电路部分被配置为根据正向SBox运算来生成所述4位第一输出信号(Y)和所述32位第二输出信号(L)。

在与本发明一致的一些实施例但不一定是全部实施例的另一方面，所述第一电路部分(301，503)和所述第二电路部分(303，505)被配置为根据逆向SBox运算来生成所述4位第一输出信号(Y)和所述32位第二输出信号(L)。

在与本发明一致的一些实施例但不一定是全部实施例的另一方面，所述第一电路部分和所述第二电路部分被配置为根据正向SBox运算来生成所述4位第一输出信号(Y)和所述32位第二输出信号(L)；并且所述SBox电路还包括第四电路部分、第五电路部分、以及选择电路。所述第四电路部分包括根据所述8位输入信号(U)来生成替代的4位输出信号(Y_alt)以用于逆向SBox运算的数字电路。所述第五电路部分被配置为与所述第四电路部分并行地操作，并根据所述8位输入信号(U)来生成替代的32位第二输出信号(L_alt)以用于所述逆向SBox运算，其中，所述替代的32位第二输出信号(L_alt)包括四个8位子结果。所述选择电路可控制以在正向SBox运算被选择时将所述第一电路部分和所述第二电路部分相接合，以及在逆向SBox运算被选择时将所述第四电路部分和所述第五电路部分相接合。

如上所述，与本发明一致的实施例的各方面(例如上面描述的那些方面)可以替代地体现为其他形式，例如但不限于方法、非暂时性计算机可读存储介质、以及程序装置(例如，计算机程序产品)。

附图说明

当结合附图阅读以下详细说明时，将理解本发明的目标和优点，其中：

图1是将8位输入映射到8位输出的SBox电路的框图；

图2是SBox的经典架构的框图；

图3A和3B是分别描绘根据本发明的SBox的第一替代实施例和第二替代实施例的框图；

图4是传统SBox架构的框图；

图5是与本发明一致的SBox架构的框图；

图6描绘了示出正向SBox的不同实施例的合成结果的一组图；

图7描绘了示出组合SBox的不同实施例的合成结果的一组图；

图8是在一个方面中由与本发明一致的实施例执行的动作的流程图；

图9示出了均与本发明的各方面一致的计算机程序、计算机可读存储介质、以及计算机程序产品。

具体实施方式

描述方法和装置的实施例对于具有在本公开中讨论的特征和可能性的所有技术都是有效的。本文所述的实施例用作非限制性示例。

为了便于更好地理解本文所述的技术的各个方面，本“具体实施方式”被分成三个部分。第一部分(“部分A”)侧重于关键方面，并提供了对这些方面的完整描述。第二部分(“部分B”)描述了这些方面，并在这些方面之外还描述了技术的其他方面。第三部分(“部分C”)描述了与A部分和B部分中提出的技术方面一致的附加实施例。

部分A

经典的SBox架构是使用塔域扩展构建的。为了使用塔域构造来构建GF(2^8)，遵循参考文献[4,10]中描述的教导，从基本二进制域GF(2)开始并构建扩展域。让我们从GF(2)上的不可约多项式f(x)＝x^2+x+1开始。设W是f(x)的根，使得f(W)＝0。正规基(normalbase)是根据W的共轭[W,W^2]构造的。现在，GF(2^2)中的每个元素k都可以表示为k＝k₀W+k₁W^2，其中，k₀和k₁是GF(2)中的元素；即，1或0。

使用相同的技术，可以根据GF(2^2)构建域GF(2^4)，以及根据GF(2^4)最终可以构建目标域GF(2^8)。表3总结了所使用的不可约多项式、根、以及正规基。

表3.用于构造GF(2^8)的子域的定义。

设A＝a₀Y+a₁Y^16是GF(2^8)中的通用元素，具有位于GF(2^4)中的系数。A的逆可以被写成：

A^-1＝(AA¹⁶)^-1A¹⁶

＝((a₀Y+a₁Y¹⁶)(a₁Y+a₀Y¹⁶))^-1(a₁Y+a₀Y¹⁶)

＝((a² ₀+a² ₁)Y¹⁷+a₀a₁(Y²+Y³²))^-1(a₁Y+a₀Y¹⁶)

＝((a₀+a₁)²Y¹⁷+a₀a₁(Y+Y¹⁶)²)^-1(a₁Y+a₀Y¹⁶)

＝((a₀+a₁)²WZ+a₀a₁)^-1(a₁Y+a₀Y¹⁶).

GF(2^8)中的元素求逆可以在GF(2^4)中被完成为：

T₁＝(a₀+a₁) T₂＝(WZ)T₁ ² T₃＝a₀a₁ T₄＝T₂+T₃

T₅＝T₄ ^-1 T₆＝T₅a₁ T₇＝T₅a₀,

其中得到的结果为A^-1＝T₆Y+T₇Y¹⁶。在这些方程中使用了几种运算(加法、乘法、缩放、以及平方)，但其中只有两个在GF(2)上是非线性的：乘法和求逆。此外，标准乘法运算还包含一些线性运算。如果所有线性运算都与非线性运算分离，并与对AES SBox输入(使用AES SBox不可约多项式x⁸+x⁴+x³+x+1以多项式基表示)进行基转换所需的线性方程捆绑在一起，则最终得到图2所示的SBox 201的经典架构(在此表示为“A”)。电路的顶部线性层203执行基转换并生成逆的线性部分。底部线性层205执行AES SBox的基反向转换和仿射变换。

本发明的重要方面：“架构D”

该新架构(在此称为“D”，表示深度)是一种其中去除了早期设计中的底部矩阵的新架构，从而尽可能减小电路的深度。这背后的思路是，底部矩阵仅取决于4位信号Y以及8位输入U的一些线性组合的乘法集。结果R可以被实现如下：

R＝Y₀·M₀·U⊕...⊕Y₃·M₃·U，

其中，每个M_i是一个8×8矩阵，表示8位输入U上的8个线性方程，它们将与Y_i位进行标量相乘。那些4×8线性电路可以被计算为32位信号L，这与用于4位Y的电路并行。通过将四个8位子结果相加而获得结果R。因此，在架构D中，在求逆步骤(关键路径：MULL和8XOR4块，见图5)之后得到深度3，而不是架构A中的深度5-6(见图4)。

新架构D需要多一些门，因为组装底部电路需要56个门：32NAND2+8XOR4。奖励是较低的深度。

图3A描绘了架构D的一个示例性实施例的框图，图3B描绘了架构D的替代示例性实施例。两个实施例之间的差别在于，通过使用本文稍后描述的进一步技术，能够将信号Q从22位减小到18位。在所有其他方面，这两个实施例是相同的，并且出于这个原因并且为了效率，描述将侧重于图3B所示的实施例，并且将理解，该讨论同样适用于图3A的实施例。

如图3B所示，Sbox电路300被布置为当被包括在密码电路中时执行SBox计算步骤。示例性SBox电路(300)包括第一电路部分301、第二电路部分303、以及第三电路部分305。第一电路部分301包括根据8-位输入信号(U)来生成4位第一输出信号(Y)的数字电路。

第二电路部分303被配置为与第一电路部分301并行地操作，以及根据8位输入信号(U)来生成32位第二输出信号(L)，其中，32位第二输出信号(L)包括四个8位子结果。

第三电路部分305被配置为通过将四个8位子结果(L)中的每一个8位子结果与4位第一输出信号(Y)的相应的一个位进行标量相乘来产生四个初步的8位结果(K)，以及通过将四个初步的8位结果(K)相加来产生8位输出信号(R)。

进一步根据示例性实施例，第一电路部分301被配置为通过将8位输入U提供给第一线性矩阵电路307，根据输入信号(U)来生成4位第一输出信号(Y)，该第一线性矩阵电路307生成输出Q(在图3A的实施例中为22位，在图3B的实施例中为18位)。输出Q被提供给乘法/求和电路309，乘法/求和电路309执行伽罗瓦域(GF)乘法309以生成4位信号X，然后该4位信号X被提供给逆伽罗瓦域电路(311)，逆伽罗瓦域电路(311)执行GF求逆以生成4位信号Y。

同样，根据示例性实施例，第二电路部分303被配置为通过执行包括第二线性矩阵运算的计算，根据输入信号U来生成第二输出信号L。

为了便于比较传统架构A与新架构D，图4(传统架构A)和图5(新架构D)示出了不同框(block)的更详细描述和实现大小。

首先看图4，可以看出传统SBox架构400包括顶层401，顶层401交替地被配置为正向SBox(FTopA)、逆向SBox(ITopA)或能够在正向计算与逆向计算之间进行选择的组合SBox(CTopA)。但值得注意的方面是，传统SBox架构400还包括底层403，底层403交替地被配置用于正向运算(FBotA)、逆向运算(IBotA)或能够在正向运算与逆向运算之间进行选择的组合(CBotA)。

发明人已经认识到，通过将底层的许多功能方面重新分布到上层中，能够消除传统SBox架构A 400的底层403，并且能够减小深度。结果形成图5所示的架构D500。

图5描绘的架构D 500具有与图3所示的架构等效的组织。值得注意的是，它包括顶层501，顶层501替代地被配置为正向SBox(FTopD)、逆向SBox(ITopD)或能够在正向计算与逆向计算之间进行选择的组合SBox(CTopD)。在组合SBox(CTopD)的情况下，正向计算与逆向计算之间的选择取决于接收到的正/逆。

一个显著的特征是传统底层(参见例如图4中的底层403)的一些功能方面已被重新分布到新架构500的上层，因此它现在具有与第二电路部分505并行地操作的第一电路部分503。第一电路部分503根据8位输入信号(U)来生成4位第一输出信号(Y)，第二电路部分505根据8位输入信号(U)来生成32位第二输出信号(L)，其中32位第二输出信号(L)包括四个8位子结果。

来自第一电路部分503的输出Y和来自第二电路部分505的输出L由第三电路部分509一起处理，第三电路部分509被配置为通过将四个8位子结果中的每一个8位子结果与4位第一输出信号(Y)的相应的一个位进行标量相乘来产生四个初步的8位结果(K)，并通过将四个初步的8位结果(K)相加来产生8位输出信号(R)。

新SBox架构500的示例性门配置的细节在下文中呈现。

预备知识

在下面给出的清单中，描述了两种架构A(小型)和D(快速)中的正向、逆向、以及组合SBox的六个电路的规格。以下清单中使用的符号如下，并具有所指出的含义：

·#comment–注释行

·@filename–表示应包括来自另一名为“filename”的文件的代码，然后在本节中也给出了它的清单。

·a^b–是常见的“异或”XOR门；其他门被显式表示并取自集合{XNOR,AND,NAND,OR,NOR,MUX,NMUX,NOT}

·(a op b)–在执行顺序(门连接的顺序)很重要的情况下，用括号指定该顺序。

到所有SBox的输入是8个信号{U0..U7}，输出是8个信号{R0..R7}。输入位和输出位以大端(Big Endian)位序来表示。对于组合SBox，输入具有额外的信号ZF和ZI，如果执行正向SBox，则ZF＝1，否则，如果执行逆向SBox，则ZF＝0；信号ZI是ZF的补充信号。我们已经测试了所有提出的电路并验证了它们的正确性。

这些电路被划分成子程序，这些子程序分别对应于图5所示的功能/层。讨论从描述公共共享组件开始，然后针对每个解，描述电路的组件(公共的或特定的)。

共享组件

清单：MULX/INV/S0/S1/8XOR4：共享组件。

清单：MULN/MULL：共享组件。

清单：具有最小延迟的正向SBox(快速)

正向SBox(快速)

清单：具有面积/深度权衡的正向SBox电路(最佳)

正向SBox(最佳)

包括以下奖励电路以更新最小SBox的世界纪录。

新纪录是108个门，深度为24。

清单：具有最小门数的正向SBox电路(奖励)

清单：具有最小延迟的逆向SBox(快速)

逆向SBox(快速)

清单：具有面积/深度权衡的逆向SBox电路(最佳)

逆向SBox(最佳)

注意：文件‘itop.a’中的上述‘NOT(U2)’可以通过设置Q11＝U2并准确地向下对一些涉及Q11的门和变量求“反”来移除。例如，变量Y01也应被求“反”，因为：N0＝NAND(Y01,Q11)，因此，所有涉及Y01的门被求“反”，这导致其他Q变量被求“反”，等等。

清单：具有最少门数的逆向SBox电路(奖励)

逆向SBox(奖励)

清单：具有最小延迟的组合SBox电路(快速/-S)

组合SBox(快速)

清单：具有面积/深度权衡的组合SBox电路(最佳)

组合SBox(最佳)

清单：具有最少门数的组合SBox电路(奖励)

组合SBox(奖励)

本发明的优点

具有针对快速SBox的设计对于特定类别的应用非常重要，例如CPU中的AES硬件支持。在这种情况下，SBox设计很可能针对关键路径被非常小心地布局并布线。具有非常短的关键路径会显著加快可能的钟控频率。另外，在更难(与ASIC相比)达到高钟控频率的FPGA中，重要的是在关键路径中具有尽可能少的门。

“背景技术”一节中的表格已经扩展到现在还包括本文所述的新架构D的结果。注意与传统SBox电路相比关键路径是如何显著减少的。

1.正向SBox

新架构D的结果

2.组合SBox

已经对结果进行了合成，并与其他最近的学术工作进行了比较。

技术工艺为GlobalFoundries 22nm CSC20L[Glo19]，并且已使用拓扑模式下Synopsys的Design Compiler 2017和compile_ultra命令执行了合成。此外，标志compile_timing_high_effort被开启以强制编译器产生尽可能快的电路。在下图中，X轴是时钟周期(以ps为单位)，Y轴是得到的拓扑估计面积(以μm²为单位)。可用门数不受任何限制，因此编译器可以自由使用非标准门，例如3输入“与-或”门。为了获得以下小节中的图，时钟周期从1200ps时钟周期(～833MHz)开始，然后减少20ps，直到无法满足时序约束为止。要注意的是，编译器的面积估计波动很大，这被认为是编译器必须最小化深度的许多不同策略的结果。一种策略可能对于比如700ps时钟周期是成功的，但另一策略(其导致明显更大的面积)可能对于720ps是成功的。编译器的策略还涉及随机性元素。

正向SBox的合成结果如图6所示，组合SBox的合成结果如图7所示。为了进行比较，图6示出了以下架构的合成结果的图：

·Ches18_fast 601

·Ches18_small 603

·“快速”电路605，如本文所述。

·“最佳”电路607，如本文所述。

·“奖励”电路609，如本文所述。

(术语“Ches18_fast”和“Ches18_small”指示[12]中的结果)。

在图6中：

-描绘此处描述的“快速”电路的曲线605显示为范围从略低于650ps到大约1075ps。

-描绘“ches18_small”的曲线603范围从大约780ps到大约1075。

-描绘“ches18_fast”的曲线601范围从大约800直到大约1075。

为了进一步比较，图7示出了以下架构的合成结果的图：

·canright 701。

·reyhani 703。

·“快速”电路705，如本文所述。

·“fast-s”电路707，如本文所述。

·“最佳”电路709，如本文所述。

·“奖励”电路711，如本文所述。

(术语“Canright”指示[4]中的结果，术语“reyhani”指示[6]中的结果)。

在图7中：

-描绘“fast-s”的曲线707显示为最接近X轴，范围从大约740到1200。

-描绘“快速”的曲线705显示为第二接近X轴，范围从大约740到1200。

-描绘“reyhani”的曲线703的范围从大约900到1200。

-描绘“canright”的曲线701的范围从大约1000到大约1200。

在图6和图7的每一个中，曲线越接近轴线，面积/速度权衡的结果越好。

现在参考图8描述本文所述的技术的其他方面，图8在一方面是由与本发明一致的实施例执行的动作的流程图。在另一方面，图8也被视为用于执行SBox功能的装置800的框图，包括用于根据SBox功能将输入映射到输出的各个组件部分(801、803、805、807和809)。

动作以接收8位输入U开始(步骤801)。8位输入作为输入被提供给另外两个相互并行地操作的动作。其中第一动作是使用第一线性矩阵运算、伽罗瓦域(GF)乘法、以及GF求逆，根据8位输入信号(U)来生成4位第一输出信号(Y)(步骤803)。

并行地，执行包括第二线性矩阵运算的计算(步骤805)，以根据输入信号(U)来生成32位第二输出信号(L)，其中32位第二输出信号(L)包括四个8位子结果。

接下来，通过将32位第二输出信号(L)的四个8位子结果中的每一个8位子结果与4位第一输出信号(Y)的相应的一个位进行标量相乘来产生四个初步的8位结果(K)(步骤807)。

然后，通过将四个初步的8位结果(K)相加来产生8位输出信号(R)。

在与本发明一致的实施例的其他方面，如图9所示，本文所述的改进SBox的架构也可以以多种其他形式体现，包括计算机程序901，计算机程序901包括一组程序指令，这些程序指令被配置为使得一个或多个处理器执行一系列动作，例如图3A、3B、5和8中任一个中描绘的动作(例如，当在处理设备上运行时，计算机程序901导致根据本文所述的各种实施例的运算)。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、关联的数据结构、以及程序模块表示用于执行本文公开的方法步骤的程序代码的示例。此类可执行指令或关联的数据结构的特定序列表示用于实现此类步骤或过程中描述的功能的相应动作的示例。

一些其他实施例采取包括上述计算机程序901的计算机可读存储介质903(或等效的一组介质)的形式。计算机可读介质901可以包括可移动和不可移动存储设备，包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、压缩盘(CD)、数字多功能盘(DVD)以及类似设备。

另外一些实施例可以采取计算机程序产品905的形式，计算机程序产品905被包含在计算机可读介质903中，计算机可读介质903包括由联网环境中的计算机执行的计算机可执行指令，例如程序代码。

贯穿本公开，各个图中的框可以指模拟和数字电路的组合和/或一个或多个控制器单元，控制器单元配置有例如存储在存储单元(数据库)中的软件和/或固件，当由一个或多个控制器单元执行时，这些软件和/或固件根据上述方式执行。这些控制器单元，以及模拟和数字电路的任何其他组合中的一个或多个可以被包括在单个专用集成电路(ASIC)中，或者几个控制器单元和各种数字硬件可以分布在几个单独的组件中，无论是单独封装还是组装到片上系统(SoC)中。一个或多个控制器单元可以是中央处理单元(CPU)、图形处理单元(GPU)、可编程逻辑阵列(PAL)或任何其他类似类型的电路或逻辑布置中的任何一种或它们的组合。

优势

本文公开了一种比先前已知的结果更快(具有更短关键深度)的新架构。在这种新架构中，传统解决方案中存在的底部线性矩阵(参见例如图2)已被移除，取而代之的是与求逆电路并行地，在顶部线性矩阵中执行大多数计算(参见例如图3A和3B)。通过这种方式，电路的深度减少了大约25％-30％。由此产生的SBox是已知最快的。

缩略词

AES：高级加密标准

ASIC：专用集成电路

FPGA：现场可编程门阵列

参考文献

[1]NIST：高级加密标准(AES)规范。技术报告FIPS PUB 197，美国国家标准与技术研究院(NIST)(2001)

[2]Vincent Rijmen。Rijndael S-box的有效实现。参见www.esat.kuleuven.ac.be。

[3]Akashi Satoh、Sumio Morioka、Kohji Takano和Seiji Munetoh。具有S-box优化的紧凑型Rijndael硬件架构。Cryptology-ASIACRYPT 2001，Colin Boyd编辑，第7届密码学和信息安全理论与应用国际会议，澳大利亚黄金海岸，2001年12月9至13日，会议记录，计算机科学讲义，第2248卷，第239-254页。Springer，2001年。

[4]D.Canright。用于AES的极紧凑S-Box。Josyula R.Rao和Berk Sunar编辑，“加密硬件与嵌入系统-CHES 2005”，第441-455页，柏林，海德堡，2005年。Springer BerlinHeidelberg。

[5]Rei Ueno、Naofumi Homma、Yukihiro Sugawara、Yasuyuki Nogami和Taka-fumi Aoki。基于冗余GF算术的高效GF(2⁸)反相电路及其在AES设计中的应用。Tim Güneysu和Helena Handschuh编辑，“加密硬件与嵌入系统-CHES 2005”，第17届国际研讨会，法国圣马洛，2015年9月13至16日，会议记录，计算机科学讲义，第9293卷，第63-80页。Springer，2015年。

[6]Reyhani-Masoleh,A.、Taha,M.和Ashmawy,D.(2018年)。AES组合S-box/逆向S-box的新面积纪录。2018年IEEE第25届计算机算术研讨会(ARITH)，第145-152页，2018年。

[7]Samsung Electronics Co.,Ltd.。纯逻辑/MDL产品数据手册的STD90/MDL900.35μm 3.3V CMOS标准基元库，2000年。

[8]Joan Boyar和René Peralta。应用于密码学的新型组合逻辑最小化技术。Paola Festa编辑，实验算法，第178-189页，柏林，海德堡，2010年。Springer BerlinHeidelberg。网址：eprint.iacr.org。

[9]Joan Boyar和René Peralta。应用于密码学的新型组合逻辑最小化技术。计算机科学讲义，第178-189页。Springer，2010年。

[10]Joan Boyar和René Peralta。用于AES S-Box的小深度16电路。DimitrisGritzalis、Steven Furnell和Marianthi Theoharidou编辑，SEC，IFIP信息和通信技术进展，第376卷，第287-298页。Springer，2012年。网址：link.springer.com。

[11]J.Boyar和R.Peralta。向美国专利商标局提交的专利申请号61089998。用于组合电路优化的新技术和用于AES的S-Box的新电路，2009。

[12]Arash Reyhani-Masoleh、Mostafa Taha和Doaa Ashmawy。粉碎AES S-Box的实现记录。加密硬件和嵌入式系统上的IACR交易，2018(2):第298–336页，2018年5月。

在此公开的实施例可以通过模拟和数字电路的组合、一个或多个控制器单元、以及用于执行本文所述的实施例的功能和动作的计算机程序代码来实现。上述程序代码也可以作为计算机程序产品来提供，例如采取承载计算机程序代码的数据载体的形式，当被加载到移动通信设备中时，计算机程序代码用于执行本文的实施例。一种这样的载体可以是CD ROM盘的形式。然而，其他数据载体(例如记忆棒)也是可行的。计算机程序代码还可以作为服务器上的纯程序代码被提供并在生产时和/或在软件更新期间被下载到移动通信设备。

当使用“包含”或“包括”一词时，应将其解释为非限制性的，即表示“至少由……组成”。

上面已经主要参考几个实施例描述了本发明构思。然而，本领域技术人员容易理解，除了以上公开的实施例之外的实施例在本文公开的本发明构思的范围内同样是可能的。

本领域技术人员将理解，本文所述的技术的关键方面包括上文关于本公开的部分A中的图3A、3B、5、8和9(“架构D”)以及本公开的部分B的第5节中公开的架构改进而讨论和描绘的技术特征的各种组合和子组合。

本领域技术人员将理解，本文所述的技术的其他关键方面包括上文关于如在下面的本公开的部分B的第4节中讨论的用于使用多路复用器解析线性系统的方法而讨论的技术特征的各种组合和子组合。

本公开的部分B

最小、最佳和最快AES SBox

1 简介

AES SBox的高效硬件设计是一个深入研究的课题。如果想要绝对最大速度，可能使用简单的表查找实现，这自然导致面积较大。在许多实际情况下，加密子系统的面积是有限的，设计人员无法为AES轮次中涉及的16个SBox实现表查找，尤其是当在FPGA中实现时。对于这些情况，需要研究如何仅使用逻辑门来实现AES SBox，重点放在面积和最大钟控速度两者上。电路的最大钟控速度由以下因素决定：电路的关键路径或深度；从输入信号的变化中获得稳定输出信号所花费的最坏情况时间。

从数学的角度来看，正向AES SBox被定义为非线性函数I(g)和仿射函数A(g)的组合，使得SBox(g)＝A(I(g))。非线性函数I(g)＝g^-1是由不可约多项式x⁸+x⁴+x³+x+1定义的有限域GF(2^8)中的元素g的乘法逆。我们假设读者熟悉AES SBox，并参考[oST01]以获得更全面的描述。

Rijmen描述了朝着小面积实现的第一步[Rij00]，其中使用来自[IT88]的结果。该理念是通过对GF((2⁴)²)进行基变换，GF(2⁸)中的逆向计算可以被简化为子域GF(2⁴)中简单得多的逆向计算。2001年，Satoh等人发表的[SMTM01]使此理念更进一步，并将逆向计算简化到子域GF(2²)。2005年，Canright发表的[Can05]以Satoh等人的工作为基础，研究了子域表示的重要性，测试了导致最小面积设计的许多不同的同构。这种构造可能是面积受限的组合AES SBox的最常被引用和使用的实现。

在一系列论文中，Boyar、Peralta等人针对子域反相器以及最小化逻辑电路面积的新启发法两者提出了一些非常有趣的思路[BP10a、BP10b、BP12、BFP18]。他们在GF(2⁴)上导出了一个深度为4且门数仅为17的反相器。[BP12]中的构造是本公开的起点。

在Boyar之后，其他几篇论文关注低深度实现[JKL10、NNT+10、UHS+15]。2018年，Reyhani等人的两篇论文[RMTA18a、RMTA18b]介绍了正向SBox和组合SBox的最著名实现(到目前为止)。如[RMTA18a]中所指出的，在如何呈现和比较组合电路的实现方面，研究者存在分歧。一种方法是简单地对设计中标准门的总数进行计数，并找到通过包含关键路径的电路的路径以确定和比较速度。实际情况要比这复杂得多。在本文中，我们展示了仅使用门数的简单度量，以及基于与“与非”门相比的门所需的典型面积来给出“等效门(GateEquivalent，GE)”数。因此，例如，“与非”门具有GE＝1，而“异或”门具有GE＝2.33。GE的相对数量取决于所使用的特定ASIC工艺技术，以及所需的来自门的驱动强度。我们使用了从Samsung的STD90/MDL90 0.35μm 3.3V CMOS技术[Sam00]获得的GE值。有关我们针对电路比较的选择的全面讨论可在附录A中找到。此外，我们提出对根据“异或”门的延迟来归一化的电路的技术深度进行计数，这使得比较各种学术成果的深度和速度成为可能。

在以下公开中，呈现并分析了使线性矩阵的电路实现最小化的各种新技术。此外，还引入了一种在最小化中包含多路复用器的新方法，此方法与组合SBox构造相关。此外，还提供了一种新架构，其中移除了底部线性矩阵(存在于传统电路中)以获得尽可能小的电路深度。这些新技术导致比先前提出的AES SBox更小和更快的AES SBox。

2 预备知识

当我们现在构造自己的塔域表示时，将遵循[Can05]和[BP12]中使用的记法。不可约多项式、根和正规基见表1。

表1：用于构造GF(2⁸)的子域的定义。

遵循[Can05]和[BP12]，现在可以导出如下对GF(2⁸)中的通用元素A＝a₀Y+a₁Y¹⁶求逆的表达式：

A^-1＝(AA¹⁶)^-1A¹⁶

＝((a₀Y+a₁Y¹⁶)(a₁Y+a₀Y¹⁶))^-1(a₁Y+a₀Y¹⁶)

＝((a² ₀+a² ₁)Y¹⁷+a₀a₁(Y²+Y³²))^-1(a₁Y+a₀Y¹⁶)

＝((a₀+a₁)²Y¹⁷+a₀a₁(Y+Y¹⁶)²)^-1(a₁Y+a₀Y¹⁶)

＝((a₀+a₁)²WZ+a₀a₁)^-1(a₁Y+a₀Y¹⁶)。

GF(2⁸)中的元素求逆可以根据下式在GF(2⁴)中完成：

T₁＝(a₀+a₁) T₂＝(WZ)T² ₁ T₃＝a₀a₁ T₄＝T₂+T₃

T₅＝T₄ ^-1 T₆＝T₅a₁ T₇＝T₅a₀

其中得到的结果为A^-1＝T₆Y+T₇Y¹⁶。在这些方程中，使用了几种运算(加法、乘法、缩放、以及平方)，但其中只有两种在GF(2)上是非线性的；乘法和求逆。此外，标准乘法运算还包含一些线性运算。如果将所有线性运算与非线性运算分离，并将它们与对AES SBox输入(使用AES SBox不可约多项式x⁸+x⁴+x³+x+1以多项式基表示)进行基转换所需的线性方程捆绑在一起，则最终得到根据图2的SBox的架构。

如果正在处理逆向SBox，则自然需要将逆向仿射变换应用于顶部线性矩阵而不是底部线性矩阵。

此架构将是我们的起点，现在提供一组新的或增强的算法以用于最小化两个线性顶部和底部矩阵的面积和深度两者。

3 用于二元线性方程组的电路

在本节中，我们将概括已知的线性电路最小化技术并提出一些改进。我们首先明确声明目标。

3.1 基本问题陈述

给定一个二元矩阵M_m×n和最大允许深度maxD，找到深度D≤maxD的电路，其中“异或”门的数量最少，以使得它计算Y＝M·X。换句话说，给定n位输入X＝(x₀...x_n-1)，该电路应计算m个线性组合Y＝(y₀...y_m-1)。实现给定线性方程组的任何电路实现都被称为解。

上面的问题是NP完全问题，我们已经看到了各种启发式方法，这些方法有助于在文献中找到次优解。在我们之前研究过的所有工作中，假设所有输入信号在同一时间到达，并且所有输出信号均“就绪”，延迟最多为maxD。在本文中，我们用如下定义的AIR和AOR来扩展问题。

附加输入要求(AIR)。该问题可以通过对输入信号X的附加要求来扩展，使得每个输入位x_i以它自己的延迟d_i(就“异或”门延迟而言)到达。得到的深度D≤maxD则包括输入延迟。例如，如果某个输入x_i具有延迟d_i>maxD，则不存在解。AIR在导出底部矩阵时很有用，如第2节所述，因为在非线性部分之后，进入底部矩阵的信号将具有不同的延迟。

附加输出要求(AOR)。该问题可以通过对输出信号的附加要求来扩展。可以要求每个输出信号y_i在最多为e_i≤maxD的深度处“就绪”。当某些输出信号继续在关键路径中传播而其他信号可能以更大延迟(但最多仍为maxD)计算时，这很有用。如第2节所述，在推导顶部矩阵时使用AOR，因为当我们为组合SBox引入多路复用器时，将要求顶部矩阵的输出信号具有不同的延迟。

3.2 无消除启发法(Cancellation-free heuristics)

无消除启发法是一种产生线性表达式z＝a⊕b的算法，其中a和b均为输入变量中的布尔线性表达式，并且a和b没有公共项。换句话说，当添加a和b时，不会消除任何项。

Paar发表的[Paa97]提出了一种求解3.1中的基本问题的贪婪法。该解以矩阵M开始并考虑M中的所有列对(i,j)。然后(在列对上)将度量定义为行数，其中M_r,i＝M_r,j＝1，即，输入变量x_i和x_j都出现。对于具有最高度量的列对，形成一个新的变量x_n＝x_i⊕x_j并将其添加到矩阵(矩阵现在大小为m×(n+1))，并设置位置M_r,i＝M_r,j＝0，且M_r,n+1＝1。

另外，Canright发表的[Can05]使用了这种技术，但他没有使用度量函数，而是对所有可能的列对执行了穷举算法。这是可能的，因为在他的情况下，目标矩阵是大小仅为8×8的基本转换矩阵。如我们在第2节中看到的，我们的底部矩阵会大得多，因此需要采取另一种方法。我们还需要考虑AIR和AOR。

求解AIR。在执行该算法时，应跟踪新添加的“异或”门的深度。这是通过具有向量D＝(d₀...d_n-1)来完成的，其中该向量具有所有输入和新添加的信号X_i的当前深度。当添加新信号x_n＝x_i⊕x_j时，x_n的延迟微不足道地为d_n＝max(d_i,d_j)+1。然后，我们也限制算法，以使得如果d_n>maxD，则不允许添加x_n作为新输入信号。AIR由此被自动求解。

求解AOR。类似地，当添加新的输入变量x_n时，需要检查解在理论上是否可能。可以使用函数CircuitDepth(详见附录B.1中的算法2)来做到这一点。如果CircuitDepth返回比e_i更大的延迟，则我们知道不存在解，并且应避免该特定的x_n。

概率启发式方法。由于底部矩阵的大小，我们无法对底部矩阵执行完全穷举算法，因此需要限制要保留的对数并进一步求值。我们已发现保留K个最佳候选(基于Paar的原始度量)，然后随机选择为下一个“异或”门选取哪一个候选是一种良好的策略。在我们的模拟中，这种概率方法为我们提供了比仅考虑最佳度量候选更小的电路。自然地，如果选择太大的K，则执行时间太长，相反，如果选择太小的K，则会减小导出良好电路的机会。在实践中，我们发现K＝2...6是一个要保留和尝试的合理候选数量。

3.3 可消除启发法

无消除方法是次优的，如在Boyar和Peralta发表的[BP10a]中所示，其中他们还引入一种可消除的新算法。此算法随后由Reyhani等人在[RMTA18a]中进行了改进。接下来简要描述该启发法的基本思路。

3.3.1 基本可消除算法[BP10a]

M的每一行是一个包括0和1的n位向量。该向量可以被看作n位整数值。将该整数值定义为目标点。因此，矩阵M可以看作m个目标点的列向量。输入信号{x₀,...,x_n-1}也可以表示为整数值x_i＝2ⁱ，其中i＝0...n-1。

设基本集S＝{s₀,...,s_n-1}＝{1,2,4,...,2ⁿ}初始表示输入信号。该算法的关键函数是距离函数δ_i(S,y_i)，此函数返回根据已知点集S来计算目标点y_i所需的最小“异或”门数。该算法保留向量Δ＝[δ₀,δ₁,...,δ_n-1]，该向量最初被设置为汉明权重减去M的行中的一个行，其是在没有任何共享的情况下所需的“异或”门数。

然后，该算法继续组合基集S中的两个基点s_i和s_j，并将它们“异或”在一起，从而产生候选点c＝s_i⊕s_j。通过在所有不同的对上的穷举搜索来执行s_i和s_j的选择，然后针对每个候选点，计算距离向量∑δ_i的总和，其中i∈[0,n-1]。注意，现在在集合S∪{c}上计算距离函数δ_i。选取给出最小距离和的对，并且S被更新为S＝S∪{c}。如果存在平局，则该算法选取使欧几里得范数最大化的对。如果在此步骤之后仍然存在平局，则[BP10a]的作者研究了不同的策略并得出所有测试的策略都表现相似的结论，因此可以使用简单的随机选择。然后，该算法重复选取两个新的基点并计算距离向量和的步骤，直到距离向量为全零且找到全部目标为止。在原始描述中，还存在“抢占式”选择的概念。抢占式选择是候选点c，使得该点直接满足矩阵M中的目标行。如果找到这样的候选点，则立即将其用作新的点并将其添加到S。

Reyhani等人发表的[RMTA18a]通过在每一轮中直接搜索抢占式候选并在添加“真实”候选并重新计算距离向量之前将它们全部添加到集合S来改进原始算法。他们还改进了平局解决策略，保留所有在欧几里德范数下同样好的候选，并递归地尝试所有候选，保留在下一轮中最好的候选。在我们的实验中，得出了保留两个不同的候选并递归地计算它们会产生良好结果的结论。

我们对该算法的改进是更快地计算中等大小的n值的δ值。见附录B.2。

3.3.2 当最大深度maxD是必需约束时

虽然AIR问题可以简单地通过将所有已知信号的延迟D的向量以及S相加来求解，但找到具有固定maxD的短电路的问题仍然相当困难。即使将S中每个新添加的信号限制为深度≤maxD，所得到的电路就“异或”门数而言也非常大，实际上比使用无消除启发法所能实现的要大得多。

一种思路是，如果相对于最短距离δ_i＝δ(S,y_i)存在平局，则应采用具有最小延迟的c。但在我们的模拟中，并没有产生比无消除算法更好的结果，即使为这两种算法添加了随机因子也是如此。我们必须得出对可取消启发式算法采用额外的maxD约束仍然是一个悬而未决的问题的结论。

3.4 穷举搜索方法

在本节中，我们提出了一种算法，用于对最小电路进行有效的穷举搜索。整体复杂度与输入信号的数量呈指数关系，与输出信号的数量呈线性关系。从我们的实验中可以得出该穷举搜索算法很容易应用于大约10位输入的电路的结论。

3.4.1 记法和数据表示

使用与第3.3.1节中相同的M的行的整数表示和输入信号x_i，可以重新表述基本问题陈述：给定输入点x_i的集合，希望在这些输入点上找到“异或”序列，以便获得具有最大延迟maxD的所有m个希望目标点y_i、矩阵M的行数。输入和输出点可分别具有不同的延迟d_i和e_i。

对于数据结构，可以将一组2ⁿ个点存储为普通集合和/或位向量。该集合允许循环遍历这些点，而位掩码表示对于测试集合成员资格是有效的。

3.4.2 基本思路

穷举搜索算法是一种递归算法，遍历深度，从深度1开始，一直运行到maxD。在每个深度D处，我们尝试从先前的深度构造新点，从而构造具有准确深度D的电路。当找到所有目标点时，检查所需的“异或”门数，跟踪最小的解。将需要以下点集合：

known[maxD+1]–特定深度D处的已知点集合。

ignore[maxD+1]–在深度D处将被忽略的点集合。

targets–目标点集合。

candidates–要在当前递归步骤被添加到已知集合的候选点集合。

已知点的初始集合为x_i，其中i＝0...n-1，目标点集合为y_i，其中i＝0...m-1。通过最初将输入点x_i放置到深度d_i处的已知集合来求解AIR。AOR是通过设置具有输出延迟e_i的点y_i以忽略大于e_i的所有深度级上的清单来求解的。

现在将解释在递归的每个深度执行的步骤，假设当前处于深度D。

步骤1–抢占点。检查known[D]集合以查看是否可以组合任何对(XOR:ed)以给出尚未找到的目标点。如果找到所有目标，或者如果已到达maxD，我们就从递归的该深度级返回。

步骤2-收集候选。形成来自known[0..D-1]集合的所有可能的点对，其中至少一个点来自known[D-1]，并对这些点对进行“异或”以导出新点。如果导出的点在集合ignored[D]中，则跳过该点，否则将该点添加到候选集。

步骤3-在这一步中，尝试将候选集合中的点添加到已知清单中，并再次递归地调用该算法。首先尝试添加1个点并进行递归调用。如果这不能求解目标点，则尝试添加2个点，依此类推，直到尝试了候选集合中的点的所有组合(或最大数量的组合)。

3.4.3 忽略点及其他优化

在步骤2中，对照ignored[D]集合(深度D处的忽略点集合)检查候选。忽略集合是根据一组规则来构造的；相交：如果对于所有目标点w_i都得到(w_i&p)≠p，则应忽略候选点p。这意味着点p覆盖了太多的输入变量，并且没有被目标集合中的任何点所覆盖；前向传播：可以计算每个级上所有可能的点，从具有n个已知点的顶层D＝0开始一直向下到D＝maxD。那些永远不会出现在某个级d上的点然后被包括在ignored[D]集合中。如果某个目标点w具有另一期望最大延迟e_i<maxD，则应忽略后续深度上的该点，即，将w添加到ignored[e_i+1..maxD]；直接输入求和：如果任何输入信号x_i,x_j给出点级d上的点p＝x_i⊕x_j，则大于d的所有连续级必须使点p在忽略清单中；后向传播：作为最后一次检查，可以逐层向后，从d＝maxD开始，在级d＝1结束，对于级d上的每个允许(未被忽略)的点，检查在先前的级上是否还有未被忽略的对a,b(a或b中的一个必须在级d-1上)，使得它给出p＝a⊕b。如果不是，则应将点p添加到ignored[D]集合；忽略候选：如果w是小于d的先前级上的候选之一，则动态地将点w添加到ignored[D]集合。

3.5 结论

从我们的模拟中，可以得出以下关于搜索最小解的结论；顶部矩阵(只有8个输入)可以用第3.4节中的穷举可消除搜索来求解。底部矩阵(有18个输入)对于直接穷举搜索而言太大，我们应该从第3.2节中的概率无消除启发法开始，然后针对结束部分使用完全穷举搜索，此时剩余行的汉明权重变得足够小以执行穷举搜索。这种方法显示出最好的结果。

4 具有多路复用器的线性电路系统

假设要为组合SBox找到一个电路，其中顶部和底部线性矩阵需要基于SBox方向而被多路复用。这意味着用于组合线性表达式的电路的大小基本上增加了一倍，加上一组多路复用器。在本节中，将展示如何处理线性表达式的多路复用系统。将展示“MUX”门和“异或”门可以以组合方式被求解，以便实现非常紧凑的电路。

4.1 浮动多路复用器

考虑到对于某些信号Y，必须分别为正向SBox和逆向SBox计算两个线性表达式Y^F和Y^I。然后我们应用一个多路复用器，以便只有其中一个信号继续作为Y。进一步假设信号Y^F和Y^I共享表达式的某些部分。然后，更好的是将该共享部分向下推送到多路复用器下方，并且由此生成的解能够被简化。

例如，设Y^F＝X₀⊕X₁和Y^I＝X₀⊕X₂，则通常应使用2个“异或”门和1个多路复用器，这样得到具有3个门的Y＝MUX(select,X₀⊕X₁,X₀⊕X₂)。但是，可以将公共部分X₀推到多路复用器之后，如下所示：

Y＝MUX(select,X₁,X₂)⊕X₀，

然后，得到一个只有2个门的电路。通常，可以选取输入信号上的任何线性组合Δ并进行替换：

Y＝MUX(select,Y^F,Y^I)→MUX(select,Y^F⊕Δ,Y^I⊕Δ)⊕Δ,

其中，Δ被添加到线性矩阵中作为要计算的附加目标信号。如果该替换导致更短的电路，则保留该替换。我们还应选择使整体深度不增加的Δ。因此，各种多路复用器将在电路的深度上“浮动”。Δ≠0的信号的最大深度应减小1。

4.1.1 要求解的度量和线性表达式

我们具有n个输入信号X₁...X_n和m个输出信号Y₁...Y_m，其中每个Y_i以其最一般的形式表示为三元组(A_i,B_i,C_i)，使得：

Y_i＝A_i⊕MUX(select,B_i,C_i)，

其中A_i、B_i和C_i是输入信号上的线性表达式。可以针对任何Δ_i将上述表达式修改为(A_i⊕Δ_i,B_i⊕Δ_i,C_i⊕Δ_i)，因为Y_i的布尔函数将不改变。

设ABC表示描述所有行A_i、B_i和C_i的线性矩阵，其中i＝0...m，使得

ABC×X

给出要使用最少数量的门和给定maxD实现的期望线性系统。通过选择有利的Δ_i值，可以缩减总门数，因为ABC的一些目标点可能变得彼此相等，因此ABC可以减少至少一行。此外，一些目标可能变为0或只有一位，即，它们等于相应的输入信号。这些目标也从被线性系统中移除，因为它们是不重要的且成本为零的门。在上述化简之后，得到线性表达式组，其中所有行都是不同的，并且汉明权重至少为2。如先前那样，将ABC的行解释为整数，并将Δ_i添加(XOR:ing)到三行A_i、B_i和C_i将改变这三个目标点，但不改变由此所得到的Y_i。

度量.搜索Δs的良好组合需要大量计算，并且为每个选择计算最小解很快变得不可行。因此，需要确定一种良好的度量，使我们能够将搜索空间缩减为有希望的Δs集合。建议采用基于固定系统的门数下限的度量(当选择Δ值时)，并将该度量定义为简化后的ABC矩阵的行数，加上完成电路所需的最小数量的额外门，例如多路复用器。

在下文中，我们将介绍几种启发式方法，以在最小化度量的同时找到良好的Δs集合。

4.1.2 寻找Δs的迭代算法：度量→最小化

以下技术仅适用于小的n，但在我们的例子中，它很容易适用于AES SBox的8输入顶部矩阵。

算法-A(k)–选择k个三元组(A_i,B_i,C_i)并尝试找到最小化度量的匹配Δ_is。如果某些选择导致较小的度量，则保留该选择并继续用更新后的ABC矩阵进行搜索。该算法循环运行，直到度量不再减小。算法-A(1)相当快，算法-A(2)也有可接受的速度。对于较大的k，它变得不可行。算法-A(k)很适合对给定系统进行非常快速/简短的分析，但结果很不稳定，因为对于Δ_is的随机初始值，得到的度量波动很大。

算法-B-与算法-A不同，该算法尝试构造线性表达式组，从一个空的已知集合S开始，然后尝试逐一向S添加新点，直到ABC的所有目标都变得被包括在集合S中。在测试新的候选C是否应被添加到S时，循环遍历所有(A_i,B_i,C_i)并针对每一者尝试找到最小化整体度量的Δ_i。这种启发式算法稳定得多并且给出了相当好的结果。

但是最小可能的度量并不保证最终的解将具有最少数量的门，并且所需的非目标中间体的数量不明。因此，好的构思是收集许多其度量尽可能最小的有希望的系统，然后尝试在它们之中找到最小的解。我们将在下一节对此进行研究。

4.2 用于具有浮动多路复用器的线性系统的新通用启发式技术

如果推广浮动多路复用器的思路，让它们在电路中浮动得甚至更高，并且还更广泛地共享它们，则可以获得更好的结果。在本节中，提出了一种针对此类系统寻找近最佳电路的通用启发式算法。

4.2.1 问题陈述

给定n位输入信号X_n、二元矩阵和二元向量和向量延迟D_n ^X和D_m ^Y。希望找到计算m位输出信号Y的最小和最短的解：

Y^F＝M^F·(X⊕A^F)

Y^I＝M^I·(X⊕A^I)

Y＝MUX(ZF；Y^F⊕B^F；Y^I⊕B^I)，

其中，每个输入信号X_i具有输入到达延迟D_i ^X并且每个输出信号Y_j必须具有最多D_j ^Y的总延迟。A*和B*分别是用于输入信号和输出信号的恒定掩蔽向量(“非”门)。ZF是多路复用选择器，当ZF＝1时，选取第一(Y^F＝“正向”)输出，否则选取第二(Y^I＝“逆向”)输出。还假设存在也可用作输入控制信号的补码信号ZI＝ZF⊕1。

4.2.2 预备知识

与先前的记法类似，将“点”定义为点值(.p)和延迟(.d)的元组：

point:＝{.p＝[f(1bit)|F(n bits)|i(1bit)|I(n bits)],.d＝Delay}

其然后被转换成1位信号电路

signal:＝MUX(ZF；F·X⊕f；I·X⊕i)

并且具有总输出延迟点.d。即，F和I是n位输入X上的线性组合，F和I是在选择器分别为“正向”或“逆向”的情况下应用于结果的取反位。然后n个输入点被表示为：

输入点X_k:＝{.p＝[A_k ^F|2^k|A_k ^I|2^k],.d＝D_k ^X},其中k＝0,...,n-1，

而m个目标点为：

目标点Y_k:＝{.p＝[B_k ^F|Y_k ^F|B_k ^I|Y_k ^I],.d＝≤D_k ^Y}，其中k＝0,...,m-1。

还应在输入集中包含以下4个不重要的点：

信号ZF:＝{.p＝[1|0|0|0],.d＝0} 信号0:＝{.p＝[0|0|0|0],.d＝0}

信号ZI:＝{.p＝[0|0|1|0],.d＝0} 信号1:＝{.p＝[1|0|1|0],.d＝0}

给定任意两个(有序)点v和w，最多存在6个可基于以下门来生成的可能的新点：

MUX(v；w):＝{.p＝[v.f|v.F|w.i|w.I],.d＝D_new}

NMUX(v；w):＝{.p＝[v.f⊕1|v.F|w.i⊕1|w.I],.d＝D_new}

MUX(w；v):＝{.p＝[w.f|w.F|v.i|v.I],.d＝D_new}

NMUX(w；v):＝{.p＝[w.f⊕1|w.F|v.i⊕1|v.I],.d＝D_new}

XOR(v；w):＝{.p＝[w.f⊕v.f|w.F⊕v.F|w.i⊕v.i|w.I⊕v.I],.d＝D_new}

NXOR(v；w):＝{.p＝[w.f⊕v.f⊕1|w.F⊕v.F|w.i⊕v.i⊕1|w.I⊕v.I],.d＝D_new}

其中D_new＝max{v.d,w.d}+1。注意，包含4个不重要的点很重要，因为这样能够限制要被考虑的门类型的数量。例如，然后“非”门被实现为XOR(v；1)，具有ZF的“与”门可以被实现为MUX(v；0)，具有ZI的“或”门是MUX(v；1)等等。

4.2.3 算法

我们从输入点集合S(大小为n+4)开始，并将所有目标点放入集合T。在每一步，计算通过将上述6个门应用于集合S中的任意两个点而生成的候选点集合C。自然地，C应只包含唯一的点并排除那些已经在S中的点。我们尝试将C中的一个候选点添加到S，并计算从S到T中的每个目标点的距离。此后，比较度量来决定哪个候选点将在该步骤被包括在S中，以及通过计算可能的候选来重新开始。当总距离δ-度量为0时，算法停止。

度量包括多个值。距离δ(S,t_i)是从S中的点获取目标点t_i所需的最小基本门数(上述6个)，以使得延迟最多为D_i ^Y。第4.2.5子节讨论了如何计算δ(S,t_i)。所应用的度量及其重要性顺序如下：

τ＝来自C的最新候选点添加到S的延迟→min

度量γ是在没有更多共享门的情况下的预计门数；绝对应最小化该度量。如果有多个候选给出相同的值，则研究第二度量δ。

δ是距离之和，不包括只需要1个门的距离。给定最小γ的情况下，必须最大化δ。δ越大，缩小γ的机会就越多。由于包含将在下面描述的抢占步骤，因此排除了距离1。如上所述，当逐一将候选接受到S时，度量δ和γ是相似的，但是当在下一小节中引入其中|S|的大小可能不同的搜索树时，这两个度量将变得不同。

τ在上述两个度量针对两个候选显示相同值的情况下选择具有最小深度的候选。如果对目标点没有最大深度约束，则不需要此度量。

ν是不包括抢占点的欧几里得范数(类似于δ)。这是最后一个决策度量，因为它不是一个很好的预测器，较差的值可能会给出较好的结果，反之亦然。然而，如果存在具有相等度量δ、γ和τ的两个候选，则可以基于ν对这两个候选进行排序。在出现并列候选的情况下，替代的方法是随机选择其中一个。

抢先点.如果某个距离δ(S,t_i)＝1，则立即将该点t_i接受到S中而无需搜索整个候选C。在算法中包含这一步迫使从度量δ和ν中排除这样的点。

在[RMTA18a]中，抢占点被包括在度量中，我们认为这是不正确的。例如，当两个距离向量{1,2,...}和{0,2,...}具有相同的预计门时，它们在可能的共享门方面表现出完全相同的情况，并且它们应导致相同的δ，因为距离1将立即被包括在内(抢占点)，所以它不会比具有距离0的第二选择有任何优势。因此，距离1不应被计入δ和μ，而是被计入预计门γ中。

4.2.4 搜索树

除了上述算法之外，我们还提出了搜索树，其中每个节点都是一个具有度量的集合S。这种节点的子代也是节点，其中S'是通过添加其中一个候选点(S←C)从S导出的。因此，从根节点到叶的每条路径都表示到根集合S的一系列接受的候选点。如果在某个点，叶具有度量δ＝0，则该叶表示可能的解路径。

我们保留一些子节点(在实验中，保留至少20-50个最佳子节点)，它们的度量是最佳的(它们甚至可能具有不同的预计门γ)。还定义了搜索树的最大深度TD(在实验中，尝试了TD＝1..20)。当在深度TD处构造树时，我们检查叶并查看在所有不同分支的所有叶上获得最佳度量的位置。回溯到根，然后选择保留通向最佳叶的顶部分支。移除来自根的其他顶部分支。然后，将根节点推进到选定分支的第一子节点，并尝试从剩余的叶再次延伸树的深度，从而使搜索树保持恒定的深度TD。

如果在树的每个深度，每个叶都扩展了额外的20-50个子分支，则叶的数量将呈指数增长。但是，可以在将树延伸到下一深度之前对叶应用截断算法。只保留不超过一定数量的有希望的叶，这些叶将延伸到下一深度，而从树中删除其他不太有希望的叶(在我们的实验中，整棵树的截断级别高达400片叶)。这种类型的截断使得可以通过基本在任何深度TD处“进一步观察”来选择根节点的最佳顶部分支。值得注意的是，复杂度不取决于深度TD，而是取决于截断级别。

截断策略.简而言之，我们保留那些具有最佳度量的叶，但尝试在不同分支当中分配近乎相等的叶，以便保留尽可能多的转移解路径(diverted solution paths)。

4.2.5 δ(S,t_i)的计算

算法的“核心”和关键部分是计算距离δ(S,t_i)的算法，前提是给出全新的S。每一步有很多候选要测试，并且有很多分支要跟踪，所以需要使这个核心算法尽可能快。

注意，点的长度(.p是整数)是2n+2位，加上延迟值。在对两个点进行布尔运算时，将忽略延迟(.d)值。设分配以下可能的点数：

N＝2²ⁿ⁺²。

设V_k[]是长度为N个单元的向量，每个单元V_k[p]对应于一个表示为整数索引的(2n+2)位点p，该单元中存储的值将是该点的最小延迟p.d，使得它可以从恰好具有k个门的S中来导出。

如果p∈S，设置初始向量V₀为否则，V₀[p]＝∞。此后，通过将允许的6个门应用于来自某个级0≤l<k(V_l)和级k-l(V_k-l)的点，从先前导出的向量V₀...V_k推导出向量V_k+1，从而产生总共l+(k-l)+1＝k+1个门。在推导出新的V_k+1之后，简单地检查它是否包含来自T的目标的新距离值，重复该过程直到找到T中所有t_i的所有距离δ(S,t_i)。算法1中给出了该算法的高级描述，在附录B.3中，提供了更详细的描述以及可以运用的多种计算技巧。

5 架构改进

大多数已知的AES SBox架构看起来非常相似，由顶部和底部线性部分以及中间非线性部分组成，如前面第2节所述。在本节中，我们采用经典设计并提出了一些改进，同时采用专注于低深度解的全新架构。

5.1 两种SBox架构-面积和深度

参考图2，架构A(面积)是实现基于塔和复合域设计的经典架构。它从到顶部线性矩阵的8位输入信号U开始，该顶部线性矩阵产生22位信号Q(参见[BP12])。我们设法将所需Q信号的数量简化为18个，并将乘法和线性求和框Mul-Sum重构为24个门和深度3。(有关方程式，参见附录D.2)。Mul-Sum框的输出是4位信号X，它是到GF(2⁴)上的逆的输入。来自逆的输出Y与在顶部矩阵中导出的Q信号非线性混合，并产生18位信号N。最后一步是底部线性矩阵，它取18位N，并且线性地导出输出8-位信号R。顶部和底部矩阵引入了取决于方向的SBox仿射变换。新架构D(深度)(如图3A和3B所示)是一种其中尝试移除底部矩阵并且从而尽可能缩小电路深度的新架构。背后的思路是底部矩阵只取决于4位信号Y以及8位输入U的一些线性组合的乘法集。因此，结果R可以实现如下：

R＝Y₀·M₀·U⊕...⊕Y₃·M₃·U，

其中，每个M_i是8×8矩阵，表示8位输入U上的8个线性方程，其将被与Y_i位进行标量相乘。与用于4位Y的电路并行地，这些4×8线性电路可以被计算为32位信号L。结果R是通过将四个8位子结果相加得到的。因此，在架构D中，在求逆步骤(关键路径：MULL和8XOR4框)之后得到深度3，而不是架构A中的深度5-6。新架构D需要略多的门，因为组装底部电路需要56个门：32NAND2+8XOR4。奖励是较低的深度。

图4和图5分别给出了两种架构的更详细草图，其中包括设计的组件、延迟、以及门数。

5.2 MULN的六种不同场景

在计算18位N信号的MULN框中，需要作为输入的18位Q信号和求逆结果Y。但还需要Y的以下附加线性组合：Y₀₂＝Y₀⊕Y₂、Y₁₃＝Y₁⊕Y₃、Y₂₃＝Y₂⊕Y₃、Y₀₁＝Y₀⊕Y₁、Y₀₀＝Y₀₁⊕Y₂₃—这些对应于[BP12]中的信号M41-M45。因此，Y向量实际上扩展到9位，并且N位的延迟变得不同，具体取决于在乘法中使用哪一个Y_i。例如，在最坏情况下，与Y₁的延迟相比，Y₀₀的延迟是+2。因此，得到的信号N将具有不同的输出延迟。然而，可以与基信号Y₀,...,Y₃并行地计算这5个额外的Y。这将使用一些额外的门，但是+2延迟可以缩减到+1或+0。一般来说，可以考虑以下6种场景：

·S0.只计算基信号Y₀..Y₃，剩下的{Y₀₁,Y₂₃,Y₀₂,Y₁₃,Y₀₀}如上所述通过“异或”来计算。延迟为+2，但具有最少的门数。

·S1.并行地计算{Y₀₁,Y₂₃}，延迟为+1。

·S2.并行地计算{Y₀₂,Y₁₃}，延迟为+1。

·S3.并行地计算{Y₀₀}，延迟为+1。

·S4.并行地计算{Y₀₁,Y₂₃,Y₀₂,Y₁₃}，延迟为+1。

·S5.并行地计算{Y₀₁,Y₂₃,Y₀₂,Y₁₃,Y₀₀}，延迟为+0，因为之后没有要计算的信号。

在下一小节中，将展示如何找到上述场景的布尔表达式。

5.3 INV.GF(2⁴)上的求逆

求逆公式如下：

Y₀＝X₁X₂X₃⊕X₀X₂⊕X₁X₂⊕X₂⊕X₃

Y₁＝X₀X₂X₃⊕X₀X₂⊕X₁X₂⊕X₁X₃⊕X₃

Y₂＝X₀X₁X₃⊕X₀X₂⊕X₀X₃⊕X₀⊕X₁

Y₃＝X₀X₁X₂⊕X₀X₂⊕X₀X₃⊕X₁X₃⊕X₁

在[BP12]中，发现了深度为4和17个“异或”的电路，但我们希望通过使用更广泛的标准门来进一步缩小深度。因此，我们使用通用的深度3表达式独立地考虑了每个表达式：

Y_i＝((X_a op₁ X_b)op₅(X_c op₂ X_d))op₇((X_e op₃ X_f)op₆(X_g op₄ X_h))，

其中X_a-h是来自{0,1,X₀,X₁,X₂,X₃}的项，op_1-7是来自标准门集合{AND,OR,XOR,NAND,NOR,XNOR}的运算符。注意，上面不需要包含所有项，例如，表达式AND_(x,x)就是简单的x。

可以按如下方式组织穷举搜索。设具有对象Term，它包含长度为16位的真值表TT，基于4个位X₀..X₃，以及与该项相关联的布尔函数。从可用项的初始集合T⁽⁰⁾＝{0,1,X₀,...,X₃}开始，然后迭代地为选定的Y_i构造表达式。假设在某个步骤k具有可用项集合T^(k)，则可以如下获得下一个项集合和相关联的表达式：

T^(k+1)＝{T^(k),T^(k)operator T^(k)},

其中考虑唯一的项。在某个步骤k，将得到其TT等于目标TT(Y_i)的一个或多个项。

由于实际上可以针对每个Y_i得到多个布尔函数，因此应只选择遵循以下标准的“最佳”函数：没有“非”门(由于更好的共享能力)，存在可以在Y₀..Y₃的4个表达式之间共享的最大门数，GE方面的面积/深度很小。

使用这种技术，我们为求逆找到了深度3、15个门的解。下面给出了方程式，其中还为额外的5个信号{Y₀₁,Y₂₃,Y₀₂,Y₁₃,Y₀₀}提供了深度3的解，以便它们在提到的场景S0-S5中也可以共享很多门。

在为场景S0-S5实现上述电路并以最佳可能的方式共享门时，获得以下结果：

表2：场景S0-S5的INV框。

在我们的最佳电路中使用了场景S1，因为它在面积和深度方面显示了最佳结果。对于快速和奖励电路，使用了S0，因为它的面积最小。

5.4 用于顶部和底部线性矩阵的Alpha-Beta方法

我们正在使用穷举搜索求解顶部矩阵，以及使用各种启发式技术求解底部矩阵。这些矩阵的外观自然会影响解中的最终门数。在此，我们提出了一种简单的方法来尝试不同的顶部和底部矩阵以获得最佳解。

假设SBox是一个黑盒并且它执行函数(不包括常数的最后添加)：

SBox(x)＝x^-1·A_8×8，

其中x^-1是Rijndael域GF(2⁸)中的逆元素，矩阵A_8×8是仿射变换。在特征2的任何域中：平方、平方根和乘以常数均为线性函数，因此对于不重要的选择(α,β)，设：

如果正向SBox和逆向SBox的初始顶部和底部矩阵分别为T_F、B_F、T_I、F_I，则可以选择任意α＝1..255和β＝0..7，并按如下方式变换矩阵：

T'_F＝T_F·E·C_α·P_β·E

B'_F＝E·A·P_β ^-1·C_α·A^-1·E·B_F

T'_I＝T_I·E·A·C_α·P_β·A^-1·E

B'_I＝E·P_β ^-1·C_α·E·B_I，

其中：

E–是切换位字节序的8×8矩阵(在我们的电路中，输入和输出位采用大端序)

A–是执行SBox的仿射变换的8×8矩阵

C_α–是用选定常数α乘以域元素的8×8矩阵

P_β–是将Rijndael域的元素提升到2^β次幂的8×8矩阵

T_F/T_I–分别是正向/逆向SBox的顶部线性变换的原始(未经修改)18×8矩阵。

B_F/B_I–分别是正向/逆向SBox的底部线性变换的原始(未经修改)8×18矩阵。

(α,β)对存在2040种选择，每种选择都给出新的线性矩阵。很容易测试所有这些选择并找到给出最小SBox电路的最佳组合。对于架构A和D，已将此思路应用于正向SBox和逆向SBox两者。

5.4.1 用于组合SBox的Alpha-Beta方法

对于组合SBox，可以独立地将alpha-beta方法应用于正向和逆向部分。这意味着有2040²＝4,161,600个线性矩阵变体要测试。我们专注于架构D，因为没有底部矩阵，因此可以进行更广泛的搜索。我们搜索了所有这400万个变体，并应用第4.1节中的启发式算法作为快速分析方法来选择大约4000个有希望的例子的集合。然后，应用第4.2节中给出的算法来寻找具有浮动多路复用器的解。在我们的例子中具有n＝8位输入，因此每个点都用18位编码，计算距离δ(S,t_i)的复杂度是N＝2¹⁸个点的二次方。在搜索中使用了最大深度TD≤20且截断级别为400个叶的搜索树。

5.5 组合SBox中的顶部矩阵的Q零点

组合SBox需要具有多个用于顶部和底部线性变换两者的多路复用。正向SBox和逆向SBox的顶部线性矩阵分别产生18位信号Q_F和Q_I。这意味着通常应当应用18个多路复用器以基于选定的方向信号ZF而在Q信号之间切换。但是，存在一组始终为零的Q三元组，它们对正向SBox和逆向SBox均有效：

0＝Q0+Q11+Q12 0＝Q1+Q3+Q4 0＝Q4+Q9+Q10 0＝Q6+Q7+Q10

0＝Q0+Q14+Q15 0＝Q2+Q8+Q9 0＝Q5+Q12+Q13 0＝Q11+Q16+Q17

0＝Q1+Q2+Q7 0＝Q3+Q6+Q8 0＝Q5+Q15+Q17 0＝Q13+Q14+Q16

清单1：Q零点，对正向SBox和逆向SBox均有效。

可以使用该知识来仅计算Q信号的子集，然后对它们进行多路复用并使用上述零点计算剩余的Q信号。

例如，可以针对正向SBox和逆向SBox计算10个位：{Q1,Q6,Q8,Q9,Q10,Q12,Q14,Q15,Q16,Q17}，然后应用10个多路复用器，之后，推导出剩余的8个信号：Q0＝Q14+Q15、Q2＝Q8+Q9、Q3＝Q6+Q8、Q4＝Q9+Q10、Q5＝Q15+Q17、Q7＝Q6+Q10、Q11＝Q16+Q17、Q13＝Q14+Q16。

因此，能够节省8个多路复用器，以及能够删除组合顶部矩阵的2×8个行。但是，应确保在多路复用器之外免除上述8位不会增加顶部线性变换的深度。注意，上面示例中的一些信号Q1和Q12不参与计算最后8个信号，因此这两个信号被允许具有+1额外深度。即，在应用电路求解器算法之前，应仔细推导出每个输出信号的最大延迟以作为搜索算法的约束。

除了(α,β)的上面提到的2040种选择之外，还测试了59535种利用Q零点的变体。我们仅将此方法应用于架构A。

6 结果与比较

在本节中，将提供针对正向AES SBox和组合AES SBox的最佳解。单独的求逆SBox可能没有被广泛使用，这些结果可以在附录C中找到。我们使用附录A中描述的技术比较了我们的面积和深度，并在可能的情况下，重新计算了其他学术成果的相应GE以便于比较。为每个SBox(正向、逆向、以及组合)提供三种不同的解：“快速”、“最佳”和“奖励”。快速解是具有最低关键路径的解，最佳解是面积与速度之间良好平衡的权衡，给出奖励解以在最小门数方面建立新的纪录。可以在附录D中找到所有导出的解的确切电路表达式，该附录还指出了在导出解时使用了哪种算法。

6.0.1 合成结果

已经对结果进行了合成，并与其他最近的学术工作进行了比较。技术工艺为GlobalFoundries 22nm CSC20L[Glo19]，并且已使用拓扑模式下Synopsys的DesignCompiler 2017和compile_ultra命令执行了合成。此外，开启标志compile_timing_high_effort以强制编译器产生尽可能快的电路。在这些图中，X轴是时钟周期(以ps为单位)，Y轴是得到的拓扑估计面积(以μm²为单位)。可用门数不受任何限制，因此编译器可以自由使用非标准门，例如3输入“与-或”门。为了获得以下小节中的图，从1200ps时钟周期(～833MHz)开始，然后时钟周期减少20ps，直到无法满足时序约束为止。注意，编译器的面积估计波动很大，我们认为这是编译器必须最小化深度的许多不同策略的结果。一种策略可能对于比如700ps时钟周期是成功的，但不同的策略(其导致明显更大的面积)可能对于720ps是成功的。编译器的策略还涉及随机性元素。

表3：正向SBox：结果比较。

正向SBox：先前结果

正向SBox：我们的结果

6.1 正向SBox

我们在表3中包含了许多有趣的先前结果以用于比较。Canright最著名的设计被广泛使用和引用。我们的最佳SBox既快又小。我们还包括Boyar等人所做的工作，因为他们的设计是我们研究的起点。

Reyhani等人在CHES'18公布的两个结果是最新的，就GE而言，我们的“最佳”SBox与他们的“轻量”版本具有相似的面积，但速度快约30％。该最佳SBox比他们的“快速”电路更小且更快。此外，我们的“快速”版本比他们的“快速”版本快25％，同时维持了适当的面积增加。Ueno完成的目前最快的SBox具有286GE和深度13.772XOR，而我们的快速版本只有248GE和深度10.597XOR，比已知的最快电路性能高出约23％。

我们还包括了Boyar在2016年完成的当前世界上最小的电路(就标准门而言)，它有113个门(231.29GE)和深度27个门。我们的“奖励”电路甚至更小，只有108个门和深度24，低至200.10GE。合成结果如图6所示。

表4：组合SBox：结果比较。

组合SBox：先前结果

组合SBox：我们的结果

6.2 组合SBox

表4示出了我们的结果与先前已知的两个最佳结果的比较。我们的最佳组合SBox具有与[Can05]和[RMTA18b]相似的大小，但速度快很多，因为电路深度低得多。该最佳电路具有深度16(实际上只有14.413XOR)和151个门(296GE)，而Canright的组合SBox的大小为150(+2)个门(298GE)，并具有深度30(25.644XOR)。本文中的奖励解的深度略小于最新结果[RMTA18b]，但大小要小得多(133个标准门对149(+8)个标准门)。最后，所提出的使用架构D的“快速”设计具有目前已知的最佳深度，我们还包括了提供图7中的比较所示的最佳合成结果的设计。

7 结论

在本附录B中，我们介绍了许多启发式和穷举搜索方法以用于最小化AES SBox的电路实现。我们提出了关于如何在最小化算法中包含组合SBox的多路复用器的新思路，并为正向、逆向和组合AES SBox推导出更小并更快的电路实现。我们还引入了一种新架构，在该架构中移除了底部线性矩阵，以便尽可能快地推导出解。

参考文献

[Art01]Artisan Components,Inc.TSMC 0.18μm工艺1.8伏SAGE-XTM标准基元库数据手册，2001年。网址：www.utdallas.edu。

[BFP18]Joan Boyar、Magnus Find和René Peralta。用于加密应用的小型低深度电路。密码学与通信，2018年11月3日。

[BHWZ94]Michael Bussieck、Hannes Hassler、Gerhard J.Woeginger和UweT.Zimmermann。最大卷积问题的快速算法。Oper.Res.Lett.,15(3)：第133–141页，1994年4月。网址：citeseerx.ist.psu.edu。

[Boy]Joan Boyar。电路最小化工作。网址：www.cs.yale.edu。

[BP10a]Joan Boyar和René Peralta。应用于密码学的新型组合逻辑最小化技术。Paola Festa编辑，实验算法，第178-189页，柏林，海德堡，2010年。Springer BerlinHeidelberg。网址：eprint.iacr.org。

[BP10b]Joan Boyar和René Peralta。应用于密码学的新型组合逻辑最小化技术。计算机科学讲义，第178-189页。Springer，2010年。

[BP12]Joan Boyar和René Peralta。用于AES S-Box的小深度-16电路。DimitrisGritzalis、Steven Furnell和Marianthi Theoharidou编辑，SEC，IFIP信息和通信技术进展，第376卷，第287-298页。Springer，2012年。网址：link.springer.com。1007/978-3-642-30436-1_24。

[Bus01]Business Machines Corporation。ASIC SA-27E数据手册，第1部分：基础库和I/O数据手册，2001年。网址：people.csail.mit.edu。

[Can05]D.Canright。用于AES的极紧凑S-Box。Josyula R.Rao和Berk Sunar编辑，加密硬件与嵌入系统-CHES 2005，第441-455页，柏林，海德堡，2005年。Springer BerlinHeidelberg。网址：www.iacr.org。

[FAR06]FARADAY Technology Co.FSD0A_A 90nm Logic SP-RVT(低K)工艺，2006年。网址：www.cl.cam.ac.uk。

[Glo19]GlobalFoundries。22nm FDX工艺，2019年。网址：www.globalfoundries.com。

[IT88]Toshiya Itoh和Shigeo Tsujii。使用正规基计算GF(2M)乘法逆的快速算法。Inf.Comput.，78(3)：第171-177页，1988年9月。网址：dx.doi.org。

[JKL10]Yong-Sung Jeon、Young-Jin Kim和Dong-Ho Lee。使用资源共享方法的AES算法的紧凑型无内存架构。电路、系统和计算机杂志，19：第1109-1130页，2010年。

[MNG00]Microelectronics Group、Carl F.Nielsen和Samuel R.Girgis。WPI0.5mm CMOS标准基元库数据手册，2000年。网址：lsm.epfl.ch。

[NNT+10]YasuyukiNogami、Kenta Nekado、Tetsumi Toyota、Naoto Hongo和Yoshitaka Morikawa。用于F((2²)²)²中有效求逆的混合基和AES子字节的转换矩阵。第234-247页，2010年8月。

[oST01]美国国家标准与技术研究院。高级加密标准。NIST FIPS PUB 197，2001年。

[Paa97]Christof Paar。Reed-Solomon编码器的优化算法。1997年4月。

[Pet]Graham Petley。互联网资源：VLSI和ASIC技术标准基元库设计。网址：www.vlsitechnology.org。

[Rij00]Vincent Rijmen。Rijndael S-Box的有效实现。2000年。网址：www.researchgate.net。

[RMTA18a]ArashReyhani-Masoleh、Mostafa Taha和Doaa Ashmawy。粉碎AES S-Box的实现记录。加密硬件和嵌入式系统上的IACR交易，2018(2):第298–336页，2018年5月。

[RMTA18b]ArashReyhani-Masoleh、Mostafa M.I.Taha和Doaa Ashmawy。AES组合S-Box/逆向S-Box的新面积纪录。2018年IEEE第25届计算机算术研讨会(ARITH)，第145-152页，2018年。

[Sam00]Samsung Electronics Co.,Ltd.。纯逻辑/MDL产品数据手册的STD90/MDL90 0.35μm 3.3V CMOS标准基元库，2000年，网址：www.digchip.com

[SMTM01]Akashi Satoh、Sumio Morioka、Kohji Takano和Seiji Munetoh。S-box优化的紧凑型Rijndael硬件架构。Colin Boyd编辑，ASIACRYPT，计算机科学讲义，第2248卷，第239-254页。Springer，2001年，网址：antoanthongtin.vn。

[UHS+15]Rei Ueno、Naofumi Homma、Yukihiro Sugawara、Yasuyuki Nogami和Takafumi Aoki。基于冗余GF算法的高效GF(2⁸)求逆电路及其在AES设计中的应用。IACRCryptology ePrint Archive，2015:763，2015年。网址：eprint.iacr.org。

本公开的部分B的附录

A 面积和速度测量方法

首先，我们介绍一些记法。门的名称以大写字母GATE书写(例如：AND、OR)。记法mGATEn表示类型为GATE的m个门，每个门有n个输入(例如：XOR4、8XOR4、NAND3、2AND2)。当输入数n缺失时，假设门具有最小输入数，通常只有2(MUX为3)。

被构造为门组合的基元可以被描述为GATES1-GATE2，这意味着首先在第一级GATES1上执行一个或多个门，然后结果进入第二级2上的门。示例：NAND2-NOR2，表示单元有3个输入(a、b、c)，对应的布尔函数为NOR2(a,NAND2(b,c))。

提出了两种不同的电路比较方法；标准方法和技术方法。

A.1 标准方法

基元.标准方法中考虑的基本元素是：{XOR、XNOR、AND、NAND、OR、NOR、MUX、NMUX、NOT}。

“非”NOT门的协商。在电路的某些位置，需要使用信号的反相版本。这可以通过多种方法实现而无需显式使用NOT门。这里列出了其中的一些。

方法1.实现NOT门的一种方法是更改生成该信号的前一个门以替代地产生反相信号。例如，将“异或”XOR切换成“同或”XNOR，将“与”AND切换成“与非”NAND等。

方法2.在多种技术中，有些门可以产生直接信号和反相版本。例如，许多实现中的XOR门同时产生这两种信号，因此反相值是可用的。

方法3.可以更改在反相信号之后的门，以使得在给定反相输入的情况下，例如使用德摩根定律，所得到的方案将产生正确的结果。

综上所述，认为用标准方法对电路求值时可忽略NOT门；因为这些门几乎不能算作全门。但是，为了完整起见，结果表中包含了NOT门的数量。

面积.针对面积比较，对基本元素的数量进行计数，这些元素之间没有任何大小区别。NOT门被忽略。

深度.深度是根据电路路径上的基本元素的数量来计数的。因此，电路的总深度是关键路径的延迟。NOT门被忽略。

A.2 技术方法

基元.一些论文用一些经常在各种方法中可用的额外的组合基元来补充标准基元。例如，门NAND2-NAND2、NOR2-NOR2、2AND2-NOR2、XOR4对改进和加速本文中的SBox电路非常有用。但是，为了与先前的学术成果进行比较，我们将保留标准基元集合，以便进行更公平的比较。在这种方法中，我们在延迟和面积两者中对NOT门进行计数。

面积.存在来自不同供应商(英特尔、三星、GlobalFoundries等)的许多ASIC技术(90nm、45nm、14nm等)，这些技术具有不同的特性。为了开发ASIC，需要获得特定技术的“标准基元库”，该库通常包含比上面列出的基本元素更多样化的基元，使得设计人员有更广泛的构造块选择。

然而，即使考虑标准基元，例如XOR，对于不同的技术而言，该基元也具有不同的面积和延迟。这加大了比较由两个学术团体开发的相同逻辑的两个电路(当这些电路选择应用不同的技术时)的难度。

我们研究了几种技术，其中有数据手册，并决定使用三星STD90/MDL90 0.35μm3.3V CMOS技术[Sam00]数据手册中给出的GE值。要使用的基元没有速度x-因子。

我们还查阅了其他技术的其他数据手册(例如，IBM的0.18μm[Bus01]、WPI 0.5mm[MNG00]、FARADAY的90μm[FAR06]、TSMC 0.18μm[Art01]、Web资源[Pet]等)，以及验证了[Sam00]中给出的GE数字非常公平且接近现实。这使得能够对不同电路的有效性进行近似比较，即使它们可能是针对不同的技术而开发的。

深度.不同的基元(如XOR和NAND)不仅在GE方面不同，而且在门的最大延迟方面也不同。

通常，数据手册包括每个门以及每个输入-输出组合的延迟(例如，以ns为单位)。

我们建议通过XOR门的延迟对所有被使用的门的延迟进行归一化。即，我们在关键路径的测量中采用XOR门的最坏情况延迟作为1个单位。然后查看每个标准基元，并针对该基元的所有输入-输出路径而选择最大的切换特性，并且它被除以XOR门的最大延迟，从而获得所使用的每个门的归一化延迟单位。

对于多路复用器(MUX和NMUX)，我们忽略了选择位的传播延迟，因为在大多数情况下，选择位是电路的输入。例如，在组合SBox中，选择位控制计算正向SBox还是逆向SBox，该选择已准备好作为输入信号并且不在电路信号传播时切换，因此它是一个稳定信号。

上面提出的方法类似于GE的理念，但被用于计算电路的深度，以XOR延迟被归一化。选择XOR作为延迟计数的基本元素的原因是电路经常具有很多XOR门，因此现在可以比较标准方法与技术方法之间的深度。例如，在我们的SBox中，关键路径包含14个门，其中大部分是XOR，但实际上深度仅相当于12.38个XOR延迟，因为关键路径还包含更快的门。

A.3 技术基元概要

表5总结了三星STD90/MDL90 0.35μm门的面积和延迟。

表5：基于[Sam00]的技术门的面积和延迟。

B 算法细节和改进

在本节中，我们介绍之前在论文中描述的各种算法的更多细节。

B.1 单个输出位的最短电路。

该问题是许多算法中反复出现的目标。问题陈述如下。给定k个输入信号x₀,...,x_k-1以及相应的输入延迟d₀,...,d_k-1，计算具有最小可能延迟的y＝x₀⊕x₁⊕...⊕x_k-1。

[RMTA18a]中给出了该问题的解，其中未考虑输入延迟。在算法2中，我们将结果扩展为包括输入延迟并删除了排序步骤。

B.2 关于3.3.1中δ(S,y_i)的计算

在每一轮中，算法测试来自S的所有已知点对，并针对每个对计算距离。直接的思路是穷举地计算δ，但是当输入大小n不太大时，存在更好的方法。

设V是具有2ⁿ个项的向量，每个项V[t]是当前S到t的最小距离。然后，算法的单轮简化了很多，最短距离为：

δ(V,y_i,c)＝min{V[y_i],V[y_i⊕c]+1},

其中c是用于添加到S的候选(来自S的其他两个已知点的异或)，而y_i是目标点。假设现在决定添加c到S，则向量V简单地更新为：

V'[t]＝δ(V,t,c)，所有t＝0,...,2ⁿ-1。

更新V的时间复杂度是O(2ⁿ)，但在特定情况下，它可以比针对一轮中的每个c和y_i组合而穷举地计算δ快得多，尤其是在使用向量化CPU指令(例如AVX2)时。

B.3 关于第4.2.5节中δ(S,t_i)的计算

在本节中，我们将更详细地介绍如何计算δ(S,t_i)。算法3、4和5给出了用于计算δ(S,t_i)的稍微重新组织的算法集合。

算法5 多路复用器MUX门的卷积

存在两种卷积算法，用于异或门和用于多路复用器门，它们可以被独立地执行。多路复用器卷积可以在线性时间O(N)内完成。我们首先收集所有可能的F值和I值的最小距离(每个值都有个可能的索引)，然后可将多路复用器门应用于任何组合，所以卷积是异或卷积更复杂，一般情况下它具有二次复杂度O(N²)。

算法改进.假设对于某些S，我们已经计算了所有距离δ_i＝δ(S,t_i)。对于来自C的每个候选c，我们将其添加到S，使得S'＝S∪c，然后需要计算所有距离δ′_i＝δ(S′,t_i)以便计算度量并决定哪个c是良好的。注意，添加单个候选c意味着对于每个目标t_i，δ′_i≤δ_i。因此，应修改算法Distances(S’,T,maxδ)，使得设置maxδ＝max{δ_i}-1，并最终检查如果δ′_i＝＝∞，则δ′_i＝maxδ。这个简单的技巧有助于避免计算最后一个向量V_k并有效地将计算速度提高多达20倍。

候选C的生成涉及测试候选是否已经在C中或S中，因为这些候选需要被忽略。为了加速这部分，可以使用长度为N的临时向量Z[N]，其中所有基元被初始化为∞，然后针对来自S中的每个点s，设置Z[s.p]＝s.d。接着，当生成新的候选c时，只需更新表Z[c.p]＝min{c.d,Z[c.p]}。最后，从Z中移除S点，并根据Z生成C，如下所示：对于所有i＝0..N-1，如果Z[i]<∞，则添加候选c＝{.p＝i,.d＝Z[i]}到C。以此方式，用唯一的候选构造C，并且还具有最小深度。

架构改进.MUX(a,b)和MUX(b,a)可以被组合在单个MUX卷积函数中。在max{d₁,d₂}+1中，将+1运算移到卷积函数之外，并替代地在卷积之后执行。完成p⊕{.p＝[1|0|1|0],.d＝0}以便包括具有取反输出的门。这些运算也可以被移到卷积函数之外，并在线性时间内在主函数Distances()中执行。这有助于减少函数convolutionXOR()的关键循环中的运算次数，基本上这使速度加倍。当A＝B时，则在convolutionXOR()中，只需要从a开始运行b。当B不等于V₀时，convolutionXOR只能在b的一半值上进行，因为我们知道所有向量V_k(其中k>0)就“非”门而言是对称的。当在convolutionXOR()中A[a]＝∞时，不需要进入b的内循环。对B[b]≠∞执行相同的检查是不合理的，因为它在关键循环中添加了不必要的分支。

附加AVX.很明显，convolutionMUX()可以很容易地被重构为使用AVX向量化指令并利用它的128位寄存器和内在特性。但是，将AVX附加到convolutionXOR()函数有点棘手。首先，假设每个基元A[a]、B[b]都是char类型(字节)，则必须开始b被对齐到16个字节，因为AVX中的寄存器为128位长。其次，p＝a⊕b(其中b＝0..15 mod 16)的结果将在置换位置p结束，但该置换只发生在低4位。借助_mm_shuffle_epi8()，可以进行目标16字节块的置换，其中置换向量仅取决于a mod 16的值(回想一下b＝0 mod 16)。这些置换向量可以被硬编码在常量表中。该convolutionXOR中的其他运算很容易实现。还可以附加AVX2及其256位长寄存器，从而进一步加速算法。

B.3.1 ConvolutionXOR()的更多信息

可以注意到，convolutionXOR可以借助以下卷积来完成：

其中运算和因此，需要在(min,max)-algebra中进行卷积。可以考虑在O(N logN)中应用Hadamard变换，但问题是该algebra没有逆元素。

在[BHWZ94]中，存在一种可以被转换成我们的卷积问题的算法“MinConv”，据称它的工作时间“大约平均”为O(N logN)时间。MinConv背后的思路是对A和B向量进行排序，然后我们在向量A和B的开头得到最小延迟。因此，可以从最小值开始枚举max{A[a],B[b]}。另外，在对A和B进行排序时应注意索引，以使得能够找到目标点p＝a⊕b。初次命中的每个点p接收到最小的可能延迟，因此可以在以后被跳过。该算法背后的思路是，覆盖结果的所有N个点的预测命中数将在N logN左右。

我们已经对其进行了编程，但它没有展示在我们的输入大小(n＝8，N＝21⁸)上的加速，而且实际上至少在我们的输入大小上，比我们的AVX改进型二次算法执行得慢。此外，上述算法不能被并行化。

B.3.2 O(maxDelay²·N log N)时间内的ConvolutionXOR()

通常被存储在V向量中的延迟值很小。可以依据此事实来开发一种比O(N²)更快的算法。

该思路很简单。构造两个向量A_x[]和B_y[]，以使得如果A[p]＝x，则A_x[p]＝1，否则A_x[p]＝0，针对B_y[]采取同样的操作。然后，通过O(N logN)中的经典Walsh-Hadamard变换来计算两个布尔向量A_x和B_y的经典卷积。设C_d[]为卷积的结果且d＝max{x,y}+1。然后，我们知道如果C_d[p]≠0，则点p可具有深度d。因此，我们只是在C_d[p]上执行线性循环并检查如果C_d[p]≠0并且V[p]>d，则V[p]＝d。应针对x,y＝0..maxD的所有组合重复上述运算，其中每一步的复杂度为O(N logN)。maxDelay的值也可以在算法开始时被线性地确定。还要注意，A和B的maxDelay可能不同，因此x和y可能具有不同的范围。

B.3.3 O(|S|²)时间内的ConvolutionXOR()

当从初始V₀构造向量V₁时，值得采用经典方式并遍历S的点对，而不是在N个点上执行全尺度卷积。然而，新生成的点数增长得非常快，这种方法只能应用于最初的Vs(在我们的实验中，仅在V₁中看到一些“胜利”，然后对于进一步的V_k(k>1)，已经使用了优化后的卷积算法)。

C 逆向SBox

据我们所知，单独的逆向SBox的使用不广泛。但我们在表6中提供了与先前已知的解的比较。

表6：逆向SBox：结果比较。

逆向SBox：先前结果

逆向SBox：我们的结果

D 电路

D.1 预备知识

在下面的清单中，我们展示了两种架构A(小型)和D(快速)中的正向、逆向、以及组合SBox的六个电路。使用的符号有：

·##comment–注释行

·@filename–表示应包括来自另一名为“filename”的文件的代码，然后在本节中也给出了它的清单。

·a^b–是常见的“异或”XOR门；其他门被显式表示并取自集合{XNOR,AND,NAND,OR,NOR,MUX,NMUX,NOT}

·(a op b)–在执行顺序(门连接的顺序)很重要的情况下，用括号指定该顺序。

到所有SBox的输入是8个信号{U0..U7}，输出是8个信号{R0..R7}。输入位和输出位以大端位序来表示。对于组合SBox，输入具有额外的信号ZF和ZI，如果执行正向SBox，则ZF＝1，否则，如果执行逆向SBox，则ZF＝0；信号ZI是ZF的补充信号。我们已经测试了所有提出的电路并验证了它们的正确性。

根据图5，这些电路被划分成子程序。在第D.2节中，描述了公共共享组件，然后针对每个解，给出电路的组件(公共的或特定的)。

D.2 共享组件

清单2：MULX/INV/S0/S1/8XOR4：共享组件。

清单3：MULN/MULL：共享组件。

D.3正向SBox(快速)

清单4：具有最小延迟的正向SBox(快速)

D.4正向SBox(最佳)

清单5：具有面积/深度权衡的正向SBox电路(最佳)

D.5 正向SBox(奖励)

包括以下奖励电路以更新最小SBox的世界纪录。

新纪录是108个门，深度为24。

清单6：具有最少门数的正向SBox电路(奖励)

D.6逆向SBox(快速)

清单7：具有最小延迟的逆向SBox(快速)

D.7逆向SBox(最佳)

清单8：具有面积/深度权衡的逆向SBox电路(最佳)

注意：文件‘itop.a’中的上述‘NOT(U2)’可以通过设置Q11＝U2并准确地向下对一些涉及Q11的门和变量求“反”来移除。例如，变量Y01也应被求“反”，因为：N0＝NAND(Y01,Q11)，因此，所有涉及Y01s.b.的门被求“反”，这导致其他Q变量被求“反”，等等。

D.8 逆向SBox(奖励)

清单9：具有最少门数的逆向SBox电路(奖励)

D.9 组合SBox(快速)

清单10：具有最小延迟的组合SBox电路(快速/-S)

D.10 组合SBox(最佳)

清单11：具有面积/深度权衡的组合SBox电路(最佳)

D.11 组合SBox(奖励)

清单12：具有最少门数的组合SBox电路(奖励)

本公开的部分C

来自部分A和部分B的结果可通过对反相电路的进一步研究来进一步扩展。SBox的最终实施例是具有更短关键路径的电路。

GF(2⁴)上的求逆

求逆公式如下：

Y0＝X1X2X3⊕X0X2⊕X1X2⊕X2⊕X3,

Y1＝X0X2X3⊕X0X2⊕X1X2⊕X1X3⊕X3,

Y2＝X0X1X3⊕X0X2⊕X0X3⊕X0⊕X1,

Y₃＝X₀X₁X₂⊕X₀X₂⊕X₀X₃⊕X₁X₃⊕X₁。

在[BP12]中发现了具有深度4和17个XOR的电路，但期望通过使用更广泛的标准门来进一步缩小深度。

相应地，部分B第4.2节中的算法已被适配为寻找INV框的小型解。该思路很简单；基于4位输入X₀,...,X₃，每个Y_i是长度为16位的真值表。我们将“点”定义为16位值。所有标准门(AND、OR、XOR、MUX、NOT，包括它们的取反版本)都能够被应用于“已知”点(S)的任何组合，并且可以以与先前类似的方式计算到目标点的距离T。对浮动多路复用器使用这种稍微修改的算法，找到了只有9个门和深度为3的解。结果如方程式2所示，改进电路见附录E。

如果期望在INV框中避免多路复用器，则本节中还提供了一组替代方程。每个表达式被独立地考虑，其中使用通用深度3表达式：

Y_i＝((X_a op₁ X_b)op₅(X_c op₂ X_d))op₇((X_eop₃ X_f)op₆(X_g op₄X_h))，

其中，X_a-h是来自{0，1，X₀，X₁，X₂，X₃}的项，op_1-7是来自标准门集合{AND，OR，XOR，NAND，NOR，XNOR}的运算符。注意，上面不需要包含所有项，例如，表达式AND_(x，x)就是简单的x。

可以按如下方式组织穷举搜索。设具有对象Term，它包含长度为16位的真值表TT，基于4个位X₀..X₃，以及与该项相关联的布尔函数。从可用项的初始集合T⁽⁰⁾＝{0，1，X₀，...，X₃}开始，然后迭代地为选定的Y_i构造表达式。假设在某个步骤k具有可用项集合T^(k)，则可以如下获得下一个项集合和相关联的表达式：

T(k+1)＝{T(k)，T(k)operatorT(k)}，

其中考虑唯一的项。在某个步骤k，将得到其TT等于目标TT(Y_i)的一个或多个项。

使用这种技术，我们为求逆找到了深度3、15个门的解。下面给出了方程式，其中还为额外的5个信号{Y₀₁，Y₂₃，Y₀₂，Y₁₃，Y₀₀}提供了深度3的解，以便它们在部分B中提到的场景S0-S5中也可以共享很多门。

附录E

在本节中，将介绍使用部分C中提供的改进求逆公式的电路。

预备知识

在下面列出的清单中，描述了新架构D(快速)中的正向、逆向和组合SBox的三个电路的规格。以下清单中使用的符号如下，并具有所指出的含义：

·#comment–注释行

·@filename–表示应包括来自另一名为“filename”的文件的代码，然后在本节中也给出了它的清单。

·a^b–是常见的“异或”XOR门；其他门被显式表示并取自集合{XNOR,AND,NAND,OR,NOR,MUX,NMUX,NOT

·(a op b)–在执行顺序(门连接的顺序)很重要的情况下，用括号指定该顺序。

到所有SBox的输入是8个信号{U0..U7}，输出是8个信号{R0..R7}。输入位和输出位以大端位序来表示。对于组合SBox，输入具有额外的信号ZF和ZI，如果执行正向SBox，则ZF＝1，否则，如果执行逆向SBox，则ZF＝0；信号ZI是ZF的补充信号。已经测试了所有提出的电路并验证了它们的正确性。

共享组件

共享组件在下面的多个实现中使用，因此这里只描述一次。清单：MULX/8XOR4/INV：共享组件

清单：MULN/MULL：共享组件。

正向SBox(快速)

清单：具有最小延迟的正向SBox(快速)

组合SBox(快速)

清单：具有最小延迟的组合SBox

逆向SBox(快速)

清单：具有最小延迟的逆向SBox电路(快速)

97页详细技术资料下载

用于面积受限硬件的低深度AES SBox架构

相关技术

网友询问留言