用于通过计算求函数值的
面向卷积神经网络的DSP紧缩字乘法方法及系统
本发明提供了一种面向卷积神经网络的DSP紧缩字乘法方法及系统,设计出一种基于FPGA上DSP资源实现的紧缩字乘法计算模式。紧缩字乘法即利用数据量化的低比特优势,在一个DSP内部实现多个四比特乘法,提高资源的利用效率。此外,由于FPGA对DSP单元之间的级联进行了专门优化,因此本发明又利用DSP单元的级联实现了紧缩字乘累加,即完成多次紧缩字乘法并累加后,再从紧缩字乘积中提取出运算结果。本发明充分利用了DSP的特性,提高了DSP的利用效率,有利于系统能效比的优化。

2021-10-29

访问量:18

IIR滤波器及其数据处理方法
本发明提供一种IIR滤波器及其数据处理方法。该IIR滤波器包括:分时复用的乘法器、分时复用的加法器和移位操作单元,乘法器用于在连续的多个时钟周期分别根据不同的乘法系数对操作数进行乘法操作,操作数为IIR滤波器的输入数据或者IIR滤波器的输出数据;加法器用于在连续的多个时钟周期分别对两个操作数进行加法操作,在每个时钟周期,两个操作数为乘法器在当前时钟周期得到的计算结果以及加法器在设定的其他时钟周期得到的累加结果;移位操作单元用于在连续的多个时钟周期的第一个时钟周期对加法器的累加结果进行移位操作,移位操作结果作为IIR滤波器的输出数据。本发明能够降低IIR滤波器逻辑占用面积和逻辑之间连线面积。

2021-10-26

访问量:25

神经网络装置及其操作方法、应用处理器
提供了神经网络装置及其操作方法、应用处理器。一种用于执行神经网络操作的神经网络装置,包括:浮点运算电路,该浮点运算电路被配置为对多个浮点数据对中的每一个执行点积操作,其中,浮点运算电路被配置为:在点积操作,基于从分别与浮点数据对相对应的多个指数部分加法操作结果中确定的最大值,将分别与浮点数据对相对应的多个分数部分乘法操作结果对齐移位。

2021-10-26

访问量:30

具有混合精度运算的处理单元
一种图形处理单元(GPU)[100]实现具有相关联的运算码的运算[105]以执行混合精度数学运算。所述GPU包括具有不同执行路径[106、107]的算术逻辑单元(ALU)[104],其中每个执行路径执行不同的混合精度运算。通过响应于指定描述运算的运算码而实现ALU处的混合精度运算,GPU在减少执行开销的同时高效地提高了指定的数学运算的精度。

2021-10-22

访问量:22

基于ZYNQ平台的VGG16网络并行加速处理方法
本发明属于人工智能和FPGA设计技术领域,具体公开了一种基于ZYNQ平台的VGG16网络并行加速处理方法,本发明通过数据的定点量化,减小输入输出数据、权重数据及偏置所带来的巨大计算量,从而降低功耗、减小计算量并解决片上资源受限问题;通过采用资源并行方式,一方面避开卷积神经网络层与层之间数据相关性的并行计算问题,另一方面减少对硬件电路资源的需求。本发明通过ZYNQ平台设计一种可以实现VGG16网络高度并行的硬件加速架构,从而在实现较小的资源消耗与较低功耗的基础上,提升加速性能与加速效率。

2021-10-19

访问量:17

神经网络装置、操作神经网络装置的方法和应用处理器
公开了神经网络装置、操作神经网络装置的方法和应用处理器。所述神经网络装置包括:浮点运算电路,被配置为执行点积运算和累加运算;和缓冲器,被配置为存储由浮点运算电路生成的第一累积数据,其中,浮点运算电路还被配置为通过以下操作执行点积运算和累加运算:从第一累积数据的阶码值和通过分别将多个浮点数据对的阶码相加而获得的多个阶码加法结果识别最大值;基于最大值,执行第一累积数据的尾数部分和通过分别将所述多个浮点数据对的尾数相乘而获得的多个尾数乘法结果的对齐移位;和执行多个对齐的尾数乘法结果与第一累积数据的对齐的尾数部分的求和。

2021-10-12

访问量:16

假定张量处理
本申请涉及假定张量处理。一种与假定张量处理有关的方法可包含:通过彼此耦合的多个乘累加器MAC单元接收多个通用数字unum或假定位串,所述多个通用数字unum或假定位串组织成矩阵并且将在使用所述多个MAC单元执行的多个相应递归运算中用作操作数;以及使用所述MAC单元执行所述多个相应递归运算。所述相应递归运算的迭代使用至少一个位串执行,所述至少一个位串与用于所述相应递归运算的先前迭代的位串相同。所述方法可进一步包含在接收所述多个unum或假定位串之前,执行组织所述多个unum或假定位串的操作以在所述多个相应递归运算的执行期间实现阈值带宽比、阈值时延或这两者。

2021-10-12

访问量:26

由计算机执行的特征图的卷积处理方法、装置和电子设备
本发明提供了一种由计算机执行的特征图的卷积处理方法、装置和电子设备,包括:基于初始访存偏移量和偏移量增量确定当前访存偏移量;根据当前访存偏移量获取待计算特征图张量中的待计算特征图分块矩阵和待计算权重张量中的待计算权重分块矩阵;对待计算特征图分块矩阵和待计算权重分块矩阵执行矩阵乘法操作,得到待计算特征图张量的分块计算结果,并遍历待计算特征图张量中的所有待计算特征图分块矩阵,得到多个分块计算结果;对多个分块计算结果执行累加操作,并对累加操作后的结果添加偏置项,得到待计算特征图张量的卷积计算结果。本发明的方法实现的卷积算子模板的性能能够达到最优。

2021-10-01

访问量:22

一种基于磁性随机存储器的模拟域存内计算阵列结构
发明公开了一种基于磁性随机存储器(MRAM)的模拟域存内计算阵列结构,包括6晶体管2磁隧道结(6T2M)存储阵列、读写电路、行译码驱动电路、数据输入单元、脉冲产生电路、电流镜积分模块、模数(A/D)转换器、移位加法电路、时序控制电路以及模式选择模块。该发明具备标准读写模式和存内计算模式。标准读写模式下实现存储阵列中数据的读写操作;存内计算模式下利用6T2M的存储单元,提高MRAM的等效磁阻比(TMR),在读取数据的同时运用电流积分完成神经网络计算中的多比特乘累计算,同时将计算模块与存储阵列整合在一起,减少了访存能耗,相比传统的冯诺依曼架构的神经网络加速器,本发明有效提高计算精度和电路能效。

2021-10-01

访问量:20

可重新配置数字信号处理(DSP)向量引擎
本公开的发明名称是“可重新配置数字信号处理(DSP)向量引擎”。本文中描述的系统和方法可涉及提供能够处理与各种矩阵维数相关联的数据、一个或多个复数操作、一个或多个实数操作或两者的动态可配置电路系统。可将配置应用于可配置电路系统,以针对下一操作对可配置电路系统进行编程。可配置电路系统可根据至少部分基于耦合在处理元件的计算网络中的重复处理元件的操作的各种操作来处理数据。

2021-09-28

访问量:21

注册成为会员可查看更多数据。
技术分类