一种芯片级联并行计算系统

文档序号：1921450 发布日期：2021-12-03 浏览：12次 >En<

阅读说明：本技术 一种芯片级联并行计算系统 (Chip cascade and parallel computing system ) 是由刘远于 2020-05-27 设计创作，主要内容包括：本发明提供了一种芯片级联并行计算系统,所述系统包括：计算控制模块,计算阵列,环型数据通路和星型数据通路；其中,计算控制模块从控制接口通过星型数据通路给计算阵列的每个计算单元配置工作模式；计算控制模块从PCIE数据接口接收待计算数据；计算控制模块从环形数据接口通过环形数据通路把数据发送到计算阵列的第一个计算单元,从计算阵列的最后一个计算单元的环形数据接口通过环形数据通路接收计算结果数据；计算控制模块通过PCIE接口输出结果数据与反馈数据。(The invention provides a chip cascade and parallel computing system, which comprises: the system comprises a calculation control module, a calculation array, a ring data path and a star data path; the computing control module configures a working mode for each computing unit of the computing array from the control interface through the star data path; the calculation control module receives data to be calculated from the PCIE data interface; the calculation control module sends data to a first calculation unit of the calculation array from the annular data interface through an annular data path, and receives calculation result data from the annular data interface of the last calculation unit of the calculation array through the annular data path; and the calculation control module outputs result data and feedback data through the PCIE interface.)

一种芯片级联并行计算系统

技术领域

本发明涉及并行计算技术领域，特别涉及一种芯片级联并行计算系统。

背景技术

当今社会是一个高度数字化的社会，特别是随着移动通信技术的不断发展和演进。MIPI/DVP/BT所传送的一般是普通视频流，它们也可以作为高速数据端口使用。现有技术中的常用术语包括：

PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准，PCIE属于高速串行点对点双通道高带宽传输，所连接的设备分配独享通道带宽，不共享总线带宽，主要支持主动电源管理，错误报告，端对端的可靠性传输，热插拔以及服务质量(QOS)等功能。

移动产业处理器接口(Mobile Industry Processor Interface简称MIPI)是MIPI联盟发起的为移动应用处理器制定的开放标准。MIPI是专门在高速(数据传输)模式下采用低振幅信号摆幅，针对功率敏感型应用而量身定做的。MIPI联盟定义了一套接口标准，把移动设备内部的接口如摄像头、显示屏、基带、射频接口等标准化，从而增加设计灵活性，同时降低成本、设计复杂度、功耗和EMI。由于MIPI是采用差分信号传输的，所以在设计上需要按照差分设计的一般规则进行严格的设计，关键是需要实现差分阻抗的匹配，MIPI协议规定传输线差分阻抗值为80-125欧姆。

如何有效的提高效率，有效利用差分高速数据传输实现数据在芯片级联并行计算中的作用成为亟待解决的问题。

发明内容

为了解决上述现有技术中存在的问题，本发明的目的在于：通过本发明的计算系统可以用来加速深度神经网络计算，语音智能算法计算，数学计算以及区块链计算。

为了实现上述目的，本申请提供了一种芯片级联并行计算系统，所述系统包括：计算控制模块，计算阵列，环型数据通路和星型数据通路；其中，计算控制模块从控制接口通过星型数据通路给计算阵列的每个计算单元配置工作模式；计算控制模块从PCIE数据接口接收待计算数据；计算控制模块从环形数据接口通过环形数据通路把数据发送到计算阵列的第一个计算单元，从计算阵列的最后一个计算单元的环形数据接口通过环形数据通路接收计算结果数据；计算控制模块通过PCIE接口输出结果数据与反馈数据。

所述的计算控制模块由FPGA或者ASIC芯片实现。

所述的计算控制模块支持PCIE接口，MIPI/LVDS接口，SPI/I2C/UART接口。

所述的计算阵列是N个计算单元的集合，各个计算单元之间，用高速串行差分接口相连，统一接口传输数据，输入数据和输出数据均通过该接口总线传输。

所述的每个计算单元就是一颗独立的SOC/ASIC芯片，所述芯片内置计算单元，并支持MIPI/LVDS接口和SPI/I2C/UART接口。

所述的环型数据通路：环型数据通路是连接计算控制模块与每个计算单元的高速数据接口；计算模块内部，每个计算单元之间的接口连接属于环型数据通路的一部分；计算控制模块与第一个计算单元之间的接口连接属于环型数据通路的一部分；计算控制模块与最后一个计算单元之间的接口连接也属于环型数据通路的一部分。

所述的环型数据通路是通过MIPI或者LDVS差分高速接口实现的。

所述的星型数据通路，对每个计算单元进行差异化配置，该星型数据通路有别于环型数据通路，是低速的，差异化的点对点通讯链路。

所述的差异化配置包括设置每个计算单元的身份信息，配置总线仲裁模块的工作方式，配置计算任务，启停计算。

所述的计算控制模块只会向环型数据通路中发送计算数据包；所述的计算单元既可向发出环型数据通路中发送计算数据包，也可向发出环型数据通路中发送结果数据包。

本发明的优势在于：采用本系统，以深度神经网络计算为例，计算单元中内置CNN加速引擎，每个计算单元提供8Tops的算力，通过16单元的级联，就可以达到共计整板128T的算力。用这种方式，比GPGPU或者FPGA有更好的灵活性、更高的性价比和更好的能耗比。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1是本发明的系统的结构示意图。

图2是本发明系统中的环型数据通路的图示。

具体实施方式

本发明的系统结构，如图1所示。该系统由以下几个部分组成：计算控制模块，计算阵列，环型数据通路和星型数据通路。

具体地，一种芯片级联并行计算系统，所述系统包括：计算控制模块，计算阵列，环型数据通路和星型数据通路；其中，计算控制模块从控制接口通过星型数据通路给计算阵列的每个计算单元配置工作模式；计算控制模块从PCIE数据接口接收待计算数据；计算控制模块从环形数据接口通过环形数据通路把数据发送到计算阵列的第一个计算单元，从计算阵列的最后一个计算单元的环形数据接口通过环形数据通路接收计算结果数据；计算控制模块通过PCIE接口输出结果数据与反馈数据。

计算控制模块：由FPGA或者ASIC芯片实现，该模块支持PCIE接口，MIPI/LVDS等接口，SPI/I2C/UART等接口。该模块的流程是：1.通过星型数据通路，2.给计算阵列的每个计算单元配置工作模式，3.从PCIE接收待计算数据，4.通过环型数据接口把数据发送到计算阵列的第一个计算单元，5.从技术阵列的最后一个技术单元的环型数据接口接收计算结果数据，6.通过PCIE把结果数据和反馈数据输出到系统外

计算阵列：计算阵列是若干个计算单元的集合。每个计算单元就是一颗独立的SOC/ASIC芯片，该芯片内置高性能的计算单元，并支持MIPI/LVDS等接口和SPI/I2C/UART等接口。计算单元之间，用高速串行差分接口相连，统一接口传输数据，输入数据和输出数据都通过该接口总线传输。计算阵列内包含计算单元的数量根据应用的强度可以灵活选择，例如：4个计算单元组成一个技术阵列，16个计算单元组成一个技术阵列，32个计算单元组成一个技术阵列等。但在板卡的实现上，由于PCB面积的限制，同一个计算阵列无法无限量增加计算单元。

环型数据通路：环型数据通路是连接计算控制模块与每个计算单元的高速数据接口。计算模块内部，每个计算单元之间的接口连接属于环型数据通路的一部分；计算控制模块与第一个计算单元之间的接口连接属于环型数据通路的一部分；计算控制模块与最后一个计算单元之间的接口连接也属于环型数据通路的一部分。环型数据通路的数据吞吐速率很高，其中一些实现技术是通过MIPI或者LDVS等差分高速接口。以MIPI接口为例，环型数据通路的技术细节如图2所示。

该结构中，MIPI-input高速差分总线数据输入仲裁模块，由仲裁模块判断数据流中的某一部分或者全部是否进入本单元的memory，没有进入本单元的继续从MIPI-output中发出，流向下一个计算单元。进入本单元的数据，交由计算引擎计算结果，结果数据返回memory中，再从MIPI-output发送到下一个计算单元。当计算引擎处于计算状态中并没有到达输出结果的这段时间里，该计算单元处于busy状态；否则处于idle状态。

在该实例中，MIPI高速差分总线中的数据会同时包含下列任意一种或多种类型：

1.该数据包是计算数据，其中明确标志了接收本数据包的计算单元的ID信息。则该数据包只会被包含该ID的计算单元总线仲裁模块接收，其他计算单元对此数据包只执行过顶传输操作；如果没有符合条件的计算单元，该数据包会传递返回计算控制模块。

2.该数据包是计算数据，但没有标志接收本数据包的计算单元的ID信息。则该数据包会被第一个idle状态的计算单元接收，处于busy状态的计算单元对此数据包只执行过顶传输操作；如果没有符合条件的计算单元，该数据包会传递返回计算控制模块。

3.该数据包是结果数据。则所有计算单元对此数据包只执行过顶传输操作。

以上控制逻辑，主要通过每个计算单元内部的总线仲裁模块联动来实现，也就是说，上述的逻辑就是计算单元内部的总线仲裁模块的主要工作模式。

一般情况下，计算控制模块只会向环型数据通路中发送计算数据包；而计算单元既可能向发出环型数据通路中发送计算数据包，也可能向发出环型数据通路中发送结果数据包，以实现接力计算的功能。

以上只是该环型数据通路用MIPI总线协议来实现的一个实例，除了MIPI总线，也可以用其他类似LVDS/BT1120等高速总线。该环型数据通路最大的特点是利用了高速总线协议来统一传输计算数据和结果数据，并不需要分开两条数据通路。

星型数据通路：星型数据通路的主要作用是，对每个计算单元进行差异化配置，如设置每个计算单元的身份信息，配置总线仲裁模块的工作方式，配置计算任务，启停计算等等。该星型数据通路有别于环型数据通路，是低速的，差异化的点对点通讯链路。所以只需要SPI/I2C/UART等常用接口即可实现。

以上模块的有机组合，形成一个芯片级联并行计算系统。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

6页详细技术资料下载

一种芯片级联并行计算系统

相关技术

网友询问留言