数值的随机修约

文档序号：1708492 发布日期：2019-12-13 浏览：18次 >En<

阅读说明：本技术 数值的随机修约 (random rounding of values ) 是由 J·M·阿尔本 P·米齐可维休斯浩·吴 M·Y·西乌于 2019-05-28 设计创作，主要内容包括：公开了一种用于修约数值的方法、计算机可读介质和系统。来自输入值的一组位被识别为修约值。从输入值中提取表示第二值的第二组位,并将其与修约值相加以产生和。该和被截位以产生修约的输出值。因此,本发明提供了一种随机修约技术,该技术修约作为第二值和修约值的函数的输入值,这两者都从输入值获得。当从输入值的一致位位置获得第二值和修约值时,得到的输出值是确定性的。随机修约是确定性的,有利地适用于深度学习应用。(A method, computer-readable medium, and system for pruning numerical values are disclosed. A set of bits from the input value is identified as a pruned value. A second set of bits representing a second value is extracted from the input value and summed with the pruned value to produce a sum. The sum is truncated to produce a trimmed output value. Accordingly, the present invention provides a random pruning technique that prunes an input value that is a function of a second value and a pruned value, both of which are derived from the input value. When the second value and the pruned value are obtained from the coincident bit position of the input value, the resulting output value is deterministic. Stochastic pruning is deterministic and is advantageously suitable for deep learning applications.)

数值的随机修约

技术领域

本发明涉及修约数值，更具体地说，涉及用于执行随机修约的电路。

背景技术

在某些情况下，降低表示数学计算的数值的精度可能是有益的。例如，32位浮点值可以用不太精确的16位浮点值替换，以减少用于神经网络训练的电路、功率和带宽。与使用全精度值相比，降低精度的值在数据传输期间仅需要一半带宽，以及不到一半的芯片面积和功耗。但是，可以使用16位浮点格式表示的值范围远小于可以使用32位浮点格式表示的值范围。小于16位浮点格式表示的最小值的数字将丢失(即，变为零)。

随机修约是通常用于扩展数值范围的方法。对于传统的修约，数字被确定性地向上或向下修约，例如0.5到1之间的值被向上修约到1，低于0.5的值总是向下修约到0。使用随机修约，修约反而是概率性的。具体而言，0.5％有50％的几率被向上修约到1和50％的几率被向下修约到0，而0.1有10％的几率被向上修约到1和90％的几率被向下修约到0。

利用随机修约，单独的修约事件实际上可以引入更多的误差，但是在长的累加序列上平均而言，结果将具有更少的误差。例如，当使用传统修约累加1000个值为0.1的数字时，在累加每个数字后结果将为零，然而，使用随机修约结果应该更接近正确答案100。

因此，当在长序列数值上应用累加和修约运算时，随机修约是优选的，而挑战是在软件或硬件中有效地实现随机修约的随机修约行为。一种方法可以是为每个修约操作生成随机数，但就附加电路和/或功耗而言，这是非常昂贵的。需要解决与现有技术相关的这些问题和/或其他问题。

发明内容

公开了一种用于修约数值的方法、计算机可读介质和系统。接收由第一位数表示的输入值，并且将输入值的第一位数的一部分识别为由第二位数表示的修约值。从输入值提取第二值，并且修约值与第二值内的修约位置对齐，其中修约位置对应于由第三位数表示的输出值的最低有效位。将对齐的修约值和第二值相加以生成和，并且会截位该和以生成输出值。

附图说明

图1示出了根据一实施例的用于修约数值的方法的流程图。

图2A示出了根据一实施例的修约单元的框图。

图2B示出了根据一实施例的23位尾数的修约以产生10位减小的位宽尾数。

图2C示出了根据一实施例的修约单元的另一框图。

图2D示出了根据一实施例的用于修约数值的方法的另一流程图。

图3示出了根据一实施例的并行处理单元。

图4A示出了根据一实施例的图3的并行处理单元内的通用处理集群。

图4B示出了根据一实施例的图3的并行处理单元的存储器分区单元。

图5A示出了根据一实施例的图4A的流式多处理器。

图5B是根据一实施例的使用图3的PPU实现的处理系统的概念图。

图5C示出了可以实现各种先前实施例的各种架构和/或功能的示例性系统。

具体实施方式

描述了一种新的修约机制，用于将值的位宽从其原始的全位宽(N位)减小到减小的位宽(M位)。在一实施例中，浮点尾数值的N位的一部分用作修约值。全位宽值内的修约位置是减小的位宽值的最低有效位的位置。换句话说，将修约位置右侧的位截位以执行位宽减小。要截位的修约位置右侧的小数位数可以是固定的、计算的或可编程的。类似地，减小的位宽值中的位数(M)可以是固定的、计算的或可编程的。M确定N位输入值内的修约位置。原始输入值的全部或小于N位用于产生与修约值求和的第二值。

将修约值与修约位置的右侧对齐并将其加到第二值以计算和。相反，当执行传统的修约到最近时，将固定值与全位宽值求和以计算和。在这两种情况下，和内的修约位置右侧的小数位被截位以产生减小的位宽值。

图1示出了根据一实施例的用于修约数值的方法100的流程图。尽管在处理单元的上下文中描述了方法100，但是方法100还可以由程序、定制电路或定制电路和程序的组合来执行。例如，方法100可以由GPU(图形处理单元)、CPU(中央处理单元)或能够执行算术运算的任何处理器执行。此外，本领域普通技术人员将理解，执行方法100的任何系统都在本发明的实施例的范围和精神内。

在步骤110，接收由第一位数表示的输入值。在一实施例中，输入值以包括指数和尾数的浮点格式表示。在另一实施例中，输入值以定点格式表示。

在步骤120，将输入值的第一位数的一部分识别为由第二位数表示的修约值。在一实施例中，输入值的第一位数的所述一部分在尾数内被识别。在一实施例中，所识别的输入值的第一位数的所述一部分是尾数的最低有效位。在一实施例中，输入值的第一位数的所述一部分在定点格式值内被识别。在一个实施例中，所识别的输入值的第一位数的所述一部分是定点格式值的最低有效位。在另一实施例中，所识别的输入值的第一位数的所述一部分是输入值的一组连续位。在又一实施例中，所识别的输入值的第一位数的所述一部分是来自输入值的预定位位置的输入值的一组位。

在步骤130，从输入值中提取第二值。在一实施例中，第二值是与输入值相同的值。在另一实施例中，第二值是输入值的较不精确的值。在又一实施例中，第二值由比输入值更少的位表示。在步骤140，修约值与第二值内的修约位置对齐，其中修约位置对应于由第三位数表示的输出值的最低有效位。结合图2B更详细地描述了修约位置。在步骤150，将对齐的修约值和第二值相加以产生和。在步骤160，从和中截位第四位数以产生输出值。在一实施例中，确定第四位数，使得输出值是包括第三位数的减小的位宽。在一实施例中，第四位数等于第二位数。在一实施例中，输入值是浮点格式数字的尾数，并且输出值是整数。

现在将根据用户的期望阐述关于可以实现前述框架的各种任选架构和特征的更多说明性信息。应该特别注意的是，以下信息出于说明性目进行阐述，并且不应该被解释为以任何方式的限制。以下的任意特征可以任选性地并入或不排除所描述的其他特征。

图2A示出了根据一实施例的修约单元200的框图。修约单元200包括阈值比较单元210、多路复用器215和累加器220。修约单元200接收包括指数和N位的尾数的浮点格式值。在一实施例中，使用IEEE(电气和电子工程师协会)浮点格式表示浮点格式值。在一实施例中，根据本发明对尾数进行修约。

阈值比较单元210将浮点输入与阈值进行比较。当浮点输入大于或等于阈值时，可以使用分数值作为修约值来修约尾数。阈值可以是固定的、计算的或编程的。在一实施例中，阈值等于可以使用具有减小的位宽的浮点格式表示的最小值。在另一实施例中，阈值等于可以使用具有减小的位宽的浮点格式表示的最大值。

阈值比较单元210将选择信号输出到多路复用器215，该多路复用器215用于选择分数值或输入值的一部分作为修约值。在一实施例中，尾数的一部分作为输入提供至多路复用器215，其中尾数是第一位数(N)，并且尾数的一部分包括少于N位。修约单元200输出具有第三位数(M)的减小的尾数，其中M小于N。

分数值可用于执行传统的IEEE 754-2008修约。分数值可以是固定的、计算的或编程的。否则，当浮点输入小于(即，不大于或不等于)阈值时，多路复用器215选择尾数的一部分作为修约值来修约尾数。阈值比较单元210从浮点输入中提取第二值。在一实施例中，第二值是具有少于N位的尾数的一部分。

累加器220接收第二值和修约值并产生减小的尾数。修约值与第二值内的修约位置对齐。修约位置对应于减小的尾数的最低有效位。该对齐的修约值与第二值求和以产生和。累加器220从和中截位多个位以产生具有比输入值的尾数具有更少位数的减小的尾数。

在一实施例中，输入值包括浮点格式数字的23位尾数，并且由修约单元200生成的输出值是10位减小的尾数。在另一实施例中，输入值包括浮点格式数字的23位尾数，并且由修约单元200生成的输出值是7位尾数。在又一实施例中，输入值包括浮点格式数字的52位尾数，并且由修约单元200生成的输出值是23位尾数。

图2B示出了根据一实施例的23位尾数的修约以产生10位减小的位宽尾数。在一实施例中，23位尾数包括隐含的前导码(leading one)。在一实施例中，通过求和与23位尾数的位对齐的23位尾数的8个lsbs(最低有效位)，将23位尾数减少到10位减小的尾数，所述23位尾数的位于10位减小的尾数的lsb的右侧。如图2B所示，10个最高有效位(MS)对应于减小的位宽尾数，其中M＝10。23位尾数的8个最低有效位(LS)位(位16到23)用作8位修约值，该修约值与修约位置对齐并与23位尾数相加。通过将位11到18与位16到23相加而产生的进位位在进位位为高时增加所述10MS位。产生的23位和被截位以产生10位减小的尾数。

在一实施例中，如果在修约期间和溢出，则和向右移一位然后被截位。在一实施例中，减小的尾数是7位。在其他实施例中，减小的尾数是更少或更多的位。在一些实施例中，表示输入尾数的位数大于或小于23位。在一实施例中，在计算和之前，任选地修改尾数的修约值或LS位。例如，分数值可以与尾数的LS位进行异或，分数值可以用作尾数的LS位的位旋转计数，或者分数值可以用作掩码来选择尾数内修约位置右侧的特定位以生成修约值。

图2C示出了根据一实施例的修约单元250的另一框图。修约单元250包括阈值比较单元212、修约值生成单元225和累加器220。修约单元250接收包括和N位的尾数的浮点格式值。

对应于不同的修约模式定义一个或更多个范围和/或阈值，并且阈值比较单元212接收修约模式，该修约模式控制哪个阈值范围或值与浮点输入进行比较。在一实施例中，当浮点输入大于或等于阈值时，可以使用分数值作为修约值来修约尾数。在另一实施例中，当浮点输入在阈值范围之内或之外时，分数值可以用作修约值来修约尾数。阈值和/或修约模式可以是固定的、计算的或编程的。

阈值比较单元212将选择信号输出到修约值生成单元225，该修约值生成单元225用于选择分数值或输入值的一部分作为修约值。修约模式可用于修改修约值。在一个实施例中，阈值比较单元212提取并提供尾数的一部分作为修约值生成单元225的输入，其中尾数由第一位数(N)表示，并且尾数的所述一部分包括少于N位。在一实施例中，由阈值比较单元212提取的修约值是尾数的LS位。修约单元250输出具有第三位数(M)的减小尾数，其中M小于N。在一实施例中，由修约值生成单元225选择的修约值是尾数的LS位。

在一实施例中，修约值生成单元225在计算和之前任选地修改修约值或者修改尾数的LS位。例如，基于修约模式，分数值可以与尾数的LS位进行异或，分数值可以用作尾数的LS位的位旋转计数，或者分数值可以是用作掩码来选择尾数内修约位置右侧的特定位来生成修约值。修约模式和/或分数值可以固定的、计算的或编程的。

如前所述，累加器220接收第二值和修约值并产生减小的尾数。修约值与第二值内的修约位置对齐。修约位置对应于减小的尾数的最低有效位。对齐的修约值与第二个值求和以产生和。累加器220从和中截位多个位以产生具有第三位数的减小的尾数。

可以使用专用指令来执行修约，例如将具有第一位宽的值转换为具有第二位宽的值的指令，其中第二位宽度小于第一位宽。在一实施例中，可以提供分数值、阈值范围、阈值和修约模式中的一个或更多个作为指令的操作数。在一实施例中，分数值可以由增量器生成。对于执行算术运算(例如，乘法累加、求和等)并产生减小的位宽输出的指令，可以选择性地启用修约运算。在一实施例中，当执行指令时，返回修约值以及减小的位宽值。

图2D示出了根据一实施例的用于修约数值的方法260的另一流程图。尽管在处理单元的上下文中描述了方法260，但是方法260还可以由程序、定制电路或定制电路和程序的组合来执行。例如，方法260可以由GPU(图形处理单元)、CPU(中央处理单元)或能够执行算术运算的任何处理器执行。此外，本领域普通技术人员将理解，执行方法260的任何系统都在本发明的实施例的范围和精神内。

在步骤110，接收由第一位数表示的输入值。在一实施例中，输入值以包括指数和尾数的浮点格式表示。在步骤265，阈值比较单元212基于修约模式生成用于输入值和阈值或阈值范围的选择信号。在一实施例中，阈值比较单元212将输入值与阈值进行比较，并且当输入值大于阈值时，生成选择信号以选择分数值。在一实施例中，阈值比较单元212将输入值与阈值进行比较，并且当输入值大于或等于阈值时，生成选择信号以选择分数值。

在步骤270，修约值生成单元225确定选择信号是否选择分数值，如果不是，则在进行到步骤275之前，完成步骤120以识别要被选择作为修约值的输入值的一部分。在一实施例中，通过将用于尾数的线的子集连接到修约值生成单元225来识别输入值的该部分。如果在步骤270，修约值生成单元225确定选择信号选择分数值，修约值生成单元225直接进入步骤275。在步骤275，修约值生成单元225根据选择信号选择修约值。在步骤280，修约值生成单元225修改修约值。可以基于分数值和/或修约模式来修改修约值。如前所述完成步骤130至160。

使用输入值的一部分来执行修约操作的优点在于给定输入值的结果是确定性的。具体地，无论何时执行修约操作，都将针对特定输入值产生相同的输出值。相反，当使用随机值来执行修约操作时，结果不一定是确定性的。与生成随机值相比，使用输入值的一部分也需要更少的电路。因此，可以实现随机修约(减小连续累加的误差)的益处，而不需要生成随机值。

并行处理架构

图3示出了根据一实施例的并行处理单元(PPU)300。在一实施例中，PPU 300是在一个或更多个集成电路器件上实现的多线程处理器。PPU 300是设计用于并行处理许多线程的延迟隐藏体系架构。线程(即，执行线程)是被配置为由PPU 300执行的指令集的实例。在一实施例中，PPU 300是图形处理单元(GPU)，其被配置为实现用于处理三维(3D)图形数据以生成用于在显示装置(诸如液晶显示(LCD)设备)上显示的二维(2D)图像数据的图形渲染管线。在其他实施例中，PPU 300可以用于执行通用计算。尽管为了说明的目的本文提供了一个示例性并行处理器，但应特别指出的是，该处理器仅出于说明目的进行阐述，并且可使用任何处理器来补充和/或替代该处理器。

一个或更多个PPU 300可以被配置为加速数千个高性能计算(HPC)、数据中心和机器学***台、深度学习、高精度语音、图像和文本识别系统、智能视频分析、分子模拟、药物开发、疾病诊断、天气预报、大数据分析、天文学、分子动力学模拟、金融建模、机器人技术、工厂自动化、实时语言翻译、在线搜索优化和个性化用户推荐等。

如图3所示，PPU 300包括输入/输出(I/O)单元305、前端单元315、调度器单元320、工作分配单元325、集线器330、交叉开关(Xbar)370、一个或更多个通用处理集群(GPC)350以及一个或更多个分区单元380。PPU 300可以经由一个或更多个高速NVLink 310互连连接到主机处理器或其他PPU 300。PPU 300可以经由互连302连接到主机处理器或其他***设备。PPU 300还可以连接到包括多个存储器设备304的本地存储器。在一实施例中，本地存储器可以包括多个动态随机存取存储器(DRAM)设备。DRAM设备可以被配置为高带宽存储器(HBM)子系统，具有在每个设备内堆叠的多个DRAM裸晶(die)。

NVLink 310互连使得系统能够扩展并且包括与一个或更多个CPU结合的一个或更多个PPU 300，支持PPU 300和CPU之间的高速缓存一致性，以及CPU主控。数据和/或命令可以由NVLink 310通过集线器330发送到PPU 300的其他单元或从其发送，例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确示出)。结合图5B更详细地描述NVLink 310。

I/O单元305被配置为通过互连302从主机处理器(未示出)发送和接收通信(即，命令、数据等)。I/O单元305可以直接经由互连302，或通过一个或更多个中间设备(诸如内存桥)与主机处理器通信。在一实施例中，I/O单元305可以经由互连302与一个或更多个其他处理器(例如，一个或更多个PPU 300)通信。在一实施例中，I/O单元305实现***组件互连高速(PCIe)接口，用于通过PCIe总线进行通信，并且互连302是PCIe总线。在可选的实施例中，I/O单元305可以实现其他类型的周知的接口，用于与外部设备进行通信。

I/O单元305对经由互连302接收的分组进行解码。在一实施例中，分组表示被配置为使PPU 300执行各种操作的命令。I/O单元305按照命令指定将解码的命令发送到PPU 300的各种其他单元。例如，一些命令可以被发送到前端单元315。其他命令可以被发送到集线器330或PPU 300的其他单元，诸如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确示出)。换句话说，I/O单元305被配置为在PPU 300的各种逻辑单元之间和之中路由通信。

在一实施例中，由主机处理器执行的程序在缓冲区中对命令流进行编码，该缓冲区向PPU 300提供工作量用于处理。工作量可以包括要由那些指令处理的许多指令和数据。缓冲区是存储器中可由主机处理器和PPU 300两者访问(即，读/写)的区域。例如，I/O单元305可以被配置为经由通过互连302传输的存储器请求访问连接到互连302的系统存储器中的缓冲区。在一实施例中，主机处理器将命令流写入缓冲区，然后向PPU 300发送指向命令流开始的指针。前端单元315接收指向一个或更多个命令流的指针。前端单元315管理一个或更多个流，从流读取命令并将命令转发到PPU 300的各个单元。

前端单元315耦合到调度器单元320，其配置各种GPC 350以处理由一个或更多个流定义的任务。调度器单元320被配置为跟踪与由调度器单元320管理的各种任务相关的状态信息。状态可以指示任务被指派给哪个GPC 350，该任务是活动的还是不活动的，与该任务相关联的优先级等等。调度器单元320管理一个或更多个GPC 350上的多个任务的执行。

调度器单元320耦合到被配置为分派任务以在GPC 350上执行的工作分配单元325。工作分配单元325可以跟踪从调度器单元320接收到的多个调度任务。在一实施例中，工作分配单元325为每个GPC 350管理待处理(pending)任务池和活动任务池。待处理任务池可以包括多个时隙(slot)(例如，32个时隙)，其包含被指派为由特定GPC 350处理的任务。活动任务池可以包括多个时隙(例如，4个时隙)，用于正在由GPC 350主动处理的任务。当GPC 350完成任务的执行时，该任务从GPC 350的活动任务池中逐出，并且来自待处理任务池的其他任务之一被选择和调度以在GPC 350上执行。如果GPC 350上的活动任务已经空闲，例如在等待待解决的数据依赖性时，那么活动任务可以从GPC 350中逐出并返回到待处理任务池，而待处理任务池中的另一个任务被选择并调度以在GPC 350上执行。

工作分配单元325经由XBar(交叉开关)370与一个或更多个GPC 350通信。XBar370是将PPU 300的许多单元耦合到PPU 300的其他单元的互连网络。例如，XBar 370可以被配置为将工作分配单元325耦合到特定的GPC 350。虽然没有明确示出，但PPU 300的一个或更多个其他单元也可以经由集线器330连接到XBar 370。

任务由调度器单元320管理并由工作分配单元325分派给GPC 350。GPC 350被配置为处理任务并生成结果。结果可以由GPC 350内的其他任务消耗，经由XBar 370路由到不同的GPC 350，或者存储在存储器304中。结果可以经由分区单元380写入存储器304，分区单元380实现用于从存储器304读取数据和向存储器304写入数据的存储器接口。结果可以通过NVLink310发送到另一个PPU 304或CPU。在一实施例中，PPU 300包括数目为U的分区单元380，U等于耦合到PPU 300的分离且不同的存储器设备304的数目。下面将结合图4B更详细地描述分区单元380。

在一实施例中，主机处理器执行实现应用程序编程接口(API)的驱动程序内核，其使得能够在主机处理器上执行一个或更多个应用程序以调度操作用于在PPU 300上执行。在一实施例中，多个计算机应用程序由PPU 300同时执行，并且PPU 300为多个计算机应用程序提供隔离、服务质量(QoS)和独立地址空间。应用程序可以生成指令(即API调用)，其使得驱动程序内核生成一个或更多个任务以由PPU 300执行。驱动程序内核将任务输出到正在由PPU 300处理的一个或更多个流。每个任务可以包括一个或更多个相关线程组，本文称为线程束(warp)。在一实施例中，线程束包括可以并行执行的32个相关线程。协作线程可以指代包括执行任务的指令并且可以通过共享存储器交换数据的多个线程。结合图5A更详细地描述线程和协作线程。

图4A示出了根据一实施例的图3的PPU 300的GPC 350。如图4A所示，每个GPC 350包括用于处理任务的多个硬件单元。在一实施例中，每个GPC 350包括管线管理器410、预光栅操作单元(PROP)415、光栅引擎425、工作分配交叉开关(WDX)480、存储器管理单元(MMU)490以及一个或更多个数据处理集群(DPC)420。应当理解，图4A的GPC 350可以包括代替图4A中所示单元的其他硬件单元或除图4A中所示单元之外的其他硬件单元。

在一实施例中，GPC 350的操作由管线管理器410控制。管线管理器410管理用于处理分配给GPC 350的任务的一个或更多个DPC 420的配置。在一实施例中，管线管理器410可以配置一个或更多个DPC 420中的至少一个来实现图形渲染管线的至少一部分。例如，DPC420可以被配置为在可编程流式多处理器(SM)440上执行顶点着色程序。管线管理器410还可以被配置为将从工作分配单元325接收的分组路由到GPC 350中适当的逻辑单元。例如，一些分组可以被路由到PROP 415和/或光栅引擎425中的固定功能硬件单元，而其他分组可以被路由到DPC 420以供图元引擎435或SM 440处理。在一实施例中，管线管理器410可以配置一个或更多个DPC 420中的至少一个以实现神经网络模型和/或计算管线。

PROP单元415被配置为将由光栅引擎425和DPC 420生成的数据路由到光栅操作(ROP)单元，结合图4B更详细地描述。PROP单元415还可以被配置为执行颜色混合的优化，组织像素数据，执行地址转换等。

光栅引擎425包括被配置为执行各种光栅操作的多个固定功能硬件单元。在一实施例中，光栅引擎425包括设置引擎、粗光栅引擎、剔除引擎、裁剪引擎、精细光栅引擎和瓦片聚合引擎。设置引擎接收变换后的顶点并生成与由顶点定义的几何图元关联的平面方程。平面方程被发送到粗光栅引擎以生成图元的覆盖信息(例如，瓦片的x、y覆盖掩码)。粗光栅引擎的输出被发送到剔除引擎，其中与未通过z-测试的图元相关联的片段被剔除，并且未剔除的片段被发送到裁剪引擎，其中位于视锥体之外的片段被裁剪掉。那些经过裁剪和剔除后留下来的片段可以被传递到精细光栅引擎，以基于由设置引擎生成的平面方程生成像素片段的属性。光栅引擎425的输出包括例如要由在DPC 420内实现的片段着色器处理的片段。

包括在GPC 350中的每个DPC 420包括M管线控制器(MPC)430、图元引擎435和一个或更多个SM 440。MPC 430控制DPC 420的操作，将从管线管理器410接收到的分组路由到DPC 420中的适当单元。例如，与顶点相关联的分组可以被路由到图元引擎435，图元引擎435被配置为从存储器304提取与顶点相关联的顶点属性。相反，与着色程序相关联的分组可以被发送到SM 440。

SM 440包括被配置为处理由多个线程表示的任务的可编程流式处理器。每个SM440是多线程的并且被配置为同时执行来自特定线程组的多个线程(例如，32个线程)。在一实施例中，SM 440实现SIMD(单指令、多数据)体系架构，其中线程组(即，线程束)中的每个线程被配置为基于相同的指令集来处理不同的数据集。线程组中的所有线程都执行相同的指令。在另一实施例中，SM 440实现SIMT(单指令、多线程)体系架构，其中线程组中的每个线程被配置为基于相同的指令集处理不同的数据集，但是其中线程组中的各个线程在执行期间被允许发散(diverge)。在一实施例中，为每个线程束维护程序计数器、调用栈和执行状态，当线程束内的线程发散时，使线程束和线程束中的串行执行之间的并发成为可能。在另一实施例中，为每个单独的线程维护程序计数器、调用栈和执行状态，从而在线程束内和线程束之间的所有线程之间实现相等的并发。当为每个单独的线程维护执行状态时，执行相同指令的线程可以被收敛并且并行执行以获得最大效率。下面结合图5A更详细地描述SM440。

MMU 490提供GPC 350和分区单元380之间的接口。MMU 490可以提供虚拟地址到物理地址的转换、存储器保护以及存储器请求的仲裁。在一实施例中，MMU 490提供用于执行从虚拟地址到存储器304中的物理地址的转换的一个或更多个转换后备缓冲器(TLB)。

图4B示出了根据一实施例的图3的PPU 300的存储器分区单元380。如图4B所示，存储器分区单元380包括光栅操作(ROP)单元450、二级(L2)高速缓存460和存储器接口470。存储器接口470耦合到存储器304。存储器接口470可以实现用于高速数据传输的32、64、128、1024位数据总线等。在一实施例中，PPU 300合并了U个存储器接口470，每对分区单元380有一个存储器接口470，其中每对分区单元380连接到对应的存储器设备304。例如，PPU 300可以连接到多达Y个存储器设备304，诸如高带宽存储器堆叠或图形双数据速率版本5的同步动态随机存取存储器或其他类型的永久存储器。

在一实施例中，存储器接口470实现HBM2存储器接口，并且Y等于U的一半。在一实施例中，HBM2存储器堆叠位于与PPU 300相同的物理封装上，提供与常规GDDR5SDRAM系统相比显著的功率和面积节约。在一实施例中，每个HBM2堆叠包括四个存储器裸晶并且Y等于4，其中

HBM2堆叠包括每个裸晶两个128位通道，总共8个通道和1024位的数据总线宽度。

在一实施例中，存储器304支持单错校正双错检测(SECDED)纠错码(ECC)以保护数据。对于对数据损毁敏感的计算应用程序，ECC提供了更高的可靠性。在大型集群计算环境中，可靠性尤其重要，其中PPU 300处理非常大的数据集和/或长时间运行应用程序。

在一实施例中，PPU 300实现多级存储层级。在一实施例中，存储器分区单元380支持统一存储器以为CPU和PPU 300存储器提供单个统一的虚拟地址空间，使能虚拟存储器系统之间的数据共享。在一实施例中，由PPU 300对位于其他处理器上的存储器的访问频率被跟踪，以确保存储器页面被移动到更频繁地访问页面的PPU 300的物理存储器。在一实施例中，NVLink 310支持地址转换服务，其允许PPU 300直接访问CPU的页表并且提供由PPU 300对CPU存储器的完全访问。

在一实施例中，复制引擎在多个PPU 300之间或在PPU 300与CPU之间传输数据。复制引擎可以为未映射到页表的地址生成页面错误。然后，存储器分区单元380可以服务页面错误，将地址映射到页表中，之后复制引擎可以执行传输。在常规系统中，针对多个处理器之间的多个复制引擎操作固定存储器(即，不可分页)，其显著减少了可用存储器。由于硬件页面错误，地址可以传递到复制引擎而不用担心存储器页面是否驻留，并以及制过程是否透明。

来自存储器304或其他系统存储器的数据可以由存储器分区单元380提取并存储在L2高速缓存460中，L2高速缓存460位于芯片上并且在各个GPC 350之间共享。如图所示，每个存储器分区单元380包括与对应的存储器设备304相关联的L2高速缓存460的一部分。然后可以在GPC 350内的多个单元中实现较低级高速缓存。例如，每个SM 440可以实现一级(L1)高速缓存。L1高速缓存是专用于特定SM 440的专用存储器。来自L2高速缓存460的数据可以被获取并存储在每个L1高速缓存中，以在SM 440的功能单元中进行处理。L2高速缓存460被耦合到存储器接口470和XBar 370。

ROP单元450执行与像素颜色相关的图形光栅操作，诸如颜色压缩、像素混合等。ROP单元450还与光栅引擎425一起实现深度测试，从光栅引擎425的剔除引擎接收与像素片段相关联的样本位置的深度。深度针对与片段关联的样本位置的深度缓冲区中的对应深度进行测试。如果片段通过样本位置的深度测试，则ROP单元450更新深度缓冲区并将深度测试的结果发送给光栅引擎425。将理解的是，分区单元380的数量可以不同于GPC 350的数量，并且因此每个ROP单元450可以耦合到每个GPC 350。ROP单元450跟踪从不同GPC 350接收到的分组并且确定由ROP单元450生成的结果通过Xbar 370被路由到哪个GPC 350。尽管ROP单元450包括在图4B中的存储器分区单元380内，但是在其他实施例中，ROP单元450可以在存储器分区单元380之外。例如，ROP单元450可以驻留在GPC 350或另一个单元中。

图5A示出了根据一实施例的图4A的流式多处理器440。如图5A所示，SM 440包括指令高速缓存505、一个或更多个调度器单元510、寄存器文件520、一个或更多个处理核心550、一个或更多个特殊功能单元(SFU)552、一个或更多个加载/存储单元(LSU)554、互连网络580、共享存储器/L1高速缓存570。

如上所述，工作分配单元325分派任务以在PPU 300的GPC 350上执行。任务被分配给GPC 350内的特定DPC 420，并且如果任务与着色器程序相关联，则该任务可以被分配给SM 440。调度器单元510接收来自工作分配单元325的任务并且管理指派给SM 440的一个或更多个线程块的指令调度。调度器单元510调度线程块以作为并行线程的线程束执行，其中每个线程块被分配至少一个线程束。在一实施例中，每个线程束执行32个线程。调度器单元510可以管理多个不同的线程块，将线程束分配给不同的线程块，然后在每个时钟周期期间将来自多个不同的协作组的指令分派到各个功能单元(即，核心550、SFU 552和LSU 554)。

协作组是用于组织通信线程组的编程模型，其允许开发者表达线程正在进行通信所采用的粒度，使得能够表达更丰富、更高效的并行分解。协作启动API支持线程块之间的同步性，以执行并行算法。常规的编程模型为同步协作线程提供了单一的简单结构：跨线程块的所有线程的屏障(barrier)(即，syncthreads()函数)。然而，程序员通常希望以小于线程块粒度的粒度定义线程组，并在所定义的组内同步，以集体的全组功能接口(collective group-wide function interface)的形式使能更高的性能、设计灵活性和软件复用。

协作组使得程序员能够在子块(即，像单个线程一样小)和多块粒度处明确定义线程组并且执行集体操作，诸如协作组中的线程上的同步性。编程模型支持跨软件边界的干净组合，以便库和效用函数可以在本地环境中安全地同步，而无需对收敛进行假设。协作组图元启用协作并行的新模式，包括生产者-消费者并行、机会主义并行以及跨整个线程块网格的全局同步。

分派单元515被配置为向一个或更多个功能单元发送指令。在该实施例中，调度器单元510包括两个分派单元515，其使得能够在每个时钟周期期间分派来自相同线程束的两个不同指令。在替代实施例中，每个调度器单元510可以包括单个分派单元515或附加分派单元515。

每个SM 440包括寄存器文件520，其提供用于SM 440的功能单元的一组寄存器。在一实施例中，寄存器文件520在每个功能单元之间被划分，使得每个功能单元被分配寄存器文件520的专用部分。在另一实施例中，寄存器文件520在由SM 440执行的不同线程束之间被划分。寄存器文件520为连接到功能单元的数据路径的操作数提供临时存储。

每个SM 440包括L个处理核心550。在一实施例中，SM 440包括大量(例如128个等)不同的处理核心550。每个核心550可以包括完全管线化的、单精度、双精度和/或混合精度处理单元，其包括浮点运算逻辑单元和整数运算逻辑单元。在一实施例中，浮点运算逻辑单元实现用于浮点运算的IEEE 754-2008标准。在一实施例中，核心550包括64个单精度(32位)浮点核心、64个整数核心、32个双精度(64位)浮点核心和8个张量核心(tensor core)。在一实施例中，核心550被配置为使用方法100或260执行修约操作。

张量核心被配置为执行矩阵运算，并且在一实施例中，一个或更多个张量核心被包括在核心550中。具体地，张量核心被配置为执行深度学习矩阵运算，诸如用于神经网络训练和推理的卷积运算。在一实施例中，每个张量核心在4×4矩阵上运算并且执行矩阵乘法和累加运算D＝A×B+C，其中A、B、C和D是4×4矩阵。在一实施例中，张量核心被配置为使用方法100或260执行修约操作。

在一实施例中，矩阵乘法输入A和B是16位浮点矩阵，而累加矩阵C和D可以是16位浮点或32位浮点矩阵。张量核心在16位浮点输入数据以及32位浮点累加上运算。16位浮点乘法需要64次运算，产生全精度的积，然后使用32位浮点与4×4×4矩阵乘法的其他中间积相加来累加。在实践中，张量核心用于执行由这些较小的元素建立的更大的二维或更高维的矩阵运算。API(诸如CUDA 9C++API)公开了专门的矩阵加载、矩阵乘法和累加以及矩阵存储运算，以便有效地使用来自CUDA-C++程序的张量核心。在CUDA水平，线程束级接口假定16×16尺寸矩阵跨越线程束的全部32个线程。

每个SM 440还包括执行特殊函数(例如，属性评估、倒数平方根等)的M个SFU 552。在一实施例中，SFU 552被配置为使用方法100或260执行修约操作。在一实施例中，SFU 552可以包括树遍历单元，其被配置为遍历分层树数据结构。在一实施例中，SFU 552可以包括被配置为执行纹理贴图过滤操作的纹理单元。在一实施例中，纹理单元被配置为从存储器304加载纹理贴图(例如，纹理像素的2D阵列)并且对纹理贴图进行采样以产生经采样的纹理值，用于在由SM 440执行的着色器程序中使用。在一实施例中，纹理贴图被存储在共享存储器/L1高速缓存470中。纹理单元实现纹理操作，诸如使用mip贴图(即，不同细节水平的纹理贴图)的过滤操作。在一实施例中，每个SM 440包括两个纹理单元。

每个SM 440还包括N个LSU 554，其实现共享存储器/L1高速缓存570和寄存器文件520之间的加载和存储操作。每个SM 440包括将每个功能单元连接到寄存器文件520以及将LSU 554连接到寄存器文件520、共享存储器/L1高速缓存570的互连网络580。在一实施例中，互连网络580是交叉开关，其可以被配置为将任何功能单元连接到寄存器文件520中的任何寄存器，以及将LSU 554连接到寄存器文件和共享存储器/L1高速缓存570中的存储器位置。

共享存储器/L1高速缓存570是片上存储器阵列，其允许SM 440与图元引擎435之间以及SM 440中的线程之间的数据存储和通信。在一实施例中，共享存储器/L1高速缓存570包括128KB的存储容量并且在从SM 440到分区单元380的路径中。共享存储器/L1高速缓存570可以用于高速缓存读取和写入。共享存储器/L1高速缓存570、L2高速缓存460和存储器304中的一个或更多个是后备存储。

将数据高速缓存和共享存储器功能组合成单个存储器块为两种类型的存储器访问提供最佳的总体性能。该容量可用作不使用共享存储器的程序的高速缓存。例如，如果将共享存储器配置为使用一半容量，则纹理和加载/存储操作可以使用剩余容量。在共享存储器/L1高速缓存570内的集成使共享存储器/L1高速缓存570起到用于流式传输数据的高吞吐量管道的作用，并且同时提供对频繁复用数据的高带宽和低延迟的访问。

当被配置用于通用并行计算时，与图形处理相比，可以使用更简单的配置。具体地，图3所示的固定功能图形处理单元被绕过，创建了更简单的编程模型。在通用并行计算配置中，工作分配单元325将线程块直接指派并分配给DPC 420。块中的线程执行相同的程序，使用计算中的唯一线程ID来确保每个线程生成唯一结果，使用SM 440执行程序并执行计算，使用共享存储器/L1高速缓存570以在线程之间通信，以及使用LSU 554通过共享存储器/L1高速缓存570和存储器分区单元380读取和写入全局存储器。当被配置用于通用并行计算时，SM 440还可以写入调度器单元320可用来在DPC 420上启动新工作的命令。

PPU 300可以被包括在台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如，无线、手持设备)、个人数字助理(PDA)、数码相机、车辆、头戴式显示器、手持式电子设备等中。在一实施例中，PPU 300体现在单个半导体衬底上。在另一实施例中，PPU 300与一个或更多个其他器件(诸如附加PPU 300、存储器204、精简指令集计算机(RISC)CPU、存储器管理单元(MMU)、数字-模拟转换器(DAC)等)一起被包括在片上系统(SoC)上。

在一实施例中，PPU 300可以被包括在图形卡上，图形卡包括一个或更多个存储器设备304。图形卡可以被配置为与台式计算机的主板上的PCIe插槽接口。在又一实施例中，PPU 300可以是包含在主板的芯片集中的集成图形处理单元(iGPU)或并行处理器。

示例性计算系统

具有多个GPU和CPU的系统被用于各种行业，因为开发者在应用(诸如人工智能计算)中暴露和利用更多的并行性。在数据中心、研究机构和超级计算机中部署具有数十至数千个计算节点的高性能GPU加速系统，以解决更大的问题。随着高性能系统内处理设备数量的增加，通信和数据传输机制需要扩展以支持该增加带宽。

图5B是根据一实施例的使用图3的PPU 300实现的处理系统500的概念图。示例性系统565可以被配置为实现图1中所示的方法100。处理系统500包括CPU 530、交换机510和多个PPU 300中的每一个以及各自的存储器304。NVLink 310提供每个PPU 300之间的高速通信链路。尽管图5B中示出了特定数量的NVLink 310和互连302连接，但是连接到每个PPU300和CPU 530的连接的数量可以改变。交换机510在互连302和CPU 530之间接口。PPU 300、存储器304和NVLink 310可以位于单个半导体平台上以形成并行处理模块525。在一实施例中，交换机510支持两个或更多个在各种不同连接和/或链路之间接口的协议。

在另一实施例(未示出)中，NVLink 310在每个PPU 300和CPU 530之间提供一个或更多个高速通信链路，并且交换机510在互连302和每个PPU 300之间进行接口。PPU 300、存储器304和互连302可以位于单个半导体平台上以形成并行处理模块525。在又一实施例(未示出)中，互连302在每个PPU 300和CPU 530之间提供一个或更多个通信链路，并且交换机510使用NVLink 310在每个PPU 300之间进行接口，以在PPU 300之间提供一个或更多个高速通信链路。在另一实施例(未示出)中，NVLink 310在PPU300和CPU 530之间通过交换机510提供一个或更多个高速通信链路。在又一实施例(未示出)中，互连302直接地在每个PPU300之间提供一个或更多个通信链路。可以使用与NVLink 310相同的协议将一个或更多个NVLink 310高速通信链路实现为物理NVLink互连或者片上或裸晶上互连。

在本说明书的上下文中，单个半导体平台可以指在裸晶或芯片上制造的唯一的基于单一半导体的集成电路。应该注意的是，术语单个半导体平台也可以指具有增加的连接的多芯片模块，其模拟片上操作并通过利用常规总线实现方式进行实质性改进。当然，根据用户的期望，各种电路或器件还可以分开放置或以半导体平台的各种组合来放置。可选地，并行处理模块525可以被实现为电路板衬底，并且PPU 300和/或存储器304中的每一个可以是封装器件。在一实施例中，CPU 530、交换机510和并行处理模块525位于单个半导体平台上。

在一实施例中，每个NVLink 310的信令速率是20到25千兆比特/秒，并且每个PPU300包括六个NVLink 310接口(如图5B所示，每个PPU 300包括五个NVLink 310接口)。每个NVLink 310在每个方向上提供25千兆比特/秒的数据传输速率，其中六条链路提供300千兆比特/秒。当CPU 530还包括一个或更多个NVLink 310接口时，NVLink 310可专门用于如图5B所示的PPU到PPU通信，或者PPU到PPU以及PPU到CPU的某种组合。

在一实施例中，NVLink 310允许从CPU 530到每个PPU 300的存储器304的直接加载/存储/原子访问。在一实施例中，NVLink 310支持一致性操作，允许从存储器304读取的数据被存储在CPU 530的高速缓存分层结构中，减少了CPU 530的高速缓存访问延迟。在一实施例中，NVLink 310包括对地址转换服务(ATS)的支持，允许PPU 300直接访问CPU 530内的页表。一个或更多个NVLink 310还可以被配置为以低功率模式操作。

图5C示出了示例性系统565，其中可以实现各种先前实施例的各种体系架构和/或功能。示例性系统565可以被配置为实现图1中所示的方法100或图2D中所示的方法260。

如图所示，提供系统565，其包括连接到通信总线575的至少一个中央处理单元530。通信总线575可以使用任何合适的协议来实现，诸如PCI(***组件互连)、PCI-Express、AGP(加速图形端口)、超传输或任何其他总线或一个或更多个点对点通信协议。系统565还包括主存储器540。控制逻辑(软件)和数据被存储在主存储器540中，主存储器540可以采取随机存取存储器(RAM)的形式。

系统565还包括输入设备560、并行处理系统525和显示设备545，即常规CRT(阴极射线管)、LCD(液晶显示器)、LED(发光二极管)、等离子显示器等。可以从输入设备560(例如键盘、鼠标、触摸板、麦克风等)接收用户输入。前述模块和/或设备中的每一个甚至可以位于单个半导体平台上以形成系统565。可选地，根据用户的期望，各个模块还可以分开放置或以半导体平台的各种组合来放置。

此外，系统565可以出于通信目的通过网络接口535耦合到网络(例如，电信网络、局域网(LAN)、无线网络、广域网(WAN)(诸如因特网)、对等网络、电缆网络等)。

系统565还可以包括二级存储(未示出)。二级存储610包括例如硬盘驱动器和/或可移除存储驱动器、代表软盘驱动器、磁带驱动器、光盘驱动器、数字多功能盘(DVD)驱动器、记录设备、通用串行总线(USB)闪存。可移除存储驱动器以众所周知的方式从可移除存储单元读取和/或写入可移除存储单元。

计算机程序或计算机控制逻辑算法可以存储在主存储器540和/或二级存储中。这些计算机程序在被执行时使得系统565能够执行各种功能。存储器540、存储和/或任何其他存储是计算机可读介质的可能示例。

各种在先附图的体系架构和/或功能可以在通用计算机系统、电路板系统、专用于娱乐目的的游戏控制台系统、专用系统和/或任何其他期望的系统的上下文中实现。例如，系统565可以采取台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如，无线、手持设备)、个人数字助理(PDA)、数字相机、车辆、头戴式显示器、手持式电子设备、移动电话设备、电视机、工作站、游戏控制台、嵌入式系统和/或任何其他类型的逻辑的形式。

机器学习

在处理器(诸如PPU 300)上开发的深度神经网络(DNN)已经用于各种使用情况：从自驾车到更快药物开发，从在线图像数据库中的自动图像字幕到视频聊天应用中的智能实时语言翻译。深度学习是一种技术，它模拟人类大脑的神经学习过程，不断学习，不断变得更聪明，并且随着时间的推移更快地传送更准确的结果。一个孩子最初是由成人教导，以正确识别和分类各种形状，最终能够在没有任何辅导的情况下识别形状。同样，深度学习或神经学习系统需要在目标识别和分类方面进行训练，以便在识别基本目标、遮挡目标等同时还有为物体分配情景时变得更加智能和高效。

在最简单的水平上，人类大脑中的神经元查看接收到的各种输入，将重要性级别分配给这些输入中的每一个，并且将输出传递给其他神经元以进行处理。人造神经元或感知器是神经网络的最基本模型。在一个示例中，感知器可以接收一个或更多个输入，其表示感知器正被训练以识别和分类的目标的各种特征，并且在定义目标形状时，这些特征中的每一个基于该特征的重要性赋予一定的权重。

深度神经网络(DNN)模型包括许多连接的感知器(例如节点)的多个层，其可以用大量输入数据来训练以快速高精度地解决复杂问题。在一个示例中，DLL模型的第一层将汽车的输入图像分解为各个部分，并查找基本图案(诸如线条和角)。第二层组装线条以寻找更高级别的图案，诸如轮子、挡风玻璃和镜子。下一层识别车辆类型，最后几层生成输入图像的标签，识别具体汽车品牌的型号。

一旦DNN被训练，DNN就可以被部署并用于在被称为推理(inference)的过程中识别和分类目标或图案。推理的示例(DNN从给定输入中提取有用信息的过程)包括识别沉积在ATM机中的支票上的手写数字、识别照片中朋友的图像、向超过五千万用户提供电影推荐、识别和分类不同类型的汽车、行人和无人驾驶汽车中的道路危险、或实时翻译人类言语。

在训练期间，数据在前向传播阶段流过DNN，直到产生指示对应于输入的标签的预测为止。如果神经网络没有正确标记输入，则分析正确标签和预测标签之间的误差，并且在后向传播阶段期间针对每个特征调整权重，直到DNN正确标记该输入和训练数据集中的其他输入为止。训练复杂的神经网络需要大量的并行计算性能，包括由PPU 300支持的浮点乘法和加法。与训练相比，推理的计算密集程度比训练更低，是一个延迟敏感过程，其中经训练的神经网络应用于它以前没有见过的新的输入，以进行图像分类、翻译语音以及通常推理新的信息。

神经网络严重依赖于矩阵数学运算，并且复杂的多层网络需要大量的浮点性能和带宽来提高效率和速度。采用数千个处理核心，针对矩阵数学运算进行了优化，并传送数十到数百TFLOPS的性能，PPU 300是能够传送基于深度神经网络的人工智能和机器学***台。

虽然上文已经描述了各种实施例，但应该理解的是，它们仅作为示例呈现，而不是限制。因此，优选实施例的广度和范围不应被任何上述示例性实施例限制，而应仅根据以下和随后提交的权利要求及其等同来限定。

28页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：超越函数求值

数值的随机修约

相关技术

网友询问留言