无线联邦学习中的终端调度方法和装置

文档序号：1905631 发布日期：2021-11-30 浏览：17次 >En<

阅读说明：本技术 无线联邦学习中的终端调度方法和装置 (Terminal scheduling method and device in wireless federal learning ) 是由施文琦姜淼耿璐马元琛周盛牛志升于 2020-05-25 设计创作，主要内容包括：本发明实施例提供了无线联邦学习中的终端调度方法及设备,本发明实施例提供的方法,通过每轮联邦学习中各终端进行的梯度信息估计以及由无线接入点进行的当轮耗时估计,动态地调整每轮联邦学习中的被调度终端,可以在受限的训练延时内最大化联邦学习能够获得的模型正确率,从而解决了现有终端调度算法只能使用某些预设的固定参数,导致难以在动态的无线环境以及多变的训练数据分布下保证联邦学习收敛速度的问题。(The method provided by the embodiment of the invention dynamically adjusts the scheduled terminal in each round of federal learning through gradient information estimation performed by each terminal in each round of federal learning and current-round time consumption estimation performed by a wireless access point, can maximize the model accuracy rate which can be obtained by federal learning within limited training delay, and thus solves the problem that the existing terminal scheduling algorithm can only use certain preset fixed parameters, which causes difficulty in ensuring the convergence speed of federal learning in a dynamic wireless environment and variable training data distribution.)

无线联邦学习中的终端调度方法和装置

技术领域

本发明涉及机器学习技术领域，具体而言，本发明涉及一种无线联邦学习中的终端调度方法及设备。

背景技术

根据思科估计，在2021年，每年在网络边缘将产生接近850泽字节的数据。这些有价值的数据可以通过利用近年来快速发展的深度学习技术来为最终用户带来各种人工智能(AI，Artificial Intelligence)服务。然而，经由常规集中式训练方法来训练AI模型(通常是深度神经网络)需要将所有原始数据聚集到中央服务器。由于经由无线信道上传原始数据可能会消耗大量无线带宽资源并引入巨大的传输延时，并且当原始数据被上传到中央服务器时会引起隐私问题，所以在无线网络中使用传统的集中式训练方法是不切实际的。

为了解决上述问题，现有技术已经提出了一种新的分布式模型训练框架，称为联邦学习(FL，Federated Learning)。联邦学习(FL，Federated Learning)是一种新的框架，用于分析大量的分布式数据并在网络边缘训练学习模型，可以起到保护数据隐私的作用。

典型的无线FL系统控制多个终端设备的计算能力，这些终端设备由通常为基站(BS)的中央控制器协调，以便以迭代方式训练模型。在FL的每次迭代中(也称为轮次)，参与设备使用它们的局部数据来更新局部模型，然后将局部模型发送到BS以进行全局模型聚合。通过本地更新模型参数，FL利用分布在设备上的数据和计算能力，因此可以缩短模型训练等待时间以及保持数据隐私。因此，FL成为了一种潜在的用于无线网络中的分布式数据分析和模型训练的技术，并且已经用于许多应用中，例如，车对车(V2V)通信中的资源分配优化和用于智能手机的内容推荐等。

然而，在实际无线网络中实现FL遇到了若干关键挑战，这些挑战尚未完全解决。由于稀缺的无线频谱资源和有限的训练延迟预算，在每轮中仅允许有限数量的设备上传本地模型，并且设备调度策略以两种方式影响FL的收敛速率。一方面，在每一轮中，直到所有调度的设备已经完成更新并且上传它们的本地模型更新后，BS才能执行全局模型聚合。因此，具有有限计算能力或较差信道条件的落后设备会显著地减慢模型聚合。由于分配给每个被调度的设备的带宽减少以及具有落后设备的概率更高，调度更多设备会导致每轮更长的等待时间。另一方面，调度更多的设备能够增加关于轮的收敛速率，并且可以潜在地减少达到相同精度所需的轮数。因此，如果考虑总训练时间，即轮数乘以每轮的平均等待时间，则设备调度是必要的，并且应当被仔细地优化以平衡每轮的等待时间和所需轮数以优化总训练时间。此外，调度策略还应当使其自身适应动态无线环境。

最近，已有许多研究考虑在无线网络中实现FL。为了减少由全局模型聚合引入的上传等待时间，现有技术提出了一种新的模拟聚合技术。对于模拟聚合，被调度的设备经由模拟调制在无线多址信道中同时发送它们的本地模型，由于无线信道的波形叠加特性，BS能够接收到聚合后的模型。尽管模拟聚合技术可以大大减少上载等待时间，但是设备之间需要严格的时间同步。而对于基于数字传输的FL，被调度的设备需要共享有限的无线资源，并且目前已经有一系列工作研究了资源分配的问题。例如，有相关研究在媒体接入控制(MAC，Media Access Control)层采用时分多址(TDMA，Time Division Multiple Access)技术，并且联合地优化设备CPU频率、传输等待时间和本地模型准确度，以最小化训练等待时间和总设备能量消耗的加权和。又有相关研究考虑了具有频分多址(FDMA，FrequencyDivision Multiple Access，)的类似的FL系统，其中带宽分配、CPU频率、传输等待时间和本地模型精度被联合优化。还有相关的工作优化了FL系统在异构资源约束下的全局聚合的频率。在所有上述的研究中，每一轮FL都涉及所有设备，但由于无线带宽是有限的，这在实际的无线FL应用中通常是不可行的。此外，另一系列工作提出使用设备调度来优化FL的收敛速度。例如，一种现有技术提出联合考虑信道状态和本地更新模型的重要性的启发式调度策略。然而，所提出的调度策略仅通过实验来评估，并且不能从理论上保证FL的收敛性能。

可以看出，无线联邦学习中的终端调度方法往往基于某些预设的固定参数，如在每轮训练中，调度固定数量的终端；或在一段固定的时长中，调度尽可能多的终端。而这些预设的固定参数往往在无线联邦学习被部署后难以动态调整，可能造成无线联邦学习在动态变化的无线环境下训练收敛速度变慢，从而影响延时受限场景下无线联邦学习的性能。

发明内容

本发明实施例要解决的技术问题是提供无线联邦学习中的终端调度方法及设备，能够在动态的无线环境以及多变的训练数据分布下保证联邦学习收敛速度。

为解决上述技术问题，根据本发明的一个方面，提供了无线联邦学习中的终端调度方法，包括：

无线接入点接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值；

根据各个终端发送的本地局部模型，更新得到当前轮的全局模型；根据当前轮被调度到的所有终端的本地损失函数的取值，计算当前轮的全局损失函数的取值，根据当前轮的全局损失函数的取值是否优于最优全局模型对应的全局损失函数的取值，确定是否更新所述最优全局模型；

根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值；

根据各个终端在当前轮的梯度估计信息，生成下一轮联邦学习的被调度终端，其中，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度多样性估计值。

根据本发明的另一方面，提供了无线联邦学习中的终端调度方法，包括：

终端在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值；

终端将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

根据本发明的另一方面，还提供了一种无线接入点，包括：

数据接收模块，用于无线接入点接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值；

模型更新模块，用于根据各个终端发送的本地局部模型，更新得到当前轮的全局模型；根据当前轮被调度到的所有终端的本地损失函数的取值，计算当前轮的全局损失函数的取值，根据当前轮的全局损失函数的取值是否优于最优全局模型对应的全局损失函数的取值，确定是否更新所述最优全局模型；

多样性计算模块，用于根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值；

调度终端生成模块，用于根据各个终端在当前轮的梯度估计信息，生成下一轮联邦学习的被调度终端，其中，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度多样性估计值。

根据本发明的另一方面，还提供了一种无线接入点，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的无线联邦学习中的终端调度方法的步骤。

根据本发明的另一方面，还提供了一种终端，包括：

模型更新模块，用于在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值；

数据发送模块，用于将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

根据本发明的另一方面，还提供了一种终端，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的无线联邦学习中的终端调度方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的无线联邦学习中的终端调度方法的步骤。

与现有技术相比，本发明实施例提供的无线联邦学习中的终端调度方法和装置，至少具有以下有益效果：本发明实施例能够通过每轮联邦学习中各终端进行的梯度信息估计以及由无线接入点进行的当前轮耗时估计，动态地调整每轮中的被调度终端，以最大化在受限的训练延时内联邦学习能够获得的模型正确率，从而解决了现有终端调度算法只能使用某些预设的固定参数，导致难以在动态的无线环境以及多变的训练数据分布下保证联邦学习收敛速度的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的终端调度方法的一种应用场景示意图；

图2为本发明实施例的终端调度方法应用于无线接入点侧的流程示意图；

图3为本发明实施例的遍历终端进行调度的流程示意图；

图4为本发明实施例的终端调度方法应用于终端侧的流程示意图；

图5为本发明实施例的每轮联邦学习中的终端模型更新的流程示意图；

图6为本发明实施例的终端调度方法的交互流程示意图；

图7为本发明实施例提供的无线接入点的一种结构示意图；

图8为本发明实施例提供的无线接入点的另一结构示意图；

图9为本发明实施例提供的终端的一种结构示意图；

图10为本发明实施例提供的终端的另一结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供了一种无线联邦学习中的终端调度方法，能在动态无线环境以及任意训练数据分布的情况下，最大化受限的训练延时内训练得到的模型的正确率，从而解决了现有终端调度算法只能使用某些预设的固定参数，导致难以在动态的无线环境以及多变的训练数据分布下保证联邦学习收敛速度的问题。

请参见图1，图1示出本发明实施例可应用的一种无线通信系统的框图。无线通信系统包括多个终端101和无线接入点102。其中，终端101也可以称作用户终端或用户设备(UE，User Equipment)，终端101具体可以是手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(Personal Digital Assistant，PDA)、移动上网装置(Mobile Internet Device，MID)、可穿戴式设备(Wearable Device)或车载设备等终端侧设备，需要说明的是，在本发明实施例中并不限定终端101的具体类型。无线接入点102可以是无线收发点(TRP)、基站以及核心网网元，其中，上述基站可以是5G及以后版本的基站(例如：gNB、5G NR NB等)，或者其他通信系统中的基站(例如：eNB、WLAN接入点、或其他接入点等)，其中，基站又可被称为节点B、演进节点B、接入点、基收发机站(BaseTransceiver Station，BTS)、无线电基站、无线电收发机、基本服务集(Basic ServiceSet，BSS)、扩展服务集(Extended Service Set，ESS)、B节点、演进型B节点(eNB)、家用B节点、家用演进型B节点、WLAN接入点、WiFi节点或所述领域中其他某个合适的术语，只要达到相同的技术效果，所述基站不限于特定技术词汇。

本发明实施例提供的一种终端调度方法，适用于如图1所示的包含一个无线接入点及其覆盖范围内多个终端的无线联邦学习过程中，该方法的主要步骤包括：(1)终端在进行无线联邦学习的基础上，同时对梯度进行估计，并将梯度估计信息发送至无线接入点。(2)无线接入点根据梯度估计信息进行终端调度。具体的：

一个联邦学习应用的流程通常包括：(1)核心网接到模型训练任务；(2)核心网将训练任务分配至各无线接入点，包括待训练的模型，训练学习率，本地模型更新次数，以及总训练延时的限制等；(3)无线接入点(如图1中的无线接入点102)接到核心网分配的训练任务后，调度其覆盖范围内的移动终端(如图1中的终端101)参加联邦学习；(4)联邦学习完成后，无线接入点根据训练任务的需求，可将训练得到的模型参数传回核心网或留在终端本地。

图1提供了一种无线接入点覆盖范围内的无线联邦学习系统。一个无线联邦学习包括若干移动终端101以及一个无线接入点102。无线联邦学习为一个迭代式的分布式机器学习模型训练框架，在每次迭代(称为轮)中，首先各参与终端从无线接入点处下载当前的全局模型参数(通常通过无线接入点广播的形式，如图1中的步骤103)。下载完成后，所有终端根据自身本地训练数据集各自更新局部模型(如图1中的步骤104)，并在更新完成后，通过无线网络将局部模型更新上传至无线接入点处(如图1中的步骤105)。无线接入点在接收到所有本轮参与设备上传的模型更新后，进行全局模型更新(如图1中的步骤106)，并可能进入下一轮的联邦学习。

下面将分别从无线接入点侧和终端侧，对本发明实施例的方法进行说明。

请参照图2，本发明实施例提供的无线联邦学习中的终端调度方法，在应用于图1所示的无线接入点102时，包括：

步骤21，无线接入点接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值。

这里，在联邦学习的每一轮中，各个被调度到的终端将在当前轮联邦学习中，更新终端的本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值，然后，终端将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。无线接入点可以接收各个被调度到的终端所发送的上述数据。

步骤22，根据各个终端发送的本地局部模型，更新得到当前轮的全局模型；根据当前轮被调度到的所有终端的本地损失函数的取值，计算当前轮的全局损失函数的取值，根据当前轮的全局损失函数的取值是否优于最优全局模型对应的全局损失函数的取值，确定是否更新所述最优全局模型。

这里，本发明实施例的无线接入点接收到本轮学习中被调度到的所有终端发送的更新后的本地局部模型后，可以根据各个终端发送的本地局部模型，更新得到当前轮的全局模型。

另外，本发明实施例中，无线接入点还可以根据当前轮被调度到的所有终端的本地损失函数的取值，计算当前轮的全局损失函数的取值，根据当前轮的全局损失函数的取值是否优于最优全局模型对应的全局损失函数的取值，确定是否更新所述最优全局模型。如果当前轮的全局损失函数的取值优于最优全局模型对应的全局损失函数的取值，则将所述最优全局模型更新为当前轮所得到的全局模型，否则，将保持所述最优全局模型不变。这里，所述最优全局模型是截止到当前轮联邦学习时所获得的最优的全局模型。

步骤23，根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值。

这里，无线接入点还基于各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性。具体的，无线接入点可以根据上一轮的全局模型和各个终端发送的本地局部模型，分别估计各个终端在当前轮的本地损失函数的梯度；根据当前轮被调度到的所有终端的本地损失函数的梯度，计算当前轮的全局损失函数的梯度；然后，根据各个终端在当前轮的本地损失函数的梯度和当前轮的全局损失函数的梯度，计算各个终端在当前轮的本地损失函数的梯度多样性。

步骤24，根据各个终端在当前轮的梯度估计信息，生成下一轮联邦学习的被调度终端，其中，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度多样性估计值。

这里，无线接入点可以根据各个终端在当前轮的梯度估计信息以及以终端的本地训练数据集在全局训练数据集中的比值作为该终端的权重，对参与联邦学习的所有终端在当前轮的各梯度估计信息进行加权求和，得到所有终端的梯度估计信息在当前轮的全局值，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度的多样性；然后，根据各个终端在当前轮的梯度估计信息和所述梯度估计信息在当前轮的全局值，生成下一轮联邦学习的被调度终端。

例如，计算所有终端的梯度估计信息在当前轮的全局值，可以按照以下公式进行计算：

和

其中，表示参与联邦学习的所有终端；D_i表示本地训练数据集的大小；D表示全局训练数据集的大小；表示参与联邦学习的所有终端的本地损失函数的凸性估计值的全局值；、表示参与联邦学习的所有终端的本地损失函数的光滑性估计值的全局值；表示参与联邦学习的所有终端的本地损失函数的梯度多样性估计值的全局值；表示终端i的本地损失函数的凸性估计值；表示终端i的本地损失函数的光滑性估计值；表示终端i的本地损失函数的梯度多样性估计值。

更为具体的，在根据各个终端在当前轮的梯度估计信息和所述梯度估计信息在当前轮的全局值，进行下一轮联邦学习的终端调度，可以如图3所示。

请参照图3，在候选终端集合中的终端数量大于0的情况下，重复执行以下步骤，直至计算得到的训练代价C值不再下降后，将第一集合中的终端作为下一轮联邦学习被调度的终端：

步骤301，遍历候选终端集合中的终端，分别估计以该终端和所述第一集合作为被调度终端的联邦学习在当前轮学习的耗时，并确定出具有最短耗时的目标终端。

这里，估计以该终端和所述第一集合作为被调度终端的联邦学习在当前轮学习的耗时的方式，具体可以根据无线网络制式、网络可用带宽、终端与无线接入点之间的信道条件等因素来估计。更为详细的估计方式可以参考相关的现有技术，本文对此不再赘述。

步骤302，根据预设的训练时间总预算和所述最短耗时，估计联邦学习的总轮数；根据所述总轮数、所述凸性估计值在当前轮的全局值、光滑性估计值在当前轮的全局值以及各个终端在当前轮的本地损失函数的梯度多样性，计算以所述目标终端和所述第一集合和作为被调度终端的联邦学习的训练代价C值的取值。

这里，这里对所述预设的训练时间总预算于所述最短耗时的比值向下取整，得到联邦学习的总轮数的估计值。

步骤303，判断当前计算得到的所述训练代价C值，相对于上一次计算得到的所述训练代价C值是否发生下降，若是，则进入步骤304，否则，结束流程。

步骤304，在当前计算得到的所述训练代价C值的取值，相对于本地维护的所述C值发生下降时，将所述目标终端加入至所述第一集合，并从所述候选终端集合中删除所述目标终端，并将本地维护的所述C值更新为当前计算得到的所述训练代价C值的取值。另外，在初次计算所述C值时，由于本地尚未维护C值，此时直接将目标终端加入第一集合，并计算得到的C值作为本地维护的C值的初始值开始进行维护。

下面提供训练代价C值的取值的一种计算方式，具体的，本发明实施例可以按照以下公式，计算所述训练代价C值的取值：

其中，

η表示预设的学习率；为预设的系统参数；表示联邦学习可执行轮数的估计值；τ表示每轮联邦学习中本地局部模型的更新次数；ρ表示参与联邦学习的所有终端的本地损失函数的凸性估计值的全局值；h(τ)表示；M表示参与联邦学习的所有终端的集合中元素的数量；|Π|表示当前轮被调度终端的数量；β表示本地损失函数的光滑性估计值的全局值；D_i表示本地训练数据集的大小；D表示全局训练数据集的大小；δ_i表示终端i的本地损失函数的梯度多样性估计值；δ表示参与联邦学习的所有终端的本地损失函数的梯度多样性的全局值。在下文中还进一步介绍以上公式的相关推导过程。

可以看出，和|Π|由当前轮的被调度终端所决定，故可以通过计算在不同的第一集合(即被调度终端不同)的情况下的C值大小，比较各种第一集合对于联邦学习收敛速度的影响，从而获得一个使联邦学习收敛较快的第一集合。

通过以上步骤，本发明实施例在确定每一轮被调度的终端时，引入了终端在当前轮的梯度估计信息，被调度终端除了进行基本的联邦学习本地模型更新和模型更新信息上传外，还对梯度信息进行估计并上传。无线接入点根据终端上传的梯度估计信息对各终端对于联邦学习收敛速度的贡献进行估计，从而连续地选择在模型更新中消耗最少时间的设备，实现了通过终端调度最大化联邦学习的收敛速度。

在上述步骤23之前，所述无线接入点可以判断所述联邦学习直至当前轮的已消耗时间是否超出预设的训练时间总预算；在超出预设的训练时间总预算的情况下，将所述最优全局模型作为训练结果输出，然后结束流程；在未超出预设的训练时间总预算的情况下，执行上述步骤23，这样，可以实行迭代式的训练过程，直至获得最终的全局模型。

请参照图4，本发明实施例提供的无线联邦学习中的终端调度方法，在应用于图1所示的终端101时，包括：

步骤41，终端在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值。

这里，所述终端可以利用本地损失函数，分别计算当前轮联邦学习中接收到的全局模型的第一损失值以及当前轮联邦学习更新得到的本地局部模型的第二损失值；计算所述第一损失值和第二损失值的差的第一范数，以及，计算当前轮联邦学习中接收到的全局模型与当前轮联邦学习更新得到的本地局部模型的差的第二范数；计算所述第一范数与第二范数的比值，得到所述本地损失函数的凸性估计值；然后，计算所述第一损失值的梯度与所述第二损失值的梯度的差值的第三范数；以及，计算所述第三范数与第二范数的比值，得到所述本地损失函数的光滑性估计值。

步骤41，终端将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

通过以上步骤，本发明实施例的终端将当前轮学习中获得的梯度估计信息发送给无线接入点，使得无线接入点可以利用上述梯度估计信息生成下一轮联邦学习的被调度终端，从而能够帮助无线接入点选择在模型更新中消耗最少时间的设备，进而实现通过终端调度最大化联邦学习的收敛速度。

图5进一步给出了每轮联邦学习中的终端的流程示意图，其中包括：

步骤501，在每轮联邦学习中，终端根据本轮是否被调度决定是否需要进行本地局部模型更新。在该步骤中，终端判断是否进行本地局部模型更新所需要的信息有：上一轮联邦学习所确定的被调度终端的集合，即各终端是否参与本轮训练。

步骤502，若是，则终端首先使用随机梯度下降(SGD，Stochastic GradientDescent)或梯度下降(GD，Gradient Descent)算法，利用本地训练数据集更新本地的机器学习模型参数，这里，更新模型所需要的信息有：本地模型参数，本地训练数据集。

步骤503，随后终端根据更新前后的模型参数变化，估计本地损失函数的光滑性估计值和凸性估计值(在本文中统称为梯度估计信息)，并将上述梯度估计信息以及本地模型更新信息上传至无线接入点，这里，计算上述梯度估计信息所需要的信息有：更新前的本地模型参数，更新后的本地模型参数，本地训练数据集。

图6是本发明实施例提供的方法在无线接入点和终端之间的一种交互流程图，具体包括：

步骤601，考虑一个具有总训练延时限制的无线联邦学习，首先由无线接入点连接参与联邦学习的所有终端，并初始化各终端的梯度估计信息。

步骤602，在每一轮联邦学习开始时，判断截止到当前时刻联邦学习已经消耗的训练时间是否超出预设的训练时间总预算，若超出，则结束联邦学习，否则开始当前轮的联邦学习，本步骤需要的相关信息有：训练时间总预算的限制，已经消耗的训练时间。

步骤603，在每一轮中，首先执行图3所示的终端调度算法，决定当前轮调度的终端，本步骤需要的相关信息：图3中的步骤301～304需要的所有信息。

步骤604，随后，所有终端并行执行,4所示的终端联邦学习流程，本步骤所需要的相关信息：图5中的步骤501～503需要的所有信息。

步骤605，最后，无线接入点接收到各个被调度终端上传的梯度估计信息以及本地模型更新信息后，更新全局模型信息并记录梯度估计信息，本步骤需要的信息：被调度终端更新后的模型参数，被调度终端的本地损失函数光滑性、凸性以及梯度多样性估计值等，并在完成后进入下一轮联邦学习。

以一个包含两个终端A、B以及无线接入点C的无线联邦学习为例，在应用于本发明实施例的上述方法时，包括以下步骤：

1)终端A、B分别连接无线接入点C，无线接入点C初始化其保存的终端A、B的梯度估计信息；

2)无线接入点C判断是否耗尽总的训练时间，若否，则继续执行步骤3，否则结束当前联邦学习流程；

3)无线接入点C执行图3所示的终端调度算法；

4)终端A、B分别执行图5所示的终端联邦学习流程；

5)无线接入点C接收到被调度终端上传的模型更新以及梯度估计信息；

6)无线接入点C进行全局模型更新，更新其保存的终端A、B的梯度估计信息，并回到步骤2。

以上介绍了本发明实施例的终端调度方法，本发明实施例利用对部署在一个无线接入点及其覆盖范围内的终端上的无线联邦学习算法进行终端调度，具有以下优点：

本发明实施例能够通过每轮联邦学习中各终端进行的梯度信息估计以及由无线接入点进行的当前轮耗时估计，动态地调整每轮中的被调度终端，以最大化在受限的训练延时内联邦学习能够获得的模型正确率，从而解决了现有终端调度算法只能使用某些预设的固定参数，导致难以在动态的无线环境以及多变的训练数据分布下保证联邦学习收敛速度的问题。

这里介绍以上所述训练代价C值的计算公式的相关推导过程。表1给出了本发明实施例可能涉及到的相关参数或变量的定义。另外，符号“←”通常表示将符号右边的参数赋值给符号左边的变量。需要说明的是，以下推导过程只是以FDMA系统的应用场景为例进行推导，上述应用场景并不构成对本发明实施例的应用场景造成限制，本发明实施例还可以应用于其他场景中。

表1

首先是系统模型：

考虑由一个BS和M个终端组成的FL系统，并且这些设备是由索引。每个终端i具有本地局部数据集包括有个训练数据样本。这里x_i,d是终端i处的第d个s维输入数据向量，y_i,d是x_i,d的标签输出。整个数据集由表示，其中，样本总数这里假设所有局部数据集彼此不重叠。

联邦学习的训练过程的目标是找到模型参数w，以便最小化整个数据集的特定损失函数。优化目标可表示为

其中数据集D_i上的局部损失函数F_i(w)定义为

损耗函数f(w,x_i,d,y_i,d)用于捕获模型参数w对输入输出数据对{x_i,d,y_i,d}的误差。表2给出了一些常用的在机器学习模型中使用的损失函数的示例。

表2

A.无线网络上的联邦学习

FL使用迭代方法来解决公式(1)的问题，并且由k索引的每个循环包含以下3个步骤。

1)BS首先决定调度哪些设备参与当前回合，即回合k(即第k轮)中调度的终端设备集合由Π_k表示。然后基站广播该当前全局模型给所有调度设备，其中表示截止到第(k-1)轮的历史调度决定。

2)每个被调度设备i∈Π_k接收全局模型(如)，通过对其局部数据集应用梯度下降算法来更新其局部模型：

其中η是学习速率。局部模型更新重复τ次，并且τ被认为是固定的系统参数。然后，更新的本地局部模型被上载到BS。在本文的以下部分中，除非另有说明，否则使用w_i，k来表示

3)在接收到所有上传的模型之后，BS将它们聚合(即，根据局部数据集的大小对上传的局部模型进行加权平均)以获得新的全局模型：

B.延迟模型

考虑任意轮次k，第k轮的总等待时间由以下部分组成：

1)计算延迟：为了表征局部模型更新的计算延迟的随机性，可以使用移位指数分布(shifted exponential distribution)：

其中a_i＞0和μ_i＞0分别是指示计算能力的最大值和波动的参数。假设a_i和μ_i在整个训练过程中保持恒定。此外，由于BS的相对较强的计算能力和模型聚合的低复杂度，这里忽略了在BS处的模型聚合的计算延迟。

2)通信延迟：关于被调度终端设备的本地模型上传阶段，考虑具有总带宽B的FDMA系统，其中分配给终端设备i的带宽表示为γ_i，kB，其中，γ_i，k是满足的分配比，其中，0≤γ_i，k≤1。因此，可实现的传输速率(比特/秒)可以记为其中P_i表示在不同轮次之间保持恒定的终端设备i的发射功率，h_i，k表示相应的信道增益，N₀是噪声功率密度。因此终端设备i的通信延迟时间是：

其中S表示w_i，k的大小，以比特为单位。由于BS的发射功率比终端设备的发射功率高得多，并且BS使用整个下行链路带宽来广播模型，因此这里忽略了广播全局模型的等待时间。

由于FL的同步模型聚合，所以每轮总延迟由所有调度设备中最慢的设备确定，即，

C.问题公式化

制定联合带宽分配和调度问题以优化FL关于时间的收敛速率。具体地，使用K表示训练时间预算T内的总轮数，并最小化T内的全局损失函数，其中是在整个训练过程中具有最小全局损失函数值的最优模型参数，定义如下：

为了简单起见，使用[K]和[M]来分别表示{1，2，...，K}和{1，2，...，M}。优化问题可以表示为：

s.t.

其中这里，

为了求解P1，需要知道K和Π_[K]如何影响最终全局模型，即的损失函数。因为几乎不可能找到关于K和Π_[K]的精确分析表达式所以转换为找出的上限。而本地计算等待时间和无线信道状态h_i，k可以随不同的k而变化，因此是最优的调度策略可以是非固定的。此外，由于FL的迭代性质，全局模型与所有过去轮次的调度策略有关。因此，在非平稳调度策略下很难得到的上限。另一个困难是该问题具有高维度解空间，因为优化变量Π_[K]，γ_[K]，与K有关，而K本身也是优化变量。

在下文中，P1以如下方式求解。首先，将P1分离成两个子问题，即设备调度和带宽分配。然后解析求解带宽分配子问题。进一步地，基于最优带宽分配和在固定随机调度策略下FL的导出收敛界限，使用联合设备调度和带宽分配算法近似地解决了设备调度子问题。

这里，提供了一种联合设备调度和带宽分配的求解方式。

P1被分解成如下形式。首先，给定第k轮的调度策略(即Π_k)，则第k轮的带宽分配子问题可以表示为：

s.t.

然后，将的最优值表示为设备调度子问题可以表示为：

s.t.

A.带宽分配

P2最优解可以利用以下定理获取：

定理1：P2的最优带宽分配为：

其中，W(·)是朗伯W(Lambert-W)函数，t^*(Π_k)是P2的目标值，使得：

由于(10)中的Lambert-W函数项，其中自变量是经由Γ_i，k的t^*(Π_k)。因此，提出了二分搜索算法，以在数值上获得P2的最优值。从等于初始搜索区域[t_low，t_up]的上界的目标值t开始，根据(9)迭代地计算当前目标值t所需的带宽，并根据带宽是否满足带宽约束来将搜索区域减半。给定搜索结果的精度要求(即ε)，算法的复杂度在的量级。

B.收敛分析

为了求解P3，分析FL在固定随机调度策略Π下的收敛性，该固定随机调度策略П是指在每一轮中在所有设备之间随机调度固定数量(具体数量为|П|)的设备。导出的下限，其说明的准确度与w^*的准确度之间的误差，其中(8)中定义的是在整个训练过程中具有最小全局损失函数值的最佳模型参数，w^*是使F(w)最小的真实最佳模型参数。

在收敛分析之前，首先介绍一些符号，如表1所示，对于固定随机调度策略П，使用来表示引入两个辅助模型参数向量，其中w_k(k≥1)用于表示在第k轮开始时与同步并通过调度第k轮中的所有设备(即)而更新的模型参数向量，v_k(k≥1)用于表示在第k轮开始时与同步并通过集中式梯度下降而更新的模型参数向量。在第k轮的集中式梯度下降过程中，v_k根据更新τ次。

为了便于分析，对损失函数F(·)进行以下假设。

假设1假设以下用于所有终端设备的损失函数：

F_i(w)是凸的；

F_i(w)是ρ-Lipschitz，即对于任意w，w′，||F_i(w)-F_i(w′)||≤ρ||w-w′||；

F_i(w)是β平滑的，即对于任意w，w′，

对于任意i和w，局部梯度和全局梯度之间的差可以由来界定，并且定义

这些假设广泛地用于FL收敛分析的文献中，尽管一些机器学习模型(例如神经网络)的损失函数不完全满足它们，尤其是凸性假设。然而，发明人通过实验结果发现，所提出的调度策略甚至对于神经网络也工作良好。

首先，获取从固定随机调度策略П(即)聚合得到的全局模型与w_k之间的差的上限。

定义1：当且仅当策略П是从所有终端设备均匀随机采样的大小为|П|的子集，并且|Π|在整个训练过程期间保持恒定时，将策略П定义为固定随机调度策略。

定理2：对于任何k和固定随机调度策略П(|П|≥1)，已经有了

其中期望值考虑了Π的随机性。

注意到学习速率η＞0，否则梯度下降过程变得不重要。还具有β＞0和δ_i＞0，否则损耗函数及其梯度变得微不足道。因此，对于x＝1、2、...、τ，g_i(x)＞0，因此A＞0，其中A定义在公式(11)中。显然，A与Π无关，并且随着|П|递减。因此，调度更少的设备导致的更大上限，也即的更大上限，这意味着调度较少的设备导致在轮数方面的较慢收敛。此外，当(即，调度所有设备)时，B(П)达到其下限零，这与w_k的定义一致。

将定理2与现有技术对w_k的收敛分析组合，可以获得以下定理，其界定整个训练过程期间的最佳模型参数的损失函数与真实最佳模型参数w^*之间的差异。

定理3：当和П是固定随机调度策略时，和F(w^*)之间的差满足：

其中，

期望值考虑了П的随机性。

定理3量化了每轮的等待时间和所需轮数之间的折衷。调度更多的设备增加了每轮的等待时间，并且因此减少了在给定训练时间预算T内的可能轮数(即，K)，而较小的K可以减小的下限。同时，调度更多的设备降低了定理2所示的B(Π)的值，而较小的B(Π)可以增加的下限。因此，调度策略应当仔细优化以平衡每轮等待时间和所需轮数之间的折衷，以便最小化最优全局模型的损失函数(即，)。

C.设备调度算法

在实际的无线网络中，由于无线信道和设备计算能力的波动，本地计算延迟时间和无线信道状态h_i，k在不同的轮次k中可能发生变化。因此，对于k′＞k，在第k轮，和h_i，k′是未知的，这使得P3中的约束(C3.1)难以处理，因为对于k′＞k，是未知的。为解决这个问题，这里近视地求解P3。考虑任意回合k和任意调度策略Π_k，近似地认为Π_k用在整个训练过程中，因此总通信回合数可以近似为其中表示地板函数。因此，P3可近似为每轮中的近视问题：

s.t.

对于给定的全局损失函数，F(w^*)是常数，并且因此最小化等于最大化此外，学习率η可以被选择为足够小以满足因此，P4的目标可通过根据定理3最大化的下限来近似，这等效于最小化(12)的右手侧的分母：

s.t.

上述近似调度子问题P5即为前文中的训练代价C值。

以上介绍了训练代价C值的公式的推导过程。

下文中将进一步介绍应用本发明实施例的终端调度方案的一个具体实现。由于约束(C5.2)仍是组合优化，近似调度子问题P5是难以解决的。因此，对调度的设备提出以下的贪婪调度算法。

贪婪调度算法

S1，初始化Π为空集

S2，执行贪婪调度：其中，t^*(·)由预设算法给出，预设算法可以是现有技术中的各种已有算法，本文对此不做限定；

S3，估计并更新以及П←П∪{x}；

S4，计算

S5，当时执行以下循环：

S6，贪婪调度其中，t^*(·)由预设算法给出；

S7，估计

S8，计算

S9，如果C′＞C，执行以下循环：

S10，C′＞C，结束流程；

S11，否则，进入S12；

S12，更新Π←Π∪{x}，C←C′

S13，结束S9循环；

S14，结束S5循环；

S15，返回Π。

在上述贪婪调度算法中，迭代地将模型更新和上传耗时最少的设备选择到调度设备集中(S6)，直到P5的目标函数开始增加(S9-S10)。上述贪婪调度算法的复杂性为的数量级，这比的数量级的自然强力搜索算法更有效。

然而，由于未知的真实最优模型w^*，其对于分析地估计的值而言不是不重要的，因此将视为在整个训练过程中保持固定的系统参数。实验中示出，固定在不同的系统设置(如数据分布和小区半径)上执行得很好，而搜索的适当值并不困难。

以上介绍了本发明实施例的各种方法，下面进一步提供实现上述方法的装置。

请参照图7，本发明实施例提供的一种无线接入点70，包括：

数据接收模块71，用于无线接入点接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值；

模型更新模块72，用于根据各个终端发送的本地局部模型，更新得到当前轮的全局模型；根据当前轮被调度到的所有终端的本地损失函数的取值，计算当前轮的全局损失函数的取值，根据当前轮的全局损失函数的取值是否优于最优全局模型对应的全局损失函数的取值，确定是否更新所述最优全局模型；

多样性计算模块73，用于根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值；

调度终端生成模块74，用于根据各个终端在当前轮的梯度估计信息，生成下一轮联邦学习的被调度终端，其中，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度多样性估计值。

通过以上模块，本发明实施例的无线接入点可以在受限的训练延时内最大化联邦学习能够获得的模型正确率。

可选的，所述多样性计算模块，还用于：

根据上一轮的全局模型和各个终端发送的本地局部模型，分别估计各个终端在当前轮的本地损失函数的梯度；

根据当前轮被调度到的所有终端的本地损失函数的梯度，计算当前轮的全局损失函数的梯度；

根据各个终端在当前轮的本地损失函数的梯度和当前轮的全局损失函数的梯度，计算各个终端在当前轮的本地损失函数的梯度多样性估计值。

可选的，所述调度终端生成模块，还用于

根据各个终端在当前轮的梯度估计信息以及以终端的本地训练数据集在全局训练数据集中的比值作为该终端的权重，对参与联邦学习的所有终端在当前轮的各梯度估计信息进行加权求和，得到所有终端的梯度估计信息在当前轮的全局值，所述梯度估计信息包括本地损失函数的凸性估计值、光滑性估计值和梯度多样性估计值；

根据各个终端在当前轮的梯度估计信息和所述梯度估计信息在当前轮的全局值，生成下一轮联邦学习的被调度终端。

可选的，所述调度终端生成模块，还用于

初始化内容为空的第一集合；

在候选终端集合中的终端数量大于0的情况下，重复执行以下步骤，直至计算得到的训练代价C值不再下降后，将第一集合中的终端作为下一轮联邦学习被调度的终端：

遍历候选终端集合中的终端，分别估计以该终端和所述第一集合作为被调度终端的联邦学习在当前轮学习的耗时，并确定出具有最短耗时的目标终端；

根据预设的训练时间总预算和所述最短耗时，估计联邦学习的总轮数；根据所述总轮数、所述凸性估计值在当前轮的全局值、光滑性估计值在当前轮的全局值以及各个终端在当前轮的本地损失函数的梯度多样性，计算以所述目标终端和所述第一集合和作为被调度终端的联邦学习的训练代价C值的取值；

在当前计算得到的所述训练代价C值的取值，相对于本地维护的所述C值发生下降时，将所述目标终端加入至所述第一集合，并从所述候选终端集合中删除所述目标终端，并将本地维护的所述C值更新为当前计算得到的所述训练代价C值的取值。

可选的，所述调度终端生成模块，还用于进一步按照以下公式，计算所述训练代价C值的取值：

其中，

η表示学习率；为预设的系统参数；表示联邦学习可执行轮数的估计值；τ表示每轮联邦学习中本地局部模型的更新次数；ρ表示参与联邦学习的所有终端的本地损失函数的凸性估计值的全局值；h(τ)表示；M表示参与联邦学习的所有终端的集合中元素的数量；|Π|表示当前轮被调度终端的数量；β表示本地损失函数的光滑性估计值的全局值；D_i表示本地训练数据集的大小；δ_i表示终端i的本地损失函数的梯度多样性估计值；δ表示参与联邦学习的所有终端的本地损失函数的梯度多样性的全局值；D表示全局训练数据集的大小。

可选的，上述无线接入点还包括：

循环判断模块，用于根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性之前，判断所述联邦学习直至当前轮的已消耗时间是否超出预设的训练时间总预算；在超出预设的训练时间总预算的情况下，将所述最优全局模型作为训练结果输出；在未超出预设的训练时间总预算的情况下，触发所述多样性计算模块计算各个终端在当前轮的本地损失函数的梯度多样性。

如图8所示，本发明实施例还提供了另一种无线接入点80，该无线接入点80具体包括处理器81、存储器82、总线系统83、接收器84和发送器85。其中，处理器81、存储器82、接收器84和发送器85通过总线系统83相连，该存储器82用于存储指令，该处理器81用于执行该存储器82存储的指令，以控制接收器84接收信号，并控制发送器85发送信号；

其中，该处理器81，用于读取存储器中的程序，执行下列过程：

接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值；

根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值；

应理解，在本发明实施例中，该处理器81可以是中央处理单元(CentralProcessing Unit，简称为“CPU”)，该处理器81还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器82可以包括只读存储器和随机存取存储器，并向处理器81提供指令和数据。存储器82的一部分还可以包括非易失性随机存取存储器。例如，存储器82还可以存储设备类型的信息。

该总线系统83除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统83。

在实现过程中，上述方法的各步骤可以通过处理器81中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器82，处理器81读取存储器82中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

该程序被处理器执行时能实现图2所示的无线联邦学习中的终端调度方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现以下步骤：

接收当前轮被调度的各个终端在当前轮联邦学习完成后发送的本地局部模型以及本地损失函数的取值、凸性估计值和光滑性估计值；

根据上一轮的全局模型和各个终端发送的本地局部模型，计算各个终端在当前轮的本地损失函数的梯度多样性估计值；

该程序被处理器执行时能实现上述应用于无线接入点的终端调度方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

如图9所示，本发明实施例还提供了一种终端90，包括：

模型更新模块91，用于在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值；

数据发送模块92，用于将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

可选的，所述模型更新模块，还用于：

利用本地损失函数，分别计算当前轮联邦学习中接收到的全局模型的第一损失值以及当前轮联邦学习更新得到的本地局部模型的第二损失值；计算所述第一损失值和第二损失值的差的第一范数，以及，计算当前轮联邦学习中接收到的全局模型与当前轮联邦学习更新得到的本地局部模型的差的第二范数；计算所述第一范数与第二范数的比值，得到所述本地损失函数的凸性估计值；

计算所述第一损失值的梯度与所述第二损失值的梯度的差值的第三范数；以及，计算所述第三范数与第二范数的比值，得到所述本地损失函数的光滑性估计值。

如图10所示，本发明实施例还提供了另一种终端100，该终端100具体包括处理器101、存储器102、总线系统103、接收器104和发送器105。其中，处理器101、存储器102、接收器104和发送器105通过总线系统103相连，该存储器102用于存储指令，该处理器101用于执行该存储器102存储的指令，以控制接收器104接收信号，并控制发送器105发送信号；

其中，该处理器101，用于读取存储器中的程序，执行下列过程：

在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值；

终端将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

应理解，在本发明实施例中，该处理器101可以是中央处理单元(CentralProcessing Unit，简称为“CPU”)，该处理器101还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器102可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器102的一部分还可以包括非易失性随机存取存储器。例如，存储器102还可以存储设备类型的信息。

该总线系统103除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统103。

在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

该程序被处理器执行时能实现图4所示的无线联邦学习中的终端调度方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现以下步骤：

在当前轮联邦学习中，更新本地局部模型，获得本地损失函数的取值，并估计所述本地损失函数的凸性估计值和光滑性估计值；

终端将更新后的所述本地局部模型、以及本地损失函数的取值、凸性估计值和光滑性估计值发送给无线接入点。

该程序被处理器执行时能实现上述应用于终端侧的终端调度方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

34页详细技术资料下载

无线联邦学习中的终端调度方法和装置

相关技术

网友询问留言