一种纵向联邦学习建模方法、装置、设备及计算机介质

文档序号:1905632 发布日期:2021-11-30 浏览:28次 >En<

阅读说明:本技术 一种纵向联邦学习建模方法、装置、设备及计算机介质 (Longitudinal federated learning modeling method, device, equipment and computer medium ) 是由 韩雨锦 李怡欣 陈忠 王虎 黄志翔 于 2021-04-19 设计创作,主要内容包括:本申请公开了一种纵向联邦学习建模方法、装置、设备及计算机可读存储介质,应用于业务方时,获取进行纵向联邦学习建模所需的目标标签;对目标标签进行分解,得到目标子标签;将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模;其中,业务方保存有标签,数据方不保存有标签。由于所有的目标子标签集合起来才能全面描述目标标签,所以各个数据方只能借助目标子标签得到特定角度的目标标签信息,而无法得到目标标签的全部信息,避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题,且可以提高建模效率。(The application discloses a longitudinal federal learning modeling method, a device, equipment and a computer readable storage medium, which are used for acquiring a target label required by longitudinal federal learning modeling when being applied to a business side; decomposing the target label to obtain a target sub-label; distributing the target sub-label to each data party corresponding to the target label so that each data party carries out longitudinal federal learning modeling based on the distributed target sub-label and local data of the data party; wherein, the business side stores the label, and the data side does not store the label. Because all the target sub-labels are aggregated to comprehensively describe the target label, each data party can only obtain the target label information of a specific angle by means of the target sub-labels, but cannot obtain all the information of the target label, the problem of high computing resource and time consumption caused by transmission of encrypted target labels is solved, and the modeling efficiency can be improved.)

一种纵向联邦学习建模方法、装置、设备及计算机介质

技术领域

本申请涉及信息处理技术领域,更具体地说,涉及一种纵向联邦学习建模方法、装置、设备及计算机介质。

背景技术

随着大数据时代的到来,各个数据源之间存在着难以打破的壁垒,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。为了解决数据的孤岛问题,在两个数据集的用户重叠较多而用户特征重叠较少的情况下,可以把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练,以得到对所有特征进行处理的模型来进行数据处理,也即通过纵向联邦学习的方法进行数据处理。

但是,在纵向联邦学习中,是通过安全多方计算以及密码学来保证建模过程中的隐私安全的,这就需要对各方交互的过程中需要保护的信息进行加密传输,会消耗大量的计算资源与时间,建模效率低。

综上所述,如何提高纵向联邦学习建模的效率是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种纵向联邦学习建模方法,其能在一定程度上解决如何提高纵向联邦学习建模的效率的技术问题。本申请还提供了一种纵向联邦学习建模装置、电子设备及计算机可读存储介质。

第一方面,本申请提供一种纵向联邦学习建模方法,应用于业务方,包括:

获取进行纵向联邦学习建模所需的目标标签;

对所述目标标签进行分解,得到目标子标签;

将所述目标子标签分配给与所述目标标签对应的各个数据方,以使各个所述数据方基于分配的所述目标子标签及所述数据方的本地数据进行纵向联邦学习建模;

其中,所述业务方保存有标签,所述数据方不保存有所述标签。

可选的,所述对所述目标标签进行分解,得到目标子标签,包括:

对所述目标标签分解,得到子标签;

按照归一化幅值降序的排列方式,对所述子标签进行排序,得到排序子标签;

基于能量损失计算方法,确定使得所述目标子标签与所述目标标签相似的子标签数量值;

在所述排序子标签中,选取前所述子标签数量值的所述子标签作为所述目标子标签。

可选的,所述基于能量损失计算方法,确定使得所述目标子标签与所述目标标签相似的子标签数量值,包括:

基于MSE损失计算方法,通过第一计算公式,计算所述排序子标签与所述目标标签的第一损失值;

确定使得所述第一损失值小于第一预设值的所述子标签数量值,所述第一预设值为判定所述目标子标签与所述目标标签相似的临界值;

所述第一计算公式包括:

其中,β表示所述第一损失值;Yi表示所述目标标签中的第i个标签;n表示所述目标标签中标签的总数量;Y'i表示所述目标标签中的第i个标签分解得到的所述子标签,k表示所述目标标签中的第i个标签分解得到的所述子标签的数量值。

可选的,所述将所述目标子标签分配给与所述目标标签对应的各个数据方,包括:

基于所述能量损失计算方法,确定使得各个所述数据方分配得到的所述目标子标签与所述目标标签不相似的分配方法;

按照所述分配方法将所述目标子标签分配给各个所述数据方。

可选的,所述对所述目标标签分解,得到子标签,包括:

对所述目标标签进行傅里叶分解,得到所述子标签。

可选的,所述对所述目标标签进行分解,得到目标子标签,包括:

对所述目标标签进行排序,得到平稳的排序标签;

对所述排序标签进行分解,得到所述目标子标签。

可选的,所述对所述目标标签进行排序,得到平稳的排序标签,包括:

基于目标排序方法对所述目标标签进行排序,得到平稳的所述排序标签,所述目标排序方法的类型包括:降序排序、升序排序、矩形波排序。

可选的,所述将所述目标子标签分配给与所述目标标签对应的各个数据方之后,还包括:

获取各个所述数据方进行纵向联邦学习建模后得到的拟合子标签;

基于所述拟合子标签及所述目标标签进行纵向联邦学习建模。

可选的,所述基于所述拟合子标签及所述目标标签进行纵向联邦学习建模,包括:

按照梯度提升方法,基于所述拟合子标签及所述目标标签进行纵向联邦学习建模。

第二方面,本申请提供一种纵向联邦学习建模方法,应用于数据方,包括:

接收业务方分配的目标子标签;

基于分配的所述目标子标签及所述数据方的本地数据进行纵向联邦学习建模;

其中,所述业务方保存有标签,所述数据方不保存有所述标签;所述业务方获取进行纵向联邦学习建模所需的目标标签,对所述目标标签进行分解,得到所述目标子标签,并将所述目标子标签分配给与所述目标标签对应的各个所述数据方。

第三方面,本申请提供一种纵向联邦学习建模装置,应用于业务方,包括:

标签获取模块,用于获取进行纵向联邦学习建模所需的目标标签;

标签分解模块,用于对所述目标标签进行分解,得到目标子标签;

标签分配模块,用于将所述目标子标签分配给与所述目标标签对应的各个数据方,以使各个所述数据方基于分配的所述目标子标签及所述数据方的本地数据进行纵向联邦学习建模;

其中,所述业务方保存有标签,所述数据方不保存有所述标签。

第四方面,本申请提供一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一所述纵向联邦学习建模方法的步骤。

第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述纵向联邦学习建模方法的步骤。

本申请中,业务方获取进行纵向联邦学习建模所需的目标标签之后,并不是对目标标签进行加密,而是对目标标签进行分解,得到从不同角度描述目标标签的各个目标子标签,之后再将目标子标签分配给与目标标签对应的各个数据方,由于所有的目标子标签集合起来才能全面描述目标标签,所以各个数据方只能借助目标子标签得到特定角度的目标标签信息,而无法得到目标标签的全部信息,也即本申请可以使得数据方在无法获知目标标签的情况下应用目标标签进行纵向联邦学习建模,避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题,且可以提高建模效率。本申请提供的纵向联邦学习建模装置、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请提供的纵向联邦学习建模方案所适用的系统框架示意图;

图2为本申请实施例提供的一种纵向联邦学习建模方法流程图;

图3为本申请中数据交互的示意图;

图4为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图;

图5为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图;

图6为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图;

图7为本申请中数据交互的另一示意图;

图8为本申请提供的一种纵向联邦学习建模装置结构示意图;

图9为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

随着大数据时代的到来,各个数据源之间存在着难以打破的壁垒,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。为了解决数据的孤岛问题,在两个数据集的用户重叠较多而用户特征重叠较少的情况下,可以把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练,以得到对所有特征进行处理的模型来进行数据处理,也即通过纵向联邦学习的方法进行数据处理。但是,在纵向联邦学习中,是通过安全多方计算以及密码学来保证建模过程中的隐私安全的,这就需要对各方交互的过程中需要保护的信息进行加密传输,会消耗大量的计算资源与时间,建模效率低。为了克服上述技术问题,本申请提供了一种纵向联邦学习建模方案,能够提高纵向联邦学习建模的效率。

本申请的纵向联邦学习建模方案中,采用的系统框架具体可以参见图1所示,具体可以包括:业务方01和与业务方01建立通信连接的若干数量的数据方02。且业务方保存有标签,数据方不保存有标签。

本申请中,业务方01用于执行纵向联邦学习建模方法步骤时,可以包括获取进行纵向联邦学习建模所需的目标标签;对目标标签进行分解,得到目标子标签;将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模。进一步的,业务方01中还可以设有目标标签数据库、目标子标签数据库。其中,目标标签数据库用于保存各种标签,如商品的标签、用户购买商品的标签等。目标子标签数据库中具体可以用于保存经过分解后得到的目标子标签。此外,本申请中,业务方01可以对一个或多个数据方02的纵向联邦学习建模请求进行响应等。

图2为本申请实施例提供的一种纵向联邦学习建模方法流程图。参见图2所示,该纵向联邦学习建模方法应用于业务方时可以包括:

步骤S101:获取进行纵向联邦学习建模所需的目标标签。

本实施例中,由于业务方保存有标签,而业务方与数据方进行纵向联邦学习建模所需的标签可能只是业务方保存的部分标签,所以业务方可以先获取进行纵向联邦学习建模所需的目标标签,具体的,可以通过与数据方进行信息交互来确定所需的目标标签。业务方、数据方及标签的类型可以根据实际需要确定,比如数据方可以为用户客户端,业务方可以为向用户提供相应服务的服务器,标签为与服务相对应的标签等,以服务器为提供商品交易的服务器为例,标签可以为商品的属性、商品的成交额等,以服务器为提供信息浏览的服务器为例,标签可以为信息的摘要、关键字等。

步骤S102:对目标标签进行分解,得到目标子标签。

本实施例中,业务方在获取目标标签之后,并不是对目标标签进行加密再传输至数据方,而是需要对目标标签进行分解,得到只携带目标标签部分信息、从特定角度对目标标签进行描述的目标子标签,也即单个目标子标签只能反映目标标签的部分信息,所有的目标子标签集合起来才能反映目标标签的完整信息。

可以理解的是,在对目标标签分解,得到子标签的过程中,可以对目标标签进行傅里叶分解,得到子标签。由于傅里叶分解需要数据尽可能平稳,所以在对目标标签进行分解,得到目标子标签的过程中,可以对目标标签进行排序,得到平稳的排序标签,对排序标签进行分解,得到目标子标签。具体的,对目标标签进行排序所应用的排序方法的类型可以包括:降序排序、升序排序、矩形波排序等。当然,也可以通过其他方法对目标标签进行分解,本申请在此不做具体限定。

步骤S103:将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模。

本实施例中,也无法在对目标标签进行分解,得到目标子标签之后,便可以将目标子标签分配给与目标标签对应的各个数据方,由于所有的目标子标签集合起来才能反映目标标签的完整信息,所以将目标子标签分配给各个数据方之后,各个数据方无法依靠本身获得的目标子标签得到目标标签,实现了无需对目标标签进行加密,也能保证数据方无法获得目标标签的全部信息,这样,后续各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模的话,只能是依据目标标签的部分信息进行纵向联邦学习建模。

需要说明的是,数据方在基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模的过程中,可以对每个目标子标签及对应的本地数据均搭建一个模型,并将目标子标签作为该模型的训练方向进行建模等,此过程可以参阅图3,本申请在此不做具体限定。

本申请中,业务方获取进行纵向联邦学习建模所需的目标标签之后,并不是对目标标签进行加密,而是对目标标签进行分解,得到从不同角度描述目标标签的各个目标子标签,之后再将目标子标签分配给与目标标签对应的各个数据方,由于所有的目标子标签集合起来才能全面描述目标标签,所以各个数据方只能借助目标子标签得到特定角度的目标标签信息,而无法得到目标标签的全部信息,也即本申请可以使得数据方在无法获知目标标签的情况下应用目标标签进行纵向联邦学习建模,避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题,且可以提高建模效率。

图4为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图。参见图4所示,该纵向联邦学习建模方法应用于业务方时可以包括:

步骤S201:获取进行纵向联邦学习建模所需的目标标签。

步骤S202:对目标标签分解,得到子标签。

本实施例中,业务方在对目标标签进行分解,得到目标子标签的过程中,可以先对目标标签进行分解,得到相应的子标签,因为分解得到的子标签的数量较多,如果此时将所有的子标签均作为目标子标签的话,会导致各个数据方后续得到的目标子标签数量较多,不利于纵向联邦学习建模的快速执行,为了避免此种情况,尽可能提高纵向联邦学习建模方法的效率,可以只选取部分子标签作为目标子标签来参与后续的纵向联邦学习建模。

步骤S203:按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签。

本实施例中,考虑到单个子标签只携带目标标签的部分信息,为了使得后续选取的目标子标签尽可能多的携带目标标签的信息,且子标签的幅值可以反映子标签携带目标标签信息的多少,所以可以先按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签,再基于排序子标签确定目标子标签。

步骤S204:基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值。

步骤S205:在排序子标签中,选取前子标签数量值的子标签作为目标子标签。

本实施例中,因为是按照归一化幅值降序的排列方式对子标签进行排序,得到排序子标签的,所以位于排序子标签中前面的子标签比位于后面的子标签所携带的目标标签信息越多,所以可以将排序子标签中位于前面的一定数量的子标签确定为目标子标签,但是因为目标子标签并非全部的子标签,所以目标子标签会丢失目标标签的部分信息,为了避免目标子标签丢失过多的目标标签信息,需要对目标子标签中的子标签数进行限定,以保证目标子标签携带较多的目标标签信息,也即保证目标子标签与目标标签相似,因为能量损失可以表征两个数据间的差异性,所以本申请可以先基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值,再在排序子标签中,选取前子标签数量值的子标签作为目标子标签。

可以理解的是,在基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值的过程中,为了快速确定子标签数量值,可以基于MSE(mean-squareerror,均方误差)损失计算方法,通过第一计算公式,计算排序子标签与目标标签的第一损失值;确定使得第一损失值小于第一预设值的子标签数量值,第一预设值为判定目标子标签与目标标签相似的临界值;

其中,第一计算公式包括:

其中,β表示第一损失值;Yi表示目标标签中的第i个标签;n表示目标标签中标签的总数量;Y'i表示目标标签中的第i个标签分解得到的子标签,k表示目标标签中的第i个标签分解得到的子标签的数量值。

需要说明的是,基于MSE损失计算方法,初步计算得到的排序子标签与目标标签的损失值为:

上述公式可以反映标签具体数值所带来的损失值,但由于目标标签的值可能为0,1等特殊值,这些特殊值的排列趋势也会带来损失值,反应在信号上,便是两个信号的形状一致,但幅度大小不同,所以需要对幅值参数A进行限制,也即使得dE(v)=0,得到代入上式,可得计算排序子标签与目标标签的第一损失值的第一计算公式为:

其中,β表示第一损失值;Yi表示目标标签中的第i个标签;n表示目标标签中标签的总数量;Y'i表示目标标签中的第i个标签分解得到的子标签,k表示目标标签中的第i个标签分解得到的子标签的数量值。

可以理解的是,本实施例中假定各个标签分解得到的子标签的数量相同,且各个标签所对应的目标子标签的数量相同,所以本实施例中,子标签数量值为n*k。但实际应用中,每个标签的分解情况可以根据实际需要确定,比如各个标签分解得到的子标签数量不同,且对应的目标子标签数量不同等,本申请在此不做具体限定。

步骤S206:将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模。

图5为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图。参见图5所示,该纵向联邦学习建模方法应用于业务方时可以包括:

步骤S301:获取进行纵向联邦学习建模所需的目标标签。

步骤S302:对目标标签分解,得到子标签。

步骤S303:按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签。

步骤S304:基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值。

步骤S305:在排序子标签中,选取前子标签数量值的子标签作为目标子标签。

步骤S306:基于能量损失计算方法,确定使得各个数据方分配得到的目标子标签与目标标签不相似的分配方法。

步骤S307:按照分配方法将目标子标签分配给各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模。

本实施例中,为了避免数据方恶意获取目标标签,需要保证各个数据方无法依据自身分配得到的目标子标签推断出目标标签,这就要求数据方分配得到的目标子标签与目标标签不相似,所以业务方在将目标子标签分配给与目标标签对应的各个数据方的过程中,可以基于能量损失计算方法,确定使得各个数据方分配得到的目标子标签与目标标签不相似的分配方法,再按照分配方法将目标子标签分配给各个数据方。

需要说明的是,在基于能量损失计算方法,确定使得各个数据方分配得到的目标子标签与目标标签不相似的分配方法的过程中,可以基于MSE损失计算方法,通过第二计算公式,计算数据方分配得到的目标子标签与目标标签的第二损失值;确定使得第二损失值大于第二预设值的目标子标签数量值,第二预设值为判定数据方分配得到的目标子标签与目标标签相似的临界值;

其中,第二计算公式包括:

其中,α表示第二损失值;Yi表示目标标签中的第i个标签;n表示目标标签中标签的总数量;Y”i表示分配给数据方的目标标签中的第i个标签对应的目标子标签,m表示分配给数据方的目标标签中的第i个标签对应的目标子标签的数量值。

图6为本申请实施例提供的一种具体的纵向联邦学习建模方法流程图。参见图6所示,该纵向联邦学习建模方法应用于业务方时可以包括:

步骤S401:获取进行纵向联邦学习建模所需的目标标签。

步骤S402:对目标标签分解,得到子标签。

步骤S403:按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签。

步骤S404:基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值。

步骤S405:在排序子标签中,选取前子标签数量值的子标签作为目标子标签。

步骤S406:基于能量损失计算方法,确定使得各个数据方分配得到的目标子标签与目标标签不相似的分配方法。

步骤S407:按照分配方法将目标子标签分配给各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模。

步骤S408:获取各个数据方进行纵向联邦学习建模后得到的拟合子标签。

步骤S409:基于拟合子标签及目标标签进行纵向联邦学习建模。

本实施例中,因为也无法也需要利用数据方的相应数据进行纵向联邦学习建模,所以也无法在按照分配方法将目标子标签分配给各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模之后,可以获取各个数据方进行纵向联邦学习建模后得到的携带数据方的本地数据信息的拟合子标签,并基于拟合子标签及目标标签进行纵向联邦学习建模,其过程可以参阅图7。

需要说明的是,业务方在基于拟合子标签及目标标签进行纵向联邦学习建模的过程中,为了保证建立的模型符合业务需求,可以按照梯度提升方法,基于拟合子标签及目标标签进行纵向联邦学习建模。

其中,梯度提升的计算公式如下:

其中,y'i表示业务方所建模型的下一梯度提升方向;yi表示拟合子标签的对应值;Fm-1(xi)表示业务方所建模型在第m轮的输出值。

本实施例提供的一种纵向联邦学习建模方法,应用于数据方时,可以包括以下步骤:

接收业务方分配的目标子标签;

基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模;

其中,业务方保存有标签,数据方不保存有标签;业务方获取进行纵向联邦学习建模所需的目标标签,对目标标签进行分解,得到目标子标签,并将目标子标签分配给与目标标签对应的各个数据方。

本实施中,数据方执行纵向联邦学习建模方法的相应步骤可以参阅上述实施例,在此不再赘述。

下面以业务方为提供商品交易的服务器、数据方为用户客户端为例,对本申请中的技术方案进行说明。服务器与用户客户端进行数据交互的过程可以如下:

服务器获取进行纵向联邦学习建模所需的目标标签;

服务器对目标标签分解,得到子标签;

服务器按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签;

服务器基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值;

服务器在排序子标签中,选取前子标签数量值的子标签作为目标子标签;

服务器基于能量损失计算方法,确定使得各个用户客户端分配得到的目标子标签与目标标签不相似的分配方法;

服务器按照分配方法将目标子标签分配给各个用户客户端;

各个用户客户端基于分配的目标子标签及用户客户端的本地数据进行纵向联邦学习建模;

各个用户客户端将自身进行纵向联邦学习建模后得到的拟合子标签发送给服务器;

服务器基于拟合子标签及目标标签进行纵向联邦学习建模。

参见图8所示,本申请实施例还相应公开的一种纵向联邦学习建模装置,应用于业务方,包括:

标签获取模块101,用于获取进行纵向联邦学习建模所需的目标标签;

标签分解模块102,用于对目标标签进行分解,得到目标子标签;

标签分配模块103,用于将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模;

其中,业务方保存有标签,数据方不保存有标签。

可见,本申请中,业务方获取进行纵向联邦学习建模所需的目标标签之后,并不是对目标标签进行加密,而是对目标标签进行分解,得到从不同角度描述目标标签的各个目标子标签,之后再将目标子标签分配给与目标标签对应的各个数据方,由于所有的目标子标签集合起来才能全面描述目标标签,所以各个数据方只能借助目标子标签得到特定角度的目标标签信息,而无法得到目标标签的全部信息,也即本申请可以使得数据方在无法获知目标标签的情况下应用目标标签进行纵向联邦学习建模,避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题,且可以提高建模效率

在一些具体实施例中,标签分解模块可以具体用于:对目标标签分解,得到子标签;按照归一化幅值降序的排列方式,对子标签进行排序,得到排序子标签;基于能量损失计算方法,确定使得目标子标签与目标标签相似的子标签数量值;在排序子标签中,选取前子标签数量值的子标签作为目标子标签。

在一些具体实施例中,标签分解模块可以具体用于:基于MSE损失计算方法,通过第一计算公式,计算排序子标签与目标标签的第一损失值;确定使得第一损失值小于第一预设值的子标签数量值,第一预设值为判定目标子标签与目标标签相似的临界值;

第一计算公式包括:

其中,β表示第一损失值;Yi表示目标标签中的第i个标签;n表示目标标签中标签的总数量;Y'i表示目标标签中的第i个标签分解得到的子标签,k表示目标标签中的第i个标签分解得到的子标签的数量值。

在一些具体实施例中,标签分配模块可以具体用于,将目标子标签分配给与目标标签对应的各个数据方,包括:基于能量损失计算方法,确定使得各个数据方分配得到的目标子标签与目标标签不相似的分配方法;按照分配方法将目标子标签分配给各个数据方。

在一些具体实施例中,标签分解模块可以具体用于:对目标标签进行傅里叶分解,得到子标签。

在一些具体实施例中,标签分解模块可以具体用于:对目标标签进行排序,得到平稳的排序标签;对排序标签进行分解,得到目标子标签。

在一些具体实施例中,标签分解模块可以具体用于:基于目标排序方法对目标标签进行排序,得到平稳的排序标签,目标排序方法的类型包括:降序排序、升序排序、矩形波排序。

在一些具体实施例中,纵向联邦学习建模装置还可以包括:

拟合子标签获取模块,用于标签分配模块将目标子标签分配给与目标标签对应的各个数据方之后,获取各个数据方进行纵向联邦学习建模后得到的拟合子标签;基于拟合子标签及目标标签进行纵向联邦学习建模。

在一些具体实施例中,拟合子标签获取模块可以具体用于:按照梯度提升方法,基于拟合子标签及目标标签进行纵向联邦学习建模。

进一步的,本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的纵向联邦学习建模方法中的相关步骤。另外,本实施例中的电子设备20具体可以为服务器。

本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。

另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等,存储方式可以是短暂存储或者永久存储。

其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量视频数据223的运算与处理,其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的纵向联邦学习建模方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种标签数据。

进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的纵向联邦学习建模方法步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种烟叶感官质量预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!