一种用于去除系统推荐偏差的方法和系统

文档序号：1964413 发布日期：2021-12-14 浏览：15次 >En<

阅读说明：本技术 一种用于去除系统推荐偏差的方法和系统 (Method and system for removing system recommendation deviation ) 是由周晔穆海洁景晓峰于 2021-09-29 设计创作，主要内容包括：本发明公开了一种用于去除系统推荐偏差的方法和系统,能够用一个通用的去偏差框架解决各种情况下偏差对推荐系统的影响。其技术方案为：接收推荐系统场景中与推荐偏差相关的输入数据,作为数据特征层的一个或多个特征组；将接收到的数据按照特征组的类别进行向量处理,将数据的特征值转化为向量值,以将特征组分别转化为对应的向量组,再将一个或多个向量组传递至多层神经网络,在多层神经网络中将向量组中的词向量交叉组合成数据集,以这些数据集构建出共享数据层；将共享数据层中的数据划分成多个不同的数据组,并对该多个数据组采用对应的去偏策略进行去偏处理,将所有数据组经去偏处理后的数据整合输出。(The invention discloses a method and a system for removing system recommendation deviation, which can solve the influence of deviation on a recommendation system under various conditions by using a universal deviation removing framework. The technical scheme is as follows: receiving input data related to recommendation deviation in a recommendation system scene as one or more feature groups of a data feature layer; carrying out vector processing on received data according to the categories of the feature groups, converting feature values of the data into vector values so as to convert the feature groups into corresponding vector groups respectively, transmitting one or more vector groups to a multilayer neural network, and cross-combining word vectors in the vector groups into data sets in the multilayer neural network so as to construct a shared data layer by the data sets; dividing the data in the shared data layer into a plurality of different data groups, carrying out depolarization processing on the plurality of data groups by adopting corresponding depolarization strategies, and integrating and outputting the data after the depolarization processing of all the data groups.)

一种用于去除系统推荐偏差的方法和系统

技术领域

本发明涉及去除系统推荐偏差的技术，具体涉及采用多目标模型对系统推荐偏差进行去除的方法和系统。

背景技术

推荐系统作为解决信息过载、为用户提供个性化内容的重要手段，如今已在各行各业的应用场景下取得了显著成果。传统的推荐系统通过收集用户行为数据作为原始数据，结合机器学习等技术，最终返回给用户推荐内容。但在用户行为数据收集的过程中，往往存在各式各样的偏差导致推荐效果的下降。

常见的偏差主要有如下集中情况：

选择偏差：用户更倾向于对喜欢或讨厌的物品进行评分，从而导致介于两种情感之间的物品缺少了评分数据；

位置偏差：排序位置因素对用户点击行为的影响，通常情况下用户更倾向于点击更靠前的内容；

曝光偏差：因热门物品或以往推荐结果的影响，导致用户更容易接收到某类物品，而其他物品得不到相应的曝光，导致用户感兴趣的物品并未展示给用户，从而带来偏差。

现有的去除常见偏差的技术往往是针对一种或两种特定的偏差，但在真实的应用场景中，往往是多种偏差混合在一起，交叉影响。因此，推荐系统亟需一个通用的去偏差框架来解决各种情况下偏差对推荐系统的影响。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种用于去除系统推荐偏差的方法和系统，能够用一个通用的去偏差框架解决各种情况下偏差对推荐系统的影响。

本发明的技术方案为：本发明揭示了一种用于去除系统推荐偏差的方法，方法包括：

步骤1：接收推荐系统场景中与推荐偏差相关的输入数据，作为数据特征层的一个或多个特征组；

步骤2：将接收到的数据按照特征组的类别进行向量处理，将数据的特征值转化为向量值，以将特征组分别转化为对应的向量组，再将一个或多个向量组传递至多层神经网络，在多层神经网络中将向量组中的词向量交叉组合成数据集，以这些数据集构建出共享数据层；

步骤3：将共享数据层中的数据划分成多个不同的数据组，并对该多个数据组采用对应的去偏策略进行去偏处理，将所有数据组经去偏处理后的数据整合输出。

根据本发明的用于去除系统推荐偏差的方法的一实施例，步骤2中是通过神经网络中的嵌入处理将特征值转化为向量值。

根据本发明的用于去除系统推荐偏差的方法的一实施例，步骤3中的去偏策略包括：倾向分数法、数据填充法、双重鲁棒估计器、联合学习。

根据本发明的用于去除系统推荐偏差的方法的一实施例，步骤3中的数据组的划分是根据不同的任务目的来划分。

本发明还揭示了一种用于去除系统推荐偏差的系统，系统包括数据预处理模块、去偏模型模块和多目标模型模块，其中数据预处理模块包括特征值输入单元、特征值向量化单元和多层神经网络处理单元，去偏模型模块由一个或多个偏差处理单元组成，多目标模型模块由一个或多个偏差目标分组单元组成，其中：

特征值输入单元用于接收推荐系统场景中与推荐偏差相关的输入数据，作为数据特征层的一个或多个特征组；

特征值向量化单元用于将接收到的数据按照特征组的类别进行向量处理，将数据的特征值转化为向量值，以将特征组分别转化为对应的向量组，再将一个或多个向量组传递至多层神经网络；

多层神经网络处理单元用于在多层神经网络中将向量组中的词向量交叉组合成数据集，以这些数据集构建出共享数据层；

多目标模型模块用于将多层神经网络处理单元所构建的共享数据层中的数据通过策略划分成多个不同的数据组；

去偏模型模块用于对多目标模型模块所划分的该多个数据组采用对应的去偏策略进行去偏处理，将所有数据组经去偏处理后的数据整合输出。

根据本发明的用于去除系统推荐偏差的系统的一实施例，多目标模型模块包括：位置偏差目标分组单元、选择偏差目标分组单元、曝光偏差分组单元；去偏模型模块包括：位置偏差处理单元、选择偏差处理单元和曝光偏差处理单元。

根据本发明的用于去除系统推荐偏差的系统的一实施例，特征值向量化单元中是通过神经网络中的嵌入处理将特征值转化为向量值。

根据本发明的用于去除系统推荐偏差的系统的一实施例，多目标模型模块中对数据组的划分是根据不同的任务目的来划分。

本发明还揭示了一种用于去除系统推荐偏差的计算机系统，计算机系统包括：

处理器；

存储器，存储器被配置为存储一系列计算机可执行的指令以及与该一系列计算机可执行的指令相关联的计算机可访问的数据；

当该一系列计算机可执行的指令被该处理器执行时，使得该处理器进行如上所述的用于去除系统推荐偏差的方法。

本发明还揭示了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当该一系列可执行的指令被计算装置执行时，使得计算装置进行如上所述的用于去除系统推荐偏差的方法。

本发明对比现有技术有如下的有益效果：传统的去偏方法往往是在特征输入时将偏差特征带入，从而优化特征值的输入。

而本发明的创新点在于，将去偏处理的过程置于多目标模型处理阶段，多目标模型与去偏模型共同作用，通过多目标模型提升数据处理效率的同时，对不同目标场景下使用不同的偏差策略，从而达到去偏效果。其中，多目标模型是可以自定义调整的，如在需要处理特定单一偏差的场景下，将对应目标任务模型比重调大，从而对特定偏差情况进行了处理；在通用情形下，无需调整多目标模型，可直接进行通用推荐系统偏差去除。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的用于去除系统推荐偏差的方法的一实施例的流程图。

图2示出了本发明的用于去除系统推荐偏差的系统的一实施例的原理图。

图3示出了本发明的用于去除系统推荐偏差的计算机系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的用于去除系统推荐偏差的方法的一实施例的流程。请参见图1，本实施例的方法的具体实施步骤详述如下。

步骤1：接收推荐系统场景中与推荐偏差相关的输入数据，作为数据特征层的一个或多个特征组。

步骤1中所接收的与推荐偏差相关的输入数据根据推荐系统具体场景的不同会有所不同。如在视频推荐场景下，特征组分别会是用户历史行为特征组(点赞、收藏、观看时长等)、用户上下文特征组(用户设备信息、观看时间等)、视频特征组(视频类型、视频标签等)等，因此此处特征组的种类及数量会根据不同的业务场景会有所不同。

步骤2：将接收到的数据按照特征组的类别进行向量处理，将数据的特征值转化为向量值，以将特征组分别转化为对应的向量组，再将一个或多个向量组传递至多层神经网络，在多层神经网络中将向量组中的词向量交叉组合成数据集，以这些数据集构建出共享数据层。

特征值转化为向量值的向量处理是嵌入式的技术，称为Embedding，是一种神经网络领域中将离散变量转变为连续向量的技术。

在步骤3中，由于对不同的数据组采用了不同的去偏策略，因此本实施例实质上是通过结合多种不同的去偏策略来构建通用性去偏模型，在图1所示的多路的去偏策略对神经网络处理后的数据进行分类后，对多路数据分别进行偏差去除，最终输出结果至输出层。

为保证数据组的划分(即目标任务的划分)的效果更好，经过前序步骤中的多层神经网络层的处理后，输入数据已经经过了多层交叉处理，在共享数据层的每条数据的数据维度已趋于一致，这时只需要对这些数据按照目标需求进行分类即可；具体数据的规模划分，也可以结合步骤1输入数据的规模进行划分：哪种类型的数据输入更多，多目标模型分得的数据就越多。

而去偏策略包含了：倾向分数法、数据填充法、双重鲁棒估计器、联合学习等。

倾向分数法是指使用非实验数据或观测数据进行干预效应分析的一类统计方法。数据填充法包含均值填充法等。双重鲁棒估计器是指利用自适应滤波器从杂波(除了期望信号外的其他信号)中选择目标。联合学习是指客户端在中央服务器的协调下共同训练模型，同时保持训练数据的去中心化及分散性。

划分数据组相当于基于不同的任务目的划分出多个目标任务，对不同的数据组采用不同的去偏策略，相当于对不同的任务目标使用相应的去偏策略进行去偏处理。而数据组的划分以及基于每一组数据的相应的去偏策略的选择，则是根据不同的任务目的来划分的，比如，当前建立了一条消除位置偏差的目标任务，那么召回的数据中，可使用倾向分数法在参考输入数据时根据其位置参数的特征值进行召回。

图2示出了本发明的用于去除系统推荐偏差的系统的一实施例的原理。请参见图2，系统包括了数据预处理模块、去偏模型模块和多目标模型模块。

其中数据预处理模块包括特征值输入单元、特征值向量化单元和多层神经网络处理单元。

去偏模型模块由一个或多个偏差处理单元组成，例如可以是位置偏差处理单元、选择偏差处理单元和曝光偏差处理单元。

多目标模型模块由一个或多个偏差目标分组单元组成，例如可以是位置偏差目标分组单元、选择偏差目标分组单元、曝光偏差分组单元。

多目标模型模块中的各个偏差目标分组单元与去偏模型模块中的偏差处理单元对应。

特征值输入单元传输了输入数据的特征值至特征值向量化单元；特征值向量化单元传输了特征值向量至多层神经网络处理单元；多层神经网络处理单元传输了特征数据至多目标模型模块；数据预处理模块传输了经神经网络处理后的特征数据至多目标模型模块中，多目标模型与去偏模型共同作用，达成去偏效果。

特征值输入单元用于接收推荐系统场景中与推荐偏差相关的输入数据，作为数据特征层的一个或多个特征组。

特征值输入单元所接收的与推荐偏差相关的输入数据根据推荐系统具体场景的不同会有所不同。如在视频推荐场景下，特征组分别会是用户历史行为特征组(点赞、收藏、观看时长等)、用户上下文特征组(用户设备信息、观看时间等)、视频特征组(视频类型、视频标签等)等，因此此处特征组的种类及数量会根据不同的业务场景会有所不同。

特征值向量化单元用于将接收到的数据按照特征组的类别进行向量处理，将数据的特征值转化为向量值，以将特征组分别转化为对应的向量组，再将一个或多个向量组传递至多层神经网络。

特征值转化为向量值的向量处理是嵌入式的技术，称为Embedding，是一种神经网络领域中将离散变量转变为连续向量的技术。

多层神经网络处理单元用于在多层神经网络中将向量组中的词向量交叉组合成数据集，以这些数据集构建出共享数据层。

多目标模型模块用于将多层神经网络处理单元所构建的共享数据层中的数据通过策略划分成多个不同的数据组。

多目标模型模块结合多种不同的去偏策略来构建通用性去偏模型。

划分数据组相当于基于不同的任务目的划分出多个目标任务，对不同的数据组采用不同的去偏策略，相当于对不同的任务目标使用相应的去偏策略进行去偏处理。而基于每一组数据的去偏策略的选择，则是根据不同的任务目的来划分的，比如，当前建立了一条消除位置偏差的目标任务，那么召回的数据中，可使用倾向分数法在参考输入数据时根据其位置参数的特征值进行召回。

为保证数据组的划分(即目标任务的划分)的效果更好，经过前序多层神经网络处理单元的处理后，输入数据已经经过了多层交叉处理，在共享数据层的每条数据的数据维度已趋于一致，这时只需要对这些数据按照目标需求进行分类即可；具体数据的规模划分，也可以结合特征值输入单元对输入数据的规模进行划分：哪种类型的数据输入更多，多目标模型分得的数据就越多。

去偏模型模块用于对多目标模型模块所划分的该多个数据组采用对应的去偏策略进行去偏处理，将所有数据组经去偏处理后的数据整合输出。

去偏模型模块集成了一个或多个不同的去偏策略的处理单元，例如在本实施例中，去偏策略包含了：倾向分数法、数据填充法、双重鲁棒估计器、联合学习等。

如图3所示，本发明还揭示了一种应用上述方法的计算机系统，计算机系统包括处理器和存储器，存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据。

当这一系列计算机可执行的指令被处理器执行时，使得处理器进行如上述图1所示的实施例中所描述的方法。

此外，本发明还公开了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当这一系列可执行的指令被计算装置执行时，使得计算装置进行如上述图1所示的实施例中所描述的方法。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

12页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：距离正则水平集与卷积神经网络的水平集掩膜优化方法

一种用于去除系统推荐偏差的方法和系统

相关技术

网友询问留言