一种用户搜索方法及装置

文档序号:1798837 发布日期:2021-11-05 浏览:13次 >En<

阅读说明:本技术 一种用户搜索方法及装置 (User searching method and device ) 是由 周洁芸 王中晴 彭涛 马金韬 于 2021-08-19 设计创作,主要内容包括:本发明实施例提供了一种用户搜索方法及装置,涉及互联网应用技术领域,上述方法包括:获得基于目标用户的静态特征和动态特征生成的目标表示特征,其中,静态特征为:随用户参与网络行为不变的特征,动态特征为:随用户参与网络行为变化的特征;计算目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,其中,已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征;按照计算得到的相似度由高到低的顺序,在已有用户中搜索所述目标用户的关联用户。应用本发明实施例提供的方案搜索用户,能够提高搜索到的关联用户的准确度。(The embodiment of the invention provides a user searching method and a user searching device, which relate to the technical field of Internet application, and the method comprises the following steps: obtaining target representation characteristics generated based on static characteristics and dynamic characteristics of a target user, wherein the static characteristics are as follows: the dynamic characteristics are the characteristics that the network behavior is invariable along with the participation of the user: characteristics that change as a user participates in network behavior; calculating the similarity between the target representation characteristics and the representation characteristics of the existing users stored in a user characteristic library, wherein the representation characteristics of the existing users are characteristics obtained based on the static characteristics, the static relation, the dynamic characteristics and the dynamic relation of the existing users; and searching the related users of the target user from the existing users according to the sequence of the calculated similarity from high to low. By applying the scheme provided by the embodiment of the invention to search the user, the accuracy of the searched associated user can be improved.)

一种用户搜索方法及装置

技术领域

本发明涉及互联网应用技术领域,特别是涉及一种用户搜索方法及装置。

背景技术

不同的场景中,服务提供商可以对属于同一分类的用户按照相同的策略提供服务。例如,信息推送场景中,可以为属于同一分类的用户推送相同的信息;黑产用户处理场景中,可以对黑产用户采用相同的信息屏蔽策略进行信息屏蔽。

鉴于上述情况,对于单一用户而言,可以先按照该用户所属的分类,以及其他用户所属的分类,搜索该用户的关联用户,然后基于关联用户的信息为该用户提供服务。

现有技术中,一般基于分类模型确定用户的分类,而受限于样本数据的丰富度、数据量等因素,使用训练得到的分类模型进行用户分类时准确度较低,从而导致进行用户搜索时,搜索到的关联用户准确度较低。

发明内容

本发明实施例的目的在于提供一种用户搜索方法及装置,以提高搜索到的关联用户的准确度。具体技术方案如下:

在本发明实施的第一方面,首先提供了一种用户搜索方法,所述方法包括:

获得基于目标用户的静态特征和动态特征生成的目标表示特征,其中,所述静态特征为:随用户参与网络行为不变的特征,所述动态特征为:随用户参与网络行为变化的特征;

计算所述目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,其中,所述已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征,所述静态关系为:基于用户的静态特征确定的用户间的关系,所述动态关系为:基于用户的动态特征确定的用户间的关系;

按照计算得到的相似度由高到低的顺序,在已有用户中搜索所述目标用户的关联用户。

本发明的一个实施例中,按照以下方式生成已有用户的表示特征:

根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征;

根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征;

基于预设的特征权重,对所述静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征。

本发明的一个实施例中,所述基于预设的特征权重,对所述静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征,包括:

根据预设的特征权重,确定第一维度和第二维度,其中,所述第一维度为:对所述静态表示特征进行降维处理后所得特征的维度,所述第二维度为:对所述动态表示特征进行降维处理后所得特征的维度;

将所述静态表示特征的维度降至所述第一维度;

将所述动态表示特征的维度降至所述第二维度;

对降维处理后的静态表示特征和降维处理后的动态表示特征进行拼接,得到已有用户的表示特征。

本发明的一个实施例中,所述根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征,包括:

在静态图数据中,确定已有用户对应的节点,其中,所述静态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的静态特征,两节点间的边表示所述两节点间的静态关系;

从所确定节点的属性中获得已有用户的静态特征,并获得所确定节点所连接边的权重;

根据所获得的静态特征和权重,生成已有用户的静态表示特征。

本发明的一个实施例中,所述根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征,包括:

在动态图数据中,确定已有用户对应的节点,其中,所述动态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的动态特征,两节点间的边表示所述两节点间的动态关系;

从所确定节点的属性中获得已有用户的动态特征,并获得所确定节点所连接边的权重;

根据所获得的动态特征和权重,生成已有用户的动态表示特征。

本发明的一个实施例中,按照以下方式确定图数据中两个节点之间边的权重,所述图数据为:所述静态图数据或动态图数据:

将所述两个节点中每一节点的属性包括的用户的特征,分别输入预先训练的类别归属度计算模型,获得所述两个节点对应的用户的类别归属度,其中,所述类别归属度计算模型为回归模型;

根据所获得的类别归属度,确定所述两个节点之间边的权重。

本发明的一个实施例中,所述根据所获得的类别归属度,确定所述两个节点之间边的权重,包括:

按照以下表达式,确定所述两个节点之间边的权重:

其中,j和k表示节点的标识,Wj,k表示节点j和节点k之间边的权重,表示节点j所对应用户的类别归属度,表示节点k所对应用户的类别归属度,max()表示取最大值函数,avg()表示取均值函数。

本发明的一个实施例中,所述获得基于目标用户的静态特征和动态特征生成的目标表示特征,包括:

确定目标用户的标识;

获得所述用户特征库中存储的与所述目标用户的标识相对应的目标表示特征。

第二方面,本发明实施例还提供了一种用户搜索装置,所述装置包括:

表示特征获取模块,用于获得基于目标用户的静态特征和动态特征生成的目标表示特征,其中,所述静态特征为:随用户参与网络行为不变的特征,所述动态特征为:随用户参与网络行为变化的特征;

相似度计算模块,用于计算所述目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,其中,所述已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征,所述静态关系为:基于用户的静态特征确定的用户间的关系,所述动态关系为:基于用户的动态特征确定的用户间的关系;

用户搜索模块,用于按照计算得到的相似度由高到低的顺序,在已有用户中搜索所述目标用户的关联用户。

本发明的一个实施例中,所述装置还包括:表示特征生成模块,用于生成已有用户的表示特征;

所述表示特征生成模块,包括:

静态表示特征生成子模块,用于根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征;

动态表示特征生成子模块,用于根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征;

特征融合子模块,用于基于预设的特征权重,对所述静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征。

本发明的一个实施例中,所述特征融合子模块,具体用于:

根据预设的特征权重,确定第一维度和第二维度,其中,所述第一维度为:对所述静态表示特征进行降维处理后所得特征的维度,所述第二维度为:对所述动态表示特征进行降维处理后所得特征的维度;

将所述静态表示特征的维度降至所述第一维度;

将所述动态表示特征的维度降至所述第二维度;

对降维处理后的静态表示特征和降维处理后的动态表示特征进行拼接,得到已有用户的表示特征。

本发明的一个实施例中,所述静态表示特征生成子模块,具体用于:

在静态图数据中,确定已有用户对应的节点,其中,所述静态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的静态特征,两节点间的边表示所述两节点间的静态关系;

从所确定节点的属性中获得已有用户的静态特征,并获得所确定节点所连接边的权重;

根据所获得的静态特征和权重,生成已有用户的静态表示特征。

本发明的一个实施例中,所述动态表示特征生成子模块,具体用于:

在动态图数据中,确定已有用户对应的节点,其中,所述动态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的动态特征,两节点间的边表示所述两节点间的动态关系;

从所确定节点的属性中获得已有用户的动态特征,并获得所确定节点所连接边的权重;

根据所获得的动态特征和权重,生成已有用户的动态表示特征。

本发明的一个实施例中,所述装置还包括:权重确定模块,用于确定图数据中两个节点之间边的权重,所述图数据为:所述静态图数据或动态图数据;

所述权重确定模块,包括:

类别归属度获得子模块,用于将所述两个节点中每一节点的属性包括的用户的特征,分别输入预先训练的类别归属度计算模型,获得所述两个节点对应的用户的类别归属度,其中,所述类别归属度计算模型为回归模型;

权重确定子模块,用于根据所获得的类别归属度,确定所述两个节点之间边的权重。

本发明的一个实施例中,所述权重确定子模块,具体用于:

按照以下表达式,确定所述两个节点之间边的权重:

其中,j和k表示节点的标识,Wj,k表示节点j和节点k之间边的权重,表示节点j所对应用户的类别归属度,表示节点k所对应用户的类别归属度,max()表示取最大值函数,avg()表示取均值函数。

本发明的一个实施例中,所述表示特征获取模块,具体用于:

确定目标用户的标识;

获得所述用户特征库中存储的与所述目标用户的标识相对应的目标表示特征。

第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一用户搜索方法步骤。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用户搜索方法步骤。

由以上可见,应用本发明实施例提供的方案搜索用户时,首先获得基于目标用户的静态特征和动态特征生成的目标表示特征,然后计算目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,再按照计算得到的相似度由高到低的顺序,在已有用户中搜索目标用户的关联用户。

由于用户的静态特征是随用户参与网络行为不变的特征,动态特征是随用户参与网络行为变化的特征,所以基于静态特征和动态特征确定的静态关系和动态关系,是以用户在网络中所体现的所有特征的集合为基准而构建的用户之间的关联关系,能够准确地体现用户之间的关联。

并且,由于已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的,所以已有用户的表示特征能够准确地反映出其在网络中与其他用户之间的关联,而同理目标用户的目标表示特征是基于目标用户的静态特征和动态特征生成的,所以计算目标表示特征和存储在用户特征库中的已有用户的表示特征之间的相似度,并且按照相似度高低的顺序,搜索已有用户中与目标用户关联的关联用户,能够确定已有用户中与目标用户相关联且关联程度不同的所有关联用户,同时能够提高搜索到关联用户的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的第一种用户搜索方法的流程示意图。

图2为本发明实施例提供的第一种表示特征获得方法的流程示意图。

图3为本发明实施例提供的第二种表示特征获得方法的流程示意图。

图4为本发明实施例提供的一种对静态表示特征和动态表示特征进行加权融合的示意图。

图5为本发明实施例提供的第三种表示特征获得方法的流程示意图。

图6为本发明实施例提供的第四种表示特征获得方法的流程示意图。

图7为本发明实施例提供的第五种表示特征获得方法的流程示意图。

图8为本发明实施例提供的第二种用户搜索方法的流程示意图。

图9为本发明实施例提供的一种用户搜索装置的结构示意图。

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

由于应用现有技术搜索关联用户时,搜索到的关联用户准确度较低,为解决这一技术问题,本发明实施例提供了一种用户搜索方法及装置。

本发明的一个实施例中,提供了一种用户搜索方法,上述方法包括:

获得基于目标用户的静态特征和动态特征生成的目标表示特征,其中,静态特征为:随用户参与网络行为不变的特征,动态特征为:随用户参与网络行为变化的特征;

计算目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,其中,已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征,静态关系为:基于用户的静态特征确定的用户间的关系,动态关系为:基于用户的动态特征确定的用户间的关系;

按照计算得到的相似度由高到低的顺序,在已有用户中搜索目标用户的关联用户。

由以上可见,应用本发明实施例提供的方案搜索用户时,由于用户的静态特征是随用户参与网络行为不变的特征,动态特征是随用户参与网络行为变化的特征,所以基于静态特征和动态特征确定的静态关系和动态关系,是以用户在网络中所体现的所有特征的集合为基准而构建的用户之间的关联关系,能够准确地体现用户之间的关联。

并且,由于已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的,所以已有用户的表示特征能够准确地反映出其在网络中与其他用户之间的关联,而同理目标用户的目标表示特征是基于目标用户的静态特征和动态特征生成的,所以计算目标表示特征和存储在用户特征库中的已有用户的表示特征之间的相似度,并且按照相似度高低的顺序,搜索已有用户中与目标用户关联的关联用户,能够确定已有用户中与目标用户相关联且关联程度不同的所有关联用户,同时能够提高搜索到关联用户的准确度。

下面首先对本发明实施例的应用场景进行说明。

不同的应用中,根据不同的标准用户可以被划分为不同的类型,根据用户类型可以对属于不同分类的用户采取不同的服务策略。例如,信息推送类应用中,可以将用户按照年龄分为未成年人、青年人、中年人、老年人四个类型,可以为不同类型的用户推送不同的信息;黑产用户处理类应用中,可以将用户按照其在网络中的信息和网络行为分为黑用户和白用户,可以对黑用户采用相同的信息屏蔽策略进行信息屏蔽,而对白用户则不进行信息屏蔽。

基于上述情况,本发明实施例提供的方案可以应用在以下场景中。

场景一,当前已知目标用户的用户类型,在已有用户中搜索与目标用户同类型的用户作为与目标用户相关联的关联用户,基于关联用户的信息为目标用户提供服务。

场景二,当前未知目标用户的用户类型,在已有用户中搜索与目标用户相关联的用户,基于关联用户的信息确定目标用户的类型,从而为目标用户提供服务。

下面通过具体实施例对本发明实施例提供的用户搜索方法进行详细说明。

参见图1,提供了第一种用户搜索方法的流程示意图,上述方法包括以下步骤S101-S103。

步骤S101:获得基于目标用户的静态特征和动态特征生成的目标表示特征。

其中,静态特征为:随用户参与网络行为不变的特征。例如,可以是用户在网站注册后不被允许更改的信息,如,用户名等;也可以是通常情况下用户自身不易发生变动的信息,如,用户的电话、邮箱、住址等。

动态特征为:随用户参与网络行为变化的特征。例如,可以是只有随着用户不断参与网络行为才能展现的特征,如,用户的兴趣爱好、网站浏览偏好等。

在本发明的一个实施例中,上述目标用户的用户类型可以是已知的,服务器中可以存储有用户特征库,用户特征库用于存储已有用户的表示特征,这样目标用户的目标表示特征可以是存储在用户特征库中的。因此,获得目标用户的目标表示特征,可以通过用户特征库直接获得。

具体的,可以先确定目标用户的标识,然后获得用户特征库中存储的与目标用户的标识相对应的目标表示特征。这样可以提高获得目标表示特征的效率。

在本发明的另一个实施例中,可以先获得目标用户的静态特征和动态特征,然后基于目标用户的静态特征和动态特征,生成目标用户的目标表示特征。这样只要获得了用户的静态特征和动态特征,即可获得用户的表示特征。

例如,可以采用静态特征和动态特征拼接的方式,生成目标用户的目标表示特征。

步骤S102:计算目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度。

上述目标表示特征和已有用户的表示特征均可以以向量来表示,所以计算目标表示特征和已有用户的表示特征之间的相似度,可以是计算向量之间的距离,以所计算的距离来表示相似度。向量之间的距离可以是余弦距离、欧式距离等。

步骤S103:按照计算得到的相似度由高到低的顺序,在已有用户中搜索目标用户的关联用户。

其中,已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征。

静态关系为:基于用户的静态特征确定的用户间的关系。具体的,若两个用户具有相同的静态特征,则可以认为用户之间具有静态关系;也可以是根据用户之间静态特征的相似程度,对用户进行分类,属于同类型的用户之间可以认为具有静态关系。

动态关系为:基于用户的动态特征确定的用户间的关系。具体的,若用户具有相同的动态特征,则可以认为用户之间具有动态关系;也可以是根据用户之间动态特征的相似程度,对用户进行分类,属于同类型的用户之间可以认为具有动态关系。

上述已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征。这样已有用户的表示特征不仅可以表示出已有用户自身的所有特征,还可以表示出一个已有用户与其与其他用户之间所有的静态关系和动态关系。

逐一计算所获得的目标表示特征与用户特征库中存储的已有用户的表示特征之间的相似度,以此相似度可以表示目标用户与已有用户之间的关联程度。将计算得到的相似度按照从高到低的顺序,进行排序后,排序越高的相似度对应的已有用户与目标用户的关联程度越深。

在本发明的一个实施例中,上述步骤S102和S103可以一并通过faiss(FacebookAI Similarity Search,针对聚类和相似性搜索库)来实现。具体的,通过faiss所包括的索引方式在用户特征库中对目标用户的目标表示特征进行临近搜索,可以直接得到用户特征库中与目标表示特征相似的表示特征,这些与目标表示特征相似的表示特征所对应的已有用户即为与目标用户关联的用户。

在本发明的一个实施例中,可以先确定与目标表示特征的相似度超过预设阈值的已有用户的表示特征,为便于表述称为相似表示特征,然后,将上述相似表示特征对应的已有用户作为目标用户的关联用户。在此基础上,后续可以基于这些关联用户的信息,为目标用户提供服务。上述预设阈值的取值,可以根据实际应用进行选取,本发明实施例对此不做具体要求。

例如,在黑产用户处理应用中,与目标表示特征的相似度超过预设阈值的表示特征对应的已有用户可能均为黑用户,则可以认为目标用户也是黑用户,这样可以对目标用户采取与上述已有用户相同的信息屏蔽策略进行信息屏蔽。

由以上可见,应用本发明实施例提供的方案搜索用户时,由于用户的静态特征是随用户参与网络行为不变的特征,动态特征是随用户参与网络行为变化的特征,所以基于静态特征和动态特征确定的静态关系和动态关系,是以用户在网络中所体现的所有特征的集合为基准而构建的用户之间的关联关系,能够准确地体现用户之间的关联。

并且,由于已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的,所以已有用户的表示特征能够准确地反映出其在网络中与其他用户之间的关联,而同理目标用户的目标表示特征是基于目标用户的静态特征和动态特征生成的,所以计算目标表示特征和存储在用户特征库中的已有用户的表示特征之间的相似度,并且按照相似度高低的顺序,搜索已有用户中与目标用户关联的关联用户,能够确定已有用户中与目标用户相关联且关联程度不同的所有关联用户,同时能够提高搜索到关联用户的准确度。

当应用场景为黑产用户处理时,由于具备危害性的黑产用户具有一定的聚集性,应用本发明提供的用户搜索方法,能够挖掘黑产用户之间的潜在关联,便于建立黑产用户的关联网络,对于大型团伙类性质的黑产行为有较好的连根拔起的效果。

本发明的一个实施例中,参见图2,提供了第一种表示特征获得方法的流程示意图,与上述图1所示实施例相比,本实施例中,上述步骤S102中已有用户的表示特征,可以通过以下步骤S102A-S102C获得。

步骤S102A:根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征。

上述静态表示特征可以以向量表示,所以生成已有用户的静态表示特征,可以是对已有用户的静态特征和静态关系进行处理,生成的可以同时表示已有用户自身的静态特征,和其与其他用户之间的静态关系的向量。静态表示特征具体的生成方式,可以详见下文中图4的实施例。

步骤S102B:根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征。

上述动态表示特征可以以向量表示,所以生成已有用户的动态表示特征,可以是对已有用户的动态特征和动态关系进行处理,生成的可以同时表示已有用户自身的动态特征,和其与其他用户之间的动态关系的向量。动态表示特征具体的生成方式,可以详见下文中图5的实施例。

步骤S102C:基于预设的特征权重,对静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征。

在本发明的一个实施例中,上述预设的特征权重可以是静态表示特征和动态表示特征在将要融合得到的已有用户的表示特征中所占的权重,所以基于预设的特征权重,对静态表示特征和动态表示特征进行加权融合,可以得到所需的已有用户的表示特征。

例如,所需的已有用户的表示特征要求其中的静态表示特征和动态表示特征权重相同,那么对静态表示特征和动态表示特征预设的特征权重可以均为50%,以取值为50%的预设特征权重对静态表示特征和动态表示特征进行加权融合,那么静态表示特征和动态表示特征在所融合得到的已有用户的表示特征中均占有50%的权重。

在不同的应用中,生成已有用户的表示特征,需要静态表示特征和动态表示特征在其中具有不同的权重,所以预设的特征权重可以根据实际应用进行选择,从而得到符合实际需求的已有用户的表示特征。

例如,在信息推送应用中,对用户的动态特征和其与其他用户之间的动态关系的需求,多于对用户的静态特征及其与其他用户之间的静态关系的需求,所以在生成已有用户的表示特征时,可以将静态表示特征的权重和动态表示特征的权重分别预设为30%和70%;在黑产用户处理应用中,对用户的动态特征和其与其他用户之间的动态关系的需求,和对用户的静态特征及其与其他用户之间的静态关系的需求一致,所以在生成已有用户的表示特征时,可以将静态表示特征的权重和动态表示特征的权重均预设为50%。

由以上可见,应用本发明实施例提供的方案搜索用户时,由于静态表示特征是根据静态特征和静态关系生成的,所以已有用户的静态表示特征能够同时表示出已有用户的静态特征及其与其他用户之间的静态关系,同理,已有用户的动态表示特征能够同时表示出已有用户的动态特征及其与其他用户之间的动态关系,而根据预设的特征权重对已有用户的静态表示特征和动态表示特征进行加权融合,所得到的已有用户的表示特征能够综合表示出该用户的静态特征和动态特征,及其与其他用户之间的静态关系和动态关系。并且,根据实际需求对预设的特征权重选取不同的取值,以此可以调整静态表示特征和动态表示特征在已有用户的表示特征中所占的权重,从而能够更准确且更符合实际需求地表示出已有用户与其他用户之间的关联关系。

本发明的一个实施例中,参见图3,提供了第二种表示特征获得方法的流程示意图,与上述图2所示实施例相比,本实施例中,上述步骤S102C基于预设的特征权重,对静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征,可以通过以下步骤S102C1-S102C4实现。

步骤S102C1:根据预设的特征权重,确定第一维度和第二维度。

其中,第一维度为:对静态表示特征进行降维处理后所得特征的维度,第二维度为:对动态表示特征进行降维处理后所得特征的维度。

上述降维处理可以是对具有初始数据维度的表示特征降维得到数据维度较之前低的表示特征。上述第一维度可以是对静态表示特征进行降维处理之后,静态表示特征的维度。上述第二维度可以是对动态表示特征进行降维处理之后,动态表示特征的维度。第一维度和第二维度的取值可以满足静态表示特征的预设特征权重和动态表示特征的预设特征权重之间的比例关系,在满足上述比例关系的前提下,第一维度和第二维度的具体取值可以根据实际需求进行选取。

例如,若静态表示特征和动态表示特征的预设特征权重均为50%,那么第一维度和第二维度的取值在满足1:1这个比例的前提下,可以根据实际需求选取,例如,可以均为32维,或者均为64维;若静态表示特征的预设特征权重为40%,而动态表示特征的预设特征权重为60%,二者的比例为2:3,那么第一维度和第二维度的取值在满足2:3这个比例的前提下,可以根据实际需求选取,例如,第一维度可以为32维,第二维度则为48维。

步骤S102C2:将静态表示特征的维度降至第一维度。

步骤S102C3:将动态表示特征的维度降至第二维度。

在本发明的一个实施例中,上述对静态表示特征和动态表示特征分别进行降维处理,可以基于AutoEncoder(自编码器)模型实现,对具有初始数据维度的静态表示特征和动态表示特征进行编码,可以得到具有第一维度的静态表示特征和具有第二维度的动态表示特征。

上述对静态表示特征和动态表示特征分别进行降维处理也可以通过其他模型或算法进行实现,本发明实施例对此不做具体要求。

步骤S102C4:对降维处理后的静态表示特征和降维处理后的动态表示特征进行拼接,得到已有用户的表示特征。

在本发明的一个实施例中,对降维处理后的静态表示特征和降维处理后的动态表示特征进行拼接,可以是以静态表示特征为首、以动态表示特征为尾进行拼接;也可以是以动态表示特征为首、以静态表示特征为尾进行拼接;还可以是将静态表示特征和动态表示特征按照维度交叉拼接。

例如,参见图4,提供了一种对静态表示特征和动态表示特征进行加权融合的示意图。

图中上方的表示特征为静态表示特征,下方的表示特征为动态表示特征,两者的初始数据维度均为128,根据预设的特征权重进行降维处理,在降维过程中,静态表示特征的维度会先降至128*(3/2-a/3)维,最后降至(1-a)*128维,(1-a)*128即为第一维度;而动态表示特征的维度会先降至128*(1+a/2)维,最后降至a*128维,a*128即为为第二维度,将维度为128*(1+a/2)的静态表示特征和维度为a*128的动态表示特征进行拼接,可以得到已有用户的表示特征。

上述系数a的取值可以是小于1并且大于等于0的,具体取值可以取决于预设的特征权重。若在实际需求中还需再对静态表示特征和动态表示特征进行重新升维,也可以将已经降至第一维度的静态表示特征和降至第二维度的动态表示特征进行升维处理至初始维度。

由以上可见,应用本发明实施例提供的方案搜索用户时,对静态表示特征和动态表示特征进行降维处理后再进行拼接,由于拼接时的静态表示特征和动态表示特征均为低维数据,所以大大降低了拼接表示特征时的复杂程度,减少了冗余信息所可能造成的误差,提高了后续搜索关联用户的准确度以及搜索效率。与此同时,由于静态表示特征和动态表示特征降维后的第一维度和第二维度的取值需要满足两者的预设特征权重,所以能够根据实际应用需求确定静态表示特征和动态表示特征在拼接后的已有用户的表示特征中所占的权重。

上述存储静态特征和动态特征以及静态关系和动态关系的可以是能够直接存储这些数据的数据库,也可以是图数据库。

本发明的一个实施例中,参见图5,提供了第三种表示特征获得方法的流程示意图,与上述图2所示实施例相比,本实施例中,上述步骤S102A根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征,可以通过以下步骤S102A1-S102A3实现。

步骤S102A1:在静态图数据中,确定已有用户对应的节点。

其中,静态图数据中每一节点与一个已有用户相对应,所以每一个已有用户对应在静态图数据中均可以表示为一个节点。节点的属性包括该节点所对应用户的静态特征,即可以包括该节点对应已有用户的随网络行为不变的特征。两节点间的边表示所述两节点对应的已有用户之间的静态关系。

步骤S102A2:从所确定节点的属性中获得已有用户的静态特征,并获得所确定节点所连接边的权重。

上述节点所连接边的权重可以表示节点和与其连接的其他节点之间的关联程度。在静态图数据中,节点所连接的每一条边都有权重,可以用于表示边所连接的两个节点之间的静态关联程度,也就是两个节点对应的两个用户之间的静态关联程度。

步骤S102A3:根据所获得的静态特征和权重,生成已有用户的静态表示特征。

在本发明的一个实施例中,上述静态表示特征可以以向量的方式表示,所以根据所获得的静态特征和权重,生成已有用户的静态表示特征,可以通过node2vec(networkembedding,网络嵌入)算法实现,在节点之间通过节点所连接的边游走学习,基于节点自身的属性和其所连接的边的权重,来生成节点所对应用户的向量,即基于该节点对应已有用户的静态特征和其与其他节点对应用户之间的关联性,生成该节点对应的已有用户的静态表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,引入静态图数据,将已有用户化为静态图数据中的节点,节点属性包括节点所对应的已有用户的静态特征,节点之间连接的边可以表示节点对应用户之间的静态关系,并且,节点之间连接的边的权重可以表示节点所对应的其他用户之间的关联性,所以基于节点属性所包括的静态特征,和与其连接的边的权重所表示的与其他用户之间的关联性,而生成的静态表示特征,能够全面地表示节点所对应的已有用户自身的静态特征和该用户与其他用户之间的静态关系。

本发明的一个实施例中,参见图6,提供了第四种表示特征生成方法的流程示意图,与上述图2所示实施例相比,本实施例中,上述步骤S102B根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征,可以通过以下步骤S102B1-S102B3实现。

步骤S102B1:在动态图数据中,确定已有用户对应的节点。

其中,动态图数据中每一节点与一个已有用户相对应,所以每一个已有用户对应在动态图数据中均可以表示为一个节点。节点的属性包括该节点所对应用户的动态特征,即可以包括该节点对应已有用户的随网络行为而变化的特征。两节点间的边表示所述两节点对应的已有用户之间的动态关系。

步骤S102B2:从所确定节点的属性中获得已有用户的动态特征,并获得所确定节点所连接边的权重。

上述节点所连接边的权重可以表示节点和与其连接的其他节点之间的关联程度。在动态图数据中,节点所连接的每一条边都有权重,可以用于表示边所连接的两个节点之间的动态关联程度,也就是两个节点对应的两个用户之间的动态关联程度。

步骤S102B3:根据所获得的动态特征和权重,生成已有用户的动态表示特征。

在本发明的一个实施例中,上述动态表示特征可以以向量的方式表示,所以根据所获得的动态特征和权重,生成已有用户的动态表示特征,可以通过node2vec(networkembedding,网络嵌入)算法实现,在节点之间通过节点所连接的边游走学习,基于节点自身的属性和其所连接的边的权重,来生成节点所对应用户的向量,即基于该节点对应已有用户的动态特征和其与其他节点对应用户之间的关联性,生成该节点对应的已有用户的动态表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,引入动态图数据,将已有用户化为动态图数据中的节点,节点属性包括节点所对应的已有用户的动态特征,节点之间连接的边可以表示节点对应用户之间的动态关系,并且,节点之间连接的边的权重可以表示节点所对应的其他用户之间的关联性,所以基于节点属性所包括的动态特征,和与其连接的边的权重所表示的与其他用户之间的关联性,而生成的动态表示特征,能够全面地表示节点所对应的已有用户自身的动态特征和该用户与其他用户之间的动态关系。

本发明的一个实施例中,参见图7,提供了第五种表示特征获得方法的流程图,与上述图5所示实施例相比,本实施例中,上述步骤S102B2中节点所连接边的权重,可以通过以下步骤S102B2a-S102B2b实现。

图数据为:静态图数据或动态图数据。

步骤S102B2a:将两个节点中每一节点的属性包括的用户的特征,分别输入预先训练的类别归属度计算模型,获得两个节点对应的用户的类别归属度。

其中,类别归属度计算模型为回归模型。

在本发明的一个实施例中,上述预先训练的类别归属度计算模型可以为回归模型,该模型可以以预先获得的大量已知分类且具有不同分类的用户为训练样本,以[0,1]为风险分值作为回归目标,样本经过回归模型处理所得到的分数越接近于1,意味着该用户越接近已知分类的其中一种分类,所得分数越接近于0,意味着该用户越接近已知分类的其他分类。

将两个节点中每一节点的属性所包括的用户的特征,分别输入预先训练的类别归属度计算模型,所获得两个节点对应的用户的类别归属度的值可以在[0,1]之间,越接近1则意味着该节点所对应的用户越接近其中一种分类,越接近0则意味着该节点所对应的用户越接近其他分类。

例如,在黑产用户处理应用中,上述预先训练的类别归属度计算模型可以以黑用户和白用户这两种分类的用户作为训练样本,以[0,1]为风险分值作为回归目标,所得分数越接近于1可以表示该用户越有可能是黑用户,所得分数越接近于0可以表示该用户越有可能是白用户,所得分数即为节点对应的用户的类别归属度。

步骤S102B2b:根据所获得的类别归属度,确定两个节点之间边的权重。

在本发明的一个实施例中,根据上述所获得的两个节点对应的两个用户的类别归属度,可以基于下列的表达式确定两个节点之间边的权重,可以确定两个节点所对应用户是否属于同一分类,从而可以确定两个节点所对应用户之间的关联关系。

其中,j和k表示节点的标识,Wj,k表示节点j和节点k之间边的权重,表示节点j所对应用户的类别归属度,表示节点k所对应用户的类别归属度,max()表示取最大值函数,avg()表示取均值函数。

若两个节点对应的用户的类别归属度均大于或等于0.5,那么这两个节点之间边的权重可以取这两个节点对应用户的类别归属度的值中的最大值;若两个节点对应用户的类别归属度均小于0.5,那么这两个节点之间的权重取值为0,即相当于这两个节点对应的用户之间没有关联关系,所以断掉了这两个节点之间所连接的边。若两个节点对应用户的类别归属度的取值不属于以上两种情况,那么这两个节点之间边的权重可以取这两个节点对应用户的类别归属度的值的平均值。

由以上可见,应用本发明实施例提供的方案搜索用户时,根据预先训练的类别归属度计算模型,计算节点对应的用户的类别归属度,从而得到节点之间边的权重,由于类别归属度是基于节点的属性包括用户的特征进行计算得到的,所以基于所得到的类别归属度来确定节点之间边的权重,可以更准确地得到节点所对应用户之间的关联关系。另外,由于在计算节点之间边的权重时,若两个节点对应用户的类别归属度均小于0.5,则意味着这两个用户之间没有关联关系,从而断掉这两个节点之间的边,减少了需要处理的数据量。

本发明的一个实施例中,参见图8,提供了第二种用户搜索方法的流程示意图,与上述图1所示实施例相比,本实施例中,上述步骤S101获得基于目标用户的静态特征和动态特征生成的目标表示特征,可以包括以下步骤:

步骤S101A:确定目标用户的标识。

步骤S101B:获得用户特征库中存储的与目标用户的标识相对应的目标表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,根据所确定的目标用户的标识可以确定在用户特征库存储的与目标用户的标识相对应的目标表示特征,从而可以省去再次生成目标表示特征的步骤,能够更加高效地搜索与目标用户相关联的已有用户。

与上述用户搜索方法相对应,本发明实施例还提供了一种用户搜索装置。

参见图9,本发明实施例提供一种用户搜索装置的结构示意图,所述装置包括:

表示特征获取模块901,用于获得基于目标用户的静态特征和动态特征生成的目标表示特征,其中,所述静态特征为:随用户参与网络行为不变的特征,所述动态特征为:随用户参与网络行为变化的特征;

相似度计算模块902,用于计算所述目标表示特征与用户特征库中存储的已有用户的表示特征间的相似度,其中,所述已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的特征,所述静态关系为:基于用户的静态特征确定的用户间的关系,所述动态关系为:基于用户的动态特征确定的用户间的关系;

用户搜索模块903,用于按照计算得到的相似度由高到低的顺序,在已有用户中搜索所述目标用户的关联用户。

由以上可见,应用本发明实施例提供的方案搜索用户时,由于用户的静态特征是随用户参与网络行为不变的特征,动态特征是随用户参与网络行为变化的特征,所以基于静态特征和动态特征确定的静态关系和动态关系,是以用户在网络中所体现的所有特征的集合为基准而构建的用户之间的关联关系,能够准确地体现用户之间的关联。

并且,由于已有用户的表示特征是基于已有用户的静态特征、静态关系、动态特征和动态关系得到的,所以已有用户的表示特征能够准确地反映出其在网络中与其他用户之间的关联,而同理目标用户的目标表示特征是基于目标用户的静态特征和动态特征生成的,所以计算目标表示特征和存储在用户特征库中的已有用户的表示特征之间的相似度,并且按照相似度高低的顺序,搜索已有用户中与目标用户关联的关联用户,能够确定已有用户中与目标用户相关联且关联程度不同的所有关联用户,同时能够提高搜索到关联用户的准确度。

本发明的一个实施例中,所述装置还包括:表示特征生成模块,用于生成已有用户的表示特征;

所述表示特征生成模块,包括:

静态表示特征生成子模块,用于根据已有用户的静态特征和静态关系,生成已有用户的静态表示特征;

动态表示特征生成子模块,用于根据已有用户的动态特征和动态关系,生成已有用户的动态表示特征;

特征融合子模块,用于基于预设的特征权重,对所述静态表示特征和动态表示特征进行加权融合,得到已有用户的表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,由于静态表示特征是根据静态特征和静态关系生成的,所以已有用户的静态表示特征能够同时表示出已有用户的静态特征和其他用户之间基于静态特征建立的静态关系,同理,已有用户的动态表示特征能够同时表示出已有用户的动态特征和其他用户之间基于动态特征建立的动态关系,而根据预设的特征权重对已有用户的静态表示特征和动态表示特征进行加权融合,所得到的已有用户的表示特征能够综合表示出该用户的静态特征和动态特征,以及与其他用户之间的静态关系和动态关系,并且,能够根据实际需求对预设的特征权重选取不同的取值,以此可以调整静态表示特征和动态表示特征在已有用户的表示特征中所占的比重,从而能够更加精确且更加符合需求地表示出已有用户与其他用户之间的关联关系。

本发明的一个实施例中,所述特征融合子模块,具体用于:

根据预设的特征权重,确定第一维度和第二维度,其中,所述第一维度为:对所述静态表示特征进行降维处理后所得特征的维度,所述第二维度为:对所述动态表示特征进行降维处理后所得特征的维度;

将所述静态表示特征的维度降至所述第一维度;

将所述动态表示特征的维度降至所述第二维度;

对降维处理后的静态表示特征和降维处理后的动态表示特征进行拼接,得到已有用户的表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,对静态表示特征和动态表示特征进行降维处理后再进行拼接,由于拼接时的静态表示特征和动态表示特征均为低维数据,所以大大降低了拼接表示特征时的复杂程度,减少了冗余信息所可能造成的误差,提高了后续搜索关联用户的准确度以及搜索效率。与此同时,由于静态表示特征和动态表示特征降维后的第一维度和第二维度的取值需要满足两者的预设特征权重,所以能够根据实际应用需求确定静态表示特征和动态表示特征在拼接后的已有用户的表示特征中所占的权重。

本发明的一个实施例中,所述静态表示特征生成子模块,具体用于:

在静态图数据中,确定已有用户对应的节点,其中,所述静态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的静态特征,两节点间的边表示所述两节点间的静态关系;

从所确定节点的属性中获得已有用户的静态特征,并获得所确定节点所连接边的权重;

根据所获得的静态特征和权重,生成已有用户的静态表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,引入静态图数据,将已有用户化为静态图数据中的节点,节点属性包括节点所对应的已有用户的静态特征,节点之间连接的边可以表示节点对应用户之间的静态关系,并且,节点之间连接的边的权重可以表示节点所对应的其他用户之间的关联性,所以基于节点属性所包括的静态特征,和与其连接的边的权重所表示的与其他用户之间的关联性,而生成的静态表示特征,能够全面地表示节点所对应的已有用户自身的静态特征和该用户与其他用户之间的静态关系。

本发明的一个实施例中,所述动态表示特征生成子模块,具体用于:

在动态图数据中,确定已有用户对应的节点,其中,所述动态图数据中每一节点与一个已有用户相对应,节点的属性包括该节点所对应用户的动态特征,两节点间的边表示所述两节点间的动态关系;

从所确定节点的属性中获得已有用户的动态特征,并获得所确定节点所连接边的权重;

根据所获得的动态特征和权重,生成已有用户的动态表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,引入动态图数据,将已有用户化为动态图数据中的节点,节点属性包括节点所对应的已有用户的动态特征,节点之间连接的边可以表示节点对应用户之间的动态关系,并且,节点之间连接的边的权重可以表示节点所对应的其他用户之间的关联性,所以基于节点属性所包括的动态特征,和与其连接的边的权重所表示的与其他用户之间的关联性,而生成的动态表示特征,能够全面地表示节点所对应的已有用户自身的动态特征和该用户与其他用户之间的动态关系。

本发明的一个实施例中,所述所述装置还包括:权重确定模块,用于确定图数据中两个节点之间边的权重,所述图数据为:所述静态图数据或动态图数据;

所述权重确定模块,包括:

类别归属度获得子模块,用于将所述两个节点中每一节点的属性包括的用户的特征,分别输入预先训练的类别归属度计算模型,获得所述两个节点对应的用户的类别归属度,其中,所述类别归属度计算模型为回归模型;

权重确定子模块,用于根据所获得的类别归属度,确定所述两个节点之间边的权重。

本发明的一个实施例中,所述权重确定子模块,具体用于:

按照以下表达式,确定所述两个节点之间边的权重:

其中,j和k表示节点的标识,Wj,k表示节点j和节点k之间边的权重,表示节点j所对应用户的类别归属度,表示节点k所对应用户的类别归属度,max()表示取最大值函数,avg()表示取均值函数。

由以上可见,应用本发明实施例提供的方案搜索用户时,根据预先训练的类别归属度计算模型,计算节点对应的用户的类别归属度,从而得到节点之间边的权重,由于类别归属度是基于节点的属性包括用户的特征进行计算得到的,所以基于所得到的类别归属度来确定节点之间边的权重,可以更准确地得到节点所对应用户之间的关联关系。另外,由于在计算节点之间边的权重时,若两个节点对应用户的类别归属度均小于0.5,则意味着这两个用户之间没有关联关系,从而断掉这两个节点之间的边,减少了需要处理的数据量。

本发明的一个实施例中,所述表示特征获取模块901,具体用于:

确定目标用户的标识;

获得所述用户特征库中存储的与所述目标用户的标识相对应的目标表示特征。

由以上可见,应用本发明实施例提供的方案搜索用户时,根据所确定的目标用户的标识可以确定在用户特征库存储的与目标用户的标识相对应的目标表示特征,从而可以省去再次生成目标表示特征的步骤,能够更加高效地搜索与目标用户相关联的已有用户。

本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,

存储器1003,用于存放计算机程序;

处理器1001,用于执行存储器1003上所存放的程序时,实现上述方法实施例所述的任一用户搜索方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的用户搜索方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户搜索方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质和程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于电网大数据POI点信息检索方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!