基于人工智能的用户标签更新方法、装置、设备及介质

文档序号：1889428 发布日期：2021-11-26 浏览：3次 >En<

阅读说明：本技术 基于人工智能的用户标签更新方法、装置、设备及介质 (User label updating method, device, equipment and medium based on artificial intelligence ) 是由纪曾文于 2021-08-31 设计创作，主要内容包括：本发明公开了基于人工智能的用户标签更新方法、装置、设备及存储介质,涉及人工智能技术,先获取订阅标签子集,并基于用户历史数据的嵌入向量与其他用户集对应的嵌入向量集进行聚类,获取嵌入向量所属于的目标用户分群子簇及目标用户分群子簇相应的目标用户唯一识别码集；然后获取目标用户唯一识别码集对应的热门用户画像标签集；最后将订阅标签子集与热门用户画像标签集进行组合,得到与用户唯一识别码对应的用户当前最优标签集。实现了用户的标签既有固定的订阅标签,也有跟随用户点击行为反馈的动态标签,实现了了基于用户标签推荐内容的多样性和准确性。(The invention discloses a method, a device, equipment and a storage medium for updating a user tag based on artificial intelligence, which relate to the artificial intelligence technology, and are characterized in that a subscription tag subset is obtained firstly, an embedded vector based on user historical data is clustered with embedded vector sets corresponding to other user sets, and a target user clustering sub-cluster to which the embedded vector belongs and a target user unique identification code set corresponding to the target user clustering sub-cluster are obtained; then, acquiring a popular user portrait label set corresponding to the target user unique identification code set; and finally, combining the subscription tag subset with the popular user portrait tag set to obtain the current optimal tag set of the user corresponding to the unique identification code of the user. The method and the device have the advantages that the user labels are not only fixed subscription labels, but also dynamic labels fed back along with the clicking behaviors of the user, and diversity and accuracy of the recommended content based on the user labels are achieved.)

技术领域

本发明涉及人工智能的智能决策技术领域，尤其涉及一种基于人工智能的用户标签更新方法、装置、设备及存储介质。

背景技术

目前，推荐系统都会遇到马太效应的问题，在信息流推荐场景，在用户身上表现为推荐的内容越来越窄，而内容越来越窄，导致用户的兴趣标签也越来越集中，从而又导致给该用户推荐的内容更加的窄，如此循环。

其中比较常见的解决方法是，为用户进行相似的兴趣扩展或者基于UserEE(UserEE中EE的全称是Exploration and Exploitation，表示探索和挖掘用户兴趣)的方法对用户兴趣进行探索，但这些办法依然以用户的点击行为作为反馈，对用户点击的内容进行加权，从而又重点推荐了加权的内容，但又陷入了另一个马太效应，使得推荐的内容也是更加的窄。

发明内容

本发明实施例提供了一种基于人工智能的用户标签更新方法、装置、设备及存储介质，旨在解决现有技术中信息推荐系统是以用户的点击行为作为反馈，对用户点击的内容进行加权，从而又重点推荐了加权的内容，导致的推荐的内容越来越集中于重点标签，使得用户无法更加全面的接收推荐信息问题。

第一方面，本发明实施例提供了一种基于人工智能的用户标签更新方法，其包括：

若检测到订阅标签集分发指令，接收用户端上传的订阅标签子集，及根据用户端的用户唯一识别码获取用户历史数据；

调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量；

获取已存储的其他用户集对应的嵌入向量集，根据所述嵌入向量和所述嵌入向量集进行聚类得到用户分群簇，从所述用户分群簇中获取所述嵌入向量所属于的目标用户分群子簇，及所述目标用户分群子簇相应的目标用户唯一识别码集；

获取所述目标用户唯一识别码集中各用户唯一识别码对应的用户画像标签集并进行各用户画像标签的个数统计，得到用户画像标签统计结果；

将所述用户画像标签统计结果根据各用户画像标签个数降序排序得到用户画像标签排序结果，获取所述用户画像标签排序结果中未超出预设排名阈值的用户画像标签，组成热门用户画像标签集；以及

将所述订阅标签子集与所述热门用户画像标签集进行组合，得到与所述用户唯一识别码对应的用户当前最优标签集。

第二方面，本发明实施例提供了一种基于人工智能的用户标签更新装置，其包括：

用户历史数据获取单元，用于若检测到订阅标签集分发指令，接收用户端上传的订阅标签子集，及根据用户端的用户唯一识别码获取用户历史数据；

嵌入向量获取单元，用于调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量；

目标识别码集获取单元，用于获取已存储的其他用户集对应的嵌入向量集，根据所述嵌入向量和所述嵌入向量集进行聚类得到用户分群簇，从所述用户分群簇中获取所述嵌入向量所属于的目标用户分群子簇，及所述目标用户分群子簇相应的目标用户唯一识别码集；

标签统计单元，用于获取所述目标用户唯一识别码集中各用户唯一识别码对应的用户画像标签集并进行各用户画像标签的个数统计，得到用户画像标签统计结果；

热门标签集获取单元，用于将所述用户画像标签统计结果根据各用户画像标签个数降序排序得到用户画像标签排序结果，获取所述用户画像标签排序结果中未超出预设排名阈值的用户画像标签，组成热门用户画像标签集；以及

最优标签集获取单元，用于将所述订阅标签子集与所述热门用户画像标签集进行组合，得到与所述用户唯一识别码对应的用户当前最优标签集。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的用户标签更新方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的用户标签更新方法。

本发明实施例提供了一种基于人工智能的用户标签更新方法、装置、设备及存储介质，使得用户的标签既有固定的订阅标签，也有跟随用户点击行为反馈的动态标签，实现了了基于用户标签推荐内容的多样性和准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于人工智能的用户标签更新方法的应用场景示意图；

图2为本发明实施例提供的基于人工智能的用户标签更新方法的流程示意图；

图3为本发明实施例提供的基于人工智能的用户标签更新装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于人工智能的用户标签更新方法的应用场景示意图；图2为本发明实施例提供的基于人工智能的用户标签更新方法的流程示意图，该基于人工智能的用户标签更新方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101～S106。

S101、若检测到订阅标签集分发指令，接收用户端上传的订阅标签子集，及根据用户端的用户唯一识别码获取用户历史数据。

在本实施例中，为了更清楚的理解技术方案，下面对所涉及到的执行主体进行详细介绍。本申请是在以服务为执行主体描述技术方案。

服务器，其中存储有多个标签类型的内容数据(如视频数据、文本数据、语音数据、购物产品数据等)。而且服务器中还存储有多个用户历史数据表，每一用户历史数据表中存储同一个用户唯一识别码所对应用户的用户历史数据(针对某一个用户历史数据表中的多条用户历史数据进行分析，可以获取该用户对应的用户特征，如用户画像标签等特征)。在服务器中还存储由基于用户历史数据进行向量转换的DSSM模型(DSSM全称是DeepStructured Semantic Models，表示深度语义匹配模型，这个模型既可以获得语句的低维语义向量表达sentence embedding，还可以预测两句话的语义相似度)。当用户历史数据转换为对应的嵌入向量之后，即可根据各用户对应的嵌入向量进行聚类分析，从而根据用户标签推荐内容。

用户端，其为用户所使用的智能终端(如智能手机、平板电脑等)，用户通过操作用户端启动指定应用程序(如视频类APP、音乐类APP、阅读器APP、网购类APP等)与服务器建立通讯后，在使用过程中通过观看视频、听音乐、看文学作品、购买商品等操作，应用程序可以采集用户行为数据(如购买商品的浏览商品种类、观看类型等)并上传至服务器并存储于对应的用户历史数据表。

其中，当服务器检测到订阅标签集分发指令时，表示服务器期望对一些用户分发固定的订阅标签集，此时服务器先获取本地已存储的订阅标签集，然后将所述订阅标签集发送至用户端。在触发订阅标签集分发指令，可以选定好接收订阅标签集的目标用户端，直接定向发送至目标用户端实现对其标签的扩展。

在一实施例，步骤S101包括：

若检测到订阅标签集分发指令，获取已存储的订阅标签集，将所述订阅标签集发送至用户端；

接收用户端根据所述订阅标签集发送的订阅标签子集，将所述订阅标签子集与用户端对应的用户唯一识别码进行映射绑定并保存在本地；

根据所述用户唯一识别码在本地用户数据库中检索获取对应的用户历史数据。

在本实施例中，当用户端接收到服务器发送的订阅标签集，可能会通过以下几种方式来确定该用户端对应对用所选定的订阅标签：

一是直接在用户端本地存储的用户数据中判断是否存储有与订阅标签集中订阅标签相同的用户标签，若有则可以自动选定订阅标签集中的该订阅标签，重复这一操作直至根据本地存储的用户数据完成了对订阅标签的确定，从而组成了订阅标签子集。例如服务器原始发送的订阅标签集中包括10个订阅标签，经过上述数据比对操作后，选定了其中3个订阅标签组成订阅标签子集，而且根据用户端本地的用户数据(例如用户针对这3类订阅标签对应内容分别点击的历史频次)确定这3个订阅标签各自对应的标签固定权重值。

二是直接将订阅标签集以显示在用户端界面上的标签以供用户点击选择，当用户在该界面上完成对标签的选定并针对每一选定的订阅标签设定标签固定权重值后，则由所选定的订阅标签组成订阅标签子集。

一旦在用户端上得到了订阅标签子集后，将其发送至服务器。服务器在接收到订阅标签子集，将所述订阅标签子集与用户端对应的用户唯一识别码进行映射绑定并保存在本地；其中，所述订阅标签子集中包括至少一个订阅标签，且每一订阅标签对应一个标签固定权重值，所述订阅标签子集所包括各订阅标签的标签固定权重值之和记为标签固定权重总值。由于完成了订阅标签子集的设定，这类标签在添加为对应用户的用户标签时，不会随着用户进一步使用用户端进行观看视频、听音乐、看文学作品、购买商品等操作而导致这类订阅标签的权重变化，这样服务器会一直针对用户的这些固定标签稳定的推送相应的内容，不会导致用户越点击某一标签对应的内容，则服务器后续只推荐这一标签对应的内容。其中，所述订阅标签子集中包括至少一个订阅标签，且每一订阅标签对应一个标签固定权重值，所述订阅标签子集所包括各订阅标签的标签固定权重值之和记为标签固定权重总值。

当根据订阅标签子集完成了对用户固定兴趣标签的设定后，由于所述订阅标签子集所包括各订阅标签的标签固定权重值之和记为标签固定权重总值，这一标签固定权重总值是小于1，也就是还预留了部分权重空间以对用户的动态用户标签进行赋值，从而综合考虑到用户针对一些非固定标签的动态调整。此时为了实现基于用户历史数据动态调整这一类用户标签，此时服务器是根据所述用户唯一识别码在本地用户数据库中检索获取对应的用户历史数据。

S102、调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量。

在本实施例中，服务器本地存储了预先训练的深度语义匹配模型(即DSSM模型)，一般DSSM模型总的来说可以分成三层结构，分别是输入层、表示层和匹配层。

输入层中输入用户特征训练数据，用户特征包括用户稠密特征(例如用户性别等特征，特点是维度不会特别高，每条样本都出现)和用户稀疏特征(例如用户偏好等，特点是特征维度高，但是每条样本中出现次数低)，其中用户稠密特征进行独热编码操作，用户稀疏特征进行embedding降维到低维空间(64或者32维)，然后进行特征拼接操作。广告侧(也可以理解为课程侧)和用户侧类似。

得到拼接好的特征之后会提供给各自的深度学习网络模型。用户特征和广告特征经过各自的两个全连接层后转化成了固定长度的向量，这里得到了维度相同的userembedding和ad embedding。各塔内部的网络层数和维度可以不同，但是输出的维度必须是一样的，这样才能在匹配层进行运算。

模型训练好了之后会分别得到user embedding和ad embedding，如果要为某个特定的广告推荐人群，则将该广告的ad embedding分别和所有人群的user embedding计算cos相似度。选择距离最近的N个人群子集作为广告投放人群，这样就完成了广告推荐任务。

在本实施例中，只用到上述DSSM模型中的输入层和表示层，将用户历史数据中的用户稠密特征和用户稀疏特征分别输入进行运算，即可得到所述用户历史数据对应的嵌入向量；其中，嵌入向量即词嵌入向量(Word Embedding)可以利用Word Embedding将一个单词转换成固定长度的向量表示，从而便于进行数学处理。同样的，其他用户的嵌入向量也可以基于其他用户的历史数据进行计算。

在一实施例中，步骤S102包括：

获取所述用户历史数据中的用户稠密特征和用户稀疏特征；

将所述用户稠密特征输入至所述深度语义匹配模型的输入层进行独热编码，得到用户第一编码向量；

将所述用户稀疏特征输入至所述深度语义匹配模型的输入层进行词嵌入处理，得到用户第二编码向量；

将所述用户第一编码向量及所述用户第二编码向量进行特征拼接，得到当前编码向量；

将所述当前编码向量输入至所述深度语义匹配模型的表示层进行全连接处理，得到所述用户历史数据对应的嵌入向量。

在本实施例中，由于获取用户的嵌入向量无需DSSM模型的匹配层进行处理，此时先将所述用户历史数据输入至所述DSSM模型的输入层进行独热编码、词嵌入处理和特征拼接，得到当前编码向量，然后将所述当前编码向量输入至所述深度语义匹配模型的表示层进行全连接处理，得到所述用户历史数据对应的嵌入向量，这样即可快速得到用户对应的嵌入向量。其中，词嵌入处理的作用是在稀疏的高维特征向量处理的过程中通过一些降维、映射以形成一些中间特征。

S103、获取已存储的其他用户集对应的嵌入向量集，根据所述嵌入向量和所述嵌入向量集进行聚类得到用户分群簇，从所述用户分群簇中获取所述嵌入向量所属于的目标用户分群子簇，及所述目标用户分群子簇相应的目标用户唯一识别码集。

在本实施例中，当完成了获取各用户对应的嵌入向量组成嵌入向量集之后，在服务器中可以针对嵌入向量集进行聚类，从而得到多个用户分群簇及所述嵌入向量所属于的目标用户分群子簇，并可以准确获取到所述目标用户分群子簇相应的目标用户唯一识别码集。

在一实施例中，步骤S103包括：

获取已存储的其他用户集对应的嵌入向量集，将所述嵌入向量和所述嵌入向量集进行K-means聚类，得到具有与预设的聚类组数相同个数的用户分群簇；

获取所述嵌入向量所对应的用户分群子簇作为目标用户分群子簇，获取所述目标用户分群子簇中各嵌入向量分别对应的用户唯一识别码，组成目标用户唯一识别码集。

在本实施例中，将所述嵌入向量和所述嵌入向量集进行K-means聚类，得到用户分群簇。而且直接获取所述嵌入向量所属的用户分群子簇，即可确定该用户对应所属用户分群子簇，此时获取目标用户分群子簇中每一嵌入向量分别对应的用户唯一识别码，组成目标用户唯一识别码集。

在一实施例中，所述将所述嵌入向量和所述嵌入向量集进行K-means聚类，得到具有与预设的聚类组数相同个数的用户分群簇，包括：

在嵌入向量集中选取与预设的聚类组数相同个数的嵌入向量，将所选取的嵌入向量作为每一簇的初始聚类中心；

根据嵌入向量集中各嵌入向量与各初始聚类中心的余弦相似度，将所述嵌入向量集进行划分，得到初始聚类结果；

根据初始聚类结果，获取每一簇的调整后聚类中心；

根据调整后聚类中心，将所述嵌入向量集的嵌入向量根据与调整后聚类中心的余弦相似度进行划分，直至聚类结果保持相同的次数多于预设的次数，得到用户分群簇。

在本实施例中，由于可以通过K-means聚类方法对嵌入向量集进行聚类处理，具体过程如下：

a)从包括N1个嵌入向量的嵌入向量集中任意选取N2个嵌入向量，并作为N2个簇的初始聚类中心；其中，嵌入向量集中嵌入向量的初始总个数为N1，从其中任意选择N2个嵌入向量(N2<N1，N2是预设的聚类簇数，即预设的聚类组数)，将初始选择的N2个嵌入向量作为初始聚类中心。

b)分别计算剩下的嵌入向量到N2个初始聚类中心的余弦相似度，将剩下的嵌入向量分别划归到余弦相似度最小的簇，得到初始聚类结果；即是剩下的每一嵌入向量选择距其距离最近的初始聚类中心，并与该初始聚类中心归为一类；这样就以初始选择的初始聚类中心将嵌入向量划分为N2簇，每一簇数据都有一个初始聚类中心。

c)根据初始聚类结果，重新计算N2个簇各自的聚类中心。

d)将N1个嵌入向量中全部元素按照新的聚类中心重新聚类；

e)重复d)步，直到聚类结果不再变化，得到与预设的聚类簇数对应的聚类结果。

在完成了聚类分类之后，即可实现快速的将嵌入向量集进行分组，得到多个聚类簇以组成用户分群簇。

S104、获取所述目标用户唯一识别码集中各用户唯一识别码对应的用户画像标签集并进行各用户画像标签的个数统计，得到用户画像标签统计结果。

在本实施例中，统计所述目标用户唯一识别码集中各用户唯一识别码对应的用户画像标签集中包括的所有用户画像标签，以及每一用户画像标签出现的频次，从而完成了统计工作。

S105、将所述用户画像标签统计结果根据各用户画像标签个数降序排序得到用户画像标签排序结果，获取所述用户画像标签排序结果中未超出预设排名阈值的用户画像标签，组成热门用户画像标签集。

在本实施例中，在所述用户画像标签排序结果中未超出预设排名阈值的用户画像标签，作为热门用户画像标签，从而组成热门用户画像标签集。此时，相当于将用户基于用户历史数据将其划分至对应的用户群组，然后基于该热门群组中的热门标签不断调整用户的动态标签。

S106、将所述订阅标签子集与所述热门用户画像标签集进行组合，得到与所述用户唯一识别码对应的用户当前最优标签集。

在本实施例中，当获取了所述订阅标签子集对应的固定用户标签和所述热门用户画像标签集对应的动态标签后，可以将所述订阅标签子集与所述热门用户画像标签集进行组合，得到与所述用户唯一识别码对应的用户当前最优标签集。

其中，所述热门用户画像标签集中各热门用户画像标签分别对应的标签权重值之和记为标签变化权重总值，所述标签变化权重总值与所述标签固定权重总值之和为1。此时需要注意的是所述标签变化权重总值与所述标签固定权重总值之和为1，这样服务器即可根据用户当前最优标签集中各标签对应的权重相应对应标签对应内容以供用户查看。

在一实施例中，步骤S106之后还包括：

若检测到热门用户画像标签更新指令，获取所述用户唯一识别码在本地用户数据库中检索获取对应的当前用户数据，以当前用户数据更新作为用户历史数据，返回执行所述调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量的步骤。

在本实施例中，为了实现对用户的所述热门用户画像标签集进行动态调整，此时还可以有服务器定期触发产生热门用户画像标签更新指令(例如每个自然月的1号凌晨1点自动产生一个热门用户画像标签更新指令)，此时服务器获取用户在上一个自然月累积的当前用户数据，以当前用户数据更新作为用户历史数据，返回执行所述调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量的步骤。通过这一方式，可以定期的对热门用户画像标签进行动态调整，避免标签出现“马太效应”。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

该方法使得用户的标签既有固定的订阅标签，也有跟随用户点击行为反馈的动态标签，实现了了基于用户标签推荐内容的多样性和准确性。

本发明实施例还提供一种基于人工智能的用户标签更新装置，该基于人工智能的用户标签更新装置用于执行前述基于人工智能的用户标签更新方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的基于人工智能的用户标签更新装置的示意性框图。该基于人工智能的用户标签更新装置100可以配置于服务器中。

服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

如图3所示，基于人工智能的用户标签更新装置100包括：用户历史数据获取单元101、嵌入向量获取单元102、目标识别码集获取单元103、标签统计单元104、热门标签集获取单元105、最优标签集获取单元106。

用户历史数据获取单元101，用于若检测到订阅标签集分发指令，接收用户端上传的订阅标签子集，及根据用户端的用户唯一识别码获取用户历史数据。

在本实施例中，当服务器检测到订阅标签集分发指令时，表示服务器期望对一些用户分发固定的订阅标签集，此时服务器先获取本地已存储的订阅标签集，然后将所述订阅标签集发送至用户端。在触发订阅标签集分发指令，可以选定好接收订阅标签集的目标用户端，直接定向发送至目标用户端实现对其标签的扩展。

在一实施例，所述用户历史数据获取单元101包括：

订阅标签集发送单元，用于若检测到订阅标签集分发指令，获取已存储的订阅标签集，将所述订阅标签集发送至用户端；

订阅标签子集保存单元，用于接收用户端根据所述订阅标签集发送的订阅标签子集，将所述订阅标签子集与用户端对应的用户唯一识别码进行映射绑定并保存在本地；

历史数据检索单元，用于根据所述用户唯一识别码在本地用户数据库中检索获取对应的用户历史数据。

在本实施例中，当用户端接收到服务器发送的订阅标签集，可能会通过以下几种方式来确定该用户端对应对用所选定的订阅标签：

嵌入向量获取单元102，用于调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量。

输入层中输入用户特征训练数据，用户特征包括用户稠密特征和用户稀疏特征，其中用户稠密特征进行独热编码操作，用户稀疏特征进行embedding降维到低维空间(64或者32维)，然后进行特征拼接操作。广告侧(也可以理解为课程侧)和用户侧类似。

在本实施例中，只用到上述DSSM模型中的输入层和表示层，将用户历史数据中的用户稠密特征和用户稀疏特征分别输入进行运算，即可得到所述用户历史数据对应的嵌入向量；。同样的，其他用户的嵌入向量也可以基于其他用户的历史数据进行计算。

在一实施例中，所述嵌入向量获取单元102包括：

用户特征获取单元，用于获取所述用户历史数据中的用户稠密特征和用户稀疏特征；

第一编码单元，用于将所述用户稠密特征输入至所述深度语义匹配模型的输入层进行独热编码，得到用户第一编码向量；

第二编码单元，用于将所述用户稀疏特征输入至所述深度语义匹配模型的输入层进行词嵌入处理，得到用户第二编码向量；

将所述用户第一编码向量及所述用户第二编码向量进行特征拼接，得到当前编码向量；

全连接单元，用于将所述当前编码向量输入至所述深度语义匹配模型的表示层进行全连接处理，得到所述用户历史数据对应的嵌入向量。

在本实施例中，由于获取用户的嵌入向量无需DSSM模型的匹配层进行处理，此时先将所述用户历史数据输入至所述DSSM模型的输入层进行独热编码和特征拼接，得到当前编码向量，然后将所述当前编码向量输入至所述深度语义匹配模型的表示层进行全连接处理，得到所述用户历史数据对应的嵌入向量，这样即可快速得到用户对应的嵌入向量。

目标识别码集获取单元103，用于获取已存储的其他用户集对应的嵌入向量集，根据所述嵌入向量和所述嵌入向量集进行聚类得到用户分群簇，从所述用户分群簇中获取所述嵌入向量所属于的目标用户分群子簇，及所述目标用户分群子簇相应的目标用户唯一识别码集。

在一实施例中，所述目标识别码集获取单元103包括：

K-means聚类单元，用于获取已存储的其他用户集对应的嵌入向量集，将所述嵌入向量和所述嵌入向量集进行K-means聚类，得到具有与预设的聚类组数相同个数的用户分群簇；

目标用户唯一识别码集获取单元，用于获取所述嵌入向量所对应的用户分群子簇作为目标用户分群子簇，获取所述目标用户分群子簇中各嵌入向量分别对应的用户唯一识别码，组成目标用户唯一识别码集。

在一实施例中，所述K-means聚类单元，包括：

初始聚类中心获取单元，用于在嵌入向量集中选取与预设的聚类组数相同个数的嵌入向量，将所选取的嵌入向量作为每一簇的初始聚类中心；

初始聚类单元，用于根据嵌入向量集中各嵌入向量与各初始聚类中心的余弦相似度，将所述嵌入向量集进行划分，得到初始聚类结果；

聚类中心调整单元，用于根据初始聚类结果，获取每一簇的调整后聚类中心；

最终聚类结果获取单元，用于根据调整后聚类中心，将所述嵌入向量集的嵌入向量根据与调整后聚类中心的余弦相似度进行划分，直至聚类结果保持相同的次数多于预设的次数，得到用户分群簇。

在本实施例中，由于可以通过K-means聚类方法对嵌入向量集进行聚类处理，具体过程如下：

c)根据初始聚类结果，重新计算N2个簇各自的聚类中心。

d)将N1个嵌入向量中全部元素按照新的聚类中心重新聚类；

e)重复d)步，直到聚类结果不再变化，得到与预设的聚类簇数对应的聚类结果。

在完成了聚类分类之后，即可实现快速的将嵌入向量集进行分组，得到多个聚类簇以组成用户分群簇。

标签统计单元104，用于获取所述目标用户唯一识别码集中各用户唯一识别码对应的用户画像标签集并进行各用户画像标签的个数统计，得到用户画像标签统计结果。

热门标签集获取单元105，用于将所述用户画像标签统计结果根据各用户画像标签个数降序排序得到用户画像标签排序结果，获取所述用户画像标签排序结果中未超出预设排名阈值的用户画像标签，组成热门用户画像标签集。

最优标签集获取单元106，用于将所述订阅标签子集与所述热门用户画像标签集进行组合，得到与所述用户唯一识别码对应的用户当前最优标签集。

在一实施例中，基于人工智能的用户标签更新装置100还包括：

标签更新单元，用于若检测到热门用户画像标签更新指令，获取所述用户唯一识别码在本地用户数据库中检索获取对应的当前用户数据，以当前用户数据更新作为用户历史数据，返回执行所述调用预先训练的深度语义匹配模型，将所述用户历史数据输入至所述深度语义匹配模型进行运算，得到所述用户历史数据对应的嵌入向量的步骤。

该装置使得用户的标签既有固定的订阅标签，也有跟随用户点击行为反馈的动态标签，实现了了基于用户标签推荐内容的多样性和准确性。

上述基于人工智能的用户标签更新装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于人工智能的用户标签更新方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于人工智能的用户标签更新方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于人工智能的用户标签更新方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于人工智能的用户标签更新方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

20页详细技术资料下载

基于人工智能的用户标签更新方法、装置、设备及介质

相关技术

网友询问留言