CN113779974A

CN113779974A - 一种目标文本生成方法和装置

Info

Publication number: CN113779974A
Application number: CN202010530512.4A
Authority: CN
Inventors: 李浩然; 袁鹏; 徐松
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-12-10

Abstract

本发明公开了一种目标文本生成方法和装置，涉及计算机技术领域。该方法的一种具体实施方式包括：基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素；根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素；基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型；根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。该实施方式实现了个性化目标文本的生成。

Description

一种目标文本生成方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标文本生成方法和装置。

背景技术

在电商领域，基于物品的详细信息生成短小精悍的目标文本旨在快速激发用户的购买欲望。但由于不同用户对同一物品或相同用户对不同物品的关注角度不同，需要基于物品的详细信息为不同用户生成含有用户关注的物品信息的目标文本，即实现千人千面的个性化目标文本。

目前，基于机器学习算法训练得到的摘要生成模型主要以生成流畅的文本为主要训练目标，对于相同的物品详细信息只能生成一个相同的目标文本，无法基于用户关注的物品信息为用户生成个性化的目标文本，从而更好地激发用户对物品的购买欲望。

发明内容

有鉴于此，本发明实施例提供了一种目标文本生成方法和装置，能够基于用户关注的、与物品种类对应的一个或多个物品要素，为用户生成个性化的目标文本。

为实现上述目的，根据本发明实施例的一个方面，提供了一种目标文本生成方法，包括：

基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素，所述物品要素词典指示了一个或多个物品种类、所述物品种类对应的一个或多个物品要素及所述物品要素对应的一个或多个要素词；

根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素；

基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型；

根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。

可选地，所述基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型，包括：

构建初始摘要生成模型；

向所述初始摘要生成模型中输入所述物品的描述文本、所述第二物品要素，以生成与所述物品的描述文本对应的目标文本；

根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值；

根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型。

可选地，根据所述物品要素词典，确定所述目标文本中与所述第二物品要素对应的要素词；

根据所述第二物品要素对应的要素词，确定所述目标文本中涵盖的所述第二物品要素的数量。

可选地，所述根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素，包括：

根据所述用户历史数据指示的与所述物品种类对应的一个或多个用户操作类型，获取与所述用户操作类型对应的物品集合，所述物品集合包含了一个或多个与所述用户操作类型对应的物品；

对于每一个所述第一物品要素，计算每一个所述物品集合中具有所述第一物品要素的物品数量，以根据所述物品数量、所述用户操作类型的预设权重计算所述第一物品要素的用户关注度；

根据所述用户关注度由高到低的顺序，从所述第一物品要素中确定一个或多个所述第二物品要素。

可选地，所述根据所述物品数量、所述用户操作类型的预设权重计算所述第一物品要素的用户关注度，包括：

计算每一个所述物品数量与对应的所述操作类型的预设权重的乘积，以获取所述第一物品要素的子用户关注度；

计算所述子用户关注度之和，以获取所述第一物品要素的用户关注度。

可选地，所述基于预先构建的物品要素词典，从物品的描述文本中获取所述物品具有的一个或多个第一物品要素，包括：

根据所述物品的物品种类，从所述物品要素词典中获取与所述物品种类对应的一个或多个物品要素，及所述物品要素对应的一个或多个要素词；

根据所述要素词在所述物品的描述文本中的出现频率，计算所述物品要素的出现频率；

根据所述物品要素的出现频率由高到低的顺序，从所述物品要素中确定一个或多个所述第一物品要素。

可选地，所述初始摘要生成模型为Encoder-Decoder模型；其中，

Encoder层的神经网络用于根据物品的描述文本生成对应的语义向量；

Decoder层的神经网络用于根据所述语义向量生成目标文本。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种目标文本生成装置，包括：要素获取模块、模型生成模块、摘要生成模块；其中，

所述要素获取模块，用于基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素，所述物品要素词典指示了一个或多个物品种类、所述物品种类对应的一个或多个物品要素及所述物品要素对应的一个或多个要素词；

所述要素获取模块，还用于根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素；

所述模型生成模块，用于基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型；

所述摘要生成模块，用于根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。

构建初始摘要生成模型；

可选地，所述模型生成模块，用于根据所述物品要素词典，确定所述目标文本中与所述第二物品要素对应的要素词；

可选地，所述初始摘要生成模型为Encoder-Decoder模型；其中，

Decoder层的神经网络用于根据所述语义向量生成目标文本。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种用于生成目标文本的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的目标文本生成方法中任一所述的方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的目标文本生成方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：由于采用强化学习算法对物品的描述文本、用户关注的物品要素进行训练，获得了可以为用户生成涵盖有用户关注的物品要素的目标文本，实现了千人千面的目标文本。在此基础上，通过根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值，并根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型，进一步提高了摘要生成模型生成目标文本的准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的目标文本生成方法的主要流程的示意图；

图2是根据本发明实施例的第一物品要素的确定方法的主要流程的示意图；

图3是根据本发明实施例的第二物品要素的确定方法的主要流程的示意图；

图4是根据本发明实施例的摘要生成模型的训练方法的主要流程的示意图；

图5是根据本发明实施例的目标文本生成装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的目标文本生成方法的主要流程的示意图，如图1所示，该目标文本生成方法具体可以包括的步骤如下：

步骤S101，基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素，所述物品要素词典指示了一个或多个物品种类、所述物品种类对应的一个或多个物品要素及所述物品要素对应的一个或多个要素词。

物品的描述文本是指对物品进行详细描述的文本信息，如物品的说明书、物品详情页等，而物品要素则是指物品具有的用于描述物品性能的字词，物品要素词则是物品要素的同义词、近义词或者下位词等。物品要素词典则既可以是基于实际经验人工构建的，也可以是使用机器学习算法及自然语言处理技术等构建的。其中，物品种类与物品要素可以是一对一也可以是一对多的关系，物品要素与要素词也可以是一对一或一对多的关系。具体地，参见下表1提供的物品要素词典的示例：

表1物品要素词典示例

在一种可选的实施方式中，所述基于预先构建的物品要素词典，从物品的描述文本中获取所述物品具有的一个或多个第一物品要素，包括：根据所述物品的物品种类，从所述物品要素词典中获取与所述物品种类对应的一个或多个物品要素，及所述物品要素对应的一个或多个要素词；根据所述要素词在所述物品的描述文本中的出现频率，计算所述物品要素的出现频率；根据所述物品要素的出现频率由高到低的顺序，从所述物品要素中确定一个或多个所述第一物品要素。也即是说，通过物品要素词典匹配物品的描述文本中出现的要素词，来确定物品的描述文本中出现的物品要素，即为第一物品要素。

步骤S102，根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素。

其中，用户历史数据是指包含了用户点击物品记录、用户浏览的物品记录、用户收藏的物品记录、用户关注的物品记录、用户加购物车的物品记录、用户购买的物品记录中的任一种或多种。因而可以基于用户曾经点击或者购买过的物品具有的物品要素，来确定用户关注或者用户偏好的物品要素。

在一种可选的实施方式中，所述根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素，包括：根据所述用户历史数据指示的与所述物品种类对应的一个或多个用户操作类型，获取与所述用户操作类型对应的物品集合，所述物品集合包含了一个或多个与所述用户操作类型对应的物品；对于每一个所述第一物品要素，计算每一个所述物品集合中具有所述第一物品要素的物品数量，以根据所述物品数量、所述用户操作类型的预设权重计算所述第一物品要素的用户关注度；根据所述用户关注度由高到低的顺序，从所述第一物品要素中确定一个或多个所述第二物品要素。

步骤S103，基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型。

具体地，可以采用的强化学习算法包括但不限于：Q-learning算法、DNQ算法、Policy Gradient算法、Advantage Actor Critic(A2C)算法、Trust Region PolicyOptimization(TRPO)算法、Proximal Policy Optimization(PPO)算法等。本发明实施例优选采用Policy Gradient算法生成摘要生成模型。

在一种可选的实施方式中，所述基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型，包括：构建初始摘要生成模型；向所述初始摘要生成模型中输入所述物品的描述文本、所述第二物品要素，以生成与所述物品的描述文本对应的目标文本；根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值；根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型。

具体地，所述初始摘要生成模型为Encoder-Decoder模型。其中，Encoder和Decoder可采用下述任一种模型：CNN(Convolutional Neural Networks)，RNN(循环神经网络)，Bidirectional RNN、LSTM(长短时神经网络)、GRU(Gated Recurrent Units)等。

更具体地，根据所述物品要素词典，确定所述目标文本中与所述第二物品要素对应的要素词；根据所述第二物品要素对应的要素词，确定所述目标文本中涵盖的所述第二物品要素的数量。如以物品要素A对应的要素词包含词1、词2为例，只要目标文本中涵盖有词1、词2中任意一个则认为目标文本中涵盖有物品要素A。

步骤S104，根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。

可以理解的是，在根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素生成目标文本之前，需要基于预先构建的物品要素词典确定目标物品具有的一个或多个物品要素；然后基于目标用户的历史数据，从目标物品具有的一个或多个第一物品要素中确定出目标用户关注的目标物品具有的一个或多个目标物品要素；在此基础上，根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用摘要生成模型为目标用户生成涵盖有目标物品要素的至少一部分的目标文本。

值得注意的是，由于目标物品要素可能对应有一个或多个要素词，因此，只要生成的目标文本中涵盖有物品要素的要素词，则认为目标文本涵盖有此物品要素。此外，由于现有技术的局限性，获取到的摘要生成模型无法保证生成的目标文本的百分百正确性，因此，只要求生成的目标文本需要涵盖目标物品要素中的一个或多个即可。

基于上述实施例，由于采用强化学习算法对物品的描述文本、用户关注的物品要素进行训练，获得了可以为用户生成涵盖有用户关注的物品要素的目标文本，实现了千人千面的目标文本。在此基础上，通过根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值，并根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型，进一步提高了摘要生成模型生成目标文本的准确性。

参见图2，在上述实施例的基础上，对步骤S101涉及的确定第一物品要素的方法作进一步详细的说明，该方法具体包括的步骤如下：

步骤S1011，根据所述物品的物品种类，从所述物品要素词典中获取与所述物品种类对应的一个或多个物品要素，及所述物品要素对应的一个或多个要素词。

具体地，以物品的描述文本包括“HUAWEI P40手机，色彩高级、纯粹美学、五种纯色的现代演绎；全焦段高清，30倍数字变焦、2.5cm超级微距、从近到远、全面超清；深度科技，麒麟990 5G SoC芯片，不失优雅硬核担当；全网通信，5G+4G双卡双待；屏幕尺寸6.1英寸，电池容量3800mAh，机身内存128GB……”为例进行说明：由于物品为HUAWEI P40手机，因而可以根据物品要素词典获取物品种类“手机”对应的一个或多个物品要素，及商要素对应的要素词。如以表1所示的物品要素词典为例，则“手机”对应的物品要素为“电池”、“屏幕”、“存储容量”、“网络类型”等，而“屏幕”对应的要素词则又包括“屏幕尺寸”、“分辨率”、“全面屏”、“曲面屏”。

步骤S1012，根据所述要素词在所述物品的描述文本中的出现频率，计算所述物品要素的出现频率。

也即是说，基于上述步骤根据物品要素词典确定的物品要素及对应的要素词，统计每一个要素词在物品的描述文本中的出现频率。具体地，以物品要素“屏幕”为例进行说明，分别统计“屏幕”对应的要素词“屏幕尺寸”、“分辨率”、“全面屏”、“曲面屏”在物品的描述文本中的出现频率，且以统计的出现频率分别为20、30、10、5为例，则物品要素“屏幕”的出现屏幕即为其包含的每一个要素词的出现频率之和65。

步骤S1013，根据所述物品要素的出现频率由高到低的顺序，从所述物品要素中确定一个或多个所述第一物品要素。

具体地，以上述步骤统计完物品的描述文本中物品要素“电池”、“屏幕”、“存储容量”、“网络类型”、“操作系统”对应的出现频率分别为45、65、55、20、10为例进行说明，由于实际的物品种类、物品数量巨大，为提高整个目标文本生成的效率，可以考虑根据物品要素的出现频率由高到低的顺序，为每一个物品保留一个或多个第一物品要素。更具体地，以为每一个物品保留3个物品要素为例，则根据上述步骤统计的物品要素的出现频率可知，可以确定HUAWEI P40手机对应的第一物品要素分别为“电池”、“屏幕”、“存储容量”。

参见图3，在上述实施例的基础上，对步骤S102涉及的确定第二物品要素的方法作进一步详细的说明，该方法具体包括的步骤如下：

步骤S1021，根据所述用户历史数据指示的与所述物品种类对应的一个或多个用户操作类型，获取与所述用户操作类型对应的物品集合，所述物品集合包含了一个或多个与所述用户操作类型对应的物品。

其中，用户历史数据是指包含了用户点击物品记录、用户浏览的物品记录、用户收藏的物品记录、用户关注的物品记录、用户加购物车的物品记录、用户购买的物品记录中的任一种或多种。因而可以基于用户曾经点击或者购买过的物品具有的物品要素，来确定用户关注或者用户偏好的物品要素。用户的操作类型包括但不限于，点击、浏览、收藏、关注、加购物车、购买等。

具体地，仍以物品种类为“手机”，用户的历史数据仅包括用户点击、关注或购买的手机记录为例进行说明，则对应地可以分别获得用户点击的手机集合、用户关注的手机集合、用户购买的手机集合。在此基础上，可以根据步骤S101中确定的每一个手机物品对应的一个或多个第一物品要素，确定手机集合中具体手机物品的第一物品要素。如下表2所示，提供了物品集合的示例及物品集合中每一个物品具有的一个或多个物品要素。

表2物品集合示例

步骤S1022，对于每一个所述第一物品要素，计算每一个所述物品集合中具有所述第一物品要素的物品数量，以根据所述物品数量、所述用户操作类型的预设权重计算所述第一物品要素的用户关注度。

其中，与操作类型对应的预设权重是指根据用户的购买倾向设定的值，如可以设定用户点击、浏览、关注、购买四种操作类型对应的预设权重分别为0.3、0.5、0.8、1，以此来根据用户的历史行为调整用户对不同物品要素的关注度，以便更准确地得到用户关注的第二物品要素。

具体地，仍参见表2，以物品集合为表2提供的用户点击的手机集合、用户关注的手机集合、用户购买的手机集合且对对应的预设权重分别为0.5、0.8、1为例进行说明，则物品集合中所有物品对应的第一物品要素包括：物品要素A、物品要素B、物品要素C、物品要素D、物品要素E、物品要素F。对于其中的每一个物品要素X，可以根据下述公式计算用户关注度：

S(X)＝w1*N_1X+w2*N_2X+w3*N_3X

其中，S(X)是指用户对物品要素X的用户关注度，w1、w2、w3分别是指用户点击行为、关注行为、购买行为对应的预设权重，N_1X、N_2X、N_3X分别是指用户点击的手机集合、用户关注的手机集合、用户购买的手机集中具有物品要素X的物品数量。基于此，计算得到的物品要素A、物品要素B、物品要素C、物品要素D、物品要素E、物品要素F的用户关注度分别是3.6、2.8、1.8、1.3、1、1.8。由此可见用户比较关注的第一物品要素是物品要素A，其次是物品要素B。

步骤S1023，根据所述用户关注度由高到低的顺序，从所述第一物品要素中确定一个或多个所述第二物品要素。

参见图4，在上述实施例的基础上，对步骤S103涉及的摘要生成模型的训练方法作进一步详细的说明，该方法具体包括的步骤如下：

步骤S1031，构建初始摘要生成模型。

具体地，以采用Encoder-Decoder框架构建初始摘要生成模型，并基于PolicyGradient强化学习算法进行模型训练为例进行说明：在采用Encoder-Decoder框架构建初始摘要生成模型之后，使用该初始摘要生成模型作为强化学习中的代理(agent)；其中Encoder层的神经网络用于根据物品的描述文本生成对应的语义向量，Decoder层的神经网络用于根据语义向量生成目标文本；与Decoder交互的环境(environment)是之前时刻生成的目标文本或目标文本中的词，以及语义向量；代理的参数作为策略(policy)。在此基础上，根据策略和环境代理可以做出当前时刻的动作(action)，即生成目标文本；然后环境可以基于目标文本中涵盖的第二物品要素的数量与第二物品要素的总数量的比值计算奖励值，并向代理(agent)反馈该奖励值以实现对初始摘要生成模型的优化。

更具体地，以第二物品要素包括物品要素A、物品要素B、物品要素C为例进行说明，若生成的目标文本中仅涵盖物品要素A、物品要素B包含的要素词，则该目标文本中涵盖的第二物品要素的数量与第二物品要素的总数量的比值即为66.7％。可以理解的是，目标文本中涵盖的第二物品要素的数量与第二物品要素的总数量的比值越高，则对应的奖励值越大，训练得到的摘要生成模型准确率越高。

步骤S1032，向所述初始摘要生成模型中输入所述物品的描述文本、所述第二物品要素，以生成与所述物品的描述文本对应的目标文本。

步骤S1033，根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值。

步骤S1034，根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型。

参见图5，在上述实施例的基础上，本发明实施例提供了一种目标文本生成装置500，包括：要素获取模块501、模型生成模块502、目标文本生成模块503；其中，

所述要素获取模块501，用于基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素，所述物品要素词典指示了一个或多个物品种类、所述物品种类对应的一个或多个物品要素及所述物品要素对应的一个或多个要素词；

所述要素获取模块502，还用于根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素；

所述模型生成模块503，用于基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型；

所述目标文本生成模块504，用于根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。

在一种可选的实施方式中，所述基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型，包括：

构建初始摘要生成模型；

在一种可选的实施方式中，根据所述物品要素词典，确定所述目标文本中与所述第二物品要素对应的要素词；

在一种可选的实施方式中，所述根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素，包括：

在一种可选的实施方式中，所述根据所述物品数量、所述用户操作类型的预设权重计算所述第一物品要素的用户关注度，包括：

在一种可选的实施方式中，所述基于预先构建的物品要素词典，从物品的描述文本中获取所述物品具有的一个或多个第一物品要素，包括：

在一种可选的实施方式中，所述初始摘要生成模型为Encoder-Decoder模型；其中，

Decoder层的神经网络用于根据所述语义向量生成目标文本。

图6示出了可以应用本发明实施例的目标文本生成方法或目标文本生成装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如为用户生成的目标文本)反馈给终端设备。

需要说明的是，本发明实施例所提供的摘目标文本生成方法一般由服务器605执行，相应地，目标文本生成装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括要素获取模块、模型生成模块、目标文本生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，模型生成模块还可以被描述为“用于基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：基于预先构建的物品要素词典，从物品的描述文本中确定所述物品具有的一个或多个第一物品要素，所述物品要素词典指示了一个或多个物品种类、所述物品种类对应的一个或多个物品要素及所述物品要素对应的一个或多个要素词；根据用户历史数据，从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素；基于强化学习算法，对所述物品的描述文本、所述第二物品要素进行训练，以获取摘要生成模型；根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素，使用所述摘要生成模型，为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。

根据本发明实施例的技术方案，由于采用强化学习算法对物品的描述文本、用户关注的物品要素进行训练，获得了可以为用户生成涵盖有用户关注的物品要素的目标文本，实现了千人千面的目标文本。在此基础上，通过根据所述目标文本中涵盖的所述第二物品要素的数量与所述第二物品要素总数量的比值，确定所述初始摘要生成模型对应的奖励值，并根据所述奖励值对所述初始摘要生成模型进行优化，以获取所述摘要生成模型，进一步提高了摘要生成模型生成目标文本的准确性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。