为文章匹配对象的方法、系统、设备及存储介质

文档序号:1556712 发布日期:2020-01-21 浏览:1次 >En<

阅读说明:本技术 为文章匹配对象的方法、系统、设备及存储介质 (Method, system, device and storage medium for matching objects for articles ) 是由 张亮 佘志东 张震涛 王刚 饶正锋 缪世磊 于 2018-06-27 设计创作,主要内容包括:本发明公开了一种为文章匹配对象的方法、系统、设备及存储介质,方法包括:获取类目下的所有对象;提取类目下的每个对象的至少一个卖点词;提取待匹配文章中的至少一个关键词;获取每个关键词对应的词向量,记为关键词词向量;获取每个卖点词对应的词向量,记为卖点词词向量;使用关键词词向量与每个对象的卖点词词向量进行相似度计算得到相应的相似度系数;计算每个关键词的TF-IDF;根据相似度系数及相应的关键词的TF-IDF计算待匹配文章与每个对象的相似分数;将相似分数最高的若干个对象作为待匹配文章最终的匹配对象。本发明实现了自动为待匹配文章精准匹配一组对象,能够显著降低人工为待匹配文章挑选对象所耗费的时间,提高自动文案生成的效率。(The invention discloses a method, a system, equipment and a storage medium for matching an article with an object, wherein the method comprises the following steps: acquiring all objects under the category; extracting at least one selling point word of each object under the category; extracting at least one keyword in an article to be matched; acquiring a word vector corresponding to each keyword, and recording the word vector as a keyword word vector; acquiring a word vector corresponding to each selling point word, and recording the word vector as a selling point word vector; performing similarity calculation by using the keyword word vectors and the selling point word vectors of each object to obtain corresponding similarity coefficients; calculating TF-IDF of each keyword; calculating the similarity score of the article to be matched and each object according to the similarity coefficient and the TF-IDF of the corresponding keyword; and taking a plurality of objects with the highest similarity scores as final matching objects of the articles to be matched. The method and the device realize the automatic and accurate matching of a group of objects for the articles to be matched, can obviously reduce the time consumed by manually selecting the objects for the articles to be matched, and improve the efficiency of automatic document generation.)

为文章匹配对象的方法、系统、设备及存储介质

技术领域

本发明涉及互联网技术领域,特别涉及一种为文章匹配对象的方法、系统、设备及存储介质。

背景技术

在互联网领域,大量的对象需要推荐文章等介绍该对象的优缺点及性价比等,供目标群体选择时参考。然而,海量的推荐文章编辑耗费大量的时间和经济成本。为此,自动推荐文章生成,尤其是自动生成的文章同目标对象的自动匹配技术至关重要。

现有技术中,主要采取由达人根据应用场景及主题针对相应对象撰写推荐文章。另外也有一些能够实现机器自动批量生成文章的方式,对于批量生成的推荐文章,如果采用人工手动去匹配对象的方式实现,则工作量大,效率低,如何能够自动为这些自动生成的文章匹配相应的对象是一个急需解决的技术问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中的对于大量的文章采用人工匹配相应的对象的方式工作量大,效率低的缺陷,提供一种能够自动且快速地为推荐文章精确匹配一组对象的为文章匹配对象的方法、系统、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题:

本发明提供了一种为文章匹配对象的方法,每篇所述文章均对应有相应的类目,所述方法包括:

获取所述类目下的所有对象;

提取所述类目下的每个所述对象的至少一个卖点词;

提取待匹配文章中的至少一个关键词;

获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量;

获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量;

使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数;

计算每个所述关键词的TF-IDF(词频-逆词频);

根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数;

将所述相似分数最高的若干个所述对象作为所述待匹配文章最终的匹配对象。

本方案中,通过对待匹配文章所属类目下的所有的对象分别进行热点词的提取,并对待匹配文章进行关键词的提取,然后再利用提取后的词向量进行相似度计算,再结合关键词的TF-IDF计算出与所述待匹配文章相似度最高的一组对象作为最终的匹配对象。

本方案提供了一种自动为待匹配文章精准匹配一组对象的方法,能够显著降低人工为待匹配文章挑选对象所耗费的时间,提高自动文案生成的效率。

较佳地,每个所述对象的卖点词以及所述待匹配文章中的所述关键词均包括主体词-修饰词词对和/或独立词,所述主体词-修饰词词对为成对出现的主体词和相应的修饰词组成的词对,所述独立词为除了所述主体词和所述修饰词之外单独存在的词语;

所述使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数,包括:

查找所述待匹配文章与每个所述对象共有的所述主体词,设所述共有的所述主体词为相同主体词,其余的所述主体词为不同主体词;

使用所述待匹配文章的所述相同主体词对应的所述修饰词的词向量与相应的所述对象的所述相同主体词对应的所述修饰词的词向量进行余弦相似度计算,以得到所述待匹配文章与相应的所述对象对应的所述相同主体词的相似度系数A1;

从所述待匹配文章的所有所述不同主体词中选取TF-IDF最高的至少一个词作为相似主体词,使用所述待匹配文章的所述相似主体词的词向量与对应的所述对象的所述不同主体词的词向量进行距离计算,得到对应的相似主体词距离A2,使用所述相似主体词对应的所述修饰词的词向量与相应的所述对象的所述不同主体词对应的所述修饰词的词向量进行距离计算,得到对应的相似主体词修饰词距离B;

所述根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数,包括:

所述待匹配文章的每个所述相同主体词的TF-IDF表示为W1,设置所述待匹配文章与相应的所述对象对应的所述相同主体词的分数为W1*A1;

查找所述待匹配文章与每个所述对象共有的所述独立词,设所述共有的所述独立词为相同独立词,其余的所述独立词为不同独立词;

所述待匹配文章的每个所述相同独立词的TF-IDF表示为V1,设置所述待匹配文章与相应的所述对象的所述相同独立词的分数为V1;

所述待匹配文章的每个所述相似主体词的TF-IDF表示为W2,设置所述待匹配文章与相应的所述对象对应的所述相似主体词的分数记为W2*A2*B;

从所述待匹配文章的所有所述不同独立词中选取TF-IDF最高的至少一个词作为相似独立词,使用所述待匹配文章的所述相似独立词的词向量与相应的所述对象的所述不同独立词的词向量进行距离计算,得到相似独立词距离C,所述待匹配文章的所述相似独立词的TF-IDF表示为V2,设置所述待匹配文章与相应的所述对象对应的所述相似独立词的分数记为V2*C;

根据相应的W1*A1、V1、W2*A2*B以及V2*C计算得到所述待匹配文章与每个所述对象的所述相似分数。

较佳地,所述方法还包括以下步骤:

统计所述类目下所有对象的所述独立词,去除共现率在一预设区间的词语,剩余的所述独立词组成类目独立词集合,所述共现率表示所述独立词在所有对象中出现的百分比;

在所有对象的所述主体词-修饰词词对中,去除带有无效的修饰词的所述主体词-修饰词词对,剩余的所述主体词-修饰词词对组成类目主体词-修饰词词对集合;

在步骤使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数之前,还包括以下步骤:

对所述类目下每个所述对象的所述主体词-修饰词词对进行清洗,以去除掉每个所述对象中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;

对所述类目下每个所述对象的所述独立词进行清洗,以去除掉每个所述对象中不包括在所述独立词集合中的所述独立词;

对所述待匹配文章的所述主体词-修饰词词对进行清洗,以去除掉所述待匹配文章中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;

对所述待匹配文章的所述独立词进行清洗,以去除掉所述待匹配文章中不包括在所述独立词集合中的所述独立词。

本方案中,共现率表示一个独立词在所有对象中出现的对象数占全部对象数的百分比,在进行相似度计算之前,对类目下所有对象的独立词去除共现率在一预设区间的词语,剩余的所有的独立词组成类目独立词集合。即保留共现率在预设区间外的词语,能够减少后续的计算量并降低计算复杂度。

本方案中,同样的原则对类目下的所有对象的主体词做处理,去除主体词对应的无效的修饰词对应的词对,得到类目主体词-修饰词词对集合。本方案能够进一步减少后续的计算量并降低计算复杂度。

本方案中,使用类目独立词集合以及类目主体词-修饰词词对集合对所述类目下每个所述对象以及所述待匹配文章对应的独立词和主体词-修饰词词对进行数据清洗,以去除掉不属于集合中的词,这些留下的词供后续进行相似度计算以及计算相似分数。本方案能够进一步减少后续的计算量并降低计算复杂度。

较佳地,在所述根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数之前,还包括以下步骤:

清洗掉所述相似度系数A1为负数的所述相同主体词所对应的所述对象。

本方案中,在进行相似分数计算之前清洗掉与所述待匹配文章具有相同主体词但是该相同主体词对应的修饰词与待匹配文章含义相反的对象,这些对象在后续进行相似分数计算中不再使用,由此进一步减少后续的计算量并降低计算复杂度。

较佳地,所述提取所述类目下的每个所述对象的至少一个卖点词,包括:

以所述对象的标题、属性、历史推荐文章为素材,对所述素材做分词和依存句法分析标记每个词语之间的关系,以得到所述类目下的每个所述对象的至少一个所述卖点词;

所述提取待匹配文章中的至少一个关键词,包括:

对所述待匹配文章做分词和依存句法分析标记每个词语之间的关系,以得到所述待匹配文章中的至少一个所述关键词。

本方案中,以待匹配文章所属类目下的所有的对象的标题、属性、历史推荐文章为素材,对这些素材做分词和依存句法分析标记每个词语的之间的关系,并从中提取主体词-修饰词词对及独立词,其中独立词为除了所述主体词和所述修饰词之外单独存在的其它词语。对待匹配文章也做类似的提取操作,即做分词和依存句法分析标记每个词语的之间的关系,并从中提取主体词-修饰词词对及相应的独立词。

较佳地,所述预设区间为大于50%或小于0.1%。

本发明还提供了一种为文章匹配对象的系统,每篇所述文章均对应有相应的类目,所述系统包括:

对象获取模块,用于获取所述类目下的所有对象;

卖点词提取模块,用于提取所述类目下的每个所述对象的至少一个卖点词;

关键词提取模块,用于提取待匹配文章中的至少一个关键词;

关键词词向量获取模块,用于获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量;

卖点词词向量获取模块,用于获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量;

相似度计算模块,用于使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数;

词频逆词频计算模块,用于计算每个所述关键词的TF-IDF;

相似分数计算模块,用于根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数;

匹配模块,用于将所述相似分数最高的若干个所述对象作为所述待匹配文章最终的匹配对象。

较佳地,每个所述对象的卖点词以及所述待匹配文章中的所述关键词均包括主体词-修饰词词对和/或独立词,所述主体词-修饰词词对为成对出现的主体词和相应的修饰词组成的词对,所述独立词为除了所述主体词和所述修饰词之外单独存在的词语;

所述相似度计算模块包括:

查找模块,用于查找所述待匹配文章与每个所述对象共有的所述主体词,设所述共有的所述主体词为相同主体词,其余的所述主体词为不同主体词;

余弦相似度计算模块,用于使用所述待匹配文章的所述相同主体词对应的所述修饰词的词向量与相应的所述对象的所述相同主体词对应的所述修饰词的词向量进行余弦相似度计算,以得到所述待匹配文章与相应的所述对象对应的所述相同主体词的相似度系数A1;

距离计算模块,用于从所述待匹配文章的所有所述不同主体词中选取TF-IDF最高的至少一个词作为相似主体词,使用所述待匹配文章的所述相似主体词的词向量与对应的所述对象的所述不同主体词的词向量进行距离计算,得到对应的相似主体词距离A2,使用所述相似主体词对应的所述修饰词的词向量与相应的所述对象的所述不同主体词对应的所述修饰词的词向量进行距离计算,得到对应的相似主体词修饰词距离B;

所述相似分数计算模块,包括:

第一分数计算模块,用于将所述待匹配文章的每个所述相同主体词的TF-IDF表示为W1,设置所述待匹配文章与相应的所述对象对应的所述相同主体词的分数为W1*A1;

独立词查找模块,用于查找所述待匹配文章与每个所述对象共有的所述独立词,设所述共有的所述独立词为相同独立词,其余的所述独立词为不同独立词;

第二分数计算模块,用于将所述待匹配文章的每个所述相同独立词的TF-IDF表示为V1,设置所述待匹配文章与相应的所述对象的所述相同独立词的分数为V1;

第三分数计算模块,用于将所述待匹配文章的每个所述相似主体词的TF-IDF表示为W2,设置所述待匹配文章与相应的所述对象对应的所述相似主体词的分数记为W2*A2*B;

第四分数计算模块,用于从所述待匹配文章的所有所述不同独立词中选取TF-IDF最高的至少一个词作为相似独立词,使用所述待匹配文章的所述相似独立词的词向量与相应的所述对象的所述不同独立词的词向量进行距离计算,得到相似独立词距离C,所述待匹配文章的所述相似独立词的TF-IDF表示为V2,设置所述待匹配文章与相应的所述对象对应的所述相似独立词的分数记为V2*C;

总分数计算模块,用于根据相应的W1*A1、V1、W2*A2*B以及V2*C计算得到所述待匹配文章与每个所述对象的所述相似分数。

较佳地,所述系统还包括:

独立词去除模块,用于统计所述类目下所有对象的所述独立词,去除共现率在一预设区间的词语,剩余的所述独立词组成类目独立词集合,所述共现率表示所述独立词在所有对象中出现的百分比;

词对去除模块,用于在所有对象的所述主体词-修饰词词对中,去除带有无效的修饰词的所述主体词-修饰词词对,剩余的所述主体词-修饰词词对组成类目主体词-修饰词词对集合;

词对清洗模块,用于在调用所述相似度计算模块之前对所述类目下每个所述对象的所述主体词-修饰词词对进行清洗,以去除掉每个所述对象中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;以及对所述待匹配文章的所述主体词-修饰词词对进行清洗,以去除掉所述待匹配文章中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;

独立词清洗模块,用于在调用所述相似度计算模块之前对所述类目下每个所述对象的所述独立词进行清洗,以去除掉每个所述对象中不包括在所述独立词集合中的所述独立词;以及对所述待匹配文章的所述独立词进行清洗,以去除掉所述待匹配文章中不包括在所述独立词集合中的所述独立词。

较佳地,所述系统还包括:

对象清洗模块,用于在调用所述相似分数计算模块之前清洗掉所述相似度系数A1为负数的所述相同主体词所对应的所述对象。

较佳地,所述卖点词提取模块用于以所述对象的标题、属性、历史推荐文章为素材,对所述素材做分词和依存句法分析标记每个词语之间的关系,以得到所述类目下的每个所述对象的至少一个所述卖点词;

所述关键词提取模块用于对所述待匹配文章做分词和依存句法分析标记每个词语之间的关系,以得到所述待匹配文章中的至少一个所述关键词。

较佳地,所述预设区间为大于50%或小于0.1%。

本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的为文章匹配对象的方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的为文章匹配对象的方法的步骤。

本发明的积极进步效果在于:本发明提供的为文章匹配对象的方法、系统、设备及存储介质通过对待匹配文章所属类目下的所有的对象分别进行热点词的提取,并对待匹配文章进行关键词的提取,然后再利用提取后的词向量进行相似度计算,再结合关键词的TF-IDF计算出与所述待匹配文章相似度最高的一组对象作为最终的匹配对象。本发明实现了自动为待匹配文章精准匹配一组对象,能够显著降低人工为待匹配文章挑选对象所耗费的时间,提高自动文案生成的效率。

附图说明

图1为本发明实施例1的为文章匹配对象的方法的流程图。

图2为本发明实施例2的为文章匹配对象的系统的模块示意图。

图3为图2中相似度计算模块的模块示意图。

图4为图2中相似分数计算模块的模块示意图。

图5为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示,本实施例提供了一种为文章匹配对象的方法,每篇所述文章均对应有相应的类目,该方法包括以下步骤:

步骤101、获取所述类目下的所有对象。

步骤102、提取所述类目下的每个所述对象的至少一个卖点词。

其中,该步骤具体为,以所述对象的标题、属性、历史推荐文章为素材,对所述素材做分词和依存句法分析标记每个词语之间的关系,以得到所述类目下的每个所述对象的至少一个所述卖点词。

步骤103、提取待匹配文章中的至少一个关键词。

其中,该步骤具体为,对所述待匹配文章做分词和依存句法分析标记每个词语之间的关系,以得到所述待匹配文章中的至少一个所述关键词。

本实施例中,每个所述对象的卖点词以及所述待匹配文章中的所述关键词均包括主体词-修饰词词对和/或独立词,所述主体词-修饰词词对为成对出现的主体词和相应的修饰词组成的词对,所述独立词为除了所述主体词和所述修饰词之外单独存在的词语。

步骤104、统计所述类目下所有对象的所述独立词,去除共现率在一预设区间的词语,剩余的所述独立词组成类目独立词集合,所述共现率表示所述独立词在所有对象中出现的百分比;本实施例中所述预设区间为大于50%或小于0.1%。在所有对象的所述主体词-修饰词词对中,去除带有无效的修饰词的所述主体词-修饰词词对,剩余的所述主体词-修饰词词对组成类目主体词-修饰词词对集合。

步骤105、对所述类目下每个所述对象的所述主体词-修饰词词对进行清洗,以去除掉每个所述对象中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;对所述类目下每个所述对象的所述独立词进行清洗,以去除掉每个所述对象中不包括在所述独立词集合中的所述独立词;对所述待匹配文章的所述主体词-修饰词词对进行清洗,以去除掉所述待匹配文章中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;对所述待匹配文章的所述独立词进行清洗,以去除掉所述待匹配文章中不包括在所述独立词集合中的所述独立词。

步骤106、获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量;获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量。

步骤107、使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数。

其中,步骤107具体包括以下步骤:

查找所述待匹配文章与每个所述对象共有的所述主体词,设所述共有的所述主体词为相同主体词,其余的所述主体词为不同主体词;

使用所述待匹配文章的所述相同主体词对应的所述修饰词的词向量与相应的所述对象的所述相同主体词对应的所述修饰词的词向量进行余弦相似度计算,以得到所述待匹配文章与相应的所述对象对应的所述相同主体词的相似度系数A1;清洗掉所述相似度系数A1为负数的所述相同主体词所对应的所述对象;

从所述待匹配文章的所有所述不同主体词中选取TF-IDF最高的至少一个词作为相似主体词,使用所述待匹配文章的所述相似主体词的词向量与对应的所述对象的所述不同主体词的词向量进行距离计算,得到对应的相似主体词距离A2,使用所述相似主体词对应的所述修饰词的词向量与相应的所述对象的所述不同主体词对应的所述修饰词的词向量进行距离计算,得到对应的相似主体词修饰词距离B。

步骤108、计算每个所述关键词的TF-IDF。

步骤109、根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数。

其中,步骤109具体包括以下步骤:

将所述待匹配文章的每个所述相同主体词的TF-IDF表示为W1,设置所述待匹配文章与相应的所述对象对应的所述相同主体词的分数为W1*A1;

查找所述待匹配文章与每个所述对象共有的所述独立词,设所述共有的所述独立词为相同独立词,其余的所述独立词为不同独立词;

将所述待匹配文章的每个所述相同独立词的TF-IDF表示为V1,设置所述待匹配文章与相应的所述对象的所述相同独立词的分数为V1;

将所述待匹配文章的每个所述相似主体词的TF-IDF表示为W2,设置所述待匹配文章与相应的所述对象对应的所述相似主体词的分数记为W2*A2*B;

从所述待匹配文章的所有所述不同独立词中选取TF-IDF最高的至少一个词作为相似独立词,使用所述待匹配文章的所述相似独立词的词向量与相应的所述对象的所述不同独立词的词向量进行距离计算,得到相似独立词距离C,所述待匹配文章的所述相似独立词的TF-IDF表示为V2,设置所述待匹配文章与相应的所述对象对应的所述相似独立词的分数记为V2*C;

根据相应的W1*A1、V1、W2*A2*B以及V2*C计算得到所述待匹配文章与每个所述对象的所述相似分数。本实施例中,该步骤取W1*A1、V1、W2*A2*B以及V2*C的和作为所述相似分数。

步骤110、将所述相似分数最高的若干个所述对象作为所述待匹配文章最终的匹配对象。

本实施例中,通过对待匹配文章所属类目下的所有的对象分别进行热点词的提取,并对待匹配文章进行关键词的提取,然后再利用提取后的词向量进行相似度计算,再结合关键词的TF-IDF计算出与所述待匹配文章相似度最高的一组对象作为最终的匹配对象。

本实施例中,共现率表示一个独立词在所有对象中出现的对象数占全部对象数的百分比,在进行相似度计算之前,对类目下所有对象的独立词去除共现率在一预设区间的词语,剩余的所有的独立词组成类目独立词集合。即保留共现率在预设区间外的词语,能够减少后续的计算量并降低计算复杂度。同样的原则对类目下的所有对象的主体词做处理,去除主体词对应的无效的修饰词对应的词对,得到类目主体词-修饰词词对集合,也能够进一步减少后续的计算量并降低计算复杂度。

本实施例中,使用类目独立词集合以及类目主体词-修饰词词对集合对所述类目下每个所述对象以及所述待匹配文章对应的独立词和主体词-修饰词词对进行数据清洗,以去除掉不属于集合中的词,这些留下的词供后续进行相似度计算以及计算相似分数。由此进一步减少后续的计算量并降低计算复杂度。

本实施例中,在进行相似分数计算之前清洗掉与所述待匹配文章具有相同主体词但是该相同主体词对应的修饰词与待匹配文章含义相反的对象,这些对象在后续进行相似分数计算中不再使用,由此进一步减少后续的计算量并降低计算复杂度。

本实施例提供了一种自动为待匹配文章精准匹配一组对象的方法,能够显著降低人工为待匹配文章挑选对象所耗费的时间,提高自动文案生成的效率。

实施例2

如图2,本实施例提供了一种为文章匹配对象的系统,每篇所述文章均对应有相应的类目,所述系统包括:对象获取模块1、卖点词提取模块2、关键词提取模块3、独立词去除模块4、词对去除模块5、词对清洗模块6、独立词清洗模块7、关键词词向量获取模块8、卖点词词向量获取模块9、相似度计算模块10、词频逆词频计算模块11、相似分数计算模块12、匹配模块13和对象清洗模块14。

对象获取模块1,用于获取所述类目下的所有对象。

卖点词提取模块2,用于提取所述类目下的每个所述对象的至少一个卖点词;具体为用于以所述对象的标题、属性、历史推荐文章为素材,对所述素材做分词和依存句法分析标记每个词语之间的关系,以得到所述类目下的每个所述对象的至少一个所述卖点词。

关键词提取模块3,用于提取待匹配文章中的至少一个关键词,具体用于对所述待匹配文章做分词和依存句法分析标记每个词语之间的关系,以得到所述待匹配文章中的至少一个所述关键词。

本实施例中,每个所述对象的卖点词以及所述待匹配文章中的所述关键词均包括主体词-修饰词词对和/或独立词,所述主体词-修饰词词对为成对出现的主体词和相应的修饰词组成的词对,所述独立词为除了所述主体词和所述修饰词之外单独存在的词语。

独立词去除模块4,用于统计所述类目下所有对象的所述独立词,去除共现率在一预设区间的词语,剩余的所述独立词组成类目独立词集合,所述共现率表示所述独立词在所有对象中出现的百分比。本实施例中,所述预设区间为大于50%或小于0.1%。

词对去除模块5,用于在所有对象的所述主体词-修饰词词对中,去除带有无效的修饰词的所述主体词-修饰词词对,剩余的所述主体词-修饰词词对组成类目主体词-修饰词词对集合。

词对清洗模块6,用于在调用所述相似度计算模块10之前对所述类目下每个所述对象的所述主体词-修饰词词对进行清洗,以去除掉每个所述对象中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;以及对所述待匹配文章的所述主体词-修饰词词对进行清洗,以去除掉所述待匹配文章中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对。

独立词清洗模块7,用于在调用所述相似度计算模块10之前对所述类目下每个所述对象的所述独立词进行清洗,以去除掉每个所述对象中不包括在所述独立词集合中的所述独立词;以及对所述待匹配文章的所述独立词进行清洗,以去除掉所述待匹配文章中不包括在所述独立词集合中的所述独立词。

关键词词向量获取模块8,用于获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量。

卖点词词向量获取模块9,用于获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量。

相似度计算模块10,用于使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数。

词频逆词频计算模块11,用于计算每个所述关键词的TF-IDF。

相似分数计算模块12,用于根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数。

匹配模块13,用于将所述相似分数最高的若干个所述对象作为所述待匹配文章最终的匹配对象。

如图3所示,本实施例中,所述相似度计算模块10包括查找模块1001、余弦相似度计算模块1002以及距离计算模块1003。

其中,查找模块1001,用于查找所述待匹配文章与每个所述对象共有的所述主体词,设所述共有的所述主体词为相同主体词,其余的所述主体词为不同主体词。余弦相似度计算模块1002,用于使用所述待匹配文章的所述相同主体词对应的所述修饰词的词向量与相应的所述对象的所述相同主体词对应的所述修饰词的词向量进行余弦相似度计算,以得到所述待匹配文章与相应的所述对象对应的所述相同主体词的相似度系数A1。其中,对象清洗模块14,用于在调用所述相似分数计算模块12之前清洗掉所述相似度系数A1为负数的所述相同主体词所对应的所述对象。距离计算模块1003,用于从所述待匹配文章的所有所述不同主体词中选取TF-IDF最高的至少一个词作为相似主体词,使用所述待匹配文章的所述相似主体词的词向量与对应的所述对象的所述不同主体词的词向量进行距离计算,得到对应的相似主体词距离A2,使用所述相似主体词对应的所述修饰词的词向量与相应的所述对象的所述不同主体词对应的所述修饰词的词向量进行距离计算,得到对应的相似主体词修饰词距离B。

如图4所示,本实施例中,所述相似分数计算模块12,包括第一分数计算模块1201、独立词查找模块1202、第二分数计算模块1203、第三分数计算模块1204、第四分数计算模块1205以及总分数计算模块1206。

其中,第一分数计算模块1201,用于将所述待匹配文章的每个所述相同主体词的TF-IDF表示为W1,设置所述待匹配文章与相应的所述对象对应的所述相同主体词的分数为W1*A1。独立词查找模块1202,用于查找所述待匹配文章与每个所述对象共有的所述独立词,设所述共有的所述独立词为相同独立词,其余的所述独立词为不同独立词。第二分数计算模块1203,用于将所述待匹配文章的每个所述相同独立词的TF-IDF表示为V1,设置所述待匹配文章与相应的所述对象的所述相同独立词的分数为V1。第三分数计算模块1204,用于将所述待匹配文章的每个所述相似主体词的TF-IDF表示为W2,设置所述待匹配文章与相应的所述对象对应的所述相似主体词的分数记为W2*A2*B。第四分数计算模块1205,用于从所述待匹配文章的所有所述不同独立词中选取TF-IDF最高的至少一个词作为相似独立词,使用所述待匹配文章的所述相似独立词的词向量与相应的所述对象的所述不同独立词的词向量进行距离计算,得到相似独立词距离C,所述待匹配文章的所述相似独立词的TF-IDF表示为V2,设置所述待匹配文章与相应的所述对象对应的所述相似独立词的分数记为V2*C。总分数计算模块1206,用于根据相应的W1*A1、V1、W2*A2*B以及V2*C计算得到所述待匹配文章与每个所述对象的所述相似分数。

本实施例提供了一种自动为待匹配文章精准匹配一组对象的系统,能够显著降低人工为待匹配文章挑选对象所耗费的时间,提高自动文案生成的效率。

实施例3

图5为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的为文章匹配对象的方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的为文章匹配对象的方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的为文章匹配对象的方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的为文章匹配对象的方法中的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

下面继续通过具体的例子,进一步说明本发明的技术方案和技术效果。

本例子为基于本发明的技术构思实现的一种为推荐文章精准匹配一组商品的方法,其中包括:

S1、按推荐文章所属类目聚合类目商品,提取类目卖点词集合,并为每个商品提取卖点词,具体包括以下步骤:

第一步:聚类类目商品,以商品标题、属性、单品推荐文章为素材,做分词和依存句法分析标记每个词语的之间的关系,并从中提取主体词-修饰词词对及其它词语。

第二步:统计类目商品其它词语,去除共现率(表示词语在类目商品中出现频率,不是词频,是商品数)大于50%或小于0.1%的词语,即保留共现率在[0.1%,50%]之间的词语;同样的原则对类目主体词做处理,去除主体词无效的修饰词;这样就得到类目主体词-修饰词词对集合及其它词语集合,其它词语集合也即是类目关键词语集合。

第三步:通过类目主体词-修饰词词对集合及类目关键词语集合清洗类目商品的主体词-修饰词词对及其它词语,得到类目商品的关键的主体词-修饰词词对及关键词语。

S2、提取推荐文章中的主体词-修饰词词对及关键词语;具体包括以下步骤:

第一步:对推荐文章做分词和依存句法分析标记每个词语的之间的关系,并从中提取主体词-修饰词词对及其它词语。

第二步:根据上一个流程得到类目主体词-修饰词词对集合及关键词语集合清洗推荐文章的关键词,得到推荐文章的关键的主体词-修饰词词对及关键词语。

第三步:计算推荐文章的全部关键词语的TF-IDF。

S3、为推荐文章匹配商品,具体包括以下步骤:

第一步:清洗掉与推荐文章有相同主体词且修饰词词向量余弦相似度为负的商品,降低计算复杂度。

第二步:找出推荐文章与商品中共有的主体词语及关键词语,计算主体词的修饰词的余弦相似度A,主体词的TF-IDF为W,即每个相同主体词分数为WA,关键词语的TF-IDF为V,即每个相同关键词语分数为V,求和得到S1。

第三步:对推荐文章中的留下来的词语,按照TF-IDF分数排序从高到低,依次从商品中找出距离最近且不为负的主体词和关键词语。相似主体词距离记为A,相似主体词修饰词距离记为B,主体词的TF-IDF为W,即每个主体词分数为WAB。同理,关键词语的距离记为C,关键词语的TF-IDF为V,即每个关键词语分数为VC。求和得到S2。

第四歩:计算推荐文章与商品的相似分数,即S=S1+S2,排序找出前16商品。

本例子提供的自动为推荐文章精准匹配一组商品的方法,能够显著降低人工为推荐文章挑选商品所耗费的时间,提高自动文案生成的效率。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于Spark的电影推荐系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!