基于词向量进行近似搜索快速提取广告文本主题的方法

文档序号:1556949 发布日期:2020-01-21 浏览:14次 >En<

阅读说明:本技术 基于词向量进行近似搜索快速提取广告文本主题的方法 (Method for carrying out approximate search and quickly extracting advertisement text theme based on word vector ) 是由 李新 李征宇 邵品贤 吴小刚 于 2019-09-10 设计创作,主要内容包括:本发明公开了一种基于词向量进行近似搜索快速提取广告文本主题的方法,包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;本发明操作方便,采用本发明可以将GPU-DMM生成模型中单个查询词的搜索复杂度从0(N)下降到0(log N),加速了整个广告文本主题提取过程,大大提升提取速度,整个流程可以在数小时内完成离线处理和无监督训练,能够应对互联网广告行业的大规模数据量与近实时性要求,可以做到按天更新或者按小时更新用户兴趣标签。(The invention discloses a method for carrying out approximate search and quickly extracting advertisement text topics based on word vectors, which comprises the following steps: the method comprises the steps that firstly, a word segmentation tool is utilized, an existing stop word bank is utilized, words which are the same as the stop word bank are searched in an advertisement title and removed, namely stop words in the advertisement title are removed, Chinese words in a corpus are extracted and used as dictionaries, and word segmentation is carried out on advertisement text topics by utilizing the dictionaries; the method is convenient to operate, the search complexity of a single query word in the GPU-DMM generation model can be reduced from 0 (N) to 0 (log N), the whole advertisement text theme extraction process is accelerated, the extraction speed is greatly improved, the whole process can complete off-line processing and unsupervised training within a few hours, the requirements of large-scale data volume and near real-time performance of the Internet advertisement industry can be met, and the user interest label can be updated on a daily basis or on an hourly basis.)

基于词向量进行近似搜索快速提取广告文本主题的方法

技术领域

本发明涉及一种提取广告文本主题的方法,具体涉及一种基于词向量进行近似搜索快速提取广告文本主题的方法。

背景技术

在互联网广告推荐业务中,首先根据用户点击或者浏览的广告文本提取广告文本主题进而确定用户的兴趣标签,如果用户兴趣标签符合广告主的兴趣定向投放要求则将其投放广告,目前提出广告文本主题常见的有LDA和GPU-DMM。

LDA是一种文档主题生成模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布,在LDA估计文档主题过程中,联合概率分布可以通过以下公式计算:

Figure 785014DEST_PATH_IMAGE002

其中:

Figure 921597DEST_PATH_IMAGE003

指的是文档d采用主题k的次数,这个数越大代表该文档越有可能使用主题k;

Figure 590476DEST_PATH_IMAGE004

指的是文档-主题分布的迪利克雷超参数,起到一个平滑的作用;

Figure 770790DEST_PATH_IMAGE005

指的文档d中的词w在主题k中的出现次数;

Figure 462803DEST_PATH_IMAGE006

指的是主题-词语项的迪利克雷超参数,同样能够起到平滑的作用;

Figure 888230DEST_PATH_IMAGE007

代表的是文档d在多大程度上有可能是主题k;

代表的是第k个主题的词概率分布;

从上述公式可以看出,LDA提取主题的过程依赖于相同主题词同时出现提供的信息,但在广告中的文本往往为单个句子,在相同主题词的共现频率上存在极大的稀疏性,而传统的文档主题生成模型难以生成有区分能力的文档主题分布,生成的文档主题难以有语义上的一致性,这成为了准确提取广告标题的瓶颈。

GPU-DMM基于的假设是每个文档由单个主题生成,与LDA相比更加合理,基于GPU-DMM生成文档主题以及每个主题下的词语,为了更好地利用相同主题词共同出现提供的信息,通常在DMM的基础上结合GPU采样过程,对于每次DMM过程中生成的词,会提升该词以及在大规模语料库中与该词相似的词被选中的概率,加强了采样到的主题和相似词之间的语义关联程度,提升了广告标题中几乎不可能同时存在但是语义相近的词出现在同一主题下的概率,使得最终的文档主题分布更准确。在查找相似词的过程中,需要暴力搜索语料库中的词向量找到相似词,现有的大规模开源语料库中一般包含至少百万级别的词语和对应的词向量,而在互联网信息流广告背景下,根据业务规模用户点击的广告文本数量通常在百万级别,出现的词汇量在十万级别,因此在根据GPU-DMM模型提取主题时,如果在语料库中暴力搜索每个词语的相似词,计算复杂度在千亿量级,难以应对互联网行业需要快速实时计算用户兴趣的要求。

发明内容

本发明针对背景技术中的不足,设计了一种基于词向量进行近似搜索快速提取广告文本主题的方法,目的在于:解决现有技术中提取广告文本主题速度慢的问题。

本发明的目的是通过如下途径实现的:

一种基于词向量进行近似搜索快速提取广告文本主题的方法,其特征在于:包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;

第二步,根据语料库中的词向量,采用随机投影算法建立词向量索引;

第三步,索引建立后,读取广告文本主题的分词结果,找到每个分词后的词的词向量,通过近似最近邻搜索ANN算法从索引中快速查找查询词的最近邻词向量,通过余弦相似度来计算两个词向量之间的相似度,获取五十个以上的相似词,作为广告文本主题模型的基础数据;

第四步,结合GPU-DMM模型和上述第三步中获取的广告文本主题模型的基础数据生成文本主题及文本主题下的词语;

第五步,根据用户点击过的广告文本以及第四步中生成的文本主题确定用户兴趣标签,将用户兴趣标签存入到Redis等实时Key-Value标签系统,在该用户下一次访问网站时,如果带有的标签符合某个或多个广告主的定向投放要求,则认为该用户是广告主的目标用户,对其投放广告主预先设定的广告。

所述采用随机投影算法建立词向量索引包括索引阶段和查询阶段,所述索引阶段是构造一系列二叉树,在每个二叉树节点***的时候用随机超平面进行切分,在进行搜索的时候基于随机超平面判断是搜索左子树还是右子树;所述查询阶段是将每棵二叉树的根节点***到优先队列, 然后用优先队列搜索每棵二叉树,直到查找到了K个候选节点,之后移除重复的候选节点,计算候选节点到查询节点的距离并排序TopN的节点。

所述随机超平面指的是在节点中任意选取两点,然后用到两点的距离相等的超平面切分节点的所有点,如果两个点离得够近的话,任意两个超平面都不会将其分离。

本发明的有益效果:

本发明操作方便,采用本发明可以将GPU-DMM生成模型中单个查询词的搜索复杂度从0(N)下降到0(log N),加速了整个广告文本主题提取过程,大大提升提取速度,整个流程可以在数小时内完成离线处理和无监督训练,能够应对互联网广告行业的大规模数据量与近实时性要求,可以做到按天更新或者按小时更新用户兴趣标签,除此之外,本发明通过将提取用户点击的信息流广告文本主题映射到用户兴趣标签,作为精准投放广告的依据,提取准确性高。

附图说明

图1为本发明流程图。

具体实施方式

如图1所示,本发明公开了一种基于词向量进行近似搜索快速提取广告文本主题的方法,包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,基于前缀树实现词图扫描,生成句子中汉字所有可能成词情况构成的有向无环图 (DAG),通过动态规划寻找最大概率路径, 找出基于词频的最大切分组合,对广告文本主题进行分词;

第二步,根据语料库中的词向量,采用随机投影算法建立词向量索引;

第三步,索引建立后,读取广告文本主题的分词结果,找到每个分词后的词的词向量,通过近似最近邻搜索ANN算法从索引中快速查找查询词的最近邻词向量,通过余弦相似度来计算两个词向量之间的相似度,获取五十个以上的相似词,作为广告文本主题模型的基础数据;

第四步,结合GPU-DMM模型和上述第三步中获取的广告文本主题模型的基础数据生成文本主题及文本主题下的词语;

第五步,根据用户点击过的广告文本以及第四步中生成的文本主题确定用户兴趣标签,将用户兴趣标签存入到Redis等实时Key-Value标签系统,在该用户下一次访问网站时,如果带有的标签符合某个或多个广告主的定向投放要求,则认为该用户是广告主的目标用户,对其投放广告主预先设定的广告。

所述采用随机投影算法建立词向量索引包括索引阶段和查询阶段,所述索引阶段是构造一系列二叉树,在每个二叉树节点***的时候用随机超平面进行切分,在进行搜索的时候基于超平面判断是搜索左子树还是右子树,实际上在建立索引过程中,每个中间节点都定义了一个随机超平面,在叶子节点存储的是距离相近的n个数据;所述查询阶段是将每棵二叉树的根节点***到优先队列, 然后用优先队列搜索每棵二叉树,直到查找到了K个候选节点,之后移除重复的候选节点,计算候选节点到查询节点的距离并排序TopN的节点。

所述随机超平面指的是在节点中任意选取两点,然后用到两点的距离相等的超平面切分节点的所有点,如果两个点离得够近的话,任意两个超平面都不会将其分离。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于深度学习的词句级短文本分类方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!