搜索方法、装置及服务器和计算机可读存储介质

文档序号:987773 发布日期:2020-11-06 浏览:1次 >En<

阅读说明:本技术 搜索方法、装置及服务器和计算机可读存储介质 (Search method, search device, server and computer-readable storage medium ) 是由 万鑫瑞 于 2020-07-15 设计创作,主要内容包括:本申请公开了一种搜索方法、装置、系统及一种服务器和计算机可读存储介质,该方法包括:获取搜索语句,确定所述搜索语句中的所有分词,并连接每两个相邻分词得到词语对;基于历史点击数据确定所述搜索语句对应的相关搜索语句集和相关文档集;在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息,在所述相关文档集统计预设时间段内每个所述词语对的第二点击信息;通过拟合所述第一点击信息和所述第二点击信息得到每个所述词语对的紧密度;基于所有所述词语对的紧密度进行搜索得到所述搜索语句对应的搜索结果。由此可见,本申请提供的搜索方法,提高了紧密度计算的准确度,从而提高了搜索准确度。(The application discloses a searching method, a searching device, a searching system, a server and a computer readable storage medium, wherein the method comprises the following steps: acquiring a search sentence, determining all participles in the search sentence, and connecting every two adjacent participles to obtain a word pair; determining a related search statement set and a related document set corresponding to the search statement based on historical click data; counting first click information of each word pair in a preset time period in the related search statement set, and counting second click information of each word pair in the preset time period in the related document set; obtaining closeness of each word pair by fitting the first click information and the second click information; and searching based on the closeness of all the word pairs to obtain a search result corresponding to the search statement. Therefore, the searching method provided by the application improves the accuracy of the compactness calculation, so that the searching accuracy is improved.)

搜索方法、装置及服务器和计算机可读存储介质

技术领域

本申请涉及搜索技术领域,更具体地说,涉及搜索方法、装置及服务器和计算机可读存储介质。

背景技术

在音乐领域中,搜索通过计算搜索语句(query)与音乐文档(Doc)之间的相关性,将相关性高的数据召回并排序,展现给用户。由于音乐文档通常可以通过歌手名、歌曲名、专辑名等专名词划分为多个文本字段,通过计算文本字段内的覆盖率及最小距离以计算相关性。此时如果query中的词语在文本字段内分散命中,或没有考虑到某些词语间需要紧邻命中的需求,导致召回一些相关性其实很差的结果。影响线上排序结果。

在相关技术中,由于搜索的query多种多样,音乐领域又有很多特有的实体名词,网络用语及别名等问题,因此,在实现本发明过程中,发明人发现相关技术中至少存在如下问题:计算出来的紧密度的准确度较低,进而导致搜索结果的不准确。

发明内容

本申请的目的在于提供一种搜索方法、装置及一种服务器和一种计算机可读存储介质,提高了紧密度计算的准确度,从而提高了搜索准确度。

为实现上述目的,本申请第一方面提供了一种搜索方法,包括:

获取搜索语句,确定所述搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

基于历史点击数据确定所述搜索语句对应的相关搜索语句集和相关文档集;其中,所述相关文档集包括所述搜索语句的相关文档,所述相关文档为所述搜索语句对应的召回结果中被点击的文档,所述相关搜索语句集包括所述搜索语句的相关搜索语句,所述搜索语句与所述相关搜索语句的相关文档相同;

在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息,在所述相关文档集统计预设时间段内每个所述词语对的第二点击信息;

通过拟合所述第一点击信息和所述第二点击信息得到每个所述词语对的紧密度;

基于所有所述词语对的紧密度进行搜索得到所述搜索语句对应的搜索结果。

为实现上述目的,本申请第二方面提供了一种搜索装置,包括:

获取模块,用于获取搜索语句,确定所述搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

第一确定模块,用于基于历史点击数据确定所述搜索语句对应的相关搜索语句集和相关文档集;其中,所述相关文档集包括所述搜索语句的相关文档,所述相关文档为所述搜索语句对应的召回结果中被点击的文档,所述相关搜索语句集包括所述搜索语句的相关搜索语句,所述搜索语句与所述相关搜索语句的相关文档相同;

统计模块,用于在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息,在所述相关文档集统计预设时间段内每个所述词语对的第二点击信息;

拟合模块,用于通过拟合所述第一点击信息和所述第二点击信息得到每个所述词语对的紧密度;

搜索模块,用于基于所有所述词语对的紧密度进行搜索得到所述搜索语句对应的搜索结果。

为实现上述目的,本申请第三方面提供了一种服务器,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上述搜索方法的步骤。

为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述搜索方法的步骤。

通过以上方案可知,本申请提供的一种搜索方法,包括:获取搜索语句,确定所述搜索语句中的所有分词,并连接每两个相邻分词得到词语对;基于历史点击数据确定所述搜索语句对应的相关搜索语句集和相关文档集;在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息,在所述相关文档集统计预设时间段内每个所述词语对的第二点击信息;通过拟合所述第一点击信息和所述第二点击信息得到每个所述词语对的紧密度;基于所有所述词语对的紧密度进行搜索得到所述搜索语句对应的搜索结果。

本申请提供的搜索方法,基于用户的历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集,在其中分别统计每个词语对的点击信息,从而拟合得到每个词语对的紧密度。由于用户的历史点击数据具有反馈纠正的特点,据此计算得到的紧密度准确度较高。由此可见,本申请提供的搜索方法,基于用户的历史点击数据计算紧密度,解决了相关技术中紧密度计算准确度较低的技术问题,从而提高了搜索准确度。

本申请还公开了一种搜索装置及一种服务器和一种计算机可读存储介质,同样能实现上述技术效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的

具体实施方式

一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本申请实施例提供的一种搜索系统的架构图;

图2为本申请实施例提供的第一种搜索方法的流程图;

图3为本申请实施例提供的第二种搜索方法的流程图;

图4为本申请实施例提供的第三种搜索方法的流程图;

图5为本申请实施例提供的第四种搜索方法的流程图;

图6为本申请实施例提供的第五种搜索方法的流程图;

图7为本申请实施例提供的一种搜索装置的结构图;

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

本申请的申请人经研究发现,音乐领域具有天然的结构化数据,导致词语之间的紧密关系和常规语言不一致,例如,词语与停用词之间可能紧密。

具体的,如表1所示:

表1

Figure BDA0002585397490000041

另外,不同query中相同词语对的紧密程度应该不同,相关技术并不能依据不同query进行适应性改正。在相关技术中,无法充分利用搜索上用户点击的数据,没有利用到用户点击到的音乐文档信息;无法兼顾音乐领域上的搜索具有时新性的特点,无法计算网络上的新出现的流行用语紧密度。

因此,在本申请中,综合考虑了音乐领域中文档具体结构化的特点、时新性的特点与用户点击行为,使得紧密度的计算方式能更好的贴合音乐领域的紧密度计算,使得计算更加精确,帮助搜索得到满意的答案。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了便于理解本申请提供的搜索语句响应方法,下面对其使用的系统进行介绍。参见图1,其示出了本申请实施例提供的一种搜索系统的架构图,如图1所示,包括交互设备10、服务器20。其中,交互设备10与服务器20之间通过网络30进行通信连接。

其中,交互设备10用于与用户进行交互,可以为AI(中文全称:人工智能,英文全称:Artificial Intelligence)设备,例如智能音箱等,也可以为PC(中文全称:个人计算机,英文全称:Personal Computer)等固定终端和手机等移动终端,在此不进行具体限定。交互设备10能够接收用户输入的搜索语句,可以支持用户的语音输入、也可以支持用户的文字输入,即该搜索语句可以为语音形式,也可以为文字形式。具体的,当交互设备10接收到用户的搜索语句之后,可以首先分析该搜索语句为语音形式还是文字形式,若该搜索语句为语音形式,此时可以其进行语音识别,得到对应的文字形式,以便服务器20对文字形式的搜索语句进行处理。

服务器20为交互设备10对应的后台服务器,用于对交互设备10传入的搜索语句进行处理。首先,基于用户的历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集,其次,在相关搜索语句集和相关文档集中分别统计每个词语对的点击信息,最后,拟合得到每个词语对的紧密度,该紧密度可以指导后续的搜索,以提高搜索的准确度。

本申请实施例公开了一种搜索方法,提高了紧密度计算的准确度,从而提高了搜索准确度。

参见图2,本申请实施例提供的第一种搜索方法的流程图,如图2所示,包括:

S101:交互设备向服务器发送搜索语句;

在本步骤中,交互设备获取用户通过语音或文字形式输入的搜索语句,对于语音形式的搜索语句对其进行语音识别得到文字形式的搜索语句,发送至对应的服务器。

S102:服务器确定搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

在具体实施中,用户输入的搜索语句中包含多个分词,相邻的两个分词可以组成一个词语对。首先对用户输入的搜索语句进行分词处理得到该搜索语句中的所有分词,(term1,term2,…,termn)=Segment(query),其中,query为用户输入的搜索语句,Segment()为分词函数,termi为该搜索语句中的第i个分词,1≤i≤n。例如,用户输入的搜索语句为“我的小宝贝”,分词结果为:我、的、小、宝贝。其次,连接每两个相邻分词得到搜索语句包含的所有词语对,在上述例子中,该搜索语句包含的词语对为:我的、的小、小宝贝。

S103:服务器基于历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集;

其中,所述相关文档集包括所述搜索语句的相关文档,所述相关文档为所述搜索语句对应的召回结果中被点击的文档,所述相关搜索语句集包括所述搜索语句的相关搜索语句,所述搜索语句与所述相关搜索语句的相关文档相同;

在本步骤中,将点击到同一文档的搜索语句相连接,建立搜索语句与相关搜索语句的对应关系,进而确定用户输入的搜索语句对应的相关搜索语句集。同时,对于用户输入的搜索语句的召回结果,基于用户的历史点击数据在其中选择用户点击过的文档,组成该搜索语句对应的相关文档集。

S104:服务器在相关搜索语句集中统计预设时间段内每个词语对的第一点击信息,在相关文档集统计预设时间段内每个词语对的第二点击信息;

在具体实施中,在相关搜索语句集和相关文档集中分别统计预设时间段内每个词语对的点击信息。作为一种优选实施方式,可以利用音乐领域中文档的结构化特点进行统计,即在相关文档集统计预设时间段内每个词语对的第二点击信息的步骤可以包括:依据命名实体对相关文档集中的每个文档进行结构划分得到每个文档对应的结构化数据;基于结构化数据统计预设时间段内的每个词语对第二点击信息。在具体实施中,可以依据命名实体对相关文档集中的每个文档进行结构划分,音乐领域的命名实体例如“歌手名”、“歌曲名”、“专辑名”、“影视名”、“翻译名”和“别名”等,结构化数据DocInfo=List[歌曲名,歌手名,专辑名,影视名,翻译名,别名等]。对于一个召回文档,若其为通过歌词召回,则将歌词按句进行划分,DocInfo=List[歌词1,歌词2,…]。在结构化数据统计预设时间段内的每个词语对第二点击信息,可以提高点击信息的统计效率。

S105:服务器通过拟合第一点击信息和第二点击信息得到每个词语对的紧密度;

在本步骤中,服务器通过拟合第一点击信息与第二点击信息得到每个词语对的紧密度。需要说明的是,本实施例不对具体的拟合方式进行限定,作为一种可行的实施方式,可以采用加权拟合的方式,即本步骤可以包括:为第一点击信息分配第一权重,为第二点击信息分配第二权重;基于第一权重和第二权重对第一点击信息和第二点击信息进行加权拟合得到每个词语对的紧密度。

S106:服务器基于所有词语对的紧密度进行搜索得到搜索语句对应的搜索结果;

在具体实施中,搜索语句中每个词语对的紧密度可以指导后续的搜索步骤。一方面,可以基于紧密度判断词语对中的两个分词是否属于同一搜索词。例如,搜索语句“我和我的祖国王菲”包括词语对:我和、和我、我的、的祖国、祖国王、王菲,在相关技术中,计算得到我和、和我、我的、的祖国、祖国王的紧密度很低,因此搜索语句“我和我的祖国王菲”包括搜索词:我、和、的、祖国、王菲,只要包含上述搜索词即可认为该搜索语句对应的搜索结果,各搜索词的位置关系不需要与搜索语句完全一致,可见由于相关技术中计算的词语对紧密度不符合音乐领域中词语间的紧密度关系,因此得到的搜索词不能适用于音乐文档。而本实施例计算得到的各词语对的紧密度分别为:0.968、0.993、0.979、0.996、0.0005、0.973,可以认为紧密度大于0.9的词语对属于同一搜索词,因此,搜索语句“我和我的祖国王菲”中包括两个搜索词:我和我的祖国、王菲,适用于音乐文档,提高了确定搜索词的准确性。另一方面,也可以综合各分词的紧密度与其他分词信息确定每个搜索词的必留结果,从而进行搜索得到搜索语句对应的搜索结果。对于上述例子,根据搜索词“我和我的祖国”中各分词的分词信息(可以包括紧密度、命名实体和重要度等)确定其为必留搜索词,而根据搜索词“王菲”中各分词的分词信息确定其为非必留搜索词,搜索关键字至少包括一个必留搜索词,因此搜索语句“我和我的祖国王菲”对应的搜索关键字为“我和我的祖国王菲”、“我和我的祖国”,利用上述搜索关键字进行搜索得到该搜索语句对应的搜索结果。由于本实施例计算得到的紧密度符合音乐领域词语间的紧密度关系,据此确定的必留搜索词适用于音乐领域,提高了搜索准确度。

S107:服务器向交互设备返回搜索结果。

本申请实施例提供的搜索方法,基于用户的历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集,在其中分别统计每个词语对的点击信息,从而拟合得到每个词语对的紧密度。由于用户的历史点击数据具有反馈纠正的特点,据此计算得到的紧密度准确度较高。由此可见,本申请实施例提供的搜索方法,基于用户的历史点击数据计算紧密度,解决了相关技术中紧密度计算准确度较低的技术问题,从而提高了搜索准确度。

本申请实施例公开了一种搜索方法,相对于前述实施例,本实施例对技术方案作了进一步的说明和优化,将以上述服务器为执行主体进行介绍。具体的:

参见图3,本申请实施例提供的第二种搜索方法的流程图,如图3所示,包括:

S201:获取搜索语句,确定搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

S202:基于历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集;

S203:在相关搜索语句集中统计预设时间段内每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第一点击信息,通过拟合每个词语对对应的所有候选第一点击信息得到第一点击信息;

在本实施例中,在相关搜索语句集中统计预设时间段内每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息。词语对AB全上下文模式的点击信息full_contexcount(x,AB,y)=Σif(AB in qanchor)×1,x表示位于词语对AB之前的分词,y表示位于词语对AB之后的分词,qanchor为相关搜索语句集中的相关搜索语句,AB inqanchor表示相关搜索语句中包括词语对AB,该式的含义为所有包含词语对AB的相关搜索语句的数量总和。词语对AB单上文模式的点击信息above_contexcount(x,AB)=Σif(AB isthe end of qanchor)×1,AB is the end of qanchor表示词语对AB位于相关搜索语句的结尾,该式的含义为所有结尾为词语对AB的相关搜索语句的数量总和。词语对AB单下文模式的点击信息below_contexcount(AB,y)=Σif(AB is the begin of qanchor)×1,AB isthe begin of qanchor)表示词语对AB位于相关搜索语句的开头,该式的含义为所有开头为词语对AB的相关搜索语句的数量总和。词语对AB无上下文模式的点击信息no_contexcount(AB)=Σif(AB equal qanchor)×1,AB equal qanchor表示相关搜索语句等于词语对AB,即相关搜索语句仅包括词语对AB,该式的含义为仅包括词语对AB的相关搜索语句的数量总和。

在具体实施中,通过拟合每个词语对对应的所有候选第一点击信息可以得到该词语对对应的第一点击信息。本实施例同样不对具体的拟合方式进行限定,作为一种可行的实施方式,可以采用加权拟合的方式,即在本步骤之前还包括:为全上下文模式、单上文模式、单下文模式和无上下文模式分配对应的权重,通过拟合每个词语对对应的所有候选第一点击信息得到第一点击信息的步骤包括:基于权重对每个词语对对应的所有候选第一点击信息进行加权拟合得到第一点击信息。

S204:在相关文档集中统计预设时间段内每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第二点击信息,通过拟合每个词语对对应的所有候选第二点击信息得到第二点击信息。

在本步骤中,在相关文档集中统计预设时间段内每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息。对于结构化的文档,统计方式如下:

For info in DocInfo:

if{(x,AB,y)in info||(AB,y)in info||(x,AB)in info||(AB)in info)}:

对应的模式count+1

Break

其中,DocInfo为相关文档集对应的结构化数据,Info为DocInfo中的每条记录,即每个相关文档对应的结构化数据。只要满足上述if条件语句中的一个条件则将对应模式count+1并跳出循环。其中,(x,AB,y)in info表示相关文档的结构化数据中包含(x,AB,y),则将词语对AB的全上下文模式的点击信息增加1,(AB,y)in info表示相关文档的结构化数据的开头为(AB,y),则将词语对AB的单下文模式的点击信息增加1,(x,AB)in info表示相关文档的结构化数据的结尾为(x,AB),则将词语对AB的单上文模式的点击信息增加1,(AB)in info表示相关文档的结构化数据仅包括(x,AB),则将词语对AB的无上下文模式的点击信息增加1。由于info均为结构化数据,表明该数据为一个完整的命名实体,利用到了词典信息,因此不必过多统计。

在具体实施中,通过拟合每个词语对对应的所有候选第二点击信息可以得到该词语对对应的第二点击信息。此处同样不对具体的拟合方式进行限定,对于加权拟合的方式,通过拟合每个词语对对应的所有候选第二点击信息得到第二点击信息的步骤包括:基于权重对每个词语对对应的所有候选第二点击信息进行加权拟合得到第二点击信息。

S205:通过拟合第一点击信息和第二点击信息得到每个词语对的紧密度;

S206:基于所有词语对的紧密度进行搜索得到搜索语句对应的搜索结果。

由此可见,本实施例在相关搜索语句集和相关文档集中分别统计每个词语对四种模式下的点击信息,通过对四种模式下的点击信息进行拟合的方式得到相关搜索语句集对应的第一点击信息和相关文档集对应的第二点击信息,提高了点击信息统计的准确度。

本申请实施例公开了一种搜索方法,相对于第一实施例,本实施例对技术方案作了进一步的说明和优化,将以上述服务器为执行主体进行介绍。具体的:

参见图4,本申请实施例提供的第三种搜索方法的流程图,如图4所示,包括:

S301:获取搜索语句,确定搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

S302:基于历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集;

S303:在相关搜索语句集中统计预设时间段内每个词语对的第一点击信息,在相关文档集统计预设时间段内每个词语对的第二点击信息;

S304:确定预设时间段对应的修正系数;其中,修正系数与预设时间段与当前时间之间的时间跨度呈负相关;

S305:通过拟合第一点击信息和第二点击信息得到每个词语对的紧密度;

S306:利用所述修正系数对每个所述词语对的紧密度进行修正;

由于音乐领域的文档具有较高的时新性,因此在本实施例中引入预设时间端对应的修正系数,对第一点击信息和第二点击信息进行修正,进一步提高了紧密度计算的准确度。可以理解的是,预设时间段距离当前时间越近,其修正系数越大,即增强新数据的影响并降低过去数据的影响,增加对网络流行词语对紧密度计算的敏感性。作为一种可行的实施方式,可以采用艾宾浩斯遗忘曲线:

contextcount_month=calTimeFactor(t)×context_count;

其中,t为预设时间段与当前时间之间的时间跨度,calTimeFactor(t)为calTimeFactor(t)=e^(-t/60),记忆强度可以设置为60,context_count为第一点击信息和第二点击信息拟合后的紧密度。

S307:基于所有词语对的紧密度进行搜索得到搜索语句对应的搜索结果。

由此可见,本实施例综合考虑了音乐领域中文档具体时新性的特点与用户点击行为,引入预设时间端对应的修正系数,对第一点击信息和第二点击信息进行修正,使得紧密度的计算方式能更好的贴合音乐领域的紧密度计算,提高了紧密度计算的准确度。

本申请实施例公开了一种搜索方法,相对于第一实施例,本实施例对技术方案作了进一步的说明和优化,将以上述服务器为执行主体进行介绍。具体的:

参见图5,本申请实施例提供的第四种搜索方法的流程图,如图5所示,包括:

S401:获取搜索语句,确定搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

S402:基于历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集;

S403:在相关搜索语句集中统计预设时间段内每个词语对的第一点击信息,在相关文档集统计预设时间段内每个词语对的第二点击信息;

S404:通过拟合第一点击信息和第二点击信息得到每个词语对的紧密度;

S405:计算每个词语对中第一分词的左熵和第二分词的右熵;其中,第一分词为对应词语对中的第一个分词,第二分词为对应词语对中的最后一个个分词;

在本步骤中,对于词语对AB,计算第一分词A的左熵和第二分词B的右熵:

左熵(A)=-∑x∈所有出现在A左边的词p(xA|A)log2p(xA|A);

右熵(B)=-∑x∈所有出现在A右边的词p(Ay|A)log2p(Ay|A);

左右熵表示这个词组与其他字组合在一起的概率,左右熵越高,表示这个词组与其他词组合的概率越高,更有可能组合为一个搜索词。

S406:判断第一分词与第二分词是否属于同一命名实体得到第一判断结果,判断左熵和右熵是否均大于预设值得到第二判断结果;

S407:基于第一判断结果和第二判断结果得到每个词语对的紧密度修正参数,并利用紧密度修正参数对紧密度进行修正。

S408:基于所有词语对修正后的紧密度进行搜索得到搜索语句对应的搜索结果。

在具体实施中,可以依据下述公式对紧密度进行修正:

Adjoin_key(A,B)=Adjoin(A,B)×(1+e1×isNer(AB)+e2×isLowEntropy(A,B));

其中,Adjoin_key(A,B)为词语对AB修正后的紧密度,Adjoin(A,B)为第一点击信息和第二点击信息拟合后得到的词语对AB的紧密度。isNer(AB)表示第一分词A和第二分词B是否属于同一命名实体(即第一判断结果),是为1,否为-1。isLowEntropy表示第一分词A的左熵和第二分词B的右熵是否均大于预设值(即第二判断结果),是为1,否为-1。e1为第一判断结果的权重,e2为第二判断结果的权重。

由此可见,本实施例利用左右熵对紧密度进行调整,进一步提高了紧密度计算的准确度。

本申请实施例公开了一种搜索方法,相对于前几个实施例,本实施例对技术方案作了进一步的说明和优化,将以上述服务器为执行主体进行介绍。

具体的:

参见图6,本申请实施例提供的第五种搜索方法的流程图,如图6所示,包括:

S501:获取搜索语句,确定搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

S502:基于历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集;

S503:为全上下文模式、单上文模式、单下文模式和无上下文模式分配对应的权重;

S504:在相关搜索语句集中统计预设时间段内每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第一点击信息;

S505:基于权重对每个词语对对应的所有候选第一点击信息进行加权拟合得到第一点击信息;

S506:依据命名实体对相关文档集中的每个文档进行结构划分得到每个文档对应的结构化数据;

S507:基于结构化数据统计预设时间段内的每个词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第二点击信息;

S508:基于权重对每个词语对对应的所有候选第二点击信息进行加权拟合得到第二点击信息;

S509:确定预设时间段对应的修正系数;其中,修正系数与预设时间段与当前时间之间的时间跨度呈负相关;

S510:为第一点击信息分配第一权重,为第二点击信息分配第二权重;

S511:基于第一权重和第二权重对第一点击信息和第二点击信息进行加权拟合得到每个词语对的紧密度;

S512:利用所述修正系数对每个所述词语对的紧密度进行修正;

S513:计算每个词语对中第一分词的左熵和第二分词的右熵;其中,第一分词为对应词语对中的第一个分词,第二分词为对应词语对中的最后一个个分词;

S514:判断第一分词与第二分词是否属于同一命名实体得到第一判断结果,判断左熵和右熵是否均大于预设值得到第二判断结果;

S515:基于第一判断结果和第二判断结果得到每个词语对的紧密度修正参数,并利用紧密度修正参数对紧密度进行修正。

S516:基于所有词语对修正后的紧密度进行搜索得到搜索语句对应的搜索结果。

由此可见,本实施例在相关搜索语句集和相关文档集中分别统计每个词语对四种模式下的点击信息,通过对四种模式下的点击信息进行拟合的方式得到相关搜索语句集对应的第一点击信息和相关文档集对应的第二点击信息,提高了点击信息统计的准确度。综合考虑了音乐领域中文档具体时新性的特点与用户点击行为,并利用左右熵对紧密度进行调整,使得紧密度的计算方式能更好的贴合音乐领域的紧密度计算,进一步提高了紧密度计算的准确度。

下面对本申请实施例提供的一种搜索装置进行介绍,下文描述的一种搜索装置与上文描述的一种搜索方法可以相互参照。

参见图7,本申请实施例提供的一种搜索装置的结构图,如图7所示,包括:

获取模块701,用于获取搜索语句,确定所述搜索语句中的所有分词,并连接每两个相邻分词得到词语对;

第一确定模块702,用于基于历史点击数据确定所述搜索语句对应的相关搜索语句集和相关文档集;其中,所述相关文档集包括所述搜索语句的相关文档,所述相关文档为所述搜索语句对应的召回结果中被点击的文档,所述相关搜索语句集包括所述搜索语句的相关搜索语句,所述搜索语句与所述相关搜索语句的相关文档相同;

统计模块703,用于在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息,在所述相关文档集统计预设时间段内每个所述词语对的第二点击信息;

拟合模块704,用于通过拟合所述第一点击信息和所述第二点击信息得到每个所述词语对的紧密度;

搜索模块705,用于基于所有所述词语对的紧密度进行搜索得到所述搜索语句对应的搜索结果。

本申请实施例提供的搜索装置,基于用户的历史点击数据确定搜索语句对应的相关搜索语句集和相关文档集,在其中分别统计每个词语对的点击信息,从而拟合得到每个词语对的紧密度。由于用户的历史点击数据具有反馈纠正的特点,据此计算得到的紧密度准确度较高。由此可见,本申请实施例提供的搜索装置,基于用户的历史点击数据计算紧密度,解决了相关技术中紧密度计算准确度较低的技术问题,从而提高了搜索准确度。

在上述实施例的基础上,作为一种优选实施方式,所述统计模块703包括:

第一统计单元,用于在所述相关搜索语句集中统计预设时间段内每个所述词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第一点击信息,通过拟合每个所述词语对对应的所有所述候选第一点击信息得到所述第一点击信息;

第二统计单元,用于在所述相关文档集中统计预设时间段内每个所述词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第二点击信息,通过拟合每个所述词语对对应的所有所述候选第二点击信息得到所述第二点击信息。

在上述实施例的基础上,作为一种优选实施方式,所述统计模块703还包括:

第一分配单元,用于为所述全上下文模式、所述单上文模式、所述单下文模式和无上下文模式分配对应的权重;

相应的,所述第一统计单元具体为在所述相关搜索语句集中统计预设时间段内每个所述词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第一点击信息,基于所述权重对每个所述词语对对应的所有所述候选第一点击信息进行加权拟合得到所述第一点击信息的单元;

所述第二统计单元具体为在所述相关文档集中统计预设时间段内每个所述词语对全上下文模式、单上文模式、单下文模式和无上下文模式下的点击信息作为候选第二点击信息,基于所述权重对每个所述词语对对应的所有所述候选第二点击信息进行加权拟合得到所述第二点击信息的单元。

在上述实施例的基础上,作为一种优选实施方式,所述拟合模块704包括:

第二分配单元,用于为所述第一点击信息分配第一权重,为所述第二点击信息分配第二权重;

拟合单元,用于基于所述第一权重和所述第二权重对所述第一点击信息和所述第二点击信息进行加权拟合得到每个所述词语对的紧密度。

在上述实施例的基础上,作为一种优选实施方式,所述统计模块703包括:

第三统计单元,用于在所述相关搜索语句集中统计预设时间段内每个所述词语对的第一点击信息;

划分单元,用于依据命名实体对所述相关文档集中的每个文档进行结构划分得到每个所述文档对应的结构化数据;

第四统计单元,用于基于所述结构化数据统计预设时间段内的每个所述词语对第二点击信息。

在上述实施例的基础上,作为一种优选实施方式,还包括:

第二确定模块,用于确定所述预设时间段对应的修正系数;其中,所述修正系数与所述预设时间段与当前时间之间的时间跨度呈负相关;

第一修正模块,用于利用所述修正系数对每个所述词语对的紧密度进行修正。

在上述实施例的基础上,作为一种优选实施方式,还包括:

计算模块,用于计算每个所述词语对中第一分词的左熵和第二分词的右熵;其中,所述第一分词为对应词语对中的第一个分词,所述第二分词为对应词语对中的最后一个个分词;

判断模块,用于判断所述第一分词与所述第二分词是否属于同一命名实体得到第一判断结果,判断所述左熵和所述右熵是否均大于预设值得到第二判断结果;

第二修正模块,用于基于所述第一判断结果和所述第二判断结果得到每个所述词语对的紧密度修正参数,并利用所述紧密度修正参数对所述紧密度进行修正。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。对于该硬件,本申请还提供了一种服务器,参见图8,本申请实施例提供的一种服务器80的结构图,如图8所示,可以包括处理器81和存储器82。

其中,处理器81可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器81可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器81可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器81还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器82可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器82还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器82至少用于存储以下计算机程序821,其中,该计算机程序被处理器81加载并执行之后,能够实现前述任一实施例公开的由服务器侧执行的搜索方法中的相关步骤。另外,存储器82所存储的资源还可以包括操作系统822和数据823等,存储方式可以是短暂存储或者永久存储。其中,操作系统822可以包括Windows、Unix、Linux等。

在一些实施例中,服务器80还可包括有显示屏83、输入输出接口84、通信接口85、传感器86、电源87以及通信总线88。

当然,图8所示的服务器的结构并不构成对本申请实施例中服务器的限定,在实际应用中服务器可以包括比图8所示的更多或更少的部件,或者组合某些部件。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例服务器所执行的搜索方法的步骤。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:视频特征提取方法及应用该方法的视频量化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!