一种搜索结果多样化均衡化搜索方法及计算机设备

文档序号:1952966 发布日期:2021-12-10 浏览:13次 >En<

阅读说明:本技术 一种搜索结果多样化均衡化搜索方法及计算机设备 (Search result diversification and equalization searching method and computer equipment ) 是由 包伟 于 2021-08-16 设计创作,主要内容包括:本发明涉及一种搜索结果多样化均衡化搜索方法及计算机设备。该方法包括下述步骤:S1、建立行业词库,行业词库包括多个行业专业词汇;将各类型原始数据模型转化为预设数据模型;S2、接收用户输入的搜索内容,按照行业词库从搜索内容中提取搜索关键词;S3、使用搜索关键词检索所所有预设数据模型,计算搜索结果中每个预设数据模型的总权重值,根据总权重值对搜索结果进行排序。本发明将各类型原始数据模型统一转化为预设数据模型,避免因数据类型的表现形式影响搜索,使得搜索结果更加多样化均衡化。(The invention relates to a search result diversification and equalization searching method and computer equipment. The method comprises the following steps: s1, establishing an industry word bank, wherein the industry word bank comprises a plurality of industry professional vocabularies; converting each type of original data model into a preset data model; s2, receiving search contents input by a user, and extracting search keywords from the search contents according to an industry word bank; s3, retrieving all preset data models by using the search keywords, calculating the total weight value of each preset data model in the search results, and sorting the search results according to the total weight values. According to the invention, various types of original data models are uniformly converted into the preset data models, so that the influence on the search caused by the expression form of the data types is avoided, and the search results are diversified and balanced.)

一种搜索结果多样化均衡化搜索方法及计算机设备

技术领域

本发明涉及搜索领域,更具体地说,涉及一种搜索结果多样化均衡化搜索方法及计算机设备。

背景技术

搜索技术是互联网常用技术,用户通过输入搜索内容查找目标内容。现有搜索技术中多数仅考虑搜索内容和目标内容的关联性,例如出现次数越高则关联性越高,按照关联性高低进行排序显示,这种搜索方式没有考虑目标内容的种类多样性,导致一些种类的目标内容很少被展示,而一些种类的目标内容又过多被展示,搜索结果不够多样化均衡化。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种搜索结果多样化均衡化搜索方法及计算机设备。

本发明解决其技术问题所采用的技术方案是:构造一种搜索结果多样化均衡化搜索方法,包括下述步骤:

S1、建立行业词库,所述行业词库包括多个行业专业词汇;将各类型原始数据模型转化为预设数据模型;

S2、接收用户输入的搜索内容,按照所述行业词库从所述搜索内容中提取搜索关键词;

S3、使用所述搜索关键词检索所所有所述预设数据模型,计算搜索结果中每个所述预设数据模型的总权重值,根据所述总权重值对搜索结果进行排序。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,所述预设数据模型包括内容标题、内容摘要、正文、关键词和内容类型。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,所述步骤S1中将各类型原始数据模型转化为预设数据模型包括:

将各类型原始数据模型转化为预设数据模型并设置所述预设数据模型各部分内容的权重值,其中所述关键词的权重值大于所述内容标题的权重值,所述内容标题的权重值大于所述内容摘要的权重值,所述内容摘要的权重值大于所述正文的权重值。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,所述步骤S3中计算搜索结果中每个所述预设数据模型的总权重值包括:分别计算所述搜索关键词在所述内容标题、内容摘要、正文、关键词和内容类型的分权重值,由所有所述分权重值得到总权重值。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,在计算所述搜索关键词在所述内容标题、内容摘要、正文、关键词和内容类型的分权重值时,所述分权重值与所述搜索关键词出现次数正相关。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,在所述步骤S3之后还包括:

S4、根据所述搜索结果中各类型数据模型对应预设数据模型的分布情况调整所述预设数据模型各部分内容的权重值,以使所述搜索结果中各类型分布均衡。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,所述步骤S3中使用所述搜索关键词检索所所有所述预设数据模型包括:

S31、按照分类标准将所有所述预设数据模型进行分类;

S32、统计每种类别中所述预设数据类型的总数,将总数相当的类别划分在同一个组;

S33、使用所述搜索关键词检索每个组中所有所述预设数据模型。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,在所述步骤S33之后还包括:使每个组产生预设数量的预设数据模型。

进一步,在本发明所述的搜索结果多样化均衡化搜索方法中,每个组对应的预设数量与该组的总数正相关。

另外,本发明还提供一种计算机设备,包括存储器和处理器,所述处理器通信连接所述存储器。所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序以实现如上述的搜索结果多样化均衡化搜索方法。

实施本发明的一种搜索结果多样化均衡化搜索方法及计算机设备,具有以下有益效果:本发明将各类型原始数据模型统一转化为预设数据模型,避免因数据类型的表现形式影响搜索,使得搜索结果更加多样化均衡化。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例提供的一种搜索结果多样化均衡化搜索方法的流程图;

图2是本发明实施例提供的一种搜索结果多样化均衡化搜索方法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

在一优选实施例中,参考图1,本实施例的搜索结果多样化均衡化搜索方法包括下述步骤:

S1、建立行业词库,行业词库包括多个行业专业词汇;将各类型原始数据模型转化为预设数据模型。具体的,行业专业词汇是指某一行业中使用的专业术语,该专业术语不同于日常生活用语,是专有名词,在行业中有专属含义。设置行业词库有利于对用户输入的搜索内容进行科学分词,从而提高搜索专业性和准确性。行业词库可为一个或多个,在行业词库为多个时按照内容类型对行业词库进行分类,形成多个不同类别的行业词库,也即每个行业词库包含的行业专业词汇为同一类词汇。

现有技术中在搜索时使用原始数据模型,即保持原始资料原有格式直接进行搜索,因各类原始数据模型千差万别,各类原始数据模型不在“同一起跑线”,会导致搜索结果中某些类型显示过多,有些类型显示过少,甚至有些类型始终得不到显示,搜索结果不够多样化均衡化。例如,新闻、影视、歌曲、百科和综艺等原始数据模型均包含“刘德华”,因新闻、影视、歌曲、百科和综艺在数据类型上有较大差异,在利用词频搜索时,新闻中包含较多“刘德华”关键词,会导致搜索结果中排序考前的基本都是新闻,而很少出现影视、歌曲、百科和综艺等,特别是影视和歌曲,因数据类型的限制,很少能直接出现在首页搜索结果中,导致用户看到的搜索结果较为单一,不够多样化均衡化。为解决因数据模型差异带来的搜索结果不够多样化均衡化问题,本实施例将各类型原始数据模型转化为预设数据模型,转化后所有原始数据模型具有统一数据模型,从而使所有预设数据模型具有“同一起跑线”,在被检索时所有预设数据模型被搜索到的概率更加均衡,从而使得搜索结果更加多样化均衡化。作为选择,行业词库和转化后的所有预设数据模型存储在服务器上。

S2、接收用户输入的搜索内容,按照行业词库从搜索内容中提取搜索关键词。具体的,用户在搜索框中输入搜索内容,搜索内容通过网络上传至服务器,服务器按照行业词库中的行业专业词汇对搜索内容进行分词,提取搜索内容对应的搜索关键词。例如,搜索内容为“epson S1C17801 mcu数据手册”,按行业词库进行识别得到分词结果:“epson”为厂牌词,“S1C17801”为型号词,“mcu”为品类词,“数据手册”为资源词,则提取的搜索关键词为:“epson”、“S1C17801”、“mcu”、“数据手册”。作为选择,若行业词库未涵盖搜索内容,则可使用基本语言结构提取搜索关键词,即使用主谓宾定状补语言结构来解析搜索内容得到搜索关键词。

S3、使用搜索关键词检索所所有预设数据模型,计算搜索结果中每个预设数据模型的总权重值,根据总权重值对搜索结果进行排序。具体的,若搜索内容仅包含一个搜索关键词,则使用搜索关键词检索所所有预设数据模型,计算搜索结果中每个预设数据模型的总权重值,根据总权重值对搜索结果进行排序。若搜索内容包含至少两个搜索关键词,则首先使用一个搜索关键词检索所所有预设数据模型,得到第一搜索结果;然后使用另一个搜索关键词在第一搜索结构中搜索,得到第二搜索结果;以此类推,直至所有搜索关键词完成搜索,搜索完成后计算搜索结果中每个预设数据模型的总权重值,根据总权重值对搜索结果进行排序,服务器完成排序后将搜索结果下发至用户终端显示。可以理解的,服务器下发至用户终端的搜索结果并非预设数据模型,而是预设数据模型对应的原始数据模型。

本实施例将各类型原始数据模型统一转化为预设数据模型,避免因数据类型的表现形式影响搜索,使得搜索结果更加多样化均衡化。

在一些实施例的搜索结果多样化均衡化搜索方法中,预设数据模型包括内容标题、内容摘要、正文、关键词和内容类型,将各类型原始数据模型转化为预设数据模型时,无论原始数据模型是否有内容标题、内容摘要、正文、关键词和内容类型,经转换后的预设数据模型都有内容标题、内容摘要、正文、关键词和内容类型。例如,歌曲文件通常只有歌曲名称和演唱者信息,没有内容摘要和正文,此时可将歌曲歌词作为内容摘要和内容正文,从而完成转化。本实施例将各类型原始数据模型统一转化为预设数据模型,避免因数据类型的表现形式影响搜索,使得搜索结果更加多样化均衡化。

在一些实施例的搜索结果多样化均衡化搜索方法中,步骤S1中将各类型原始数据模型转化为预设数据模型包括:将各类型原始数据模型转化为预设数据模型并设置预设数据模型各部分内容的权重值,其中关键词的权重值大于内容标题的权重值,内容标题的权重值大于内容摘要的权重值,内容摘要的权重值大于正文的权重值。对应的,步骤S3中计算搜索结果中每个预设数据模型的总权重值包括:分别计算搜索关键词在内容标题、内容摘要、正文、关键词和内容类型的分权重值,由所有分权重值得到总权重值。作为选择,所有分权重值直接求和得到总权重值。另外,在计算搜索关键词在内容标题、内容摘要、正文、关键词和内容类型的分权重值时,分权重值与搜索关键词出现次数正相关,也就是说,搜索关键词在某部分出现的次数越多,其在该部分得到的分权重值就越大。本实施例通过权重配置和统一预设数据模型来平衡原始数据模型之间的差异,使得搜索结果更加多样化均衡化。

在一些实施例的搜索结果多样化均衡化搜索方法中,参考图2,在步骤S3之后还包括:S4、根据搜索结果中各类型数据模型对应预设数据模型的分布情况调整预设数据模型各部分内容的权重值,以使搜索结果中各类型分布均衡。其中,搜索结果中各类型数据模型对应预设数据模型的分布情况是指每种类型数据模型对应预设数据模型在预设排名数量(搜索结果显示首页)中是否出现,若每种类型数据模型对应预设数据模型在预设排名数量中均有出现,则说明现有权重值设置相对合理;若某一种或几种类型数据模型对应预设数据模型未出现在预设排名数量的搜索结果中,说明现有权重值设置不合理,不能实现搜索结果多样化均衡化,则需要调整预设数据模型各部分内容的权重值,以使搜索结果中各类型分布均衡。

进一步,搜索结果中各类型数据模型对应预设数据模型的分布情况是指每种类型数据模型对应预设数据模型在预设排名数量(搜索结果显示首页)中所占比例,若每种类型数据模型对应预设数据模型在预设排名数量中所占比例均衡,则说明现有权重值设置相对合理;若某一种或几种类型数据模型对应预设数据模型在预设排名数量中所占比例过低或过高,不能实现搜索结果多样化均衡化,则需要调整预设数据模型各部分内容的权重值,以使搜索结果中各类型分布均衡。

本实施例通过搜索结果反馈对预设数据模型各部分内容的权重值进行调整,不断优化预设数据模型各部分内容的权重值设置,使得搜索结果更加多样化均衡化。

在一些实施例的搜索结果多样化均衡化搜索方法中,步骤S3中使用搜索关键词检索所所有预设数据模型包括:

S31、按照分类标准将所有预设数据模型进行分类。分类标准可根据用户需要灵活选择,例如生产厂家类、处理器类、资源类等,又例如新闻类、影视类、歌曲类、百科类和综艺类等。

S32、统计每种类别中预设数据类型的总数,将总数相当的类别划分在同一个组,总数相当是指总数在同一个预设数量范围内。例如,有些种类的预设数据类型有1000万以上,有些种类的预设数据类型在500万至1000万之间,有些种类的预设数据类型在100万至500万之间,有些种类的预设数据类型在50万至100万之间,有些种类的预设数据类型在10万至50万之间,有些种类的预设数据类型在10万以下等。对应的,种类A和种类B的总数分别是650万和850万,则种类A和种类B为一组;种类C和种类D的总数分别是65万和85万,则种类C和种类D为一组;种类E和种类F的总数分别是6万和8万,则种类E和种类F为一组。

S33、使用搜索关键词检索每个组中所有预设数据模型。具体的,分别使用搜索关键词检索每个组中所有预设数据模型,得到搜索关键词在本组中的搜索结果。为使搜索结果中各类型分布均衡,需要保证每个组中都有在预设排名数量(搜索结果显示首页)中,则要求每个组产生预设数量的预设数据模型,且每个组对应的预设数量与该组的总数正相关。也就是说,该组的总数越多,其在预设排名数量(搜索结果显示首页)中所占的数量越多,从而既能保证每种类型均有显示,还能保证总数越多显示的预设数据模型越多,使得搜索结果更加多样化均衡化。

本实施例按照数量级别进行分组,分别在每个组中进行检索,确保每个组都有预设数据模型输出,使得搜索结果更加多样化均衡化。

在一优选实施例中,本实施例的计算机设备包括存储器和处理器,处理器通信连接存储器。存储器用于存储计算机程序;处理器用于执行存储器存储的计算机程序以实现如上述实施例的搜索结果多样化均衡化搜索方法。作为选择,计算机设备为服务器。本实施例的计算机设备将各类型原始数据模型统一转化为预设数据模型,避免因数据类型的表现形式影响搜索,使得搜索结果更加多样化均衡化。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利要求的涵盖范围。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种搜索结果展示方法、装置和用于搜索结果展示的装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!