用于改进的搜索查询相关性的无监督实体和意图标识

文档序号：1895067 发布日期：2021-11-26 浏览：17次 >En<

阅读说明：本技术 用于改进的搜索查询相关性的无监督实体和意图标识 (Unsupervised entity and intent identification for improved search query relevance ) 是由 G·普拉萨德 V·阿帕斯瓦米 B·T·常德里于 2020-03-17 设计创作，主要内容包括：这里描述了用于通过如下操作来尤其改进搜索查询相关性的技术：在搜索引擎上执行查询；检索从执行查询所生成的搜索页面数据,该搜索页面数据包括文档标题和通用资源定位符(URL),每个文档标题是与URL相关联的文档的标题；根据用于匹配查询、域URL和域标题中的搜索项的实体相关性得分,来确定查询中的相关实体单词；根据基于搜索项在查询和URL中相对于查询和URL中的其他搜索项的出现次数的意图单词相关性得分来确定查询中的相关意图单词；比较所确定的相关实体单词中的每个相关实体单词和所确定的相关意图单词中的每个相关意图单词与多个存储的过去用户查询；检索包括相关实体单词和相关意图单词的多个存储的过去用户搜索查询；以及向客户端设备传输查询建议集合。(Techniques are described herein for improving search query relevance, among other things, by: executing the query on a search engine; retrieving search page data generated from executing the query, the search page data including document titles and Universal Resource Locators (URLs), each document title being a title of a document associated with a URL; determining relevant entity words in the query based on the entity relevance scores for the search terms in the matching query, domain URL, and domain title; determining relevant intent words in the query from the intent word relevance scores based on the number of occurrences of the search term in the query and URL relative to other search terms in the query and URL; comparing each of the determined related entity words and each of the determined related intent words to a plurality of stored past user queries; retrieving a plurality of stored past user search queries that include related entity words and related intent words; and transmitting the set of query suggestions to the client device.)

技术领域

本公开一般涉及计算和通信领域，并且特别地但不排他地涉及用于在通过计算机通信网络访问的在线搜索引擎上的改进的搜索查询相关性的搜索查询中的无监督实体和意图标识。

发明内容

描述了一种用于搜索查询中的无监督实体和意图标识的方法和系统以供改进的搜索查询相关性，其使用在线查询收集子系统来捕获和评估被提交给搜索)引擎(诸如Bing.com、Google.com和Yahoo.com等)的用户搜索查询，以标识每个查询内的是“实体”单词或“意图”单词或者表示“实体”单词或“意图”单词的单词。该系统和方法的一个关键目标是标识和提取这样的实体和意图单词作为标识包括相同或语义上相似的实体或意图单词的先前接收到的用户搜索查询(即，过去用户查询)的手段。一旦在过去用户查询集合中被标识，这些查询就从查询收集子系统所访问的搜索日志中被检索出来，并以相关性排名顺序的方式作为备选查询建议被显示在用于将搜索查询提交给搜索引擎的设备的用户界面上。

在确定哪些过去用户搜索查询与在搜索引擎上执行的接收到的搜索查询相关时，从在搜索引擎上执行搜索查询检索到的搜索引擎结果页面(“SERP”)中的单词被解析，同时执行标识、提取和检索SERP中的网址(即，通用资源定位符或“URL”)和文档标题的过程。存在于网址或文档标题中的顶级域名中的SERP中的单词最初被提取并且编译在“实体”单词列表中。这些实体单词被进一步处理以确定每个实体单词是否也存在于接收到的搜索查询中。附加地，在所收集的查询的滚动时间窗口内在搜索引擎结果页面的收集中标识的每个实体单词上接收到的历史点击次数和出现频率被确定。总体上，实体单词的存在、其出现频率以及实体单词上的历史点击计数被用来计算概率相关性得分，并且将其与定量“实体”单词阈值水平进行比较。当搜索日志被用来标识和检索具有相同或相似相关性得分的过去用户查询时，具有大于该阈值水平的概率得分的实体单词被认为是“相关的”并且随后被用作更高优先级的项。

本文中公开的系统和方法被用来执行类似的过程以确定当前搜索查询中的哪些单词是意图单词，以及在这些单词中哪些是“相关”意图单词。由从搜索引擎使用接收到的搜索查询执行搜索而生成的SERP中检索URL列表。此外，搜索查询的每个单词都由查询收集子系统解析，并且与SERP结果中的URL进行比较。位于URL中的SERP单词被添加到标识出的意图单词的列表中，并且然后进一步评估该列表以确定标识出的意图单词中的哪些是“相关”意图单词，以被指派一个概率得分，该概率得分指示意图相关性。与实体单词一样，当且仅当意图单词计算出的概率相关性得分超过定量意图阈值水平时，其才被认为是相关的，该水平与先前描述的定量实体水平不同。

一旦被计算出来，个体单词概率得分就被用作相对权重，以标识存储在搜索日志中的具有相同或相似定量概率简档的过去用户搜索。量化得分继而被用来按照相关性的相对顺序对各种过去用户搜索进行排名，其然后被检索、按序排名并且作为建议查询显示给搜索引擎用户。此类建议查询可以以完全无监督的方式来生成，不需要预先标记数据或单词，并且可以从完全非结构化的用户输入(即搜索查询)中生成，该用户输入的范围从短语到语法错误的短语或句子。

此发明内容被提供来以简化的形式介绍将在下面的详细描述中进一步描述的概念的选集。本发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在被用来限制要求保护的主题的范围。

背景技术

搜索引擎技术的快速发展已经为从在线可访问的来源寻求信息的用户提供增强服务创造了机会。寻找信息的主要手段是利用在线搜索引擎，诸如在Bing.com、Google.com和Yahoo.com上可用的那些以及其他不太知名的备选品。附加地，具有在线服务和社交媒体平台的嵌入式搜索引擎(诸如)的出现已经加速了对高速、准确和精确搜索能力的需求。事实上，大量的在线可用信息已经催生了对在线助手的日益增长的需求，这些助手可以帮助用户快速细化其搜索，同时保留搜索查询的相关性以努力标识相比在没有这种快速细化的情况下可能生成的搜索结果，与其搜索查询更相关的在线资源，诸如文档、视频、图像、实时音频内容和录制音频内容等等。

这种搜索查询细化的动态生成最终需要对用户意图有一定程度的理解。在许多情况下，用户的实际意图可以在多单词查询中以一个或几个单词来表示(例如，名人姓名、品牌、服务、产品或动作等)。然而，很少有在线搜索系统能够在没有一些先验知识的情况下有效地确定用户的意图。并且，先验知识的获取常常需要预先标记某些单词或项，将查询的语义范围限制到特定主题，或者迫使用户在搜索查询中提供更多详细信息，以使得对搜索意图的更结构化的描述变得更加明显。实际上，在用于细化搜索查询的当前所用选项中，包括自动建议和相关搜索能力，在尝试从搜索查询中理解用户意图时，因为它们经常被在线呈现，所以至少存在三个主要问题。这些问题包括：缺乏可用的被标记数据来帮助推断用户的意图；在查询中呈现时缺乏结构化数据，因为它们常常是由用户键入的，很少或根本没有考虑正式的语法规则；以及查询中的数据的稀疏性，这使得在线系统很难或不可能以完全无监督的方式学习查询中的单词的使用模式。

因此，对于使用无监督方法来改进搜索查询相关性的鲁棒系统和方法存在显著且不断增长的需求，以便快速标识搜索查询中的意图或实体单词并且使用这些单词来标识和检索先前相关搜索查询，并且按相关性排名顺序将它们显示为针对搜索引擎的当前用户的备选查询建议。

附图说明

参考以下附图来描述非限制性和非穷尽性实施例，其中除非另有说明，否则在各个视图中相同的附图标号指代相同的部分。

图1是图示了在实施例中提供改进的搜索查询相关性的系统的操作环境的框图。

图2是图示了与用于提供改进的搜索查询相关性的系统一起使用的客户端设备的实施例的框图。

图3A是在实施例中用于改进的搜索查询相关性的系统中的查询数据库的图示。

图3B是图示了用于存储搜索查询和搜索结果数据以用于改进的搜索查询相关性的方法的实施例的流程图。

图4是在实施例中用于改进的搜索查询相关性的系统的图示。

图5是图示了在实施例中用于改进的搜索查询相关性的方法的实施例的流程图。

图6A是图示了用于标识实体单词以用于改进的搜索查询相关性的方法的实施例的流程图。

图6B是图示了用于确定相关实体单词以用于改进的搜索查询相关性的方法的实施例的流程图。

图7A是图示了用于标识意图单词以用于改进的搜索查询相关性的方法的实施例的流程图。

图7B是图示了用于确定相关意图单词以用于改进的搜索查询相关性的方法的实施例的流程图。

图8是图示了用于生成查询建议集合的用于改进的搜索查询相关性的方法的实施例的流程图。

图9是图示了用于对查询建议集合进行排序以用于改进的搜索查询相关性的方法的实施例的流程图。

具体实施方式

下面的示例实施例涉及一种用于改进的搜索查询相关性的无监督实体和意图标识的系统和方法。下面描述的示例允许用户在搜索引擎上输入自由形式的搜索查询，生成与搜索查询的主题相关的搜索结果页面，并且接收基于用户搜索查询中的特定实体或意图的查询建议的相关性按序排名列表，该用户搜索查询中的特定实体或意图与过去用户搜索查询中的实体或意图单词相同或相似。根据用户的当前搜索查询与存储在聚合搜索日志中的过去用户搜索查询之间的实体或意图单词的相似性程度来确定相关性。具有最高级别相关相似性的过去搜索查询在从搜索日志中检索到的查询建议的按序排名列表中排名更高，该搜索日志在可调整的跟踪时段内被动态更新。

下面描述的实施例的技术效果涉及以无监督的方式确定和检索过去的搜索查询，这些查询与用户在提供给搜索引擎的当前搜索查询中的实际意图相关。当与诸如自动建议特征或其他当代相关搜索能力之类的当前备选方案相比时，共同地，这些实施例致使及时标识和检索与当前用户搜索查询的主题更相关的过去用户搜索查询。

如下文更充分地描述的，示例计算系统基于对搜索引擎结果页面中的重要单词的标识和评估以及接收到的用户搜索查询来确定与用户的搜索查询相关的查询建议集合。这些所谓的重要单词是实体单词或意图单词。在确定单词是实体或意图单词时，系统解析在搜索引擎上执行接收到的搜索查询所产生的搜索引擎结果页面，并且最初继续标识出现在与接收到的搜索查询相关的搜索引擎结果页面的文档标题中以及顶级域名中的已解析的单词。出现在顶级域名、文档标题或两者中的已解析的单词被归类为实体或意图单词。之后，系统进一步继续确定实体单词或意图单词的出现频率，并且然后确定这些单词中的任何单词是否出现在接收到的搜索查询中。基于两个单独计算的概率相关性得分，一个是实体单词相关性得分，另一个是意图单词相关性得分，以显著级别的历史点击计数出现在顶级域名或文档标题中并且也以足够高频率的出现在接收到的搜索查询中的解析单词被归类为“相关”实体单词或意图单词。一旦被归类，系统继续标识存储在聚合搜索日志中或者通过聚合搜索日志可访问的过去用户搜索查询，这些过去用户搜索查询具有与接收到的搜索查询相关的实体或意图单词相同或相似的相关性得分。具有与为接收到的搜索查询计算出的概率相关性得分相同或相似的相关性得分的过去用户查询被检索，并且按照相关性排名顺序作为与接收到的搜索查询相关的查询建议而显示在客户端设备的用户界面上。

作为初步事项，附图中的一些附图描述了一个或多个结构组件的上下文中的概念，被不同地称为功能、模块、特征、元件等。附图中所示的各种组件可以以任何方式实现，诸如软件、硬件、固件或其组合。在一些情况下，附图中所示的各种组件可以反映对应组件在实际实现中的使用。在其他情况下，附图中所图示的任何单个组件都可以由多个实际组件实现。附图中任何两个或多个单独组件的描述可以反映由单个实际组件执行的不同功能。

其他附图以流程图的形式描述了这些概念。以这种形式，某些操作被描述为构成以特定顺序执行的不同块。这样的实现是示例并且是非限制性的。本文描述的某些块可以组合在一起并在单个操作中执行，某些块可以被分解为多个组件块，并且某些块可以按照与本文所图示的顺序不同的顺序来执行，包括并行执行各个块的方式。流程图中所示的块可以通过软件、硬件、固件、人工处理等来实现。如本文中所使用的，硬件可以包括微处理器、数字信号处理器(DSP)、微控制器、计算机系统、分立逻辑组件和/或定制逻辑组件，诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)等。

关于术语，短语“配置为”涵盖任何类型的功能可以被构建来执行已标识操作的任何方式。该功能可以被配置为使用例如软件、硬件、固件等来执行操作。例如，短语“配置为”可以指的是被布置为实现关联功能的硬件元件的逻辑电路结构。短语“配置为”还可以指的是硬件元件的逻辑电路结构，其被布置为实现固件或软件的关联功能的编码设计。术语“模块”是指可以使用任何合适的硬件(例如，处理器等等)、软件(例如，应用等等)、固件和/或硬件、软件和固件的任何组合来实现的结构元件。术语“逻辑”涵盖用于执行任务的任何功能。例如，流程图中所图示的每个操作对应于用于执行该操作的逻辑。可以使用软件、硬件、固件等来执行操作。术语“组件”、“系统”等可以指的是与计算机相关的实体、硬件和执行中的软件、固件或其组合。组件可以是在处理器上运行的进程、对象、可执行文件、程序、函数、子例程、计算机、或者软件和硬件的组合。术语“处理器”可以指的是硬件组件，诸如计算机系统的处理单元。

此外，所要求保护的主题可以被实现为方法、装置或制品，其使用标准编程和工程技术来生产软件、固件、硬件或它们的任何组合以控制计算设备来实现所公开的主题。本文所使用的术语“制品”旨在涵盖可从任何非暂态计算机可读存储设备或介质访问的计算机程序。计算机可读存储介质可以包括但不限于磁存储设备，例如硬盘、软盘、磁条、光盘、压缩盘(CD)、数字通用盘(DVD)、智能卡、闪存设备等等。对照而言，计算机可读介质，即非存储介质，可以附加地包括通信介质，诸如用于无线信号等的传输介质。

图1是图示了用于改进的搜索查询相关性的无监督实体和意图标识的系统和方法的示例性实施例100的框图。环境100包括经由网络101连接的在线系统103和客户端设备105a和105b。虽然在图1中示出了选定数目的每个设备，但是实施例可以具有更多或更少的每个设备(例如，附加的客户端设备105等)。

在线系统103由互操作的计算机硬件资源和计算机软件子系统组成，它们向用户提供查询收集和查询相关性排名服务。在一个实施例中，在线系统103包括查询数据库、实体子系统、意图子系统和互操作模块，用于与新接收到的用户搜索查询相关的相关过去用户搜索查询的标识和排名。在线系统103收集每个新的用户查询，检索与查询相关的搜索引擎结果页面，并且执行查询和搜索引擎结果页面中的单词的解析以标识意图单词或实体单词。在线系统103中提供的数据库不仅包括过去用户查询的运行日志，还包括与每个过去用户查询相关的搜索引擎结果页面的单词上的点击计数活动的日志。在线系统103结合从已解析的单词提供的数据、已解析的单词上的历史点击计数以及已解析的单词的绝对和相对出现频率，以标识实体单词或意图单词，然后对其进行评分、相关性排名并且用来检索与从查询和搜索引擎结果页面的单词解析中计算出的那些具有相同或相似相关性得分的过去用户查询。具有大于针对实体或意图单词的预定阈值水平的相关性得分的过去用户查询然后由在线系统103传输以显示在客户端设备105的用户界面上。

客户端设备105a、105b是由用户用来与在线系统103进行通信的设备。客户端设备105a、105b可以例如是台式计算机、膝上型计算机、智能电话、平板计算机或个人数字助理(PDA)。用户通过客户端设备105a、105b来与在线系统103通信以使用在线系统103中的查询收集子系统。响应于执行从客户端设备105a、105b提供的搜索查询，查询收集子系统存储查询，解析使用搜索引擎所生成的搜索引擎结果页面的单词，确定与查询和搜索引擎结果页面相关的相关实体单词和相关意图单词，以及从在线系统103的查询收集子系统所访问的数据库中检索和一个或多个相关的过去用户搜索查询。相关的过去用户查询由查询收集子系统按序排名，然后以相关的排名顺序传输并且显示在客户端设备105a、105b的用户界面上。

网络101表示在线系统103和客户端设备105a、105b之间的计算机通信路径。在一个实施例中，网络101是互联网并且使用标准通信技术和/或协议。网络101可以包括使用诸如以太网802.11、全球微波接入互操作性(WiMAX)、3G、长期演进(LTE)、数字用户线(DSL)、异步传输模式(ATM)、InfiniBand、PCI快速高级交换等等之类的技术的链路。类似地，网络101上使用的联网协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UCP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)和其他竞争的备选方案。

通过网络101交换的数据可以使用诸如超文本标记语言(HTML)、可扩展标记语言(XML)等等之类的技术和格式来表示。此外，所有或一些链路可以使用传统的加密计数来进行加密，加密技术诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、互联网协议安全(IPsec)等。在备选实施例中，数据通信可以使用自定义和/或专用数据通信技术备选或补充上述技术而发生。

图2图示了与在线系统103一起使用的客户端设备200的实施例中的操作组件的框图。在实践中并且如前所述，客户端设备200可以是台式计算机、膝上型计算机、智能电话、平板计算机、个人数字助理(PDA)或其他适合人类用户输入搜索查询和审阅查询建议的设备。然而，重要的是要注意，来自客户端设备200的搜索查询的输入不仅限于人类用户。可以使用自动化机器人或其他远程或分布式计算智能输入搜索查询，这些计算智能大部分来自机器学习和深度学习方法和系统。因此，可以设想，为了基于所提取的实体单词和意图单词标识和执行最相关的搜索的目的，可以使用这样的自动化机器人和/或分布式智能系统来执行搜索查询的提交和查询建议的解释。

在所图示的实施例中，客户端设备200耦合到网络101，通过该网络101从在线系统103接收数据以及向在线系统103传输数据。实际上，多个客户端设备200可以被用来向在线系统103发送数据以及从在线系统103接收数据，以用于标识和检索来自过去用户搜索查询的相关查询建议。来自网络101的数据在网络接口202上被接收并且被置于队列中以供中央处理单元206检索。在该实施例中，中央处理单元206可以是通用计算机或专用集成电路(ASIC)，或适合于使用和/或处理字符串、列表或其他适合用于维护数据项之间的相对关系的数据结构的计算架构。在一个实施例中呈现的数据是响应于用户从客户端设备200提交搜索查询而从在线系统103接收的查询建议的排名顺序列表。在将搜索查询传输到在线系统103时，诸如搜索查询之类的用户输入使用输入设备214(例如，监视器、触摸屏显示器等)而被提供，并且随后在输入/输出接口204上被接收，以用于使用中央处理单元206通过网络接口202进行排队并传输到在线系统103。在一个实施例中，从在线系统103传输的查询建议作为列表或保留数据项之间的相对关系(例如，环、堆栈、B+树等)的其他数据结构而在网络接口202上被接收并被存储在程序存储器208(例如RAM、DRAM、SRAM、NVRAM、SDRAM、DDRX RAM等)中或在大容量存储设备210(例如硬盘驱动器、软盘、CD-ROM、磁带、磁盘、磁鼓等)上以供中央处理单元206检索并显示在输出设备212(例如，监视器、平板显示器、可刷新盲文显示器等)上作为最终用户审阅和选择的有序列表。

图3A是在实施例中的在线系统103中的查询收集子系统的查询数据库的图示。在所图示的实施例中，查询数据库300由单个数据库组成，或者在备选实施例中，由多个分布式数据库组成。查询数据库300存储聚合搜索日志302和点击计数日志306。聚合搜索日志302可以被实现为查找表或索引表，诸如哈希表，或者用于存储用户搜索查询304和相关搜索引擎结果页面308(可互换地称为SERP)的其他合适的数据结构。在一个实施例中，所存储的搜索引擎结果页面308是在可调整的跟踪时段内执行搜索查询所产生的搜索结果，在所图示的实施例中，该跟踪时段是尾随12个月的跟踪窗口。除了搜索结果之外，用户搜索查询304也在可调整的跟踪时段内被保留和存储。查询304包括来自用户在搜索引擎(例如，Bing.com、Yahoo.com等)上搜索关于各种主题的信息的搜索查询，并且它们被存储以用于跟踪用户活动以及用于提供先前搜索活动的储存库，其可以被用来为随后接收到的用户搜索查询标识合适的查询建议，这些查询建议可能与这些随后接收到的搜索查询的主题相关。

所存储的搜索查询304的储存库包括单个单词和多个单词搜索查询，每个搜索查询在由搜索引擎执行时生成搜索引擎结果页面308。搜索结果可以包括与所存储的查询列表304中的每个搜索查询的主题直接或间接相关的文档、图像、视频或其他内容。除了聚合搜索日志302之外，查询数据库300还包括点击计数日志306，其维护在可调整的跟踪时段的范围内对存储在聚合搜索日志302中的搜索引擎结果页面308的累积集合上的用户点击的运行日志。在一个实施例中，点击计数日志306是运行历史点击计数日志，其反映与存储在聚合搜索日志302中的查询304相关、并且在出现在搜索引擎结果页面308中的搜索结果上的用户活动，特别是用户点击活动。该点击计数在一个实施例中被实现为在同一索引表内维护的单独可标识字段和记录中的聚合搜索日志302的扩展，或者，在备选实施例中，被实现为单独维护但同时更新的关联表，该关联表保留了点击计数活动和关联搜索查询之间的逻辑关系。

图3B是图示了用于在查询数据库300中捕获、存储和维护搜索查询和相关搜索引擎结果页面的过程300的实施例的流程图。在接收到用户搜索查询后，如步骤310处所示，在搜索引擎上根据执行搜索查询所生成的SERP被存储在聚合搜索日志中，如步骤312处所示。由搜索引擎响应于搜索查询的执行而用作SERP的、嵌入在网页上的点击跟踪工具，使得能够监控不同搜索引擎结果页面上的点击活动，如步骤314处所示，并且使用该工具产生的结果使得能够编译和存储与任何搜索查询相关联的搜索引擎结果页面上的点击计数。特别地，该过程对作为具有SERP的搜索结果检索到的统一资源定位符(“URL”)和文档标题上的点击计数执行连续计算和确定，如步骤316处所示。搜索查询、其相关联的通用资源定位符中的每个相关联的通用资源定位符和SERP中的每个URL和每个文档标题上的点击计数依次被存储在查询数据库300中的聚合搜索日志302中，如步骤318处所示。在一个实施例中，聚合搜索日志302是一个索引表，其在可调整的跟踪时段的过程中存储每个查询、相关联的SERP和在相关联的SERP中的URL和文档标题上的点击计数。特别地，在实施例中，索引表是散列表，该散列表包括标记或标识散列表中的每个查询的散列标志。单独地，在线系统103中的查询收集子系统对索引表中的数据和引用执行连续的事件驱动或实时的更新和刷新，以使得所保存的查询、SERP和针对URL和文档标题的点击计数记录在可调整的跟踪时段内存储的搜索结果中。

图4图示了在线系统103中的查询收集子系统400的操作组件的实施例。如所图示，子系统400包括查询数据库300，其中存储了聚合搜索日志302和点击计数日志306(未示出)。在实施例中，查询数据库300中存储的数据由实体子系统402和意图子系统420访问。本实施例中的实体子系统402由两个互操作模块——实体标识模块412和实体相关性评分模块414组成。在所描绘的实施例中，实体标识模块412标识“实体”单词并且在与每个接收到的搜索查询相关联的搜索引擎结果页面上执行单词解析。标识模块412还在与搜索查询相关联的SERP上执行相关过程，以标识顶级域名——被称为“域URL”，以及与所标识的域URL相关联的每个文档标题——被称为“域标题”。在实施例中，实体相关性评分模块414确定使用实体标识模块412标识的每个单词的相关性。并且，具体地，实体相关性评分模块确定所标识的单词是否是“实体”或“意图”单词，通过单词解析确认此类单词是否出现在接收到的用户搜索查询中，并且如果是这样，则确定此类单词在聚合搜索日志中存储的搜索引擎结果页面集合中的出现频率以及在包括用户查询和关联的搜索引擎结果页面在内的收集集合中包括此类单词的URL和文档标题上接收到的点击次数。以这种方式，在搜索引擎结果页面中的相关URL和文档标题上具有高出现频率以及高点击次数的实体单词或意图单词确定这样的实体或意图单词是否“相关”。基于与以下相关的后验(posterior)概率分布函数的计算，该单词在数量上被确定为“相关”：在可调整的跟踪时段上扩展的、在搜索查询中以及在搜索引擎结果页面中的某个单词在所存储的搜索结果的累积集合中的存在或不存在。一旦被计算出，就将概率分布函数应用于适用的数据集合所产生的概率值与定量阈值进行比较，一个阈值针对“实体单词”确定并且另一不同阈值针对“意图单词”确定。大于实体阈值水平的计算出的概率值被归类为“相关”实体单词，而概率分布值大于意图阈值水平的意图单词被归类为“相关”意图单词。如果搜索查询中的单词表示由意图单词表示的动作的对象或上下文，则该单词被视为“实体”单词。“意图”单词表示用户试图对作为实体的对象执行的动作，或者针对该对象或对于该对象执行的动作。基于对SERP中的实体单词的计算出的概率相关性得分和在此时间段内接收到的用户查询的连续人工审阅，至少每半年时段更新一次定量实体阈值水平。在这六个月时段期间，每个月都会将搜索查询、相关查询建议和计算出的实体单词相关性得分的样本集合编译成查询建议三元组(查询，建议，相关性得分)。对于每个三元组，查询-建议对(“qs对”)被人工审阅并且取决于相关性得分而被判断为“好”或“坏”。基于这样的判断，在预定的时间段上(在这个示例中，每六个月)选择一个新的阈值，以便消除数目数量的较低评分的qs对。因此，随着阈值水平的增加，影响阈值的较低评分的坏qs对的数目减少。

通常，在搜索引擎上提供的搜索查询常常是针对特定主题的信息的请求。该主题还可以包括提供搜索查询的用户可能感兴趣的多个相关子主题。在使用特定搜索查询执行搜索时，用户可以寻求重新制定或细化查询以获得与一个或多个子主题相关的搜索结果。因此，在帮助用户完成重新制定或细化搜索查询的任务时，重要的是尽可能最佳地了解从初始搜索查询中提供的单词中确定的用户隐含意图。如果可以从初始搜索查询中使用的单词中有效地确定用户意图，则可以容易地标识来自同时期或先前提供的搜索查询中的语义相似或相关的搜索查询并且将其呈现为备选搜索查询建议。

从概念上讲，搜索查询中的每个主题都包括可以被指派不同的相关权重的单词。相关主题可能有共同的单词，而不相关主题可能有不常见共享的单词。例如，与诸如“政治”之类的完全不相关的主题的搜索查询相比，关于诸如“体育”之类的主题的搜索查询更有可能具有更多的共同的单词。并且，对于每个主题，每个单词可能具有不同的相关权重或者基于它们各自与搜索查询的主题的相关性的出现频率而差异很大。基于这个基本假设，对于搜索查询中的给定主题，主题本身将影响搜索查询中使用的单词的数目和相关性。以这种方式，搜索查询中与一个主题更相关的、并且因此与主题更强烈关联且更能代表搜索查询的核心单词，可能更重要，并且这种重要性反映在单词在查询中出现的相对次数以及用户点击在包括与搜索查询的核心更相关的单词在内的查询上的次数。

搜索查询主题与搜索查询中使用的单词及其SERP之间的关系可以被表示为能够使用多项分布进行建模的单词分布。在实施例中，被称为狄利克雷(Dirichlet)多项式分布的复合概率分布被用来表示或建模呈现在搜索查询及其基于查询的主题的SERP中的单词的分布。这种形式的概率分布基于查询及其SERP中的每个单词与主题的关联(即单词出现的频率)来将权重指派给每个单词。在一个实施例中，查询是主题并且SERP中的单词被用来测量被称为实体单词和意图单词的某些重要单词的出现频率。两个不同但相关的模型被用来确定针对实体单词和意图单词的相关权重，如下面所图示。

假设对于每个搜索查询Q，在SERP上在过去十二(12)个月中，历史上已经示出了K个不同的算法结果。K个算法结果中的每个结果都包含URL、文档标题和文档描述。此外，假设URL是域URL(如上所述)并且文档标题与每个这样的域URL相关联并且被称为域标题(如前所述)。假设存在与每个搜索查询Q相关联的单词的概率分布。让P^Q是在单词w_i上与搜索查询Q相关联的概率分布，并且其中α是每个单词w_i在唯一URL和相关联文档标题的列表中出现的次数。如果假设P^Q可以被描述为遵循狄利克雷概率分布，那么：

其中α＝(α₁，…，α_K)，并且p_wi是单词w_i的概率。在这种上下文中，概率P^Q是对应于搜索查询Q的单词的先验(priori)概率分布。

除了确定要被应用于搜索查询Q中的单词的概率分布的形式之外，还必须考虑历史点击数据以进一步细化给定搜索查询Q的情况下每个单词w_i的可能性或概率。这种可能性与概率分布P^Q结合使用以确定单词w_i的调整后的概率p_w。在这种实例中，p_w是针对单词w_i为实体单词的概率相关性得分。更具体地说，被用来基于历史点击数据来计算为实体单词的w_i的可能性的表达式为：

其中N是单词总数，w_i是第i个单词，是包含单词w_i的第j个域URL和域标题的点击计数。如果假设有m个不同的URL包含w_i，那么与w_i相对应的点击总数为使用先验概率单词的可能性可以被表达为：

其中C为常数，完整表达式变为：

并且，在针对p_w′s优化L(p|c，α)时，实体单词的概率相关性得分可以被表达为：

已标识实体单词是“相关”实体单词的概率要求对于给定的w_i，对于i＝1到N，基于阈值T_e，如果p_w＞T_e，那么w_i被认为不仅是实体单词，而且更正式地被称为“相关”实体单词。如果满足这一属性的单词不止一个，那么每个单词的相对权重或“相关性”由概率相关性得分p_w来决定。阈值T_e是通用的并且根据经验来确定，但是基于在此时间段内在搜索引擎结果页面和搜索查询中收集的已标识实体单词在每半年的基础上手动调整一次。

在实施例中，意图子系统420标识搜索查询中的“意图”单词。在该实施例中，如果搜索查询中的单词存在于用户查询中以及与搜索查询相关联的一组URL中，则意图标识模块422将搜索查询中的单词标识为意图单词。如果(i)单词在相关联的URL和搜索查询中出现的次数与(ii)用户查询中的每个单词的次数在用户查询和相关联的URL列表中出现的次数进行比较的比率大于预定意图阈值水平，则标识模块422将意图单词标识为“相关”意图单词。意图阈值水平是根据对在不少于每六个月发生一次的接收到的搜索查询和SERP上计算出的概率相关性得分的定期人工审阅来确定的。在这个时间段内，每个月都会将搜索查询、相关查询建议和计算出的意图单词相关性得分的样本集合编译成查询建议三元组(查询，建议，相关性得分)。对于每个三元组，查询-建议对(“qs对”)被人工审阅并且取决于相关性得分而被判断为“好”或“坏”。基于这样的判断，在选定的时间段上(在这个示例中，每六个月)选择一个新的阈值，以便消除最大数目的较低评分的qs对。因此，随着阈值水平的增加，影响阈值的较低评分的坏qs对的数目减少。从数量上讲，被用于确定单词是意图单词的概率的各种变量之间的关系如下所示：

其中n_i是单词w_i在所有URL和接收到的搜索查询中出现的次数，q_w是w_i是重要(或“相关”)意图单词的概率。在优化后，这种关系变为：

在一个实施例中，意图相关性评分模块424通过将标识出的意图单词与经验阈值水平进行比较，来建立接收到的搜索查询中的意图单词的定量相关性。如果这些值大于意图阈值，则对于给定的意图阈值T_I和p_w，可以将q_w视为搜索查询中的相关“意图”单词。如先前关于T_e所描述的，意图阈值T_I是根据经验确定的，并基于该方法在该时间段内接收到的搜索引擎结果页面和搜索查询上的执行，至少每半年手动调整一次。总体而言，搜索查询Q中的单词的“相关性”是根据搜索查询中针对每个单词而被表达为对(p_w,q_w)的组合概率相关性得分来确定的。

在一个实施例中，查询集合标识模块430从在尾随12个月跟踪窗口上接收到的、所存储的过去用户查询集合中标识包括相关实体单词和相关意图单词中的一个或多个的查询。特别地，模块430标识这样的过去查询，该过去查询具有概率相关值大于适用的定量实体阈值水平或定量意图阈值水平的单词，以使得存储在查询数据库中的查询的子集可以被检索并且被逐项列出作为针对接收到的用户查询的潜在查询建议。在一个实施例中，查询排名模块440由查询集合标识模块430标识并且逐项列出的每个标识出的查询建立相关性排名顺序。排名模块440通过首先建立具有最高概率相关性得分的标识出的实体单词(或意图单词)的相关性排名来确定针对所存储的查询的集体相关性排名。在一个实施例中，可以检索包括这个最高相关性得分的每个查询，然后基于每个查询中的每个连续单词的相对相关性得分来进一步分类。

作为查询建议的概率相关性得分排名排序的说明性示例，假设以“A B C”的形式接收搜索查询Q₁，其中每个字母是一个单词。如果概率相关性得分p_w和q_w，其中实体单词相关性得分为A＝0.7和B＝0.5，并且针对C的意图单词相关性得分＝0.2，那么使用集合标识模块430从聚合搜索日志302中检索到的针对Q₁的查询建议查询可以是：“A D E”、“A C E”、“A B C D”、“B C X”、“B D”、“C N P”，其中每个字母是一个单词。查询排名模块440然后将继续根据相关性排名顺序对查询集合中的所选查询进行重新排序，在该图示的示例中其将是：“A B C D”、“A C E”、“A D E”、“B C X”、“B D”、“C N P”。相关性排名排序主要是但不排他地根据计算出的相关性得分(意图和实体)来确定的，并且如果单词具有较高的计算出的意图单词相关性得分(即，大于所图示的实体单词相关性得分)，那么它会导致基于搜索查询中针对单词计算出的相关性得分产生不同的排名排序。一旦确定了排名排序，相关性按序排名列表被传输到客户端设备，其中查询建议的相关性按序排名列表被显示在客户端设备的用户界面上或以其他方式使其可用于自动化机器人或其他在客户端设备上执行的自动化服务或能力。

图5是图示出在线系统103中的查询收集子系统的操作流程的实施例的流程图。过程500开始于用户查询的接收，如步骤502处所示，随后是步骤504，从聚合搜索日志中检索，并且一个实施例，并发执行用于将接收到的用户查询中的某些单词标识为“实体单词”的过程，如步骤506处所示，或者将接收到的搜索查询中标识的某些单词标识为“意图单词”，如步骤510处所示。一旦从搜索查询和相关联的搜索引擎结果页面中的单词的解析中标识出一个或多个实体单词，则发起一个单独的过程以确定每个实体单词的相关性，其涉及实体单词相关性得分的确定，该得分是计算出的概率分布上的值，如步骤508处所示。同样，同时发起一个单独的过程并且执行该过程以确定每个标识出的意图单词的意图单词相关性得分，如步骤512处所示。每个意图单词(如果存在于搜索查询中)是根据接收到的搜索查询及其关联的URL中的单词的解析和提取来确定的。被确定为“意图单词”的已解析并且提取的单词被进一步处理，以确定此类单词在SERP和搜索查询中的出现频率以及每个单词的点击计数历史。总体的概率相关性得分大于针对意图单词或实体单词的某个预设阈值水平的意图单词或实体单词，被认为是“相关的”意图单词或“相关的”实体单词。一旦相关实体单词和相关意图单词被确定，就为搜索查询中的每个单词确定组合的实体/意图相关性得分，如步骤514处所示，然后使用该组合得分来对存储在聚合搜索日志中的被标识为相关查询建议的过去查询进行检索和排名，如步骤516处所示。根据它们与接收到的搜索查询中的相关实体单词和相关意图单词的计算出的相关性的过去用户查询的排名列表然后被传输到客户端设备以显示为查询建议的按序排名列表。如前面所讨论的，相关查询建议的列表不仅基于相关实体单词或相关意图单词的确定，而且基于这些单词在存储在聚合搜索日志中的搜索引擎结果页面集合中的出现频率、接收到的搜索查询中单词的存在、以及在存储在聚合搜索日志中的搜索引擎结果页面上并且与接收到的搜索查询相关联的历史点击次数(即，点击活动)的确定以及过去的用户搜索查询，其中此类过去搜索查询和结果页面包括相关实体单词或相关意图单词，以使得针对建议列表上的每个查询的概率相关性得分超过定量实体阈值水平或定量意图阈值水平。

图6A是图示了用于标识实体单词的过程的实施例的流程图。该过程600开始于用户搜索查询的接收，如步骤602处所示，随后检索与搜索查询相关联的搜索引擎结果页面，如步骤604处所示。搜索查询和相关联的搜索引擎结果页面两者被存储在聚合搜索日志中并且由查询收集子系统400可访问以进行单词解析以及确定相关联的出现频率和点击计数评估。该过程600继续在检索到的搜索引擎结果页面中检索相关联的域URL和域标题，如步骤602处所示。与检索此类域URL和域标题同时进行的是搜索引擎结果页面的解析，如步骤608处所示。搜索引擎结果页面中的单词的解析被执行以标识和评估接收到的搜索查询和完整的搜索引擎结果页面集合之间的共同单词(包括从搜索引擎上执行接收到的搜索查询所产生的那些)。一旦单词解析被执行，将每个解析的单词与标识出的域URL和域标题进行比较，如步骤610处所示。如果解析的单词在相关联的域URL或域标题中，那么将该单词添加到标识出的实体单词的逐项列出的列表，如步骤614处所示。相反，如果该单词不在相关联的域URL或域标题中，那么认为它不是实体单词，如步骤612处所示。

在图6B中，描绘了过程600的实施例，其开始于基于与每个搜索查询相关联的URL上的点击活动生成点击计数日志，如步骤616处所示。当点击活动被确定时，查询数据库中所存储的点击计数日志被不断更新，以使得在可调整的跟踪时段内存储点击计数历史的连续运行日志。除了确定保存的搜索引擎结果页面中和搜索查询中的单词的历史点击计数之外，还确定逐项列出的列表中每个实体单词的出现频率，如前面所述并且如步骤618处所示。实体单词的出现频率是在包括在接收到的搜索查询、其相关联的搜索引擎结果页面以及聚合搜索日志中所存储的搜索引擎结果页面和查询的集合中的单词池上确定的。在生成标识出的实体单词列表并且确定每个实体单词的出现频率和点击次数之后，计算概率分布相关性得分，以确定标识出的实体单词是否为“相关”实体单词，如步骤620处所示。实体单词相关性得分的计算需要将概率分布(诸如在一个实施例中的狄利克雷分布)应用于从中标识和提取实体单词的搜索查询中的单词集合。实体单词相关性得分是所应用的概率分布上的概率值。在计算相关性得分之后，执行附加搜索以确认标识出的实体单词也是接收到的用户搜索查询中的项，如决策步骤622处所示，作为确定标识出的实体单词是“相关”实体单词的第一步骤。在该第一步骤处确定实体单词相关之后，执行第二步骤以确定计算出的实体单词相关性得分是否大于预定的定量实体阈值水平，如步骤624处所示。在一个实施例中，阈值水平可以是根据经验得出的数字，其指示在前一个观察时段内对标识出的实体单词的概率估值的当前评估。一个实施例中的观察时段是六个月尾随时间段，尽管这个时间段在备选实施例中可以基于经验确定而变化。如果获得以下确认：针对接收到的搜索查询中每个实体单词计算出的概率相关性得分大于所应用的实体单词阈值，则该过程结束。相比之下，由于单词相关性主要是根据(a)所存储的搜索引擎结果页面的域URL或域标题和(b)接收到的搜索查询中的查询单词的存在来确定的，所以，如果实体单词已经从搜索引擎结果页面的解析中被标识出，但是却不存在于搜索查询中，如步骤622处所示，则不执行实体单词相关性得分的确定，因为此类单词在这个过程中不被视为“相关”实体单词。在一个实施例中，如果计算出的实体单词相关性得分低于所应用实体单词阈值水平，则该单词将不被视为“相关”实体单词。

图7A图示了用于确定相关意图单词的过程的实施例。该过程700也开始于用户搜索查询的接收，如步骤702处所示，随后检索与接收到的搜索查询相关联的URL列表，如步骤704处所示。接收到的搜索查询和与搜索查询相关联的、检索到的URL两者被存储在聚合搜索日志中，作为在可调整的跟踪时段上维护运行和动态更新日志的过程的一部分。一旦被检索，接收到的查询中的单词被解析，如步骤706处所示，并且与接收到的搜索查询相关联的URL中的每个已解析的单词进行比较，如步骤708处所示。在解析过程中，被确定在相关联的URL列表中的每个查询单词被标识为“意图”单词并且被添加到此类单词的逐项列出的列表中，如步骤714处所示，而不在相关联URL列表中的每个查询单词被认为不是意图单词，如步骤714处所示，并且不对它们执行进一步的动作。

在图7B中，在一个实施例中过程700被扩展以说明意图单词相关性得分的确定。在过程700的这个阶段，执行出现频率的分析以确定在逐项列出的列表上的标识出的意图单词在URL和接收到的用户搜索查询中出现的次数，如步骤716处所示。该步骤随后是确定接收到的搜索查询中的每个单词在接收到的搜索查询和相关联的URL列表中出现的次数，如步骤718处所示。然后基于在步骤716和步骤718中确定的数目的比率，针对逐项列出的列表上的每个意图单词计算意图单词相关性得分。从该比率产生的数字是意图单词相关性得分并且它表示基于假定的概率分布的概率值的优化。然后将该数字与定量意图阈值水平进行比较，并且如果该得分大于用经验确定的定量意图阈值水平，那么将其确定为“相关”意图单词，如步骤720处所示。

图8是图示了用于查询集合标识的过程的实施例的流程图。该过程800开始于与搜索查询相关联的相关实体单词的检索，如步骤802处所示，接着是也与搜索查询相关联的相关意图单词的检索，如步骤804处所示。过程800继续在聚合搜索日志中存储的查询和相关搜索引擎结果页面的可调整跟踪时段中搜索包括相关实体单词和相关意图单词的所有查询，如步骤806处所示。总体地，针对相关意图单词和相关实体单词中的每个单词计算出的相关性得分被用来标识查询，以标识和检索包括这些相关实体单词或相关意图单词的组合的过去用户查询。这些过去搜索查询的组合包括查询集合，并且被编译用于相对相关性确定，如步骤808处所示。这个查询子集，被称为“查询集合”，然后被存储在聚合搜索日志中，如步骤810处所示，用于稍后的检索以确定相对相关性排名。

图9图示了用于生成查询建议的相关性按序排名集合的过程的实施例。过程900开始于相关联的实体单词的实体单词相关性得分的检索，如步骤902处所示，接着是每个相关联的意图单词的意图单词相关性得分的检索，如步骤904处所示。每对实体单词相关性得分和意图单词相关性得分是一个单词在搜索查询中的相对“重要性”及其相关性的指示符。取决于计算出的实体单词相关性得分和意图单词相关性得分，可以从聚合搜索日志中检索将包括与接收到的搜索查询相关联的查询集合的一个或多个过去用户查询，如步骤906处所示。在标识和检索该查询集合之后，执行相关过程，该过程比较每个相对相关性得分，以使得查询集合中最相关的查询从最相关到最不相关列出，在一个实施例中基于意图和实体单词两者的这些相关性得分来列出。然后基于实体单词相关性得分或意图单词相关性得分将查询集合按序排名为查询建议集合，如步骤908处所示，然后将这个按序排名的查询建议集合传输给从其中接收用户查询的客户端设备，以显示为基于最初接收到的用户搜索查询的相关性按序排名的备选方案或查询建议。

应当理解，本文描述的各种技术可以结合硬件或软件或者在适当的情况下结合两者来实现。因此，当前公开的主题的系统和方法，或其某些方面或部分，可以采取体现在有形介质中的程序代码(即指令)的形式，诸如软盘、CDROM、硬盘驱动器或任何其他机器可读存储介质，其中当程序代码被加载到诸如计算机之类的机器中并由其执行时，该机器成为用于实践当前公开的主题的装置。

尽管示例性实现可以指的是在一个或多个独立计算机系统的上下文中利用当前公开的主题的各方面，但是该主题不限于此，而是可以结合任何计算环境(诸如网络或分布式计算环境)来实现。更进一步，当前公开的主题的各方面可以在多个处理芯片或设备中实现或跨多个处理芯片或设备实现，并且存储可以类似地跨多个设备来实现。例如，此类设备可以包括个人计算机、网络服务器、应用服务器、移动设备和手持设备。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于上述特定特征或动作。相反，上述特定特征和动作作为实现权利要求的示例形式而被公开。

31页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：多处理建模器和模拟器

用于改进的搜索查询相关性的无监督实体和意图标识

相关技术

网友询问留言