用于访问主数据管理系统的数据记录的方法

文档序号:1850869 发布日期:2021-11-16 浏览:14次 >En<

阅读说明:本技术 用于访问主数据管理系统的数据记录的方法 (Method for accessing data records of a master data management system ) 是由 A·卢茨·艾克夏维尔·达科斯塔 G·S·普里帕蒂 M·卡迪比 N·辛格 A·赛斯 于 2020-03-19 设计创作,主要内容包括:本发明涉及一种方法,包括:用一个或多个搜索引擎来增强主数据管理系统,该一个或多个搜索引擎用于能够访问数据记录。可以在主数据管理系统处接收数据请求。可以标识多个属性中的在所接收的请求中被引用的一个或多个属性的属性集合。可以选择主数据管理系统的搜索引擎中的一个或多个搜索引擎的组合,该一个或多个搜索引擎的搜索性能满足当前选择规则。并且,可以使用搜索引擎的组合来处理请求。可以提供处理结果的至少一部分,并且可以基于对所提供的结果的用户操作来更新选择规则,更新后的选择规则成为当前选择规则。(The invention relates to a method comprising: the master data management system is enhanced with one or more search engines for enabling access to the data records. A data request may be received at a primary data management system. A set of attributes of one or more of the plurality of attributes that are referenced in the received request may be identified. A combination of one or more of the search engines of the primary data management system whose search performance satisfies the current selection rules may be selected. Also, a combination of search engines may be used to process the request. At least a portion of the processing results may be provided, and the selection rule may be updated based on a user operation on the provided results, the updated selection rule becoming the current selection rule.)

用于访问主数据管理系统的数据记录的方法

背景技术

本发明涉及数字计算机系统领域,更具体地,涉及一种用于访问主数据管理系统的数据记录的方法。

企业数据匹配涉及匹配和链接从不同来源接收的客户数据并创建真实数据的单个版本。基于主数据管理(MDM)的解决方案用企业数据工作,并且执行数据的索引、匹配和链接。主数据管理系统可以允许对这些数据的访问。然而,存在改进对主数据管理系统中的数据的访问的持续需要。

发明内容

各种实施例提供了如独立权利要求的主题所描述的用于访问主数据管理系统的数据记录的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有利的实施例。如果本发明的实施例不是相互排斥的,则它们可以彼此自由地组合。

在一个方面,本发明涉及一种用于访问主数据管理系统的数据记录的方法,数据记录包括多个属性。该方法包括:

用一个或多个搜索引擎来增强所述主数据管理系统,该一个或多个搜索引擎用于能够访问所述数据记录;

在主数据管理系统处接收数据的请求;

标识多个属性中的在所接收的请求中被引用的一个或多个属性的集合;

选择主数据管理系统的搜索引擎中的一个或多个搜索引擎的组合,该一个或多个搜索引擎的用于搜索属性集合的至少一部分的值的性能满足当前选择规则;

使用搜索引擎的组合来处理请求;

提供处理的结果的至少一部分。

在另一方面,本发明涉及一种用于使得能够访问数据记录的计算机系统,数据记录包括多个属性,计算机系统包括用于使得能够访问所述数据记录的多个搜索引擎;用户接口,被配置用于接收数据请求;实体标识器,被配置用于标识多个属性中的在所接收的请求中被引用的一个或多个属性的集合;引擎选择器,被配置用于选择搜索引擎中的一个或多个搜索引擎的组合,该一个或多个搜索引擎的用于搜索属性集合的至少一部分的值的性能满足当前选择规则;其中,搜索引擎被配置用于处理请求;结果提供器,被配置用于提供处理的结果的至少一部分。

在另一方面,本发明涉及一种计算机程序产品,其具有与其一起实施的计算机可读程序代码,计算机可读程序代码被配置为用于访问主数据管理系统的数据记录,数据管理系统包括用于使得能够访问数据记录的搜索引擎,数据记录包括多个属性,计算机可读程序代码还被配置为:在主数据管理系统处接收数据的请求;标识多个属性中的在所接收的请求中被引用的一个或多个属性的集合;选择主数据管理系统的搜索引擎中的一个或多个搜索引擎的组合,该一个或多个搜索引擎的用于搜索属性集合的至少一部分的值的性能满足当前选择规则;使用搜索引擎的组合来处理请求;提供处理的结果的至少一部分。

附图说明

下面,仅通过示例方式,参考附图更详细地解释本发明的实施例,其中:

图1是用于访问主数据管理系统的数据记录的方法的流程图,

图2是用于提供一组搜索引擎的搜索结果的方法的流程图,

图3是用于提供多个搜索引擎的搜索结果的方法的流程图,

图4A描绘了包括来自不同引擎的搜索结果的表格,所述搜索结果被标准化和合并,

图4B描绘了包括引擎权重的示例的表格,

图4C描绘了包括基于实体识别的置信度识别属性类型的属性权重的例子的表格,

图4D描绘了包括完成度权重的示例的表,

图4E描绘了包括新鲜度加权的示例的表,

图4F描绘了包括结果记录和相关的权重和得分的表,

图5是用于更新权重的方法的流程图,所述权重用于对多个搜索引擎处理搜索请求的结果的数据记录的匹配得分进行加权,

图6A描绘了包括作为数据记录完成度的函数的用户点击数的表格,

图6B描绘了包括作为数据记录完成度的函数的用户点击得分的表格,

图6C是点击得分的分布作为数据记录完成度的函数的图,

图7示出了根据本公开的示例的计算机系统700的框图表示,

图8描绘了描述主数据管理系统的示例操作的方法的流程图,

图9描绘了根据本主题的处理请求的例子的示意图。

具体实施方式

本发明的各种实施例的描述将出于说明的目的而呈现,但不希望是详尽的或限于所揭示的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

本主题可以实现对存储在主数据管理系统中的数据的高效访问。本主题可以改进主数据管理系统的性能。本主题可以减少重复或重试的搜索请求的数量,因为它可以使用多个搜索引擎提供最好的可能结果,并且因此用户不必如其它系统的情况那样重试或重新制定搜索查询。

主数据管理系统可以使用单一类型的搜索引擎。利用本主题,主数据管理系统可以使用不同类型的搜索引擎。搜索引擎的类型可以由它用来执行诸如全文搜索或结构化概率搜索之类的搜索的技术来定义。例如,由本方法添加的附加搜索引擎可以是与主数据管理系统最初包括的搜索引擎的类型不同的类型。因此,本主题可以提供一种集成搜索和匹配引擎,其目的在于基于输入数据的类型或所进行的查询的类型来利用多个搜索和索引引擎的所有不同能力中的最佳能力。不同的索引或搜索引擎确实具有不同的能力,因此它们最多对不同类型的输入或不同的要求起作用。本主题可通过采用多个不同的索引和搜索引擎来实现搜索数据的更好方式,从而增强用户体验而不影响基于机器的交互的性能。

例如,标识、选择、处理和提供步骤可以在接收到数据请求时自动执行。在一个示例中,在接收到进一步的数据请求时,可以自动地重复标识、选择、处理和提供步骤,其中在每次重复中,使用由该方法的紧接先前执行产生的更新后的选择规则。

结果可以包括数据记录。提供数据记录可以包括在图形用户界面上显示指示数据记录的数据。例如,对于每个数据记录,可以显示一行,其中该行可以是使得用户能够点击以便访问数据记录的详细信息的超链接或链接。

数据记录是诸如特定用户的名称、出生日期(DOB)和类别的相关数据项的集合。记录表示实体,其中实体是指用户、对象或概念,关于其的信息被存储在记录中。

根据一个实施例,该方法还包括基于对所提供的结果的用户操作来更新选择规则,更新后的选择规则成为当前选择规则,并且在接收到另一数据请求之际,使用当前选择规则来重复标识、选择、处理和提供步骤。在一个示例中,选择规则的更新可以在预定义的时间段之后执行,例如,在该时间段期间,该方法可能已经被执行多次,并且更新是基于在该时间段期间对所提供的结果的用户操作的组合来执行的。这可以实现基于用户输入和体验的自我改进的搜索系统。搜索引擎是作为与属性组的至少一部分相关联的数据管理系统的预定义表的一部分的搜索引擎,所述搜索引擎搜索属性组的至少一部分的值的性能满足当前选择规则。例如,该表包括多个条目。表的每个条目i包括搜索引擎SEi和由该搜索引擎适当搜索的相关的一个或多个属性Ti。在一个示例中,Ti和SEI的每个关联可被分配能够改变或更新的更新得分。所选择的搜索引擎是与属性组中的一个或多个属性相关联的表格的搜索引擎SEI,例如,如果属性组包括T1和T2,则可以搜索表格以标识具有T1和T2的条目,并且所选择的搜索引擎是那些所标识的条目的搜索引擎。选择规则的更新可以包括更新表,例如,如果对来自搜索引擎SEx并且与搜索的给定属性Tx相关联的显示结果的点击次数小于阈值,则可以相应地更新表,例如删除Tx和SEx之间的关联,或者如果Tx和SEx与更新得分相关联,通过例如降低该更新得分来改变该更新得分。例如,如果先前发现相同的组合Tx和SEx至少一次,并且性能不好,例如,关联结果的点击次数小于阈值多次,并且因此关联的更新得分低于给定阈值,则可以执行删除。在一个示例中,该表格最初具有属性和搜索引擎之间的组合的许多或所有可能性,并且在预定义的时段内,可以移除非执行条目。

根据一个实施例,结果包括与由搜索引擎的评分引擎获得的相应匹配得分相关联的主数据管理系统的数据记录,其中所提供的结果包括具有高于预定义得分阈值的匹配得分的非重复数据记录。匹配得分可以指示数据记录和所请求的数据之间的匹配的级别或程度。

通过仅提供满足匹配得分的选择标准的结果,该实施例可以进一步改进主数据管理系统的性能。例如,不相关的结果可能不被提供给用户。这可以节省处理资源,例如显示资源和将用于不相关结果的数据传输资源。例如,可以如以下实施例中所述的那样执行得分的加权。

根据一个实施例,结果包括与由搜索引擎的评分引擎获得的相应匹配得分相关联的主数据管理系统的数据记录,该方法还包括根据产生结果中涉及的组成部分的性能来对匹配得分进行加权,组成部分包括方法步骤、用于产生结果的元素以及结果中的至少一部分,其中所提供的结果包括具有高于预定义得分阈值的加权匹配得分的非重复数据记录。加权可以例如包括:对于结果的每个数据记录,为提供或产生数据记录的组成部分中的每个组成部分分配权重,其中组成部分可以包括所提供的数据记录本身,组合权重并且使用组合的权重对数据记录的匹配得分加权。

例如,所接收的数据请求的搜索结果的产生涉及搜索过程的执行(本方法可包括搜索过程)。该搜索过程具有多个过程步骤,其中每个过程步骤可以由诸如搜索引擎或评分引擎等的系统元件来执行。搜索过程可以具有作为过程步骤和/或系统元件和/或其提供的结果的组件。每个组件可以具有其执行的用于对搜索结果的获得做出贡献的功能。搜索过程的那些组件可能各自对所获得的结果的质量有影响。例如,如果搜索过程的组件没有正确地运行,则这可能影响搜索结果。例如,如果组件是标识所接收的请求中的属性的处理步骤,并且该组件在标识特定类型的属性方面可能不是有效的,则可能发生该处理步骤没有正确地标识该类型的属性。因此,当接收到具有在其中引用的这种类型的属性的数据的请求时,所获得的结果可能受到影响,因为它们可能包括错误标识的属性的不相关的、不想要的搜索结果。搜索过程的组件的性能可能对搜索过程所获得的结果有不同的贡献。该实施例可以通过相应地对匹配得分进行加权来考虑这些贡献的至少一部分。例如,可以向该实施例的搜索过程的至少一部分组件中的每个组件分配指示其执行其相应功能的性能的权重。权重例如可以是用户定义的,例如权重可以由用户初始定义(例如,用于本方法的第一次执行),并且可以如本文所述利用权重更新方法稍后自动更新。这些权重可用于对匹配得分进行加权。该实施例可以进一步提高数据管理系统的性能。例如,可以不向用户提供进一步不相关的结果。这可以节省处理资源,例如显示资源和数据传输资源。

在以下实施例中可以描述在搜索处理的加权中考虑的组件的示例。该实施例可以是有利的,因为它标识并加权其性能可能对搜索结果具有较大影响的组件。

根据一个实施例,组件包括搜索引擎、标识步骤和结果。该方法还包括:向所述搜索引擎中的每个搜索引擎分配引擎权重;向所述属性集合分配属性权重,其中属性的属性权重指示所述属性被标识的置信度水平;向所述结果的每个数据记录分配指示所述数据记录的完成度权重和指示所述数据记录的新鲜度权重;对于结果的每个数据记录,组合相应的引擎权重、属性权重、完成度权重和新鲜度权重,并且通过组合权重对数据记录的得分进行加权。属性权重可以在属性级别生成,并应用于针对所接收的请求返回的完整结果集(以及所有属性)。这可以使得如果自动确定的搜索实体类型本身不正确,则结果集也将可能不太有用。

以下实施例提供了一种用于更新根据本主题所使用的权重的权重更新方法。它们能够实现加权过程的有效和系统的处理。

根据一个实施例,该方法还包括:提供用户参数,所述用户参数量化对所提供的结果的用户操作;对于所述组件的至少一部分中的每个组件,确定所述用户参数的值和描述所述组件的组件参数的相关联的值;以及使用所确定的关联来更新被分配给所述组件的权重。例如,组件参数可以包括完成度、数据记录的新鲜度、搜索引擎的ID、以及可以标识属性的置信度中的至少一个。

例如,用户操作或交互可以由主数据管理系统的活动监视器来监视。在一个示例中,用户操作可以是用户点击所提供的结果。用户参数和组件参数的相关联的值可以以分布的形式提供,该分布可以被拟合或建模以导出权重。例如,点击计数相对于表示数据记录的行的各种特性(例如,特性可以例如指示数据记录来自哪个搜索引擎、实体类型检测的置信度是什么、记录是如何完整、记录是如何新鲜等)的分布可以被提供和分析以找到权重。例如,可以针对每个新点击执行该实施例,例如,当每个新点击被反馈到系统时,可以改变分布,并因此帮助重新分配权重。该实施例可以使得能够更新本方法的先前迭代中使用的权重。该实施例可以使数据管理系统能够基于其对数据搜索的自身经验来保持自我改进。例如,可以更新在上述实施例中使用的所有权重。在另一示例中,可以仅更新所使用的权重(例如,完成度权重)的一部分。更新权重可以包括确定新的权重并且用相应的新的权重替换所使用的权重。根据该实施例,可以通过监视与提供给用户的结果有关的用户活动来确定新的权重。

根据一个实施例,该方法还包括提供将用户参数的值与组件参数的值相关联的查找表,以及使用该查找表来更新被分配给组件的权重。

根据一个实施例,该方法还包括使用预定义模型将用户参数值的变化建模为组件参数的值的函数,并且使用该模型来确定组件的更新后的权重并使用该更新后的权重来更新分配给部件的权重。例如,预定义模型可以被配置为接收组件参数值作为输入并且输出相应的权重。这可以实现根据本主题的准确加权技术。

根据一个实施例,用户操作中的用户操作包括对所提供的结果中的显示结果的鼠标点击,其中用户参数包括点击次数、点击频率和访问结果中的给定结果的持续时间中的至少一个。例如,活动监视器可以使用点击计数和/或可以检查在各个结果上花费的时间(例如,在它被点击之后直到使用了后退/重新开始按钮)和/或它可以检查在结果集上的来回操作,并且其中用户花费的时间超过某个阈值的最后选择的记录可以被认为是“用户喜欢的结果”。

根据一个实施例,对于属性集合中的每个属性,选择规则包括:对于所述搜索引擎中的每个搜索引擎,确定指示所述搜索引擎的性能参数的值,以用于搜索所述属性的值;用相应的当前权重对所确定的值进行加权;选择性能参数值高于预定性能阈值的搜索引擎。

例如,在该实施例的方法的第一次或初始执行中,当前权重可以被设置为1。在另一个例子中,如果属性集合包括三个属性ATT1、ATT2和ATT3,则可以评估每个搜索引擎(例如搜索引擎1(SE1))的性能。对于每个搜索引擎,这可以导致三个性能参数值Perf_att1_SE1、Perf_att2_SE1和Perf_att3_SE1。搜索引擎SE1的当前权重可以从Perf_att1_SE1、Perf_att2_SE1和Perf_att3_SE1确定,得到权重W1_SE1、W2_SE1和W2_SE1。这些权重可以用于对性能参数值Perf_att1_SE1、Perf_att2_SE1和Perf_att3_SE1进行加权。为了决定是否选择搜索引擎SE1,可以确定加权的Perf_att1_SE1、Perf_att2_SE1和Perf_att3_SE1的组合,并且如果组合值(例如平均值)高于性能阈值,则可以选择SE1。在另一个例子中,将每个加权性能值Perf_att1_SE1、Perf_att2_SE1和Perf_att3_SE1与性能阈值进行比较,并且只有当它们中的每一个高于性能阈值时,才可以选择SE1。

根据一个实施例,性能参数包括以下中的至少一个:结果的数量和结果与期望或所请求的内容的匹配程度。

根据一个实施例,选择规则使用将属性关联到对应搜索引擎的表,选择规则的更新包括:确定量化对所述搜索引擎的组合中的每个引擎的所提供的结果的用户操作的用户参数的值;以及使用所确定的与搜索引擎的组合中的每个搜索引擎相关联的值来标识小于预定义阈值的用户参数的值,并且针对用户参数的每个所标识的值,确定属性集合中的属性以及与所识别的值相关联的搜索引擎,并且使用所确定的属性和搜索引擎来更新表。在一个示例中,该表格最初具有属性和搜索引擎之间的组合的许多或所有可能性。例如,在预定时间段之后,可以移除非执行条目。例如,用户参数可以是对所提供的结果中的每个结果的点击次数,即,对于每个显示的结果,存在用户参数的值。可以将这些值与预定阈值(例如10次点击)进行比较,并且可以标识与小于阈值的值相关联的显示结果。这些标识结果中的每一个由给定搜索引擎X获得,作为搜索一个或多个属性,例如属性组的属性T1的结果。因此,X和T1可用于如本文所述更新表。

根据一个实施例,由搜索引擎的组合并行地执行对请求的处理。这可以加速本主题的搜索过程。

根据一个实施例,搜索引擎的组合是搜索引擎的排序列表,其中在排序列表之后连续地执行对请求的处理,直到超过最小数目的结果。这可以节省处理资源。如果引擎选择规则仅建议引擎1(SE1),但是实际的搜索没有产生足够的结果,则可以使用SE2(在排序列表中的下一个)。

根据一个实施例,所提供的结果包括根据请求的发送方而被过滤的数据记录。例如,在获得给定数据输入的匹配列表并提供基于角色的可见性并应用同意相关过滤器之后应用数据控制规则;从而尊重隐私,同时提供更好的匹配质量和搜索灵活性。

根据一个实施例,标识所述属性集合包括将所接收的请求输入到预定义的机器学习模型;从所述机器学习模型接收所述请求的分类,所述分类指示属性集合。

根据一个实施例,选择规则包括:将所述属性集合输入到预定义的机器学习模型,并且从所述机器学习模型接收可以用于搜索所述属性集合的一个或多个搜索引擎。

根据一个实施例,该方法还包括:接收指示一个或多个属性的不同集合的训练集,其中每个属性集合被标记以指示适合于执行对所述属性集合的搜索引擎;使用所述训练集来训练预定义的机器学习算法,从而生成所述机器学习模型。

图1是用于访问主数据管理系统的数据记录的方法的流程图。数据记录包括多个属性。

例如,主数据管理系统可以处理从客户端系统接收的记录,并且将数据记录存储到中央储存库中。客户端系统可以例如经由网络连接与主数据管理系统通信,该网络连接包括例如无线局域网(WLAN)连接、WAN(广域网)连接、LAN(局域网)连接或其组合。

存储在中央储存库中的数据记录可以具有预定义的数据结构,诸如具有多个列和行的数据表。预定义数据结构可以包括多个属性(例如,每个属性表示数据表的一列)。在另一示例中,数据记录可以作为具有关系的实体存储在图形数据库中。预定义数据结构可以包括图结构,其中每个记录可以被分配给图的节点。属性的示例可以是名称、地址等。

主数据管理系统可以包括搜索引擎(被称为初始搜索引擎),其使用诸如概率结构搜索之类的单个技术,基于接收到的搜索查询,执行对存储在中央存储库中的数据记录的搜索。初始搜索引擎和任何其他搜索引擎一样可以很好地适用于特定类型的属性,但不适用于其他属性。即,初始搜索引擎的性能可以取决于被搜索的属性值的类型。例如,由于昵称和语音学,属性“名称”可以被概率搜索引擎很好地搜索,而属性地址如城市可以与自由文本搜索引擎一起很好地工作,因为它是部分的。为此,在步骤101中,主数据管理系统可以用一个或多个搜索引擎来增强,该一个或多个搜索引擎能够访问中央储存库的数据记录。这可以导致多个搜索引擎,包括初始搜索引擎和添加的搜索引擎。例如,主数据管理系统的每个搜索引擎可以与各自的API相关联,通过该API可以接收搜索查询。这可以使集合体搜索和匹配引擎能够基于输入数据的类型或所进行的查询的类型来利用多个搜索和索引引擎的所有不同能力中的最好能力。不同的索引或搜索引擎确实具有不同的能力,因此它们最多对不同类型的输入或不同的要求起作用。

主数据管理系统可以在步骤103接收数据请求。例如,可以以搜索查询的形式接收请求。例如,搜索查询可以用于检索属性值、属性值的集合或其任意组合。搜索查询例如可以是SQL查询。所接收的请求可以涉及中央储存库的数据记录的一个或多个属性。这可以例如通过显式地引用请求中的属性和/或间接地引用属性来执行。例如,搜索查询可以是结构化搜索,其中比较或范围谓词用于限制某些属性的值。结构化搜索可以提供对属性的显式引用。在另一示例中,搜索查询可以是非结构化搜索,例如,过滤掉不包含某种形式的指定关键字的记录的关键字搜索。非结构化搜索可以间接引用属性。在一个示例中,所接收的请求可以包括名称、实体类型和/或非结构化格式的数字和时间表达式。

在接收到请求时,在步骤105中,主数据管理系统的实体标识器可用于标识在所接收的请求中引用的一个或多个属性的集合。属性组的标识可以进一步包括标识属性组的至少一部分的每个属性的实体类型。例如,可以分析所接收的请求,例如解析所接收的请求以搜索其值被搜索的属性。例如,实体标识器可以标识实体的名称和类型、作为非结构化文本进入的用户输入中的数字和时间表达式,并且以特定概率将它们映射到主数据管理系统的属性,这允许它们被用于执行结构化搜索。

实体标识器可以例如是标识字符串、数值、模式名、位置等的令牌标识器。例如,电子邮件的标识可以使用以下电子邮件结构[email protected]。XYZ。电话号码的标识可以基于电话号码是10位数的事实。社保账号(SSN)的标识可以基于SSN具有以下结构AAA-BB-CCCC的事实。

在一个示例中,实体标识器可以使用由机器学习(ML)算法生成的ML模型。ML算法可以被配置为读取企业数据,标识/学习数据的部分,并标识属性。使用ML模型,实体标识器可以以特定概率确定输入文本是否可以是名称或地址或电话号码或SSN等。引擎选择器还可以使用由ML算法生成的ML模型来执行选择。

在步骤107,使用所标识的属性(例如和/或相关联的实体类型)集合,主数据管理系统的引擎选择器可以选择主数据管理系统的搜索引擎的一个或多个搜索引擎的组合。例如,可以评估主数据管理系统的每个搜索引擎的性能,以搜索属性的每个属性的值。搜索引擎的性能可以通过评估性能参数来确定。性能参数例如可以是由搜索引擎获得的用于搜索属性的不同值并且由用户点击或使用的结果的平均数量。性能参数可以替代地或另外地包括由搜索引擎获得的用于搜索属性的不同值并且由用户点击或使用的结果的平均匹配得分。

可以使用当前选择规则来执行对一个或多个搜索引擎的组合的选择。例如,可以如下针对属性集合中的每个给定属性应用选择规则:对于主数据管理系统的搜索引擎中的每个搜索引擎,可以确定性能参数的值,该性能参数指示用于搜索给定属性的值的搜索引擎的性能。这可以导致针对搜索引擎组合中的每个搜索引擎的多个值,例如,如果属性集合包括两个属性,则每个搜索引擎可以具有与两个属性相关联的两个性能值。

例如,如果属性集合包括名称和生日属性,则结构化概率搜索引擎可以为这个输入集获得更好的结果,并且因此可以被选择。另外,可以选择自由文本搜索引擎。并且,可以使用两个引擎如下执行请求:当概率搜索引擎没有发现结果时,也可以执行自由文本搜索。在另一个示例中,两个搜索引擎都可以被用于执行请求,而不管它们各自的结果。在另一示例中,该组属性可以包括生日年份和电话号码。在这种情况下,由于概率搜索引擎可以处理编辑距离值,并且出生年份可以由自由文本引擎很好地满足作为出生日期的部分文本,因此可以选择两个引擎。如果所接收的请求特别调用AND或NOT逻辑,则可以使用全文搜索引擎。

在选择搜索引擎的组合之后,可以在步骤109中使用搜索引擎的组合来处理请求。例如,引擎选择器可以基于预先建立的启发法来决定使用搜索引擎的组合来并行地或顺序地处理数据。搜索引擎的组合被用于基于引擎选择器的规则来获得候选列表。

在步骤111中,可以例如由主数据管理系统的结果提供器提供由搜索引擎的组合对请求进行处理的结果的至少一部分。例如,结果的数据记录的行可以显示在图形用户界面上,以使得用户能够访问结果的一个或多个数据记录。例如,用户可以对所提供的结果执行用户操作。用户操作可以例如包括鼠标点击或触摸手势或使得用户能够访问所提供的结果的另一操作。

所提供的结果可以包括在由搜索引擎的组合处理请求之后获得的所有结果,或者可以仅包括那些所有结果的预定义部分。例如,来自搜索引擎的组合的搜索结果被聚集并且副本被移除,从而产生数据记录的候选列表。可以对所得到的数据记录的候选列表进行评分。例如,使用主数据管理系统的多个评分引擎。例如,取决于属性,评分函数可以是可用的或不可用的。由于基于PME的评分器可能不能对所有类型的实体(例如,合同类型的数据)评分,所以使用多个评分引擎。在获得的所有结果中,一组结果可能转到一个评分器,而另一组可能转到一些其它评分引擎。这些评分引擎的调用可以并行地进行以提高效率。

基于对所提供的结果执行的用户操作,在步骤113中可以更新选择规则。更新后的选择规则成为当前选择规则,因此可以用于主数据管理系统的进一步接收的数据请求。例如,在接收到对主数据管理系统的数据的步骤103的所接收的请求的后续请求时,可以重复步骤105-113,并且在该重复期间,可以在选择步骤107中使用更新的选择规则。

例如,选择规则最初主要基于对应于给定属性集合的搜索引擎的能力/适用性,但是选择规则保持基于例如用户的点击、反馈和迄今为止所进行的搜索的结果(质量和性能)来改进规则。如果搜索引擎的先前选择没有传递结果,则也可以动态地选择替换的搜索引擎。

图2是用于提供一个或多个搜索引擎的集合的搜索结果的方法的流程图。图2的方法例如可以应用于图1的数据管理系统(例如,图2可以提供图1的步骤111的细节)或者可以应用于其它搜索系统。

例如,该组搜索引擎可以处理数据的搜索请求,并且搜索结果可以例如包括数据记录。在步骤201中,结果的每个数据记录可以与匹配得分相关联或被分配匹配得分。匹配得分可以由一个或多个评分引擎获得。例如,结果的数据记录的匹配得分可以由一个或多个评分引擎获得。在多于一个评分引擎的情况下,匹配得分可以是由多于一个评分引擎获得的匹配得分的组合(例如,平均)。在一个示例中,在获得的所有结果中,一组结果可以由一个评分引擎处理,而另一组可以由一些其他评分引擎处理。用于对给定搜索引擎的结果评分的一个或多个评分引擎的至少一部分可以是或可以不是给定搜索引擎的一部分。

例如,搜索引擎组中的每个搜索引擎可以包括被配置为对相应搜索引擎的结果进行评分的评分引擎。在另一示例中,一个或多个公共评分引擎可以用于对由搜索引擎集合获得的结果进行评分。例如,搜索引擎组中的每个搜索引擎可以被配置为连接到评分引擎并且从评分引擎接收数据记录的评分。

在步骤203中可以对匹配得分进行加权。可以根据产生结果所涉及的组件的性能来执行匹配得分的加权。例如,为了产生搜索结果,执行搜索过程。搜索过程可以包括由诸如搜索引擎之类的系统元件执行的过程步骤,以便获得搜索结果。搜索过程因此可以具有作为过程步骤、系统元件和搜索结果的组件。搜索过程的这些组件中的每一个都可以具有其自己的执行相应功能的性能。组件的性能指示组件在执行其功能或任务方面有多好。每个组件的性能可以通过评估相应的性能参数来量化。该性能可能影响搜索结果。换句话说,搜索过程的每个组件对所获得的搜索结果的质量具有贡献或影响。可以通过为搜索过程的至少一部分组件确定和分配权重来考虑这些贡献的至少一部分。分配给组件的权重可以指示(例如,与之成比例)组件的性能,例如,如果用于标识属性的方法步骤的效率是80%,则权重可以是0.8。在一个示例中,权重可以被分配给搜索过程的组件中的每个组件。在另一示例中,搜索过程的部分组件可以被选择或标识(例如,由用户),并且那些标识的组件可以与相应的权重相关联。在一个示例中,权重可以是用户定义的权重。加权步骤可以导致搜索结果的每个数据记录与导致所述数据记录的搜索过程的组件的权重相关联。所述数据记录的匹配得分可以由其相关联的权重的组合来加权,例如,该组合可以是权重的乘积。

使用加权匹配得分,在步骤205中可以通过去除结果的重复数据记录并保留具有高于预定义得分阈值的加权匹配得分的结果的非重复数据记录来提供结果。例如,结果可以显示在用户界面上,例如用户可以看到行的列表,每行与所提供的结果的数据记录相关联。

所提供的结果可以由用户操作或使用。例如,用户可以对所提供的结果执行用户操作。这些用户操作例如可以由活动监视器来监视。例如,在用户界面上向用户示出结果列表之后,活动监视器可以跟踪用户对所示结果的点击。在结果行上的点击可以被认为是用户认为她/他正在寻找的那一行。

用户操作例如可以可选地在步骤207中被处理和分析。例如,可以分析点击计数相对于数据记录的各种特性(例如,它来自哪个引擎、实体类型检测的置信度是什么、记录的完整程度、记录的新鲜程度等)的分布。捕获该数据以找到相关性,并且相应地基于查找表计算权重或从基于ML的回归模型预测的方程导出权重。因此,当每个新点击被反馈回该系统时,可以改变分布,并因此帮助重新分配权重。所计算的权重可以用于在步骤209中更新用于获得搜索结果的权重,例如所计算的权重可以代替用于获得搜索结果的相应权重。然后,当提供处理进一步搜索请求的进一步搜索结果时,可以使用更新后的权重。

图3是用于提供多个搜索引擎的搜索结果的方法的流程图。图3的方法例如可以应用于图1的数据管理系统,例如图3可以提供图1的步骤111的细节,为了清楚起见,参考图4A-4F中的示例,参考两个搜索引擎1和引擎2以及一组五个属性来描述图3。一个搜索引擎实现概率搜索,而另一个实现自由文本搜索。进一步假设所接收的请求或输入令牌被给定为名称+出生日期(Name+DOB),并且实体标识器将第一令牌标识为具有90%置信度的名称并被发送到搜索引擎1,将第二令牌标识为具有60%置信度的DOB并被发送到搜索引擎2。

在该示例中,例如由图1的方法执行的搜索过程的组件可以包括搜索引擎、标识步骤105和结果。结果的数据记录R1至R6的示例在图4A的表401和402中提供。两个搜索引擎的结果R1到R6被聚集,并且它们的匹配得分被归一化,从而产生表403的匹配得分。

在步骤301中,可以为搜索引擎中的每个搜索引擎分配引擎权重。引擎权重的示例在图4B中示出。例如,可以将初始权重0.5分配给搜索引擎1和搜索引擎2。

在步骤303中,四个属性的集合中的每一个:名称、DOB、地址、标识符和电子邮件被分配属性权重,所述属性权重指示标识所述属性的置信度。图4C中所示的属性权重可以是可以在执行搜索请求之后更新的初始权重集合。例如,如图4C所示,对于属性名称和0%和10%之间的置信度,属性权重是0.1。在一个示例中,可以使用置信度水平的值来获得属性权重,例如,如果置信度水平小于10%,则属性权重可以等于0.1。然而,可以使用其他权重确定方法。

在步骤305中,可以为结果的每个数据记录分配指示数据记录的完成度权重和指示数据记录的新鲜度权重。图4D的表格示出了给定数据记录的完成度权重的示例值。图4D中所示的完成度权重可以是可以在执行搜索请求之后更新的初始权重集合。例如,如图4D所示,给定数据记录的完成度权重可以作为数据记录的完成度的函数来提供。例如,对于10%和20%之间的完成度,完成度权重是0.2。在一个示例中,可以使用完成度的值来获得完成度权重,例如,如果完成度小于10%,则完成度权重可以等于0.1。然而,可以使用其他示例加权方法。

图4E的表格展示给定数据记录的新鲜度加权的实例值。图4E中所示的新鲜度加权可以是在执行搜索请求之后可以更新的初始加权集合。例如,如图4E所示,可以根据数据记录的新鲜度来提供给定数据记录的新鲜度权重。例如,对于具有3和5年之间的新鲜度的数据记录,新鲜度加权是0.8。然而,可以使用其他示例加权方法。

对于结果的每个数据记录,在步骤307中可以组合相应的引擎权重、属性权重、完成度权重和新鲜度权重,并且可以通过组合权重对数据记录的得分加权。组合权重例如可以是四个权重的乘积。作为加权得分的最终结果得分如图4F的表所示。使用最终得分,结果可被过滤并提供给用户。例如,只有数据记录R1、R2和R6可以在它们的最终得分高于阈值1时提供给用户。图4F的表示出了对于记录R1、R2和R3,引擎权重Wa为0.5,因为它们来自引擎1,而对于记录R4、R5和R6,引擎权重Wa为0.5,因为它们来自引擎2.对于R1、R2和R3,属性权重(与名称属性相关联)Wb为0.9,因为它们是具有90%置信度的标识名称属性的实体标识器的结果集。R4、R5和R6的属性权重(与DOB属性相关联)Wb为0.6,因为它们是标识具有60%置信度的DOB的实体标识器的结果集。完成度权重wc基于每个记录的完成度。例如R1完成80%,因此0.8是完成权重。新鲜度加权Wd基于每个记录的新鲜度。例如,R1是新鲜的,即最后修改日期小于1年,因此1是新鲜度权重。最终得分可以如下获得:最后得分=初始标准化得分*(A*Wa)*(B*Wb)*(C*Wc)*(D*Wd),其中,为了简单起见,A、B、C和D是被假设为1的权重。

图5是用于更新权重的方法的流程图,该权重用于对多个搜索引擎处理搜索请求的结果的数据记录的匹配得分进行加权。为了简化的目的,图5描述了完成度权重的更新。然而,权重更新方法可以用于其它权重。可以参考图4的示例来描述图5。

在向用户提供结果时,活动监视器可以在步骤501中监视对所提供的结果执行的用户操作。例如,活动监视器可以对已经针对向用户显示的每个数据记录执行的点击的数量进行计数。这可以得到图6A的表。图6A的表格示出了用户针对数据记录的不同完成度而执行的点击次数。例如,用户在表示具有80%完成度的数据记录的行上执行一次鼠标点击。

在步骤503,可以处理或分析如图6A所示的监视到的操作的结果,以便找到更新的完成度权重。为此,可以生成如图6B所示的查找表。查找表包括用于加权的完成度范围(参见图4D)与用户对所列范围中具有完成度的数据记录执行的点击的百分比之间的关联。在该示例中,数据示出用户几乎从不点击小于30%完成的记录,而~40%的点击发生在大于80%完成的记录上。按照查找表中的权重,具有60%完成度的新记录将被给予与12%成比例的权重。例如,对于具有50%和60%之间的完成度的数据记录,点击的得分是从图6A-6B的表中获得的12%。例如,50%至60%的完成度范围的完成度权重将变为0.12而不是(图4D的)初始权重的0.6。

在另一示例中,如图6C中所例示的,可以通过将完成度的变化建模为点击得分的函数来执行对用户操作的分析。图6C中示出了示例模型601。该模型601可以用于确定针对完成度的给定值的更新后的权重。模型601由可由基于ML的回归模型预测的等式描述。

本方法的结果可以是更新后的权重,其可以用于替换例如图4中提供的初始权重,更新后的权重可以用于对执行新的搜索请求所产生的数据记录的匹配得分进行加权。

图7描绘了根据本公开的示例的计算机系统700的框图表示。计算机系统700例如可以被配置成执行主数据管理。计算机系统700包括主数据管理系统701和一个或多个客户系统703。客户端系统703可以访问数据源705。主数据管理系统701可以控制对中央储存库710的访问(读和写访问等)。主数据管理系统701可以利用索引数据711来处理模糊搜索。

主数据管理系统701可以处理从客户端系统703接收的数据记录,并且将数据记录存储到中央储存库710中。客户端系统703可以例如从不同的数据源705获得数据记录。客户端系统703可以经由网络连接与主数据管理系统701通信,该网络连接包括例如无线局域网(WLAN)连接、WAN(广域网)连接、LAN(局域网)连接或其组合。

主数据管理系统701还可以被配置成处理用于访问存储在中央储存库710中的数据请求或查询。例如,可以从客户端系统703接收查询。主数据管理系统701包括用于识别所接收的数据请求中的属性或实体的实体识别器721。实体识别器721可以例如识别作为非结构化文本进入的用户输入中的实体、数字和时间表达式的名称和类型,并且以特定概率或置信度将它们映射到存储在中央存储库710中的数据记录的属性,这允许它们用于执行结构化搜索属性。例如,实体识别器721可以是标识字符串/数值或模式名称、位置的记号识别器,如电子邮件应当跟随在[email protected]之后。xyz或10位数后的电话号码或AAA-BB-CCCC结构后的SSN。实体识别器721可以被配置成使用机器学习模型来分类或识别存储在中央储存库710中的数据记录的输入数据属性。主数据管理系统701还包括用于选择适于执行所接收的搜索请求的一个或多个引擎的引擎选择器722。引擎选择器722可基于预先建立的试探法决定使用一个或多个引擎来并行或顺序地处理数据。例如,最初用于选择引擎的规则主要基于对应于给定属性集合和实体类型的引擎的能力/适用性。在第一请求的初始处理之后,引擎选择器基于用户的点击、反馈和迄今为止所做的搜索的结果(质量和性能)来保持改进其规则。如果搜索引擎的先前选择没有传递结果,则引擎选择器722还可以动态地选择替换引擎。基于引擎选择器722的规则,可以选择多个搜索引擎并使用它们来获得良好的候选列表。来自所有引擎的搜索结果被聚集,并且副本被移除。然后对得到的候选列表评分。使用多个评分引擎。取决于属性,评分函数可以是可用的或不可用的。除了基于PME的评分器之外,还使用其他评分引擎来对搜索结果进行评分。例如,在获得的所有结果中,一组结果可能转到一个评分器,而另一组可能转到某个其它评分引擎。这些引擎的调用可以并行地进行以提高效率。

主数据管理系统701还包括权重提供器和结果聚合器723,用于加权和聚合由搜索引擎获得的结果。一旦所有评分者完成评分,结果的聚合可以基于评分的加权平均值。

通过寻找模式和结果集的特性与匹配质量之间的相关性,在一段时间内导出并细化权重。分析器可以使用机器学习来识别这些相关性。分析中的结果集的特性可以包括(但不限于)以下中的至少一个:用于获得得分的匹配引擎,例如特定的评分引擎可以具有比其他评分引擎更宽的评分范围或更不可靠;实体识别器检测到输入数据类型的确定性;记录的完成度,例如指示填充了多少字段以及数据的新鲜度(最后更新日期)。权重是一组用于修改结果集的得分的数字。匹配质量由用户点击的分析来指示。在所示结果上的点击指示用户理解更好的匹配。匹配质量还可以基于关于可以在UI上寻找的匹配质量的显式反馈。相关性的分析被反馈以改进权重提供器723。使用权重来聚集由搜索引擎获得的结果,然后基于与阈值记录的比较而将其延续到下一阶段。

主数据管理系统701还包括不同的API,用于允许存储以及访问中央储存库710中的数据。例如,主数据管理系统701包括创建、读取、更新和删除(CRUD)API 724,用于使得能够访问诸如在中央储存库710中存储新数据记录的数据。主数据管理系统701还包括与它所包括的搜索引擎相关联的API。图7示出了用于示例目的两种API,即结构化搜索API 725和模糊搜索API 726。

主数据管理系统701还包括能够过滤要提供给用户的结果的组件。例如,主数据管理系统701包括用于应用可见性规则的组件727和用于应用同意管理的另一组件728。主数据管理系统701包括用于对要存储在中央储存库710中的数据应用标准化规则的组件729。过滤可能是有利的,因为在主数据管理解决方案中,数据安全性和隐私性是极其重要的。虽然全文搜索试图投射宽网以找到匹配,但是可以确保这样的超量范围保持在系统内部并且信息不会被无意地公开给未经请求的用户。为此,多个过滤器将检查查询的用户是否可以访问返回的字段,以及所得到的记录是否具有来自数据所有者的必要的相关联的许可,以用于由用户提供的处理目的。在搜索过程的稍后阶段进行过滤,以允许与所有可能的属性进行适当匹配。过滤的结果可以是匹配得分的降序的记录列表,包含那些仅提供了所需同意的记录,其中那些列是发起搜索的用户允许或可见的。

主数据管理系统701还包括索引、匹配、评分和链接服务730。每个客户系统703可以包括管理搜索用户接口(UI)741,用于提交用于查询中央资料库710中的数据的搜索查询。每个客户端系统还可以包括诸如消息传递服务742和批量加载服务743之类的服务。

将参考图8详细描述计算机系统700的操作。

图8描绘了描述主数据管理系统701的示例操作的方法的流程图。在框801中,可以在浏览器中输入自由文本搜索,例如,其可以是管理搜索UI 741的示例。实体识别器721可以接收(框802)自由文本搜索请求,并且可以如这里例如在图1中描述的那样处理所接收的请求,以标识属性或实体。引擎选择器722然后可被用来(框803)选择适合于所标识的属性的搜索引擎。如图8中所例示的,选择并使用两个搜索引擎(框804和805)来执行所接收的搜索请求。可以使用主数据管理系统701的匹配和评分服务来对搜索请求的执行结果进行评分(框806)。评分还可以使用附加评分机制(框807)。然后,对结果进行聚合,并对得分进行归一化(框808)。在向用户提供结果之前,可以应用一些过滤器(框809)。这些过滤器例如可以包括可见性过滤器和基于同意的数据过滤器的规则以及定制过滤器中的至少一个。然后在浏览器(例如,接收到自由文本搜索的浏览器)中显示过滤的结果(框810)。所显示的结果可以由用户点击和质量反馈分析器来监视(框811)和分析。例如,分析器可以使用机器学习模型来基于用户对结果的动作确定权重。如箭头812和813所示,权重可以用于更新引擎选择器722和权重提供器723。然后,由权重提供器723提供的权重可以在该方法的下一次迭代中用于评分框808。

图9描绘了示出根据本主题的处理请求的示例的图。图9的第一列901示出了所接收的请求或输入令牌的示例内容。例如,所接收的请求可以包括“Robert”、“Bangalore”和数字“123-45-6789”。第二列902示出了当处理所接收的请求时的实体标识的结果。例如,“Robert”被标识为名称属性,“Bangalore”被标识为地址属性,而号码“123-45-6789”被标识为SSN属性。列902和904指示引擎选择器已经选择了搜索引擎“搜索引擎1”用于处理请求“Robert”。列902和904还指示引擎选择器已经选择了搜索引擎“搜索引擎2”用于处理请求“Bangalore”。列902和904还指示引擎选择器已经选择了搜索引擎“搜索引擎1”和“搜索引擎2”两者用于处理请求“123-45-6789”。在如列905中所示提供之前,处理请求的结果被处理,例如被聚集。例如,列905示出了搜索引擎“搜索引擎1”在搜索“Robert”时已经找到记录R1、R2和R3。列905还示出了当搜索“Bangalore”时,搜索引擎“搜索引擎2”已经找到记录R4和R5。列905还示出了搜索引擎“搜索引擎1”在搜索“123-45-6789”时已经找到记录R6,并且搜索引擎“搜索引擎2”在搜索“123-45-6789”时已经找到记录R7。在被提供给用户之前,结果R1至R7可能需要使用如列906中所示的数据控制过滤器来过滤。在被过滤之后,如列907中所示,结果然后可以被输出给用户。如907栏所示,出生日期值从记录R1至R7中被过滤掉,因为提交结果的用户不被允许访问它们。

应当理解,本发明的一个或多个上述实施例可以组合,只要组合的实施例不是相互排斥的。

在以下实施例中指定了各种实施例。

1.一种用于访问主数据管理系统的数据记录的方法,所述数据记录包括多个属性,所述方法包括:

用一个或多个搜索引擎来增强所述主数据管理系统,以便能够访问所述数据记录;

在主数据管理系统处接收数据的请求;

标识多个属性中的在所接收的请求中被引用的一个或多个属性的集合;

选择所述主数据管理系统的所述搜索引擎中的一个或多个搜索引擎的组合,所述一个或多个搜索引擎的用于搜索所述属性集合的至少一部分的值的性能满足当前选择规则;

使用搜索引擎的组合来处理请求;

提供所述处理的结果的至少一部分。

2.根据条款1所述的方法,还包括基于对所提供的结果的用户操作来更新选择规则,更新后的选择规则成为当前选择规则,并且在接收到另一数据请求时,使用当前选择规则重复标识、选择、处理和提供步骤。

3.根据条款1所述的方法,其中,所述结果包括与由所述搜索引擎的评分引擎获得的相应匹配得分相关联的所述主数据管理系统的数据记录,所述方法还包括根据提供所述结果所涉及的组件的性能来对所述匹配得分进行加权,所述组件包括方法步骤、用于提供所述结果的元素和所述结果中的至少一部分,其中,所提供的结果包括具有高于预定义得分阈值的加权匹配得分的非重复数据记录。

4.根据条款3所述的方法,所述组件包括搜索引擎、标识步骤和结果,所述方法还包括:

为所述搜索引擎中的每个搜索引擎分配引擎权重;

为所述属性集合分配属性权重,其中属性的属性权重指示所述属性被标识的置信度水平;

为所述结果的每个数据记录分配指示所述数据记录的完成度权重和指示所述数据记录的新鲜度权重;

对于结果的每个数据记录,组合相应的引擎权重、属性权重、完成度权重和新鲜度权重,并且通过组合权重对数据记录的得分进行加权。

5.根据条款4所述的方法,还包括:

提供量化用户操作的用户参数;

对于所述组件的至少一部分中的每个组件,确定所述用户参数的值和描述所述组件的组件参数的相关联的值;以及使用所确定的关联来更新分配给所述组件的权重。

6.根据条款5所述的方法,还包括提供将用户参数的值与组件参数的值相关联的查找表,以及使用查找表来更新分配给组件的权重。

7.根据第5条所述的方法,还包括使用预定义模型对用户参数的值的变化与组件参数的值进行建模,并且使用所述模型来确定组件的更新后的权重,并且使用更新后的权重来更新分配给组件的权重。

8.根据条款5所述的方法,其中,用户操作中的用户操作包括结果选择的指示,该指示包括在所提供的结果中的显示结果上的鼠标点击,其中,用户参数包括点击数量、点击频率和访问结果中的给定结果的持续时间中的至少一个。

9.根据条款1所述的方法,其中,所述结果包括与由所述搜索引擎的评分引擎获得的相应匹配得分相关联的所述主数据管理系统的数据记录,其中,所提供的结果包括具有高于预定义得分阈值的匹配得分的非重复数据记录。

10.根据条款1所述的方法,其中,对于所述属性集合中的每个属性,所述选择规则包括:

对于所述搜索引擎中的每个搜索引擎,确定指示所述搜索引擎的性能的性能参数的值,以用于搜索所述属性的值;

选择性能参数值高于预定性能阈值的搜索引擎。

11.如条款10所述的方法,所述性能参数包括以下至少一项:结果的数量和结果与期望的匹配程度。

12.根据条款10所述的方法,所述选择规则使用将属性关联到对应搜索引擎的表,所述选择规则的更新包括:

确定用户参数的值,用户参数的值量化对所述搜索引擎的组合中的每个搜索引擎的所提供的结果的用户操作;以及

使用所确定的与所述搜索引擎的组合中的每个搜索引擎相关联的值来标识小于预定义阈值的所述用户参数的值,并且针对所标识的每个所述用户参数的值,确定所述属性集合中的所述属性以及与所标识的值相关联的所述搜索引擎,并且使用所确定的属性和搜索引擎来更新所述表。

13.根据条款1所述的方法,其中,所述请求的处理由所述搜索引擎的组合并行地执行。

14.根据条款1所述的方法,其中,所述搜索引擎的组合是搜索引擎的排名列表,其中,在所述排名列表之后连续地执行对所述请求的处理,直到超过最小数量的结果。

15.根据条款1所述的方法,其中标识所述属性集合包括将所接收的请求输入到预定义机器学习模型;从所述机器学习模型接收所述请求的分类,所述分类指示所述属性集合。

16.根据条款1所述的方法,将所述属性集合输入到预定义机器学习模型,并且从所述机器学习模型接收可以用于搜索所述属性集合的一个或多个搜索引擎。

17.根据条款16所述的方法,还包括:接收指示一个或多个训练属性的不同集合的训练集,其中每个训练属性集合被标记以指示适合于执行所述训练属性集合的搜索引擎;使用所述训练集来训练预定义的机器学习算法,从而生成所述机器学习模型。

18.根据条款1所述的方法,其中,所提供的结果包括根据请求的发送方而被过滤的数据记录。

19.一种用于根据预定义搜索过程提供搜索引擎的搜索结果的方法,所述方法包括

接收由所述搜索引擎获得的搜索请求的结果,所述结果中的每个结果与匹配得分相关联;

对于所述结果中的每个结果,确定所述搜索过程的在提供所述结果时涉及的一个或多个组件的集合,并且向所述组件的集合中的每个组件分配预定义的权重;

使用所述权重对所述匹配得分进行加权;

提供具有高于预定义得分阈值的加权匹配得分的结果。

20.根据条款19所述的方法,还包括:

通过评估量化用户操作的用户参数来分析对所提供的结果的用户操作;

对于所述组件集合的至少一部分中的每个组件,确定描述所述组件的组件参数的一个或多个值以及所述用户参数的相关联的值;使用所确定的关联来确定更新后的权重;以及

用所确定的权重替换被分配给所述至少一部分组件的权重;

使用所述更新后的权重来对进一步接收的搜索结果重复所述方法。

21.根据条款20所述的方法,还包括提供将用户参数的值与组件参数的值相关联的表,以及使用该表来更新分配给组件的权重。

22.根据条款20所述的方法,还包括使用预定义模型对所述值之间的关联进行建模,并且使用所述模型来确定所述组件的更新后的权重,并且使用所述更新后的权重来更新被分配给所述组件的权重。

23.根据条款20所述的方法,其中,用户操作中的用户操作包括在所提供的结果中的显示结果上的鼠标点击,其中,用户参数包括点击次数、点击频率和访问结果中的给定结果的持续时间中的至少一个。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户计算机系统的计算机上执行,部分在用户计算机系统的计算机上执行,作为独立的软件包执行,部分在用户计算机系统的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户计算机系统的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所提及的功能可不按图中所提及的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

30页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:通过协作过滤实时检测恶意活动

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!