不良药物反应分析

文档序号：991520 发布日期：2020-10-20 浏览：1次 >En<

阅读说明：本技术 不良药物反应分析 (Adverse drug response analysis ) 是由 S·德伊张平 M·格哈尔瓦什于 2019-02-14 设计创作，主要内容包括：提供了用于实现框架以学习多个药物-不良药物反应关联的机制。所述机制接收并分析患者电子医疗记录数据和不良药物反应数据,以识别对药物的引用与对不良药物反应(ADR)的引用的同现,从而生成指定多个药物-ADR关系的候选规则。所述机制对所述候选规则进行过滤,以移除具有在一个或多个候选规则的子集中指定的混杂因素药物的一个或多个规则的所述子集,并且由此生成候选规则的过滤集合。所述机制基于所述候选规则的过滤集合生成因果模型。所述因果模型包括针对一组ADR中的每个ADR的一个或多个规则的对应集合,每个规则指定与所述ADR具有因果关系的药物的组合。(Mechanisms are provided for implementing a framework to learn multiple drug-adverse drug response associations. The mechanism receives and analyzes patient electronic medical record data and adverse drug response data to identify a co-occurrence of a reference to a drug and a reference to an Adverse Drug Response (ADR) to generate a candidate rule specifying a plurality of drug-ADR relationships. The mechanism filters the candidate rules to remove a subset of one or more rules having a confounding drug specified in the subset of one or more candidate rules, and thereby generates a filtered set of candidate rules. The mechanism generates a causal model based on the filtered set of candidate rules. The causal model includes, for each ADR in a set of ADRs, a corresponding set of one or more rules, each rule specifying a combination of drugs having a causal relationship with the ADR.)

不良药物反应分析

背景技术

本申请一般涉及改进的数据处理装置和方法，并且更具体地涉及用于发现用于不良药物反应分析的恰好偶然的多个药物-药物相互作用的机制。

不良药物反应(ADR)是由于服用药物或药剂而引起的损伤。药物的单剂量或延长给药后可能发生不良药物反应。可根据严重性和原因对不良药物反应进行分类。不良药物反应可以是局部的或全身性的。ADR研究是被称为药物警戒的领域的关注点。

因果性评估用于确定药物引起疑似ADR的可能性。有许多不同的方法用于判断原因，包括Naranjo算法、Venulet算法和世界卫生组织(WHO)因果性项评估标准。每个都具有与其使用相关的利弊，并且大多数需要一定水平的专家判断来应用。然而，除非在临床研究期间发现事件或使用大型数据库，否则通常证明难以将因果关系分配给特定药剂。两种方法都有困难，并且可能充满误差。即使在临床研究中，由于需要大量测试个体来发现ADR，所以一些ADR可能被遗漏。

发明内容

提供本发明内容以便以简化形式介绍将在此在详细描述中进一步描述的一些概念。本发明内容不旨在识别所要求保护的主题的关键因素或必要特征，也不旨在用于限制所要求保护的主题的范围。

在一个说明性实施例中，提供了一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法，所述至少一个存储器包括由所述至少一个处理器执行的指令，以使所述至少一个处理器实现用于学习多个药物-不良药物反应关联的框架。该方法包括由框架接收包括患者电子医疗记录数据和不良药物反应数据的真实世界证据，并且由框架的同现逻辑模块分析真实世界证据以识别对药物的引用与对不良药物反应(ADR)的引用的同现，从而生成指定多个药物-ADR关系的候选规则。该方法进一步包括通过该框架的混杂因素过滤器逻辑模块对这些候选规则进行过滤以去除具有在一个或多个候选规则的子集中指定的混杂因素药物的一个或多个规则的子集，并且由此生成候选规则的过滤集合。此外，该方法包括由所述框架的因果关联逻辑模块，基于所述候选规则的过滤集合生成因果模型，其中所述因果模型包括，用于一组ADR中的每个ADR的一个或多个规则的对应集，每个规则指定与所述ADR具有因果关系的药物组合。

在一些说明性实施例中，分析所述真实世界证据包括识别所述真实世界证据中对药物的引用与对ADR的引用的所有同现，并且基于所识别的同现生成所述候选规则，其中，每个候选规则指定识别多个药物的药物模式以及对应的ADR。此外，在一些说明性实施例中，分析真实世界证据还包括选择候选规则的子集作为用于基于支持度量和置信度度量中的至少一个生成候选多个药物-ADR关系的基础，其中，支持度量测量真实世界证据中与候选规则相对应的同现的实例的数量，并且其中，置信度度量针对候选规则测量在候选规则的药物模式中给定药物的情况下ADR的概率。

在一些示例性实施例中，识别现实世界证据中对药物的引用与对ADR的引用的所有同现包括执行对现实世界证据的自然语言处理以识别识别对药物的引用与对ADR的引用的术语、短语或医疗代码中的至少一个，评估识别对药物的引用与对ADR的引用的每个识别的术语、短语或医疗代码之间的现实世界证据内的相对距离，以及基于相对距离识别同现。

在一些说明性实施例中，选择候选规则的子集包括，对于每个候选规则，生成列联表数据结构，其中列联表数据结构中的每个条目包括满足与该条目相对应的列联表数据结构的行和列的条件的多个患者电子医疗记录。在列联表数据结构中，列联表数据结构的第一行对应于包含候选规则的药物模式中的所有药物的患者电子医疗记录，列联表数据结构的第二行对应于不包含候选规则的药物模式中的任何药物的患者电子医疗记录，列联表数据结构的第一列对应于包含候选规则中的ADR的患者电子医疗记录，列联表数据结构的第二列对应于不包含候选规则中的ADR的患者电子医疗记录。

在其他说明性实施例中，每个候选规则指定相应的药物模式和相应的不良药物反应，并且过滤候选规则还包括针对每个第一候选规则计算改进度量，该改进度量指定第一候选规则的相应关联得分相对于指定第一候选规则的相应药物模式的子模式和第一候选规则的相应不良药物反应的另一第二候选规则的关联得分的改进量。此外，过滤候选规则还可包括对于每个第一候选规则，基于改进度量的值来确定是维持第一候选规则还是移除第一候选规则。

在一些说明性实施例中，针对每个第一候选规则，基于该改进度量的值来确定是维持该候选规则还是移除该候选规则包括将对应于该第一候选规则的改进度量与改进度量阈值进行比较，并且响应于对应于该第一候选规则的改进度量不等于或大于该改进度量阈值，确定在对应的第一药物模式中存在混杂因素药物。此外，在一些说明性实施例中，针对每个第一候选规则，基于改进度量的值来确定是维持第一候选规则还是移除第一候选规则还包括基于对应药物模式与子模式之间的差异来识别对应药物模式中的混杂因素药物。

在其他说明性实施例中，该方法还包括通过将因果模型应用于其他患者电子医疗记录数据中存在的药物历史数据来评估其他患者电子医疗记录数据，以识别患者遇到该组ADR中的一个或多个ADR的概率。此外，在一些说明性实施例中，该方法还包括基于所识别的患者遇到该组ADR中的一个或多个ADR的概率为患者生成患者模型。此外，在一些说明性实施例中，该方法包括将患者模型输入到认知系统中，认知系统实现患者模型以基于患者模型执行认知操作。在一些说明性实施例中，认知操作是治疗推荐操作，其基于由认知系统对其他患者电子医疗记录数据的评估和患者模型向执业医生提供治疗推荐。

在其他说明性实施例中，提供了一种计算机程序产品，其包括具有计算机可读程序的计算机可用或可读介质。当在计算设备上执行所述计算机可读程序时，所述计算机可读程序使得所述计算设备执行上面关于方法说明性实施例概述的操作中的各种操作和操作的组合。

在又一说明性实施例中，提供了一种系统/装置。该系统/装置可以包括一个或多个处理器和耦合到该一个或多个处理器的存储器。存储器可以包括指令，当由一个或多个处理器执行所述指令时，所述指令使一个或多个处理器执行上面关于方法说明性实施例概述的操作中的各种操作和操作的组合。

本发明的这些和其它特征和优点将在以下本发明的示例性实施例的详细描述中描述，或者鉴于以下本发明的示例性实施例的详细描述，本发明的这些和其它特征和优点将对于本领域的普通技术人员变得显而易见。

附图说明

当结合附图阅读时，通过参考以下对说明性实施例的详细描述，将最好地理解本发明及其优选使用模式和进一步的目的和优点，在附图中：

图1是示出一个说明性实施例的机制所采用的方法的总体表示的示例流程图；

图2是根据一个说明性实施例的列联表的示例图；

图3是其中可以实现一个说明性实施例的各方面的分布式数据处理系统环境的示例图；

图4是根据一个说明性实施例的其中可以实现本发明的各方面的数据处理系统的示例框图；

图5示出了根据一个示例性实施例的多个药物模式/ADR关联学习框架与认知保健系统的交互；

图6示出了根据一个说明性实施例的多个药物模式/ADR关联学习框架与问题回答或请求处理管线之间的交互的示例；以及

图7是概述根据一个说明性实施例的用于学习具有不良药物反应的多个药物模式关系并过滤掉混杂因素药物的示例操作的流程图。

具体实施方式

当前认知系统，诸如当前医疗诊断、患者健康管理、患者治疗建议系统和其他决策支持系统的优势在于它们可以提供改进人类所执行的决策制定的洞察。例如，在医学背景下，这样的认知系统可以改进执业医生的诊断假设，可以帮助执业医生避免错过重要的诊断，并且可以帮助执业医生确定针对特定疾病的适当治疗。然而，当前的系统仍然具有显著的缺陷，为了使这样的系统更精确并且可用于各种应用以及更代表人类做出决定的方式，诸如诊断和治疗患者，应该解决这些缺陷。特别地，当前系统的一个缺陷是学习和考虑药物-药物相互作用并确定当患者服用多个药物时关于不良药物反应(ADR)的因果关系的能力。

也就是说，患者通常同时服用多个药物。这可能是由于患者具有多种不同病症，针对这些病症服用不同的药物以解决每种病症，可能是由于需要多个药物用于治疗医学病症的治疗方案，或者是由于许多其它原因中的任何一种。患者服用多个药物可能是或者可能不是个别执业医生在治疗患者时已知的。也就是说，如果患者正在由不同的执业医生针对不同的医疗状况进行治疗，如果该信息不存在于患者的本地医疗文件中和/或不被患者报告给执业医生，则一个执业医生可能不知道由其他执业医生开出的药物。

治疗各种医学病症(例如，诸如糖尿病、癌症等疾病)的关键方法之一是将患者置于需要施用多个药物、药品、补充剂等(本文统称为"药品")的治疗方案。例如，在治疗II型糖尿病中，一线治疗通常是单一药物，而二线治疗可以包括多个药物，例如二甲双胍和取决于特定患者病症的另一种药物。即使采取预防措施来避免药物的负面相互作用，医务人员也不总是知道所有可能的负面相互作用。此外，可能存在基于患者的特定属性和共病的相互作用，这使得使用涉及多个药物的治疗成为问题，这对于医务人员可能不是显而易见的。此外，患者通常具有一种以上的医学病症，例如慢性疾病，并且可能针对不同的医学病症使用不同的药物，导致药物的负面相互作用的额外的可能性。

药物-药物相互作用是严重的威胁，其可导致显著的发病率和死亡率，在美国每年引起近74,000次急诊室就诊和195,000次住院。本文阐述的说明性实施方案提供了从真实世界证据识别响应于不良药物反应(ADRs)的因果多个药物-药物相互作用的机制。说明性实施例利用关联规则挖掘方法，用于从观察数据中有效地识别更高维度或更高阶药物-药物关联。统计学得分用于识别精确的药物-药物相互作用以滤除混杂因素。此外，将所获得的与特定ADR相关的规则(高阶和单例药物)输入贝叶斯框架，以建立因果发现框架。说明性实施例解释所获得的贝叶斯框架的参数以用于因果发现。认知系统可以使用这种因果发现，通过提供关于患者服用药物与其单独或与患者可能服用的其它药物组合引起不良药物反应的可能性之间的因果关系的附加信息，来帮助医务人员评估和治疗患者。此外，因果关系的发现帮助医务人员消除作为简单的混杂因素的潜在的不良药物反应源，从而避免错误的诊断和/或错误的评价不良药物反应的原因。

说明性实施例提供了优于发现与药物相关的不良药物反应的先前方法的显著优点。先前发现与药物相关的不良药物反应的方法主要集中在从观察数据和自发报告系统中发现药物与不良药物反应的简单同现。例如，Harpaz等人的“Mining Multi-Item DrugAdverse Effect Associations in Spontaneous Reporting Systems,”，BMCBioinformatics，2010年10月28日；11(9)：S7描述了应用一般关联规则挖掘框架以基于药物的简单同现寻找关联的方法。作为另一个例子，Xiang等人的“Efficiently MiningAdverse Event Reporting System for Multiple Drug Interactions,”，AMIA召集翻译科学学报，2014；2014:120描述了一种方法，该方法还使用关联规则挖掘框架来寻找药物-药物相互作用的最小表示。在另一个实例中，Du等人的“Graphic Mining of High-OrderDrug Interactions and Their Directional Effects on Myopathy Using ElectronicMedical Records,”，CPT:Pharmacometrics&Systems Pharmacology，2015年8月1日；4(8)：481-8描述了一种发现肌病药物相互作用的统计学方法。

另一方面，说明性实施例提供了利用来自电子健康记录的药物-药物相互作用的高阶关联的机制。此外，说明性实施例的机制从多个药物关联中移除作为针对共病共同开处方的简单混杂因素药物。此外，说明性实施例的机制可以用于预测与特定患者的多个药物关联相关联的不良药物反应(一个或多个)，如可以通过患者的电子医疗记录(EMR)的认知分析所识别的。

说明性实施方案的机制基于以下观察来操作，即ADR可能由多个药物之间的相互作用引起而不是由单一药物引起。上述已知方法具有局限性，因为它们不能在多个药物之间发现因果性的更高阶(即更高维度)相互作用，并且不能提供普遍适用的方法来发现这种与相应不良药物反应的更高阶多个药物-药物相互作用。本文所用的术语"更高阶"是指具有两种或多个药物作为偶然因素导致一种或多个ADR，这由规则表示，例如D₁D₂→ADR₁或D₁D₂D₃→ADR₁ADR₂，其中Dx是药物，ADRy是不良药物反应，→表示该规则的因果关系。基于药物与ADR简单同现的现有技术方法不一定提供因果关系，因为现有技术方法仅发现药物与ADR简单同现，并且不能识别实际的因果关系。此外，由于患者的共同发病，这样的现有技术方法不能将具有实际因果关系的药物与简单地共同开处方的药物区分开来。这些共同处方的药物可以作为纯粹的混杂因素而不是不良药物反应的原因。说明性实施例提供了确定多个药物与ADR的实际因果关系的机制，从而消除了混杂因素。

在开始更详细地讨论示例性实施例的各个方面之前，首先应当理解，在整个说明书中，术语"机制"将用于指执行各种操作、功能等的本发明的元件。如在此使用的术语"机制"可以是以装置、过程或计算机程序产品的形式实现说明性实施例的功能或方面。在过程的情况下，该过程由一个或多个设备、装置、计算机、数据处理系统等来实现。在计算机程序产品的情况下，由包含在计算机程序产品中或计算机程序产品上的计算机代码或指令表示的逻辑由一个或多个硬件设备执行，以便实现与特定"机制"相关联的功能或执行与特定"机制"相关联的操作。因此，本文所述的机制可以实现为专用硬件、在通用硬件上执行的软件、存储在介质上使得指令可由专用或通用硬件容易地执行的软件指令、用于执行功能的过程或方法、或上述任意项的组合。

本说明书和权利要求书可以关于说明性实施例的特定特征和元件使用术语"一"、"至少一个"和"一个或多个"。应当理解，这些术语和短语旨在表明在特定的说明性实施例中存在至少一个特定特征或元件，但是也可以存在多于一个。也就是说，这些术语/短语不旨在将说明书或权利要求限制为存在单个特征/元件或要求存在多个这样的特征/元件。相反，这些术语/短语仅要求至少单个特征/元件，其中多个这样的特征/元件的可能性在说明书和权利要求的范围内。

此外，应当理解，如果在此关于描述本发明的实施例和特征而使用，术语"引擎"的使用不旨在限制用于实现和/或执行可归因于引擎和/或由引擎执行的动作、步骤、过程等的任何特定实施方式。引擎可以是但不限于执行指定功能的软件、硬件和/或固件或其任意组合，包括但不限于通用和/或专用处理器与加载或存储在机器可读存储器中并由处理器执行的适当软件的任意组合。此外，除非另有说明，与特定引擎相关联的任何名称是为了便于引用的目的，而不是旨在限制于特定的实施方式。另外，归于引擎的任何功能性可由多个引擎同等地执行，并入相同或不同类型的另一引擎的功能性中和/或与其组合，或分布在各种配置的一个或多个引擎上。

此外，应当理解，以下描述使用说明性实施例的各种元件的多个各种示例来进一步说明说明性实施例的示例实现方式，并且帮助理解说明性实施例的机制。这些示例旨在是非限制性的，并且不是用于实现说明性实施例的机制的各种可能性的穷举。鉴于本说明书，对于本领域的普通技术人员来说，显然，在不脱离本发明的精神和范围的情况下，除了本文提供的示例之外，或者作为其替代，可以利用这些各种元件的许多其它替代实现。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(一个或多个)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，诸如Java、Smalltalk、C++等，以及常规的过程式编程语言，诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

如上所述，使用观察数据发现负责ADR的多个药物-药物相互作用对于发现真实世界证据是有用的。此外，已经确定，在多个药物情况下的一些药物可能是用于共病的与其他药物一起开处方的简单混杂因素，而不是与其他药物的真正因果相互作用。混杂因素药物是外来药物，其在统计模型中与模型中的药物依赖变量和药物独立变量(直接或反向)相关。因此，一些药物可能实际上对特定的不良药物反应没有贡献，并且可能与不良药物反应没有实际的因果相互作用。

本文描述的说明性实施例利用数据挖掘算法，诸如利用贝叶斯模型的关联规则挖掘，例如，用于从真实世界证据数据中发现多个药物与ADR之间的真实因果相互作用。在这样做时，说明性实施方案识别了造成ADR以及混杂因素的多个药物相互作用。因此，说明性实施例提供了一种用于发现存在于患者EMR数据中的多个药物和ADR之间的因果关系的计算机化解决方案，以及用于从这样的关系中消除混杂因素药物的计算机化解决方案。说明性实施例的机制具体针对执行这样的操作并由此使计算系统执行认知操作的计算机化工具，该认知操作在评估患者EMR数据和确定多个药物与ADR之间的因果关系方面近似于人类思考过程。虽然该计算工具近似于该人类思考过程，但是它使用仅由被具体配置成执行说明性实施例的操作的计算设备执行的操作来进行，由于计算环境的性质，这些操作不同于人类思想采用的过程。

说明性实施例提供了发现多个药物与不良药物反应的高阶关联的一般方法，这将有助于发现仅由药物间相互作用引起的罕见不良药物反应，这可用于开具对患有并发症的患者安全的药物处方。说明性实施例还可以确定多个药物组合中的哪些药物仅是混杂因素而不是对相互作用和ADR的贡献。这将有助于目标风险管理策略，例如，药物标签改变可以指定组合地避免哪些药物，而不是将药物从碰巧服用混杂因素药物的所有患者中扣除。

图1是示出一个说明性实施例的机制所采用的方法的总体表示的示例流程图。该方法采用三个主要的计算机化逻辑模块120-140，其对真实的文字证据(RWE)进行操作，该真实的文字证据可以包括从各种不同的信息源获得的各种类型的数据。例如，RWE110可以包括患者电子医疗记录(EMR)、健康保险索赔数据、药物治疗历史信息(例如可以从药房计算系统、健康保险记录、医师的计算系统等获得)等。

计算机化逻辑模块120-140可以以专门配置的计算机硬件、在计算机硬件上执行的软件(由此使得硬件执行在利用软件配置以便执行之前硬件不执行的操作)或者专门配置的计算机硬件和在计算机硬件上执行的软件的任何组合来实现。应当理解，将软件加载到计算设备或数据处理系统的存储器中，随后由计算设备、数据处理系统的一个或多个处理器执行该软件，具体地将计算设备或数据处理系统配置为实现由本发明的示例性实施例提供的特定计算机化解决方案。计算机化的解决方案是用于提供患者电子医疗记录数据、不良药物反应数据和其他资源数据的计算机辅助评估的解决方案，以识别多个药物和相应的不良药物反应之间的真实因果关系，而不会错误地包括先前不能执行的混杂因素药物。本文所讨论的现有技术解决方案的问题在于，仅依赖于对药物的引用和对ADR的引用的同现作为因果关系(这可能实际上可能并不存在)的证据。因此，说明性实施例的硬件/软件机制提供了对基于计算机的问题的计算机解决方案。

如图1所示，在一个说明性实施例中，计算机化逻辑模块120-140包括同现逻辑模块120、混杂因素过滤器逻辑模块130以及因果关联逻辑模块140。同现逻辑模块120对RWE110进行操作，并且生成同现输出数据，该同现输出数据被提供给混杂过滤器逻辑模块130。同现输出数据指定在RWE110中发现的药物和ADR的同现。混杂因素过滤器逻辑模块130对这种同现输出数据进行评估，以便过滤掉实际上表示混杂因素并且不表示那些药物与不良药物反应之间的潜在因果关系的药物与不良药物反应的同现实例。如下文所讨论的，这可以使用改进评分机制来完成，该机制用于基于改进评分和一个或多个所建立的阈值来过滤这种同现。混杂因素过滤器逻辑模块130的输出被提供给因果关联逻辑模块140，该模块建立因果模型145，诸如贝叶斯网络模型等等。因果模型145可以由各种认知系统逻辑150-170应用，以识别多个药物与ADR150的相互作用，识别共同混杂因素160，并且预测患者170的ADR。

逻辑模块120-140定义了数据挖掘框架100，其识别负责一组ADR的多个药物交互。通常，这些逻辑模块首先执行关联规则挖掘，识别并去除混杂因素药物，并且基于已经去除混杂因素药物的剩余关联规则关系来生成因果模型，该因果模型具有多个药物与对应的ADR或ADR组之间的因果规则。如图1所示，框架100利用同现逻辑模块120来处理RWE数据110，并识别在RWE110数据中更频繁出现的药物和ADR的所有可能组合。可以基于预定阈值或其它预定标准集来评估"更频繁地"，所述预定阈值或其它预定标准集用于识别应当被认为是潜在因果关系的药物和不良药物反应的组合。例如，可以使用基于关联分析的两个度量的技术来设置一个或多个阈值，其中这两个度量被称为支持和置信度。支持度量或支持评分测量同现的实例的数量或特定规则的实例的数量，即药物和不良药物反应都存在，而置信度度量或置信度评分测量给定药物时有不良药物反应的概率。此后，将阈值应用于这两个度量或分数，例如，等于或高于70％的支持分数和等于或高于85％的置信度分数，以得到一组规则作为"频繁"规则。

同现逻辑模块120可以维护数据结构以存储将两种或更多个药物的组合与ADR或ADR组相关联的每个关联规则的这两个度量(支持度量和置信度度量)。由于需要对作为潜在规则候选的药物和不良药物反应进行组合搜索，因此使用该数据结构系统地搜索药物和不良药物反应的所有可能组合以获得更好的计算效率。更具体地，同现逻辑模块120可以从具有一种药物和一种ADR的简单规则开始，以获得这种规则的两个度量，然后使用该度量数据结构来探索更高阶的规则。应用被称为先验规则的反单调属性以从数据中滤除不感兴趣的高阶规则。

例如，可以在RWE110数据中找到药物A、B和C，其同样可以包括与患者EMR数据中的ADR的识别相关联的患者用药历史信息，其中患者EMR数据可以是多个患者的EMR数据。因此，药物A、B和C的组合的各种实例也可以被识别为与ADR的识别相关联，例如，在所描绘的示例情况中的不良药物反应P。例如，可以存在A和B的组合与患者EMR的内容中的ADR相关联的指示。此外，可能存在A和C的组合也与ADR以及患者EMR中的A、B和C相关联的指示。

同现逻辑模块120可以利用各种资源信息源125来执行结构化和非结构化(例如，自然语言文档)数据的自然语言处理，以识别指示特定药物和不良药物反应的关键术语、短语、医疗代码等。资源信息源125可以包括各种类型的资源信息，其可以用作用于识别RWE110数据中对应于药物和不良反应的内容部分的基础。例如，资源信息可以包括自然语言医学日志数据、医学指南文档数据、药物标签数据、与药物数据相关联的已知不良药物反应(ADR)数据、药物交互数据等。作为一个例子，关于药物-药物相互作用的信息通常在自然语言文档中找到，诸如临床陈述、指南和一些患者陈述。药物-药物相互作用信息也可以由药物制造商、卫生组织、政府组织和各种形式的其它来源提供。包括药物-药物相互作用信息的药物信息源的一个实例是可从Elsevier获得的金标准药物数据库。此外，术语和短语、医学代码参考文献等的领域特定词典可以用于指定可以在RWE110数据的内容中识别的可识别术语、短语和医学代码。

同现逻辑模块120可分析药物的识别符的实例与指示ADR的术语/短语/医疗代码的实例等之间的相对距离(例如，在相同条目中、在特定数量的单词内、在特定数量的条目内等)，以确定关联，例如，如果患者EMR中的药物实例与ADR的指示符存在于相同的遭遇条目内，则可存在关联。此外，同现逻辑模块120还可以查看RWE110数据中存在的时间信息，以确定是否存在药物实例与另一药物实例以及与ADR的同现。例如，如果患者被开了药的处方，并且在开了药之后的指定时间段内记录ADR的实例，则可以确定存在同现。类似地，可以关于开多个药物的处方来做出这样的时间确定。此外，可以评估患者被认为服用了开处方的药物的持续时间，以确定患者是否可能在大致相同的时间并且在与所报告的ADR大致相同的时间服用了一种以上的药物。另外，可以对患者EMR数据中的条目执行自然语言处理以识别指示关联的术语/短语，诸如像"引起"或"结果产生"等术语。RWE110数据的各种基于距离、基于时间和/或基于自然语言处理的评估可由同现逻辑模块120使用来自资源信息源的资源信息来执行，以识别药物与其它药物和与ADR的同现。

用于发现药物-ADR关联的信息的另一个来源是从几个药物监测组织获得的公众可获得的营销后监测数据，所述药物监测组织诸如食品和药品管理局(FDA)和副作用资源(SIDER)。特别地，这些类型的营销后数据是基于在患者已经使用药物一段时间之后来自患者或医疗提供者的某种药物的报告的ADR而创建的。FDA对这些病例报告进行了充分验证和证明。类似地，这种公众可获得的数据集的另一个来源可以是SIDER数据集，其是使用当前的程序术语(CPT)代码从药物标签中报告的副作用中制作的。

用于识别药物与其它药物和与不良药物反应的同现的这些不同因素的评价可用于计算药物与不良药物反应的各种组合和关联的关联评分。即，同现逻辑模块120可以针对被确定为在RWE110中具有同现的药物的每个组合计算关联得分，该关联得分表示特定组合或模式或药物与RWE110中发现的同现ADR之间的关联的强度。换句话说，所述同现可以表示为指定药物模式的候选规则，所述药物模式识别与ADR具有候选因果关系的多个药物。因此，对于候选规则ABC-＞P，例如，对应于药物模式ABC和不良药物反应P的同时发生，关联得分表示在给定ABC下P将发生的概率或可能性，即药物模式和ADR之间的关联有多强。应当注意，对应于一组药物(例如ABC、AB、AC、BC等)与一个或多个ADR的关联(例如P或包含P的ADR的任何高阶组合)的关联评分可以使用任何统计测试或测量(诸如上述支持度量和置信度度量)和/或其它度量或评分(诸如卡方、互信息或任何其它合适的统计测试或测量)来生成。

所有这些统计测试或测量可基于列联表(contingency table)来计算，例如图2所示的列联表。在统计学中，列联表是一种矩阵格式的表，其显示变量的(多变量)频率分布。列联表提供了两个变量之间的相互关系的基本描述，并且可以帮助找到它们之间的相互作用。

如图2所示，列联表200中的每个条目表示来自RWE110数据的病例报告(例如患者或患者EMR)的数量，所述病例报告满足列联表200的行和列的条件，例如每个病例或患者EMR具有完整的药物模式(行210)或不具有完整的药物模式中的药物(行220)，并且在病例或患者EMR中其与ADR(列230)相关联或不与ADR(列240)相关联。可以为每个药物模式(例如ABC)和子药物模式(例如AB、AC和BC)生成列联表200，并且可以由同现逻辑模块120基于列联表200为每个药物模式和子药物模式执行相应的评估。

在图2所示的例子中，只考虑"与"逻辑，而不是"或"逻辑。因此包含药物”ABC”的模式或规则意味着A’与’B’与’C。因此，如果病例，例如患者EMR，仅包括一些药物，则该病例不包含该规则。例如，含有药物ABDE的患者病例满足规则(AB→P)，但不满足(ABC→P)。

通过评估各种关联，可以确定，不是药物A、B和C与P的ADR的所有同现都代表药物A、B和C之间的真实相互作用，相反，由于患者的共病，它们可以代表由于共同处方的药物而导致的混杂因素。因此，需要发现高阶组合ABC与其各个子药物组合AB、AC和BC的差异。如果低阶药物组合和高阶药物组合具有相似的关联评分，例如基于与ADR相关联的定义的度量的关联评分，所述定义的度量例如支持度量和置信度度量，则可识别和去除混杂因素药物以便识别与ADR的真实的多个药物相关性。例如，如果AC具有相对低的关联得分，但是ABC具有相对高的关联得分，则药物C可以被认为是混杂因素。另一方面，如果这些子药物组合具有相对低的关联得分，并且较高水平药物组合的关联得分相对较高，则可以识别真实的较高阶相互作用。

具体地，混杂因素过滤器逻辑模块130可以实施生成被称为"改进"的新设计的度量的逻辑，该新设计的度量可以由混杂因素过滤器逻辑模块130针对药物的特定组合进行评估，以测量它们与ADR的关联，该关联超出了药物的子集中的任何子集与相同ADR的关联。在药物模式ABC及其与不良药物反应P的关联，即ABC→P的实例中，改进评分可以表示如下：

其中Imp是药物模式与ADR的关联(即在该实施例中为ABC与P的关联)的改进度量，Score是药物模式与ADR的关联评分，其可以是支持、置信度、卡方、互信息等。该等式检查在该高阶模式(ABC→P)中得分从其任何子模式(如α所表示的)改进了多少。从所有这些子模式α中，考虑所有这些α的最大分数。如果药物模式中的任何药物是简单的混杂因素(例如，如果C总是与药物A和B共同处方，则得分(ABC→P)将与得分(AB→P)相同)，则该改进得分将非常低。另一方面，对于药物和不良药物反应之间的真实相互作用，改进评分将更高，因此能够从简单的混杂因素中滤除多个药物与不良药物反应之间的真实相互作用。

混杂过滤器逻辑模块130针对这些药物模式中的每一种药物模式计算改进评分并且将这些改进评分与阈值改进评分值进行比较。如果改进评分等于或高于阈值改进评分值，则确定在药物模式中不存在混杂因素。如果所述改进评分低于所述阈值改进评分值，则确定所述药物模式包含混杂因素，并且使用与所述药物模式相关联的子药物模式来识别所述混杂因素。例如，如果发现Imp(ABC→P)低而Imp(AB→P)高，则C是混杂因素，并且与P的ADR具有因果关系的真实药物-药物相互作用是AB→P。

在根据对改进分数的评估过滤掉了药物模式中的任何混杂因素药物之后，因果关联逻辑模块140对剩余的药物模式进行操作，以推断出关于某一ADR组的所有剩余药物模式的因果模型145，从而增强模型的可解释性。ADR组可以是单个ADR或基于相似特征分类为相同ADR组的多个ADR。ADR组可以被先验地定义，诸如基于医疗资源信息125、框架100的主题专家配置等。例如，框架100的主题专家配置可以包括ADR术语之间的预定义关系。可基于其共同症状或由不同术语(诸如ICD-9代码)界定的其它医学本体来界定ADR之间的此类关系。

例如，根据一个说明性实施方案，在混杂因素过滤器逻辑模块130过滤出具有混杂因素药物的药物模式的操作之后剩余的所有药物模式，包括子药物模式，是使用有向非循环图在贝叶斯学习框架中总结的。基本上，基于混杂因素过滤器逻辑模块130的操作，从涉及ADR或ADR组的潜在因果规则中推断出每个所关注的ADR或ADR组的贝叶斯网络。注意，单例规则可以容易地在有向非循环图(DAG)中表示，然而由多个药物组成的更高阶模式需要一些修改，使得它们也可以由DAG表示。在不丧失普遍性的情况下，说明性实施例将包含多个药物的所有这种模式表示为新的伪变量。例如，ABC→P的规则由β1→P表示，其中β1表示三种药物A、B和C之间的相互作用。这里，新的哑变量被认为是与包含相同ADR或ADR组的其他单例模式一起的二元变量。一旦所有这样的模式在DAG中被表示，变量之间的转移概率就被学习，这提供了最终因果模型145。

基于因果模型145，可以实施多个药物/ADR关系推断逻辑150以推断负责特定ADR或ADR组的多个药物之间的因果关系。具体地，可以从贝叶斯网络中为每个考虑的ADR提取规则作为包含药物和ADR的最终规则集。此外，从混杂因素过滤器逻辑模块130获得的混杂因素还可以作为共同混杂因素被输出至共同混杂因素逻辑模块160，该共同混杂因素逻辑模块可以输出此类共同混杂因素信息和/或执行共同混杂因素的其他处理，如更新或生成额外的资源信息以改进资源信息源125从而具体地识别共同混杂因素等等。推断的因果关系和混杂因素可以用于提高药物和不良药物反应之间关系的可解释性。通过识别与ADR的真实的多个药物相互作用关系和识别对于临床决策者的混杂因素药物，这种知识可以进一步在临床决策制定期间由医生和治疗患者的其他医务人员使用。

应当注意，所推断的因果关系可以被认知系统，诸如用于帮助医学从业者治疗患者的认知决策支持系统，用作用于帮助由认知系统执行的认知操作的信息源。例如，如果正在评估患者的治疗，并且该治疗包括一种或多种通过示例性实施方案的机制确定的与ADR具有因果关系的药物，则可以进一步评估患者是否还开了处方或服用了与ADR具有因果关系的药物模式的另一种药物。如果是，认知系统可以修改与这样的治疗相关联的排名或评分以反映用于选择该治疗的较低偏好，并且可以提供与治疗推荐的输出相关联的信息，该信息指示药物与一种或多种其他药物的组合和ADR之间的因果关系。

在一些情况下，因果关系信息可以作为向医务人员、药物提供者、政府组织等输出通知的基础，以便通知他们药物模式和相应的不良药物反应之间的因果关系。例如，这样的通知可以用作更新药品标签信息、医疗参考文档、政府指南文档等的方式。该通知可以指定药物模式和相关的ADR，以及用于指示药物模式和ADR之间的关联的基础，例如关联分数、改进分数和通过本发明的操作识别的任何混杂因素药物。

此外，由混杂因素过滤器逻辑130对混杂因素的识别可以被共同混杂因素识别逻辑160用来识别针对特定ADR和/或ADR组的共同混杂因素。该信息可以用于通知目的和/或可以由认知系统使用以帮助识别开给患者的混杂因素药物，如下文所述。

在一些说明性实施例中，患者模型175可以由患者模型生成逻辑170基于确定的结果来生成，所述确定识别药物模式和ADR之间的因果关系，以及去除混杂因素。然后，该患者模型175可以用于基于其他患者的药物史信息来预测这些其他患者的不良药物反应，这可以用于临床决策制定。特别地，通过将因果关联逻辑模块140生成的作为因果模型145的贝叶斯模型中的规则与患者特定EMR数据的药物历史进行比较，即找到与ADR所关联的因果模型145的规则中指定的药物相匹配的患者EMR数据的药物历史中指定的药物，并且提供相应的通知以指示ADR与患者相关联的概率，可以使用该贝叶斯模型来找到针对患者药物历史具有最高概率的ADR。该患者模型175可以被提供给或集成到认知系统中，该认知系统可以通过基于特定患者的患者EMR数据中的其药物历史信息针对该患者预测该患者是否可能经历与该患者正在服用的药物相关联的ADR来辅助这样的临床决策制定。

从以上描述中，应当清楚，可以在许多不同类型的数据处理环境中利用说明性实施例。为了提供用于描述说明性实施例的特定元件和功能的上下文，以下提供图3-6作为其中可以实现说明性实施例的各方面的示例环境。应当理解，图3-6仅是示例，而不是要断言或暗示关于其中可实现本发明的各方面或实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下，可以对所描述的环境进行许多修改。

图3-6旨在描述用于医疗保健应用的示例认知系统(在此也称为"医疗保健认知系统")，其实现请求处理管线，诸如例如问答(QA)管线(也称为问题/回答管线或问答管线)，请求处理方法，以及请求处理计算机程序产品，利用该请求处理计算机程序产品实现说明性实施例的机制。这些请求可作为结构或非结构化请求消息、自然语言问题或用于请求要由医疗保健认知系统执行的操作的任何其它适当格式来提供。如下文更详细描述的，在本发明的认知系统中实现的特定保健应用是这样的保健应用，其用于基于对患者的医学状况、患者属性、如医学文档的一个或多个语料库中指示的可用候选治疗等的认知评估，生成针对患者的治疗推荐或针对各种决策支持操作的患者EMR数据的认知评估。特别地，对于本申请特别重要的，在对患者的候选治疗的评估期间学习并应用药物-药物相互作用信息和与不良药物反应(ADR)的关联，以便选择并呈现考虑了各种治疗的药物-药物相互作用以及患者可能针对其他医学状况所采用的其他药物的治疗建议。

在一些实施例中，医疗保健认知系统可被用于简单地回顾患者的EMR数据，以基于患者的EMR数据中的药物历史信息和学习的药物模式与如前所述的ADR或ADR组的关联来识别潜在的或预测的ADR。通知可以输出给执业医生，包括ADR预测的识别、这种ADR预测的原因、识别的混杂因素药物和/或关于适用的药物模式和相关的ADR的其他信息，以便帮助他们治疗患者的医学病症。在其它说明性实施例中，可自动产生药物模式与ADR或ADR组的关联的此通知并将其输出到适当的药物提供者、行业或政府监督组织等，以便向其通知所识别的与ADR的药物模式关联，且进而向其提供可用于更新药物标签、医学参考文献、政府或行业指南等的信息。

应当理解，医疗保健认知系统虽然在以下示例中被示为具有单个请求处理管线，但是实际上可以具有多个请求处理管线。每个请求处理管线可以被单独地训练和/或配置成处理与不同域相关联的请求，或者被配置成对输入请求(或者在使用QA管线的实现中的问题)执行相同或不同的分析，这取决于期望的实现。例如，在一些情况下，第一请求处理管线可以被训练成对针对第一医疗疾病领域(例如，各种类型的血液疾病)的输入请求进行操作，而另一请求处理管线可以被训练成回答另一医疗疾病领域(例如，各种类型的癌症)中的输入请求。在其他情况下，例如，请求处理管线可以被配置为提供不同类型的认知功能或支持不同类型的医疗保健应用，诸如一个请求处理管线被用于患者诊断，另一个请求处理管线被配置为用于医学治疗推荐，另一个请求处理管线被配置为用于患者监测等。

此外，每个请求处理管线可以具有它们自己的相关联的语料库，它们摄取语料库并对其进行操作，例如，在以上示例中，一个语料库用于血液疾病领域文档，而另一个语料库用于癌症诊断领域相关文档。在一些情况下，请求处理管线可以各自对相同领域的输入问题进行操作，但是可以具有不同的配置，例如，不同的注释器或不同训练的注释器，使得生成不同的分析和潜在回答。医疗保健认知系统可以提供附加逻辑，用于诸如基于输入请求的确定的领域将输入问题路由到适当的请求处理管线、组合和评估由多个请求处理管线执行的处理生成的最终结果，以及便于利用多个请求处理管线的其他控制和交互逻辑。

如上所述，可以与说明性实施方式的机制一起使用的一种类型的请求处理管线是问题回答(QA)管线。此后对本发明的示例实施例的描述将利用QA管线作为请求处理管线的示例，该QA管线可被扩充成包括根据一个或多个说明性实施例的机制。应当理解，尽管将在实现对输入问题进行操作的一个或多个QA管线的认知系统的上下文中描述本发明，但说明性实施例不限于此。相反，说明性实施例的机制可以对未被提出为"问题"但被格式化为认知系统使用相关联的语料库和用于配置认知系统的特定配置信息对指定的输入数据集执行认知操作的请求进行操作。例如，不是询问"什么治疗应用于患者P？"的自然语言请求，认知系统可以替代地接收"生成针对患者P的治疗"等的请求。作为另一个例子，问题可以是"患者可能具有什么不良药物反应？”类型，而请求可以是"识别该患者的不良药物反应"类型。应该理解，QA系统管线的机制可以以类似于输入自然语言问题的方式对请求进行操作，而只需要较小的修改。实际上，在一些情况下，如果特定实现需要，请求可以被转换为自然语言问题以便由QA系统管线处理。

如下文将更详细讨论的，说明性实施例可以集成、增强和扩展这些QA管线或请求处理管线、关于为患者提供治疗推荐的医疗保健认知系统的机制的功能，当评估针对特定患者的治疗的功效和特定患者的属性、医学状况、为治疗相同或其他医学状况而服用的其他药物等时，所述机制考虑了药物与药物的相互作用。在考虑药物-药物相互作用时，示例性实施例的机制可以学习和识别与不良药物反应(ADR)相关的药物模式，然后可以将学习到的关联应用于预测患者的潜在ADR、基于学习到的多个药物模式和ADR与患者自身的个人医疗状况、属性和治疗的关联对候选治疗的评估等，学习到的关联可以根据示例性实施例的机制生成的因果模型或如上所述的患者模型来定义，诸如可以从患者电子医疗记录(EMR)确定。基于患者的药物史的ADR的预测或评估可以用于修改与候选治疗相关的排名或置信度值，指示候选治疗是特定患者的可行治疗的置信度，例如，如果存在ADR的可能性，则置信度可以降低。然后，所得到的候选治疗的排名列表可以用于选择一个或多个治疗推荐以输出给执业医生，从而帮助执业医生治疗患者。此外，预测的ADR的通知可以被输出给执业医生和/或适当的监督组织。

由于一些说明性实施例可以在医疗保健认知系统中实现或与医疗保健认知系统结合实现，因此理解如何实现这样的认知系统以及实现QA管线的认知系统中的问题和回答创建是有益的。应当理解，图3-6中描述的机制仅是示例，而不旨在陈述或暗示关于实现说明性实施例的认知系统机制的类型的任何限制。在不脱离本发明的精神和范围的情况下，可以在本发明的各种实施例中实现对图3-6中所示的示例认知系统的许多修改。

此外，本发明的一些说明性实施例可以独立于任何认知系统来实现。也就是说，先前关于图1和2描述的机制可以被实现为单独的实体，其操作以学习药物模式与不良药物反应的关联，以便通知和生成可以帮助医疗从业者和/或提供者或药物避免患者中的这种不良药物反应的模型。换言之，虽然一些说明性实施例可以将说明性实施例的框架100集成到认知系统的操作中，但是其他实施例可以不包括认知系统或不需要认知系统。因此，图3-6再次仅是说明性实施例的可能实现的示例，并且不旨在限制可能的实现或实施例。

作为概述，认知系统是专用计算机系统，或计算机系统组，其配置有硬件和/或软件逻辑(与软件在其上执行的硬件逻辑组合)以仿效人类认知功能。这些认知系统将类人的特征应用于传达和操纵思想，当与数字计算的固有强度结合时，可以以高准确度和大规模弹性解决问题。认知系统执行一个或多个计算机实现的认知操作，该认知操作近似于人类思维过程，并且使得人和机器能够以更自然的方式交互，以便扩展和放大人类专业知识和认知。认知系统包括人工智能逻辑，诸如基于自然语言处理(NLP)的逻辑，以及机器学习逻辑，其可以被提供为专用硬件、在硬件上执行的软件、或专用硬件和在硬件上执行的软件的任何组合。认知系统的逻辑实现认知操作，其示例包括但不限于问题回答、语料库中的内容的不同部分内的相关概念的识别、诸如因特网网页搜索的智能搜索算法(例如，医疗诊断和治疗推荐)以及其他类型的推荐生成，例如，特定用户感兴趣的项、潜在的新联系人推荐等。

IBM Watson^TM是一种这样的认知系统的示例，其能够以比人类快得多的速度和更大的规模以类人的高精度处理人类可读语言并识别文本段之间的推断。通常，这样的认知系统能够执行以下功能：

·导航人类语言和理解的复杂性

·摄取和处理大量结构化和非结构化数据

·生成和评估假设

·权衡和评估仅基于相关证据的响应

·提供特定于情况的建议、洞察和指南

·通过机器学习过程用每次迭代和交互来改进知识和学习

·在碰撞点进行使能决策(上下文指南)

·按任务比例缩放

·扩展和放大人类的专业知识和认知

·从自然语言中识别谐振的类人属性和特性

·从自然语言推断各种语言特定或不可知属性

·从数据点(图像、文本、语音)的高度相关回忆(记忆和回忆)

·利用基于经验的模仿人类认知的情境感知进行预测和感测

·基于自然语言和特定证据的回答问题

在一个方面，认知系统提供了用于使用问答管线或系统(QA系统)回答对这些认知系统提出的问题和/或处理可能或可能不作为自然语言问题提出的请求的机制。QA管线或系统是在数据处理硬件上执行的人工智能应用，其回答关于以自然语言呈现的给定主题领域的问题。QA管线从各种源接收输入，包括通过网络输入、电子文档或其它数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息的，以及来自其它可能的输入源的其它这样的输入。数据存储设备存储数据语料库。内容创建器创建文档中的内容以用作具有QA管线的数据库的一部分。文档可以包括用于QA系统的任何文件、文本、文章或数据源。例如，QA管线访问关于领域或主题领域(例如，金融领域、医疗领域、法律领域等)的知识主体，其中，知识主体(知识库)可以以各种配置来组织，例如，诸如本体的领域特定信息的结构化储存库，或与领域有关的非结构化数据，或关于领域的自然语言文档的集合。

内容用户向实现QA管线的认知系统输入问题。QA管线随后通过评估文档、文档的章节、语料库中的数据的部分等使用数据语料库中的内容来回答输入问题。当过程评估文档的给定部分的语义内容时，该过程可以使用各种约定来从QA管线查询这样的文档，例如，将查询作为形式良好的问题发送到QA管线，该问题随后由QA管线解释，并且提供包含对该问题的一个或多个回答的响应。语义内容是基于诸如单词、短语、符号和符号的象征符与它们代表什么、它们的表示或内涵之间的关系的内容。换言之，语义内容是诸如通过使用自然语言处理来解释表达式的内容。

如将在下文中更详细地描述的，QA管线接收输入问题，解析该问题以提取该问题的主要特征，使用所提取的特征来制定查询，然后将这些查询应用于数据语料库。基于查询对数据语料库的应用，QA管线通过在数据语料库中查找具有包含对输入问题的有价值响应的一些潜力的数据语料库部分，生成输入问题的假设或候选回答的集合。QA管线接着使用各种推理算法对输入问题的语言和在应用查询期间找到的数据语料库的每个部分中使用的语言执行深度分析。可以应用数百或甚至数千个推理算法，每个推理算法执行不同的分析，例如比较、自然语言分析、词汇分析等，并且生成分数。例如，一些推理算法可以着眼于输入问题的语言内的术语和同义词与数据语料库的所找到的部分的匹配。其它推理算法可以查看语言中的时间或空间特征，而其它推理算法可以评估数据语料库的该部分的源并评估其真实性。

从各种推理算法获得的分数指示基于该推理算法的特定聚焦区域由输入问题推断潜在响应的程度。然后，将每个结果分数对照统计模型进行加权。统计模型捕获在QA管线的训练期间，在为特定域建立两个相似段之间的推理时执行的推理算法有多好。统计模型用于概括QA管线关于由问题推断的潜在响应(即候选回答)的证据的置信水平。对每个候选回答重复该过程，直到QA管线识别出表现为明显强于其它候选回答的候选回答，并因此产生输入问题的最终回答或一组排名的回答。

如上所述，QA管线机制通过访问来自数据或信息语料库(也称为内容语料库)的信息、分析它、然后基于对该数据的分析生成回答结果来操作。从数据语料库访问信息通常包括：回答关于结构化记录集合中的内容的问题的数据库查询，以及响应于针对非结构化数据(文本、标记语言等)集合的查询来递送文档链接集合的搜索。常规问题回答系统能够基于数据语料库和输入问题生成回答，验证对数据语料库的问题集合的回答，使用数据语料库来纠正数字文本中的错误，以及从潜在回答池中选择问题的回答，即候选回答。

诸如文章作者、电子文档作者、网页作者、文档数据库作者等的内容创建者在编写其内容之前确定在这样的内容中描述的产品、解决方案和服务的用例。因此，内容创建者知道在由内容所针对的特定主题中内容旨在回答什么问题。在数据语料库的每个文档中对问题进行分类，诸如按照与问题相关联的角色、信息类型、任务等，允许QA管线更快且更有效地识别包含与特定查询相关的内容的文档。内容还可以回答内容创建者没有考虑的对内容用户可能有用的其它问题。内容创建者可以验证问题和回答是否包含在给定文档的内容中。这些能力有助于提高QA管线的准确性、系统性能、机器学习和置信度。内容创建者、自动化工具等注释或以其他方式生成元数据，以提供可由QA管线使用的信息，从而识别内容的这些问题和回答属性。可以处理注释的内容以生成一个或多个语料库中的文档的存储器中表示。该过程有时被称为文档或一个或多个语料库的摄取，其可以产生具有指定文档的特征的元数据的索引的文档集。

对这样的内容进行操作，QA管线使用多个深入分析机制产生输入问题的回答，这些机制评估内容以识别输入问题的最可能的回答，即候选回答。最可能的回答作为候选回答的排名列表输出，所述候选回答根据在候选回答的评估期间计算的它们的相对得分或置信度度量排名，作为具有最高排名得分或置信度度量的单个最终回答，或者作为排名列表和最终回答的组合，或者作为与输入问题的最佳匹配。

图3描绘了在计算机网络302中实现请求处理管线308的认知系统300的一个说明性实施例的示意图，该请求处理管线在一些实施例中可以是问题回答(QA)管线。为了本描述的目的，将假设请求处理管线308被实现为对输入问题形式的结构化和/或非结构化请求进行操作的QA管线。

认知系统300在服务器计算设备305上实现，该服务器计算设备可以包括一个或多个计算设备，该一个或多个计算设备包括一个或多个处理器和一个或多个存储器，并且潜在地包括本领域中通常已知的任何其他计算设备元件，包括总线、存储设备、通信接口等。服务器计算设备305连接到计算机网络302。仅出于说明的目的，图3描绘了认知系统300仅在计算设备305上实现，但是在一些说明性实施例中，认知系统300可以分布在多个计算设备上，诸如多个计算设备304和305中的一个或多个。

网络302包括可以作为服务器计算设备操作的多个计算设备304和305，以及可以作为客户端计算设备操作的310-312，它们经由一个或多个有线和/或无线数据通信链路彼此通信并且与其他设备或组件通信，其中每个通信链路包括导线、路由器、交换机、发射机、接收机等中的一个或多个。在一些说明性实施例中，认知系统300和网络302通过一个或多个认知系统用户各自的计算设备310和312为他们实现问题处理和回答生成(QA)功能。在其他实施例中，认知系统300和网络302可以提供其他类型的认知操作，包括但不限于请求处理和认知响应生成，其可以根据期望的实现方式采取许多不同的形式，例如，认知信息检索、用户的训练/指令、数据的认知评估等。认知系统300的其他实施例可以与除了本文所描述的那些之外的组件、系统、子系统和/或设备一起使用。

认知系统300被配置成实现从各种源接收输入的请求处理管线308。请求可以以自然语言问题、对信息的自然语言请求、对执行认知操作的自然语言请求等的形式提出。例如，认知系统300从网络302、电子文档306、340的一个或多个语料库、认知系统用户和/或其他数据和其他可能的输入源接收输入。在一个实施例中，认知系统300的输入中的一些或全部通过网络302路由。网络302上的各种计算设备304、305、310、312包括用于内容创建者和认知系统用户的接入点。计算设备304、305中的一些包括用于存储数据语料库306、340的数据库的设备。数据语料库306、340的部分也可以在一个或多个其他网络连接的存储设备上、在一个或多个数据库中、或在图3中未明确示出的其他计算设备上提供，在各种实施例中，网络302包括本地网络连接和远程连接，使得认知系统300可以在任何大小的环境(包括本地和全球，例如因特网)中操作。

在一个实施例中，内容创建者在数据语料库306、340的文档中创建内容，以用作认知系统300的数据语料库的一部分。文档包括用于认知系统300中的任何文件、文本、文章或数据源。认知系统用户经由到网络302的网络连接或因特网连接访问认知系统300，并向认知系统300输入基于数据语料库106、340中的内容回答/处理的问题/请求。在一个实施例中，使用自然语言形成问题/请求。认知系统300经由管线308解析并解释问题/请求，并向认知系统用户(例如认知系统用户310)提供响应，该响应包含对提出的问题的一个或多个回答、对请求的响应、处理请求的结果等。在一些实施例中，认知系统300在候选回答/响应的排名列表中向用户提供响应，而在其他说明性实施例中，认知系统300提供单个最终回答/响应或最终回答/响应和其他候选回答/响应的排名列表的组合。

认知系统300实现包括多个级的管线308，用于基于从数据语料库306、340获得的信息来处理输入问题/请求。管线308基于对输入问题/请求和数据的语料库306的处理来生成对输入问题或请求的回答/响应。下面将参照图6更详细地描述管线308。

在一些说明性实施例中，认知系统300可以是从International BusinessMachines Corporation of Armonk,New York获得的IBM Watson^TM认知系统，其利用此后描述的说明性实施例的机制来扩充。如前所述，IBM Watson^TM认知系统的管线接收输入问题或请求，然后分析该输入问题或请求以提取问题/请求的主要特征，然后使用该主要特征来制定应用于数据语料库306、340的查询。基于对数据语料库306、340的查询的应用，通过针对数据语料库306、340的部分(其具有包含对输入问题/响应的有价值的响应的一些可能，此后被假定为输入问题)而在数据语料库306、340中查找，来生成假设集合或对输入问题/请求的候选回答/响应。IBM Watson^TM认知系统的管线308然后使用各种推理算法对输入问题的语言和在应用查询期间找到的语料库306、340的每个部分中使用的语言执行深度分析。

然后，从各种推理算法获得的分数相对于统计模型加权，统计模型总结了在该例子中IBM Watson^TM认知系统300的管线108关于由问题推断潜在候选回答的证据的置信度水平。对每个候选回答重复该过程以生成候选回答的排名列表，然后可以将该排名列表呈现给提交输入问题的用户，例如客户端计算设备310的用户，或者从该排名列表中选择最终回答并呈现给用户。关于IBM Watson^TM认知系统300的管线308的更多信息可以例如从IBM公司网站、IBM Redbook等获得。例如，关于IBM Watson^TM认知系统的管线的信息可以在Yuan等人的“Watson and Healthcare,”IBM developerWorks,2011and“Rob High的The Era ofCognitive Systems:An Inside Look at IBM Watson and How it Works”,IBMRedbooks,2012中找到。

如上所述，虽然可以以自然语言问题的形式提出从客户端设备到认知系统300的输入，但是说明性实施例不限于此。相反，输入问题实际上可被格式化或结构化为任何合适类型的请求，该请求可使用结构化和/或非结构化输入分析来解析和分析，包括但不限于诸如IBM Watson^TM之类的认知系统的自然语言解析和分析机制，以确定执行认知分析并提供认知分析的结果的基础。在基于医疗保健的认知系统的情况下，该分析可以涉及处理患者病历、来自一个或多个语料库的医疗指南文档、患者电子医疗记录(EMR)和/或自然语言文档中的药物-药物相互作用信息和不良药物反应信息等，以提供面向医疗保健的认知系统结果。

在本发明的上下文中，认知系统300可提供用于辅助基于医疗保健的操作的认知功能。例如，根据特定的实现，基于医疗保健的操作可以包括患者诊断、医疗建议系统、医疗实践管理系统、个人患者护理计划生成和监视、用于各种目的患者电子医疗记录(EMR)评估，诸如用于识别适合于医疗试验或特定类型的医疗的患者等。因此，认知系统300可以是医疗保健认知系统300，其在医疗或保健类型领域中操作，并且其可以经由请求处理管线308将对这样的保健操作的请求处理为结构化或非结构化请求、自然语言输入问题等。在一些说明性实施例中，认知系统300是认知医疗保健系统，其基于各种因素为患者及其(一个或多个)医疗状况提供医疗建议，所述因素包括由本文描述的一个或多个说明性实施例的机制所学习和应用的药物与药物的相互作用以及其它因素。

如图3所示，根据说明性实施例的机制，认知系统300被进一步扩充为包括在专用硬件、在硬件上执行的软件、或者专用硬件和在硬件上执行的软件的任何组合中实现的逻辑，以便实现多个药物模式/不良药物反应(ADR)关联学习框架100，在这个所描绘的实施例中，该框架包括同现逻辑模块120、混杂因素过滤器逻辑模块130、因果关联逻辑模块140、因果模型145、多个药物/ADR关系推断逻辑150、共同混杂因素逻辑160、患者模型生成逻辑170以及患者模型175。图1所示的RWE数据110和资源信息源125可以是图3所示的语料库306、340中的一个或多个的一部分，并且可由框架100根据需要经由一个或多个基于网络的连接和/或本地连接来访问。应该理解，框架100和框架100的组件120和175以先前参照图1和2描述的方式操作。

关于框架100与认知系统300的交互，取决于期望的实现和特定的说明性实施例，该交互可以采取许多不同的形式。如上所述，框架100通过从因果模型推断这种关系提供了多个药物模式与ADR的关联的识别，所述因果模型通过识别药物模式和ADR的同现，诸如通过模块120，从混杂因素药物中过滤出，诸如通过模块130，以及产生因果模型145，诸如通过模块140来构建。该因果模型145被逻辑电路150评估以推断多个药物模式和不良药物反应或不良药物反应组之间的关系。此外，诸如通过逻辑160来识别用于ADR或ADR组的共同混杂因素药物。此外，患者模型175可以诸如由患者模型生成逻辑170生成，其可以由认知系统300使用以基于所学习和推断的多个药物模式/ADR关系来预测患者经历ADR的可能性。

多个药物模式/ADR关系、用于ADR或ADR组的共同混杂因素药物、以及患者模型可以作为信息源被提供给认知系统300，其被修改以在执行认知操作时对这样的信息进行操作，如先前在上面所讨论的。例如，当评估患者的候选治疗、一般评估患者的EMR数据、评估患者的医学试验的候选资格、向医学从业者生成关于所识别的药物/ADR关系的通知、向药物提供者和/或监督组织发送关于所识别的药物/ADR关系的通知等时，这样的信息可以由认知系统300的请求处理管线308评估。

框架100通过机器学习过程学习与特定ADR或ADR组相关联的药物-药物相互作用或多个药物模式，并且在这样的模式中哪些药物是混杂因素。在一些说明性实施例中，框架100还可以包括逻辑，该逻辑可以用于进一步评估患者的具体信息，诸如患者针对患者的(一个或多个)医学状况而服用的药物、候选治疗以及被认为用于治疗患者的其相应药物，如由认知系统确定的，等等。该评估可以提供指示ADR的输出，可以基于与患者、候选治疗等相关联的药物信息预测患者经历该ADR。此外，框架100可以提供与患者信息、候选治疗等相关联的混杂因素药物的指示。该信息可以被提供回认知系统以用于执行认知操作，诸如用于生成与候选处理相关联的置信度得分、对候选处理进行排名、提供通知等。

应当理解，图中所示的框架100的各种组件可以作为存储在存储器中并由被具体配置成实现框架100的一个或多个数据处理系统的一个或多个处理器执行的软件指令来提供，该软件指令可以是由服务器计算设备105提供的或分布在诸如服务器105和一个或多个服务器104的多个计算设备上的一个或多个处理器。或者，框架100的组件所提供的一些逻辑可以在硬件设备、固件等中实现。此外，尽管框架100的组件在附图中被示为示例组件以示出说明性实施例的操作，但是应当理解，框架100可以包括未在附图中具体示出但可以支持和辅助组件120-175的功能的附加逻辑。除非在此另外指出，被描述为由框架100执行的、没有具体归因于组件120-175之一的操作或功能可以由在框架100中提供的未具体示出的该其他逻辑来执行，例如控制器逻辑、接口逻辑、存储逻辑等。

此外，尽管为了便于描述，在图3中将框架100示为与认知系统300分离的实体，但是应当理解，组件120-175中的一个或多个可以集成在认知系统300的逻辑和资源中和/或利用这些逻辑和资源来执行它们的操作。例如，框架100可利用认知系统300的自然语言处理(NLP)和注释器机制来执行用于解析和识别自然语言文档中的药物-药物交互、或药物模式、以及ADR关联信息的操作。此外，患者模型175可以与认知系统300的评分和排名逻辑集成或结合其操作，用于对候选回答或候选治疗进行评分和排名，以便选择一个或多个候选治疗作为治疗推荐输出。

如上文关于图1和2所述，说明性实施方案提供了用于学习多个药物模式与ADR或ADR组的关系或关联以及此类多个药物模式中的混杂因素药物的机制。这种对多个药物模式与ADR和混杂因素药物的关系的机器学习可以用于建立预测模型，所述预测模型可以用于预测特定患者是否可能经历ADR。此外，在一些实施方式中，这些模型可以用于预测患者的候选治疗是否将可能导致ADR，从而修改候选治疗对患者的适用性，或者至少生成ADR的可能性的通知以供医师在治疗患者时考虑。在其他说明性实施例中，这种关系的机器学习可以用于向医疗从业者、药物提供者和/或制造商以及工业/政府监督组织发送通知，以通知他们多个药物模式和ADR或ADR组之间的学习到的关联或关系以及混杂因素药物。

说明性实施例可以基于所确定的药物-药物相互作用和与候选治疗相关联的不良药物反应来修改针对特定患者的候选治疗的相对评分和排名。此外，说明性实施例可以输出具有指示基于药物-药物相互作用和与不良药物反应的关联的候选治疗的相对排名的原因的信息的治疗建议。

如上所述，说明性实施例的机制源于计算机技术领域，并且使用存在于这样的计算或数据处理系统中的逻辑来实现。这些计算或数据处理系统通过硬件、软件或硬件和软件的组合被具体配置成实现上述各种操作。这样，图4被提供作为其中可以实现本发明的各方面的一种类型的数据处理系统的示例。许多其它类型的数据处理系统可以同样地被配置为具体实现说明性实施例的机制。

图4是其中实现了说明性实施例的各方面的示例数据处理系统的框图。数据处理系统400是诸如图3中的服务器305或客户机310的计算机的示例，实现本发明的说明性实施例的过程的计算机可用代码或指令位于其中。在一个说明性实施例中，图4表示实现被扩充成包括本文描述的说明性实施例的附加机制的认知系统300和请求处理管线308的服务器计算设备，诸如服务器305。或者，服务器计算设备305可被具体配置成仅实现框架100，如上所述，其可独立操作或与诸如认知系统300等单独的认知系统结合操作。

在所描述的例子中，数据处理系统400采用集线器体系结构，包括北桥和存储器控制器集线器(NB/MCH)402以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)404。处理单元406、主存储器408和图形处理器410连接到NB/MCH402。图形处理器410通过加速图形端口(AGP)连接到NB/MCH402。

在所描述的例子中，局域网(LAN)适配器412连接到SB/ICH404。音频适配器416、键盘和鼠标适配器420、调制解调器422、只读存储器(ROM)424、硬盘驱动器(HDD)426、CD-ROM驱动器430、通用串行总线(USB)端口和其它通信端口432、以及PCI/PCIe设备434通过总线438和总线440连接到SB/ICH404。PCI/PCIe设备可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM424可以是例如闪速基本输入/输出系统(BIOS)。

HDD426和CD-ROM驱动器430通过总线440连接到SB/ICH404。HDD426和CD-ROM驱动器430可以使用例如集成驱动电子设备(IDE)或串行高阶技术附件(SATA)接口。超级I/O(SIO)设备436连接到SB/ICH404。

操作系统在处理单元406上运行。操作系统协调并提供对图4中的数据处理系统400内的各种组件的控制。作为客户机，操作系统是商业上可获得的操作系统，诸如Windows

面向对象的编程系统，诸如Java^TM编程系统，可以与操作系统一起运行，并且提供从在数据处理系统400上执行的Java^TM程序或应用程序到操作系统的调用。

作为服务器，数据处理系统400可以是例如运行Advanced InteractiveExecutive操作系统或

操作系统的

eServer^TMSystem计算机系统。数据处理系统400可以是在处理单元406中包括多个处理器的对称多处理器(SMP)系统。或者，可以采用单处理器系统。

用于操作系统、面向对象的编程系统以及应用或程序的指令位于诸如HDD426的存储设备上，并且被加载到主存储器408中以供处理单元406执行。本发明的说明性实施例的过程由处理单元406使用计算机可用程序代码来执行，该计算机可用程序代码位于诸如例如主存储器408、ROM424之类的存储器中，或者例如位于一个或多个***设备426和430中。

图4所示的诸如总线438或总线440之类的总线系统包括一个或多个总线。当然，总线系统可以使用任何类型的通信结构或体系结构来实现，所述通信结构或体系结构提供在附接到该结构或体系结构的不同组件或设备之间的数据传输。诸如图4的调制解调器422或网络适配器412之类的通信单元包括用于发送和接收数据的一个或多个设备。存储器可以是例如主存储器408、ROM424或诸如在图4中的NB/MCH402中找到的高速缓存。

本领域的普通技术人员将理解，图3和4中描述的硬件可以根据实现而变化。除了图3和4中描述的硬件之外，或者作为其替代，还可以使用其它内部硬件或***设备，诸如闪存、等效的非易失性存储器或光盘驱动器等，此外，在不脱离本发明的精神和范围的情况下，除了前面提到的SMP系统之外，还可以将示例性实施例的处理应用于多处理器数据处理系统。

此外，数据处理系统400可以采取多种不同数据处理系统中的任何一种的形式，包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性示例中，数据处理系统400可以是便携式计算设备，其配置有闪存以提供用于存储例如操作系统文件和/或用户生成的数据的非易失性存储器。实质上，数据处理系统400可以是任何已知的或以后开发的数据处理系统，而没有体系结构限制。

图5是示出根据一个说明性实施例的医疗保健认知系统的元件的交互的示例图。图5的示例图描绘了被配置成为患者提供医学治疗建议的医疗保健认知系统500的实现。然而，应当理解，这仅是示例实现，并且在不脱离本发明的精神和范围的情况下，可以在医疗保健认知系统500的其他实施例中实现其他医疗保健操作。

此外，应当理解，虽然图5将患者502和用户506描绘为人类图形，但是可以使用计算设备、医疗装备和/或类似物来执行与这些实体的交互和这些实体之间的交互，使得实体502和506实际上可以是计算设备，例如客户端计算设备。例如，患者502和用户506之间的交互504、514、516和530可以口头地执行，例如医生面谈患者，并且可以涉及使用一个或多个医疗仪器、监测设备等来收集可以作为患者属性518输入到医疗保健认知系统500的信息。用户506和医疗保健认知系统500之间的交互将是经由用户计算设备(未示出)的电子交互，所述用户计算设备诸如图3中的客户端计算设备310或312，其经由一个或多个数据通信链路和潜在地经由一个或多个数据网络与医疗保健认知系统500通信。

如图5所示，根据一个说明性实施例，患者502向用户506，诸如医师、技师等，呈现医学状况的症状504。用户506可以通过问题514和响应516交换与患者502交互，其中用户收集关于患者502、症状504和患者502的医疗状况的更多信息。应当理解，问题/回答实际上也可以表示用户506使用各种医疗设备从患者502收集信息，所述医疗设备例如血压监视器、体温计、与患者相关联的可穿戴健康和活动监视设备，诸如FitBit^TM、可穿戴心脏监视器、或者可以监视患者502的一个或多个医学特性的任何其他医疗设备。在一些情况下，这样的医疗设备可以是通常在医院或医疗中心中使用以监测存在于病床中的患者的生命体征和医疗状况以便观察或医疗的医疗设备。

作为响应，用户502诸如经由客户端计算设备上的用户界面向医疗保健认知系统500提交请求508，所述客户端计算设备被配置为允许用户以医疗保健认知系统500可以解析和处理的格式向医疗保健认知系统500提交请求。请求508可以包括或伴随有识别患者属性518、由用户506诊断的医学状况等的信息。这些患者属性518可以包括例如可以从中检索患者的患者EMR522的患者502的识别符、关于患者的人口统计信息、症状504、以及从对问题514的响应516获得的其他相关信息或从用于监视或收集关于患者502的状况的数据的医疗设备获得的信息。关于患者502的任何信息可以被包括在请求508和/或患者属性518中，所述信息可以与医疗保健认知系统500对患者的认知评估相关。

医疗保健认知系统500提供认知系统，该认知系统被具体配置成执行面向实施方式的保健认知操作。在所描绘的示例中，这种面向医疗保健的认知操作涉及向用户506提供治疗推荐528，以帮助用户506基于他们报告的症状504、医疗状况、以及经由问题514和响应516过程和/或医疗设备监测/数据收集而收集的关于患者502的其他信息来治疗患者502。医疗保健认知系统500利用从医学语料库收集的信息和其它源数据526、治疗指南数据524、和与患者502关联的患者EMR522，对请求508和患者属性518操作，以产生一个或多个治疗建议528。治疗推荐528可以以利用从患者属性518和数据源522-526获得的相关支持证据的已排名顺序呈现，其指示关于为什么提供治疗推荐528以及为什么以其已排名的方式对其进行排名的原因。

例如，基于请求508和患者属性518，医疗保健认知系统500可对于该请求操作，诸如通过使用如在此描述的QA管线类型处理，以解析请求508和患者属性518以确定什么是被请求的以及如由患者属性518识别的请求将基于其生成的标准，并且可执行各种操作以生成查询，该查询被发送到数据源522-526，以检索数据，生成候选治疗推荐(或回答输入问题)，并且基于在数据源522-526中找到的支持证据给这些候选治疗推荐评分。在所描述的例子中，患者EMR522是患者信息储存库，其从多种源收集患者数据，所述源例如医院、实验室、医生办公室、健康保险公司、药房等。患者EMR522以可由医疗保健认知系统500检索和处理信息的方式(结构化、非结构化、或结构化和非结构化格式的混合)存储关于诸如患者502的个体患者的各种信息。该患者信息可以包括关于患者的各种人口统计信息、关于患者的个人联系信息、就业信息、健康保险信息、实验室报告、来自就诊的医师报告、医院图表、关于先前诊断的历史信息、症状、治疗、处方信息等。基于患者502的识别符，来自该患者储存库的患者的对应EMR522可由医疗保健认知系统500检索，并且被搜索/处理以生成治疗推荐528。

治疗指南数据524提供医学知识的知识库，其用于基于患者的属性518和患者的EMR522中呈现的历史信息来识别患者的潜在治疗。该治疗指南数据524可以从由医疗机构(例如，美国医疗协会)发布的官方治疗指南和政策获得，可以从广泛接受的医师医疗和参考教科书(例如，医师办公桌参考、保险公司指南等)获得。治疗指南数据524可以以可由医疗保健认知系统500摄取的任何合适的形式提供，包括结构化和非结构化格式。

在一些情况下，可以以规则的形式提供这样的治疗指南数据524，所述规则指示为了将相应的治疗应用于特定患者以治疗特定症状或医学疾病/病症而需要存在和/或不需要存在的标准。例如，治疗指南数据524可以包括治疗推荐规则，其指示对于地西他滨的治疗，使用这种治疗的严格标准是患者502小于或等于60岁，患有急性髓样白血病(AML)，并且没有心脏病的证据。因此，对于59岁、患有AML并且在其患者属性518或指示心脏病证据的患者EMR中没有任何证据的患者502，存在治疗规则的以下状况：

年龄<＝60岁＝59(MET)；

患者患有AML＝AML(MET)；以及

心脏病＝假(MET)

由于关于该患者502的具体信息满足治疗规则的所有标准，因此地西他滨的治疗是考虑该患者502的候选治疗。然而，如果患者已经是69岁，则第一标准将不被满足，并且地西他滨治疗将不是考虑该患者502的候选治疗。医疗保健认知系统500可基于摄入的治疗指南数据524评估各种潜在的治疗建议，以通过基于从患者EMR522和医学语料库和其他源数据526获得的证据数据对候选治疗评分，识别候选治疗的子集，以便医疗保健认知系统500进一步考虑。

例如，可以采用数据挖掘处理来挖掘源522和526中的数据，以识别支持和/或反驳候选治疗对由患者的患者属性518和EMR522表征的特定患者502的适用性的证据数据。例如，对于治疗规则的每个标准，数据挖掘的结果提供了一组证据，其支持在标准为"MET(满足)"的情况下和标准为"NOT MET(未满足)"的情况下给出治疗。医疗保健认知系统500根据各种认知逻辑算法处理证据以生成每个候选治疗推荐的置信度分数，其指示相应的候选治疗推荐对于患者502有效的置信度。然后，可以根据候选治疗推荐的置信度评分对候选治疗推荐进行排名，并且将其作为治疗推荐的排名列表528呈现给用户506。在一些情况下，仅返回排名最高的或最终的回答作为治疗推荐528。治疗推荐528可以以由医疗保健认知系统500评估的基础证据可访问的方式呈现给用户506，诸如经由下钻接口，使得用户506可识别为什么治疗推荐528由医疗保健认知系统500提供的原因。

在共同未决和共同转让的美国专利申请15/262,311中描述了可被实现和修改以结合一个或多个示例性实施例的认知治疗推荐系统540的操作的医疗保健认知系统500的一个示例，该专利申请在此通过引用结合在此，其在2016年9月12日提交，题为"MedicalCondition Independent Engine for Medical Treatment Recommendation System,"。应当理解，这仅仅是可以利用示例性实施例的机制的认知保健系统的一个示例。可以利用评估患者EMR数据和候选治疗数据以生成用于治疗患者的治疗推荐的任何认知保健系统来实现说明性实施例的机制。

根据这里的说明性实施例，医疗保健认知系统500被增强以包括多个药物模式/ADR关联学习框架100或与其结合操作，该框架以先前关于图1中的类似系统100和上述说明性实施例中的一个或多个描述的方式操作。图5中的描绘示出了认知治疗推荐系统500的运行时操作，用于帮助对特定患者的候选治疗的评估。这样，假设框架已经执行了其初始操作，用于摄取一个或多个信息语料库，以生成因果模型数据结构、混杂信息数据结构等，如上所述。

在运行时间操作期间，医疗保健认知系统500生成用于患者的候选治疗，并且将该信息连同患者信息，例如包括药物历史信息的患者EMR信息，提供给框架100。在所描述的示例性实施例中，框架100可以包括逻辑，该逻辑分析候选治疗以识别候选治疗中涉及的药物，识别被指示为针对正在考虑候选治疗的相同或不同医学状况而被主动地施予患者的药物，从而识别患者正在服用的药物和潜在地将要施予患者的药物，如果选择各种候选治疗来治疗患者的话。多个药物模式和与所识别的药物相关的ADR或ADR组可以通过因果模型145检索或访问，并且可以为候选治疗产生潜在的ADR和混杂因素药物的指示。该信息可以被提供回医疗医疗保健认知系统500，以用于评估候选治疗的置信度和/或排名，诸如通过减少被确定为具有产生不良药物反应(ADR)的概率的候选治疗的置信度分数和/或排名。

如前所述，在一些说明性实施例中，该治疗推荐528可以包括候选治疗的排名列表，其具有关于为什么基于药物与药物的相互作用将某些候选治疗排名较低的相应解释。这些解释可以指示药物-药物相互作用中的特定药物，即，多个药物模式，其由于ADR的可能性而导致候选治疗的等级降低。治疗推荐528的输出可以包括图形用户界面或其他合适的通知机制。

虽然图5被描述为具有患者502和用户506之间的交互，例如，用户可以是诸如医师、护士、医师助理、实验室技术人员或任何其他医护人员的医护从业者，但是说明性实施例不需要这样。相反，患者502可以直接与医疗保健认知系统500交互而不必经历与用户506的交互，并且用户506可以与医疗保健认知系统500交互而不必与患者502交互。例如，在第一种情况下，患者502可以直接基于由患者502提供给医疗保健认知系统500的症状504，请求508来自医疗保健认知系统500的治疗建议528。此外，医疗保健认知系统500实际上可以具有用于自动向患者502提出问题514和从患者502接收响应516以帮助用于生成治疗推荐528的数据收集的逻辑。在后一种情况下，用户506可通过发送请求508以及患者属性518并响应于医疗保健认知系统500获得治疗推荐，仅基于先前收集并出现在患者EMR522中的信息来操作。因此，图5中的描述仅是示例，并且不应被解释为当在不背离本发明的精神和范围的情况下可以进行许多修改时需要所描述的特定交互。然而，应当理解，在没有治疗患者的医疗保健专业人员的预先批准的情况下，无论何时都不应当将治疗本身施予患者502，即，关于给予患者的治疗的最终确定将总是落在医疗保健或医学专业人员身上，其中说明性实施例的机制仅用作医疗保健或医学专业人员(用户506)和/或患者502的咨询工具。

如上所述，医疗保健认知系统500可包括请求处理管线，诸如图3中的请求处理管线308，其在一些说明性实施例中可被实现为问答(QA)管线。QA管线可接收输入问题，诸如"对患者P的合适治疗是什么？”或请求，诸如“诊断并提供对患者P的治疗推荐”。在一些情况下，QA管线可以接收输入问题，诸如"患者可能经历什么不良药物反应？"或请求，诸如"告诉我患者可能经历的ADR"。

图6示出了根据一个示例性实施例的用于处理输入问题的医疗保健认知系统的QA管线，诸如图5中的医疗保健认知系统500，或图3中的认知系统300的实现。应当理解，图6所示的QA管线的级被实现为一个或多个软件引擎、组件等，它们被配置成具有用于实现属于特定级的功能的逻辑。每个级使用一个或多个这样的软件引擎、组件等来实现。软件引擎、组件等在一个或多个数据处理系统或设备的一个或多个处理器上执行，并且利用或操作存储在一个或多个数据处理系统上的一个或多个数据存储设备、存储器等中的数据。例如，在一个或多个级中扩充图6的QA管线以实现此后描述的说明性实施例的改进机制，可以提供附加的级来实现改进机制，或者可以提供与管线600分离的逻辑来与管线600接口并实现说明性实施例的改进功能和操作。

如图6所示，QA管线600包括多个级610-680，通过这些级，认知系统运行以分析输入问题并产生最终响应。在初始问题输入级610中，QA管线600接收以自然语言格式呈现的输入问题。也就是说，用户通过用户界面输入用户希望获得回答的输入问题，例如"对于60岁心脏病患者适用什么糖尿病医疗吗？"。响应于接收到输入问题，QA管线600的下一级，即问题和主题分析级620，使用自然语言处理(NLP)技术解析输入问题以从输入问题中提取主要特征，并根据类型，例如名称、日期或任何过多的其他定义的主题来分类主要特征。例如，在该类型的问题"谁是华盛顿最接近的顾问吗？"中可以将术语"谁"与"人"的主题相关联，该主题指示正在寻找人的身份，"华盛顿"可以被识别为与问题相关联的人的正确姓名，"最接近"可以被识别为指示邻近或关系的词，并且"顾问"可以指示名词或其他语言主题。类似地，在先前的问题中，"医学治疗"可以与药物、医学程序、整体治疗等相关，"糖尿病"识别特定的医学状况，"60岁"指示患者的年龄，并且"心脏病"指示患者的现有医学状况。

另外，所提取的主要特征包括被分类为问题特性的关键词和短语，诸如问题的焦点、问题的词汇回答类型(LAT)等。如本文所提到的，词汇回答类型(LAT)是输入问题中的单词或从输入问题推断的单词，其指示回答的类型，而与向该单词分配语义无关。例如，在问题"1500秒中发明了什么操纵来加速游戏并且涉及相同颜色的两个片段？"中LAT是串"操纵"。问题的焦点是问题的一部分，如果被回答所代替，则该问题的焦点使问题成为独立的陈述。例如，在问题"什么药物已经显示能减轻ADD症状且具有相对较少的副作用？”中，焦点是“药物”，这是因为如果用回答代替该词，例如，回答“Adderall”可以用来代替术语“药物”以产生句子“Adderall已显示出可减轻ADD症状且具有相对较少的副作用。”焦点通常但不总是包含LAT。另一方面，在很多情况下，可能无法从焦点推断出有意义的LAT。

再次参考图6，然后在问题分解级630期间使用所识别的主要特征来将问题分解成一个或多个查询，这些查询被应用于数据/信息645的语料库以便生成一个或多个假设。查询以任何已知的或以后开发的查询语言生成，诸如结构查询语言(SQL)等。查询被应用于存储关于电子文本、文档、文章、网站等的信息的一个或多个数据库，这些信息构成数据/信息语料库645。即，这些不同的源本身、不同的源集合等等，表示语料库645内的不同的语料库647。取决于特定实现，可以基于各种准则为不同的文档集合定义不同的语料库647。例如，可以为不同的主题、主题类别、信息源等建立不同的语料库。作为一个示例，第一语料库可以与医疗保健文档相关联，而第二语料库可以与财务文档相关联。或者，一个语料库可以是由美国能源部发布的文档，而另一语料库可以是IBM Redbooks文档。具有某些类似属性的任何内容集合可被认为是语料库645内的语料库647。

查询被应用于存储关于构成数据/信息语料库的电子文本、文档、文章、网站等的信息的一个或多个数据库，例如图1中的数据语料库106，在假设生成级640将查询应用于数据/信息语料库以生成识别用于回答输入问题的潜在假设的结果，然后可以对其进行评估。即，查询的应用导致提取与特定查询的标准相匹配的数据/信息语料库的部分。然后在假设生成级640，分析并使用语料库的这些部分，以生成用于回答输入问题的假设。这些假设在本文中也被称为输入问题的"候选回答"。对于任何输入问题，在这个级640，可能存在可能需要评估的数百个假设或生成的候选回答。

然后，在级650中，QA管线600执行输入问题的语言与每种假设或"候选回答"的语言的深度分析和比较，以及执行证据评分以评估特定假设是输入问题的正确回答的可能性。如上所述，这涉及使用多个推理算法，每个推理算法执行输入问题的语言和/或语料库的内容的单独类型的分析，其提供支持或不支持假设的证据。每个推理算法基于它执行的分析生成分数，该分数指示通过应用查询提取的数据/信息语料库的各个部分的相关性的度量以及相应假设的正确性的度量，即假设中的置信度的度量。存在根据所执行的特定分析生成这种分数的各种方式。然而，通常，这些算法寻找指示感兴趣的术语、短语或模式的特定术语、短语或文本模式，并确定匹配程度，其中较高匹配程度被给予比较低匹配程度相对较高的分数。

因此，例如，算法可以被配置为从输入问题或输入问题中的术语的同义词中寻找确切术语，例如术语"电影"的确切术语或同义词，并且基于这些确切术语或同义词的使用频率来生成分数。在这种情况下，基于主题专家(具有所使用的特定域和术语的知识的人)所指定的或从对应于该域的语料库中的同义词的使用频率自动确定的同义词的相对排名，准确匹配将被给予最高的分数，而同义词可被给予较低的分数。因此，例如，语料库的内容(也称为证据或证据段落)中的术语"电影"的精确匹配被给予最高的分数。电影的同义词，诸如"电影"可以被给予较低的分数，但是仍然高于类型"电影"或"电影放映"的同义词。可以编译每个证据段落的精确匹配和同义词的实例，并在定量函数中使用，以生成证据段落与输入问题的匹配程度的分数。

因此，例如，对输入问题"第一部电影是什么？"的假设或候选回答是"运动中的马"。如果证据段落包含声明"Eadradd Muybridge在1878年曾经制作的第一运动图像是"运动中的马"。它是马奔跑的电影，并且该算法寻找与输入问题的焦点的精确匹配或同义词，即"电影"，然后在证据段落的第二句子中找到"电影"的精确匹配，并且在证据段落的第一句子中找到"电影"的高评分同义词，即"运动图像"。这可以与证据段的进一步分析组合，以识别候选回答的文本也存在于证据段中，即"运动中的马"。"可以将这些因素组合起来，以便为该证据段提供相对高的分数，作为候选回答"运动中的马"是正确回答的支持证据。

应当理解，这仅仅是如何进行评分的一个简单示例。可使用各种复杂度的许多其它算法来生成候选回答和证据的得分，而不背离本发明的精神和范围。

在合成级660，由各种推理算法生成的大量分数被合成为各种假设的置信度分数或置信度度量。该过程涉及将权重应用于各种分数，其中，权重已经通过训练QA管线600所采用的统计模型而确定和/或动态更新。例如，由识别精确匹配的术语和同义词的算法生成的分数的权重可以被设置为比评估证据段落的公布日期的其他算法相对更高。权重本身可以由主题专家指定或者通过机器学习过程学习，该机器学习过程评估特征证据段落的重要性和它们对于总体候选回答生成的相对重要性。

根据通过训练QA管线600产生的统计模型处理加权的评分，该模型识别出这些评分可以被组合以产生单个假设或候选回答的置信度评分或量度的方式。该置信度分数或度量概括了QA管线600具有的关于候选回答是由输入问题推断的证据的置信度水平，即候选回答是输入问题的正确回答。

最终置信度合并和排名级670处理所得到的置信度得分或度量，该级将置信度得分和度量彼此进行比较，将它们与预定阈值进行比较，或者对置信度得分执行任何其他分析以确定哪些假设/候选回答最有可能是输入问题的正确回答。根据这些比较对所述假设/候选回答进行排名以生成假设/候选回答(此后简称为"候选回答")的排名列表。在级680，从候选回答的排名列表中，生成最终回答和置信度得分，或候选回答和置信度得分的最终集合，并通过图形用户界面或其他用于输出信息的机制将其输出到原始输入问题的提交者。

如图6所示，根据一个说明性实施例，框架100可在用于摄取语料库645的部分的初始摄取操作期间摄取并学习多个药物相互作用或多个药物模式，以及它们与ADR或ADR组的关联，以及混杂因素药物等，所述部分可包括具有药物历史信息、医疗参考文档等的患者EMR数据，如先前上文所讨论的。框架100可以基于组件120-140的处理生成因果模型145，并且基于因果模型和组件150-170中的一个或多个组件的操作生成患者模型175。这些模型可用于识别与ADR或ADR基团的此类多个药物模式关系。

如图6所示，在管线600的假设生成级640中作为假设生成的各种候选治疗可以被提供给框架100，其可以包括用于将所学习的多个药物模式/ADR关系或关联以及混杂因素药物信息应用于候选治疗和患者信息以识别患者可能经历的潜在ADR的逻辑。这可能涉及将患者模型175和因果模型145信息应用于患者正在服用并且可能基于候选治疗服用的药物的特定组合。框架100然后可以将候选治疗的任何识别的ADR和混杂因素信息返回到管线的假设和证据评分级逻辑650，其可以利用该信息来生成各种候选治疗的置信度评分和排名。管线600的其余处理可以如上所述继续，以便生成一个或多个最终候选治疗回答。

因此，说明性实施方案提供了用于构建因果模型的机制，所述因果模型包括指定多个药物与相应的不良药物反应(ADR)或ADR组之间的因果关系的规则。该因果模型的建立包括对真实世界证据(RWE)的深度分析，潜在地基于各种资源数据结构，所述资源数据结构提供用于评估指示药物和ADR之间的关系的术语、短语、代码等的知识。因果模型的建立包括识别药物与ADR在RWE中的同现，识别在这些同现中混杂因素药物的同现，以及滤除具有存在的这种混杂因素药物的药物与ADR的同现。所建立的因果性模型可以包括不存在混杂因素药物的规则，使得每个ADR或ADR组可以具有指定两个或更多个药物与ADR或ADR组的因果关系的一个或多个规则的关联集合。然后，可以将这个因果模型应用于其它患者数据，以便根据该患者服用的药物确定该患者可能遭遇ADR的概率。因果模型对特定患者数据的这种应用可以与如上所述的由认知系统执行的其他认知操作结合执行。因此，认知系统的操作通过实施由说明性实施例生成的因果模型而得到改进，所述因果模型包括已经去除了混杂因素的实际真实因果关系。

图7是概述根据一个说明性实施例的用于学习具有不良药物反应的多个药物模式关系并过滤掉混杂因素药物的示例操作的流程图。如图7所示，操作开始于接收多个患者的真实世界证据(RWE)(步骤710)。在RWE中识别药物与ADR的同现(步骤720)，这可以涉及应用从来自各种资源信息源的各种资源数据结构获得的知识，并且可以涉及各种操作，诸如各种自然语言处理操作，如先前在上面详细描述的。

识别所识别的同现中的混杂因素药物(步骤730)。如上所述，这可以包括评估改进分数并与阈值比较以确定药物组合是否具有超过这些组合中子组合的显著改进的过程，例如，将药物C加入子组合AB导致ABC与P的ADR的关联性比AB与P的关联性分数有显著足够的改进。如果没有，则C很可能是混杂因素药物。被确定为存在混杂因素药物的同现可以从进一步的考虑中被消除，例如被滤除(步骤740)。尽管被过滤掉，但是混杂因素药物可以被识别到报告机制，诸如图1中的共同混杂逻辑160，以将此类混杂数据报告给认知系统、资源信息源等。然后基于药物与不良药物反应的剩余同现建立因果模型，并可提供该模型以供认知系统使用(步骤750)。该操作可以在这一点终止，然而为了完整性，该流程图还示出了用认知系统评估另一患者的因果模型的实现。

基于因果模型，对于每个ADR，确定指定药物组合和ADR之间因果关系的规则集(步骤760)。将规则应用于其他患者药物数据，以生成针对其他患者的患者模型，该患者模型基于患者药物数据中的药物指定ADR的概率(步骤770)。可以将患者模型提供给认知系统(步骤780)，认知系统基于患者模型，例如基于由于患者服用药物而与患者相关的ADR的概率，执行认知操作，例如治疗推荐操作，如由说明性实施例的机制建立的因果模型所指示的(步骤790)。然后操作终止。

如上所述，应当理解，说明性实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在一个示例实施例中，以软件或程序代码来实现说明性实施例的机制，所述软件或程序代码包括但不限于固件、驻留软件、微代码等。

适于存储和/或执行程序代码的数据处理系统将包括至少一个处理器，该处理器通过诸如系统总线的通信总线直接或间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置和高速缓冲存储器，高速缓冲存储器提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储装置检索代码的次数。存储器可以是各种类型，包括但不限于ROM、PROM、EPROM、EEPROM、DRAM、SRAM、闪存、固态存储器等。

输入/输出或I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或通过居间的有线或无线I/O接口和/或控制器等耦合到系统。I/O设备可以采取除了常规键盘、显示器、指示设备等之外的许多不同形式，诸如例如通过有线或无线连接耦合的通信设备，包括但不限于智能电话、平板计算机、触摸屏设备、语音识别设备等。任何已知的或以后开发的I/O设备都旨在处于说明性实施例的范围内。

网络适配器也可以耦合到系统，以使数据处理系统能够通过中间专用或公共网络耦合到其它数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是用于有线通信的网络适配器的当前可用类型中的几种。还可以利用基于无线通信的网络适配器，包括但不限于802.11a/b/g/n无线通信适配器、蓝牙无线适配器等。任何已知的或以后开发的网络适配器都旨在落入本发明的精神和范围内。

本发明的描述是为了说明和描述的目的而呈现的，并且不旨在是穷尽的或将本发明限制于所公开的形式。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理、实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有各种修改的各种实施例，这些修改适合于所设想的特定用途。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

39页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于核反应堆系统的复合慢化剂

不良药物反应分析

相关技术

网友询问留言