个体和队列药理学表型预测平台

文档序号:1132149 发布日期:2020-10-02 浏览:13次 >En<

阅读说明:本技术 个体和队列药理学表型预测平台 (Individual and cohort pharmacological phenotype prediction platform ) 是由 B.D.阿西 A.阿林-富伊尔 G.A.希金斯 J.S.伯恩斯 A.卡利宁 B.保尔斯 于 2018-05-11 设计创作,主要内容包括:对于表现出或可能表现出原发性疾病或并发症的患者,可以通过在一段时间内收集组学、生理组学、环境学、社会组学、人口统计学和结果表型数据来预测药理学表型。机器学习引擎可以基于来自训练患者的训练数据生成统计模型以预测药理学表型,所述药理学表型包含药物反应和剂量、药物不良事件、疾病和并发症的风险、药物-基因相互作用、药物-药物相互作用以及多药房相互作用。然后,所述模型可以应用于新患者的数据以预测新患者的药理学表型,并且能够在临床和研究背景下进行决策,包含药物选择和剂量、药物治疗方案的变化、多药房优化、监测等,以获益于另外的预测能力,从而避免不良事件和药物滥用、改善药物反应、改善患者恢复结果、降低治疗成本、提高公共卫生效益并提高药理学和其它生物医学领域的研究效率。(For patients exhibiting or likely to exhibit a primary disease or complication, pharmacological phenotypes can be predicted by collecting omics, physiomics, environmentology, sociomics, demographics, and outcome phenotypic data over a period of time. The machine learning engine may generate statistical models based on training data from the trained patients to predict pharmacological phenotypes including drug responses and dosages, adverse drug events, risk of disease and complications, drug-gene interactions, drug-drug interactions, and multi-drug-chamber interactions. The model can then be applied to new patient data to predict the new patient&#39;s pharmacological phenotype and enable decision making in clinical and research settings, including drug selection and dosage, changes in drug treatment regimens, multi-pharmacy optimization, monitoring, etc., to benefit from additional predictive capabilities, to avoid adverse events and drug abuse, improve drug response, improve patient recovery, reduce treatment costs, improve public health benefits, and improve research efficiency in pharmacological and other biomedical fields.)

个体和队列药理学表型预测平台

相关申请的交叉引用

本申请要求(1)于2017年5月12日提交的题为“个体和队列药理学表型预测平台(Individual and Cohort Pharmacological Phenotype Prediction Platform)”的临时美国申请序列号62/505,422和(2)于2018年2月21日提交的题为“个体和队列药理学表型预测平台(Individual and Cohort Pharmacological Phenotype Prediction Platform)”的临时美国申请序列号62/633,355的优先权和权益,所述文献中的每一个文献的全部公开内容均在此通过引用明确并入本文。

技术领域

本申请涉及药理学患者表型,并且更具体地说,涉及一种用于利用机器学习和统计技术基于患者的生物学、血统、人口统计学、临床学、社会学和环境学特征来预测患者以及患者的分层队列的药物反应表型的方法和系统。

背景技术

今天,可以基于患者的编码基因组来预测一些患者的药物反应。可以将特定的基因性状映射到对药物的特定反应中,并可以根据患者的预测反应为患者选择药物。

然而,非编码基因组学变体占基因性状差异的绝大部分,如患者的药物反应、不良药物反应和疾病风险等。表观基因组学调控研究与全基因组广泛关联研究(GWAS)的融合也表明,在广泛的医学专业和药物研究环境中,表观基因组学改变可以指示人与动物的疾病风险、药物反应和不良药物反应。此外,与疾病相关的表型变异可能是由先前归因于基因差异的染色质状态差异决定的。

当前的系统未利用染色质状态、基因组学调控元件、表观基因组学、蛋白质组学、代谢组学或转录组学来预测患者的药理学表型。当前的系统也未考虑可能改变基因性状的环境和社会学特征来确定药理学表型。另外,这种系统未利用机器学习技术来训练系统以使其适应生物学特征和/或与生物学特征相对应的药理学表型随时间的变化。

因此,需要一种基于组学特征(包含基因组学、表观基因组学、染色质状态、蛋白质组学、代谢组学、转录组学等)以及患者近乎实时的社会学和环境特征来准确预测药理学表型(包含药理学反应、疾病风险、药物滥用或其它药理学表型)的系统。

发明内容

为了预测患者的药理学表型,可以使用各种机器学习技术来训练药理学表型预测系统。更具体地,可以训练所述药理学表型预测系统以分析患者的组学、社会学和环境学数据,从而预测所述患者对各种药物的反应、所述患者滥用药物的可能性、各种疾病的风险或所述患者的任何其它药理学表型。可以通过获取一组患者(在本文中也被称为“训练患者”)的组学、社会学和环境学数据(在本文中也被称为“训练数据”)来训练所述药理学表型预测系统。

在一些实施例中,可以在多个时间点获取患者的社会学和环境学数据,以详细记录所述患者的经历。针对每个训练患者,所述药理学表型预测系统可以获取所述患者的药理学表型作为训练数据,如所述患者是否出现药物滥用问题、所述患者的慢性病、所述患者对以处方形式开具给患者的各种药物的反应等。可以使用所述各种机器学习技术来分析所述训练数据以生成统计模型,所述统计模型可以用于预测所述患者对各种药物的反应、所述患者滥用药物的可能性、各种疾病的风险或所述患者的任何其它药理学表型。例如,所述统计模型可以是基于对基因调控网络的网络分析和对基因表达的环境影响的组合而生成的神经网络。

在训练期之后,所述药理学表型预测系统可以接收在几个时间点收集的药理学表型未知的患者(例如,尚未向双相情感障碍患者开出锂处方,因此尚不清楚所述患者对锂的反应)的组学、社会学和环境学数据。所述组学、社会学和环境学数据可以应用于所述统计模型,以预测所述患者的药理学表型,并且可以在医疗保健提供者的客户端装置上显示这些表型。

例如,对于特定药物,所述药理学表型预测系统可以确定所述患者出现不良药物反应的可能性。另外,所述药理学表型预测系统可以生成所述患者药物的预测疗效或适当剂量的指示。在一些实施例中,可以将所述患者出现不良药物反应的可能性与阈值可能性进行比较,并且可以将所述预测疗效与阈值疗效进行比较。当所述可能性超过所述阈值可能性时,所述预测疗效小于所述阈值疗效,和/或当不良药物反应的可能性与预测疗效的组合超过阈值时,则可以向所述医疗保健提供者提供所述药物的所述可能性和/或所述疗效的指示。因此,所述医疗保健提供者可以改变剂量、不给所述患者开药或者向所述患者建议具有更高疗效的替代药物。

以这种方式,所述药理学表型预测系统可以鉴定用于患特定疾病的患者的最佳药物。例如,对于特定疾病,所述药理学表型预测系统可以选择被设计用于治疗所述疾病的几种药物中的一种药物,所述药物具有对所述患者的最大预测疗效以及不良药物反应的最小可能性和/或严重性。本实施例有利地允许医疗保健提供者准确且有效地鉴定推荐并以处方形式开具给患者的最佳药物。另外,通过合并组学、社会学和环境学数据来生成所述统计模型,本实施例有利地包含对患者的生物学特征的全面的生物信息学分析,所述患者的生物学特征可能随着时间而改变。这种全面的生物信息学分析提供了一个更准确的预测系统,所述系统不仅可以根据患者的固有特征预测药理学表型,而且还可以纳入社会学和环境学性状,这些性状会随着时间不断变化并可能改变基因性状的表达。

此外,通过生成准确预测疾病风险和不良药物反应可能性的统计模型,所述医疗保健提供者可以在所述患者表现出疾病症状或开始出现药物滥用问题或其它疾病之前主动解决这些问题疾病症状。

在一个实施例中,提供了一种用于使用统计建模和机器学习技术来鉴定药理学表型的计算机实施的方法。所述方法包含获取一组训练数据,所述训练数据包含多个第一患者中的每一个患者的以下数据:组学数据,其指示所述第一患者的生物学特征,社会组学和环境学数据,其指示随时间推移收集的所述第一患者的经历,以及表型组学数据,其指示以下至少一项:对一种或多种药物的反应、所述第一患者是否经历不良药物反应或药物滥用或所述第一患者的一种或多种慢性疾病。所述方法进一步包含:基于所述一组训练数据生成用于确定药理学表型的统计模型;接收在一段时间内收集的第二患者的一组组学数据以及社会组学和环境学数据;将所述第二患者的所述组学数据以及所述社会组学和环境学数据应用于所述统计模型以确定所述第二患者的一种或多种药理学表型;以及提供所述第二患者的所述一种或多种药理学表型以展示给医疗保健提供者,其中所述医疗保健提供者根据所述一种或多种药理学表型向所述第二患者推荐治疗方案。

在另一个实施例中,提供了一种用于使用统计建模和机器学习技术来鉴定药理学表型的计算装置。所述计算装置包含通信网络、一个或多个处理器以及联接到所述一个或多个处理器并在其上存储指令的非暂时性计算机可读存储器。所述指令当由所述一个或多个处理器执行时使所述系统获取一组训练数据,所述训练数据包含多个第一患者中的每一个患者的以下数据:组学数据,其指示所述第一患者的生物学特征,社会组学和环境学数据,其指示随时间推移收集的所述第一患者的经历,以及表型组学数据,其指示以下至少一项:对一种或多种药物的反应、所述第一患者是否经历不良药物反应或药物滥用或所述第一患者的一种或多种慢性疾病。所述指令进一步使所述系统:基于所述一组训练数据生成用于确定药理学表型的统计模型;接收在一段时间内收集的第二患者的一组组学数据以及社会组学和环境学数据;将所述第二患者的所述组学数据以及所述社会组学和环境学数据应用于所述统计模型以确定所述第二患者的一种或多种药理学表型;并且通过所述通信网络提供所述第二患者的所述一种或多种药理学表型以展示给医疗保健提供者,其中所述医疗保健提供者根据所述药理学表型向所述第二患者推荐治疗方案。

附图说明

图1A示出了根据当前描述的实施例的示例性药理学表型预测系统可以在其上操作的计算机网络和系统的框图;

图1B是根据当前描述的实施例的可以在图1A的系统中操作的示例性药理学表型评估服务器的框图;

图1C是根据当前描述的实施例的可以在图1A的系统中操作的示例性客户端装置的框图;

图2描绘了根据当前描述的实施例的可以提供给药理学表型预测系统的示例组学、社会学和环境学数据;

图3描绘了根据当前描述的实施例的由药理学表型预测系统执行的过程的详细视图;

图4A描绘了根据当前描述的实施例的与特定药理学表型相关的允许性候选变体的生物信息学分析的示例性表示,以及表示人类基因组中示例性转录空间层次的示意图;

图4B是表示根据当前描述的实施例的用于使用机器学习技术来鉴定对应于特定药理学表型的组学数据的示例性方法的框图;

图4C描绘了根据当前描述的实施例的用于患者的示例性基因调控网络;

图4D是表示根据当前描述的实施例的用于使用机器学习技术来鉴定对应于特定药理学表型的组学数据的另一示例性方法的框图;

图4E是表示当鉴定对应于华法林表型的组学数据时在图4D中描述的方法的每个阶段中鉴定的单核苷酸多态性(SNP)的框图;

图4F描绘了根据本发明描述的实施例的示例性华法林反应通路;

图4G描绘了根据本发明描述的实施例的示例性锂反应通路;

图5是表示用于从患者的生物样品中生成组学数据的示例性过程的框图;

图6描绘了患者的示例时间线,其包含根据当前描述的实施例的由药理学表型预测系统确定的随时间推移收集的示例组学、表型组学、社会组学、生理组学和环境学数据以及患者的药理学表型;以及

图7示出了表示根据当前描述的实施例的用于使用机器学习技术来鉴定药理学表型的示例性方法的流程图。

具体实施方式

尽管以下文本阐述了许多不同实施例的详细描述,但是应当理解的是,该描述的法律范围由在本公开结尾处阐述的权利要求书的文字来定义。详细描述应被解释为仅是示例性的,并且未描述每个可能的实施例,因为描述每个可能的实施例将是不切实际的,即使不是不可能的。可以使用当前技术或在本专利申请日之后开发的技术来实施许多替代性实施例,所述实施例将仍落入权利要求书的范围内。

还应当理解的是,除非在本专利中使用句子“如本文中所使用的,术语‘______’在本文限定为意味着……”或类似的句子中明确定义术语,否则无意限制所述术语的含义,无论是明示的还是通过暗示,超出其平常或普通含义,并且此术语不应被解释为在基于本专利的任何章节中作出的任何陈述(权利要求书的语言除外)的范围上受到限制。就以与单个含义一致的方式在本专利中参考在本专利的结尾处的权利要求书中叙述的任何术语来说,这样做仅为了清晰起见,以便不使读者混淆,并且并不旨在将此权利要求术语通过暗示或以其它方式限制于所述单个含义。最后,除非通过引用单词“构件”和没有任何结构的叙述的功能来限定权利要求要素,否则不旨在根据35 U.S.C.§112的申请(第六段)来解释任何权利要求要素的范围。

因此,如本文所使用的,术语“医疗保健提供者”可以指医疗或健康服务的任何提供者。例如,健康保健工作者可以是医生、临床医师、护士,医生助理、保险人、药剂师、医院、临床机构、药房技术员、制药公司、研究科学家、其它医疗组织或获准为患者开出医疗产品和药物的医学专业人士等。

如本文所使用的,术语“患者”可以指任何人类或其它生物体或其组合,其健康、寿命或其它医学结果是临床或研究兴趣、研究或努力的目标。

另外,如本文所使用的,术语“组学”可以指与细胞内的生物学功能以及人体中的其它功能的相互作用有关的一系列分子生物学技术。例如,组学可以包含基因组学、表观基因组学、染色质状态、转录组学、蛋白质组学、代谢组学、生物网络和系统模型等。组学数据可能特定于各个时间点以及特定的细胞组织和细胞系,因此,组学数据收集与这些特征相关,并且也可以收集组学数据并将其用于与所关注的患者表型有关的多个组织、谱系和时间点。患者的组学可能与多种表型的生物标志物有关,如对药物的药理学反应、疾病风险、并发症、药物滥用问题等。可以在离散的时间点出于一组特定的医学决策目的而生成并收集组学数据,并且也可以从过去在各个点上为单个患者所收集的组学数据的总记录中收集组学数据。

如本文所使用的,术语“药理学表型”可以指在临床护理、临床护理的管理和财务以及对人类和其它生物体的制药以及其它医学和生物医学研究方面可能影响药物治疗、患者寿命和结果、生活质量等的任何可辨别的表型。此类表型可以包含药代动力学(PK)和药效动力学(PD)表型,包含药物的吸收、分布、代谢和***(ADME)的速率和特征的所有表型,以及与药物疗效、药物治疗剂量、半衰期、血浆水平、清除率等有关的药物反应,以及不良药物事件、不良药物反应和不良药物事件或不良药物反应的相应严重程度、器官损伤、药物滥用和依赖性及其可能性,以及体重及其变化、情绪和行为变化及干扰。此类表型还可包含对药物组合、药物与基因的相互作用、社会和环境因素、饮食因素等的有利和不利的反应。所述表型也可能包含遵守药理学或非药理学治疗方案。所述表型还可能包含医学表型,如患者感染某种疾病或并发症的倾向、疾病的结果和预后、患者是否会出现特定的疾病症状以及患者的结果(如寿命、临床评分和参数、测试结果、医疗保健支出),和其它表型。

此外,如本文所使用的,术语“药物表型组学”可以指基于整合基因学、表观基因学、组学、药物代谢组学、社会组学、电子健康记录(EHR)和其它患者数据,并与通过机器学习实现的分层患者队列和群体数据集相匹配的个体患者药理学表型。

如本文所使用的,“精确的患者表型”可以指对药物表型组学数据进行综合分析以提供精确和准确的临床决策患者治疗概况,所述概况可以被定期更新以合并变化的患者表型组学数据。

如本文所使用的,术语“表型转变”可以指临床患者表型的周期性变化,其根据疾病进展、社会学和环境因素和/或初步的、正在进行的或变化的药理学和非药理学治疗的结果随时间推移而复发或间歇发生,这基本上是患者临床进展的纵向记录。

此外,如本文所使用的,术语“疾病易感性”可以指与直接基因遗传相关的或通过转基因表观基因修饰的危险因素。

如本文所使用的,“社会组学危险因素”可以指与以下有关的社会学和文化临床危险因素:对自身或他人有害的行为;不利的文化环境、经济和社区生活条件;童年和/或青少年时期的忽视和***,其被称为不良童年经历(ACE);与性、身体和心理***有关的成人创伤;其它急性或慢性创伤事件(例如,军事冲突、犯罪、崩溃、疾病、家庭死亡);由不良条件引起的加剧的或长期的应激;与年龄有关的健康状况、孤立或认知情况。

如本文所使用的,“疾病诊断”可以指导致治疗决定策的可能的或确定的诊断。如本文所使用的,“治疗选择”可以指减轻、中和或改善患者状况的一种或多种药理学和/或非药理学治疗。

同样,如本文所使用的,术语“初步治疗反应”可以指在最初的几周到几个月内由于药物治疗而导致的病情稳定、反应缺乏、临床反应改善或不良事件(AE);可能涉及剂量调整或辅助药物。时间周期通常为六个月到一年。

如本文所使用的,术语“复发反应”可以指由于药理学不良反应、药物-药物相互作用、药物剂量变化、新的或复发的并发症、创伤、应激和其它社会组学因素导致的患者对治疗的反应的周期性变化,所述变化是通过生物样品(例如但不限于血液、尿液、汗液(例如,皮质醇)、气味)或通过遥感、发射器或其它主动或被动的数据收集方法进行测量的。

如本文所使用的,术语“环境”应指人类或其它动物或生物体外部的或源自所述人类或其它生物体外部的任何物体、物质、发散、条件、经历、通信或信息,所述这些发生在现在或过去(包含这些人类或其它生物体之前的生物学世代),在一个或多个不连续的时间点或一段时间内发生,其可能影响或改变以可测量的、可鉴定的或其它重要方式显示的这些人类或其它生物体的物理学、生物学、化学、生理学、医学、心理学或精神病学特性。这些条件可以包含食物、营养补充剂、矿物质、水和其它液体、衣物、卫生设施以及人类或其它生物体曾所接触过的其它商品和服务的类型、数量、质量、存在/不存在、时机或其它特征,以及当前或过去无论是通过皮肤还是通过食入、吸入、插管、臆测或其它方式暴露于化学物质、大气和有机体。这些条件可以包含温度、噪声、光、电磁和/或粒子辐射、振动、机械冲击或应激、药物、医疗程序和植入物。这些条件还可以包含职业属性、工作职责和娱乐物质。这些条件还可以包含医学上的不良事件,如接触毒素、毒物、微生物、病毒和其它试剂,以及身体受到的影响、撕裂伤、挫伤、穿刺和脑震荡。

这些条件还可以包含社会因素,如不良童年经历(ACE)以及应激、创伤、***、贫穷和其它经济状况、粮食不安全和饥饿、监禁、人际冲突、暴力以及其它经历。这些条件还可以包含父母、子女、兄弟姐妹以及其它家庭成员和熟人的存在或不存在,包含这种关系的类型、质量和持续时间。这些条件还可以包含教育和专业经验与成就、宗教服务和指导、以及社会交往和互动。这些条件还可以包含社会组学风险因素以及身体修改,包含纹身、植入物、穿孔和插销。

如本文所使用的,术语“同时药物基因组学物质暴露”可以指环境元素的亚型,其可以是单向相互作用、同时相互作用、药代动力学或药效动力学相互作用、药物-环境相互作用。针对最近的或在分析时正在发生的暴露,例如,如果有记录在案的相互作用表明环境因素单独诱导或抑制与药物代谢有关的特定酶的活性≥20%,或改变药物作用≥20%,则这种相互作用可以被视为具有临床重要性。这种相互作用可以包含暴露形式,从食物到草药/维生素补充剂,再到自愿和非自愿的毒性接触。这种相互作用的可能性可以用数字来衡量。

为了简单起见,在整个讨论中,具有被用作训练数据以生成统计模型的数据的患者在本文中可以被称为“训练患者”,并且具有被应用于统计模型以预测药理学表型的数据的患者可以被称为“当前患者”。然而,这是为了便于讨论。可以将来自“当前患者”的数据添加到训练数据中,并且可以连续或定期地更新训练数据以使统计模型保持最新。另外,训练患者还可以具有被应用于统计模型以预测药理学表型的数据。

另外,在整个讨论中,当前患者可以被描述为未知其是否具有某些药理学表型的患者,而训练患者可以被描述为药理学表型已知的患者。更具体地,当前患者的药理学表型是未知的,并且使用训练患者的组学和社会组学、生理组学和环境学数据与所述训练患者的先前或当前确定的药理学表型之间的关系来进行预测。因此,训练患者具有已知的、先前或当前确定的药理学表型。当前患者具有未知的药理学表型。然而,在一些实施例中,训练患者可能具有其它未知的药理学表型,同时具有一些用于训练药理学表型预测系统的已知的药理学表型。另外,当前患者可能具有一些已知的、先前或当前确定的药理学表型,同时具有将由药理学表型预测系统进行预测的未知的药理学表型。

一般而言,可以在一个或多个客户端装置、一个或多个网络服务器或包含这些装置的组合的系统中实施用于根据组学、社会组学、生理组学和环境学特征来鉴定药理学表型的技术。然而,为清楚起见,下文的实例主要聚焦于一个实施例,在这个实施例中,药理学表型评估服务器获取一组训练数据。在一些实施例中,可以从客户端装置获取训练数据。例如,医疗保健提供者可以(例如,从唾液、脸颊拭子、汗液、皮肤样品、活组织切片、血液样品、尿液、粪便、汗液、淋巴液、骨骼、骨髓、毛发、气味等)获取用于测量患者的组学的生物样品,并将通过分析生物样品所获取的实验室结果提供给药理学表型评估服务器。

在图5中示出了用于从患者的生物样品中生成组学数据的示例过程500。所述过程可以由分析实验室或其它合适的机构执行。在框502处,医疗保健提供者获取患者的生物样品,并将其发送至分析实验室进行分析。生物样品可以包含患者的唾液、汗液、皮肤、血液、尿液、粪便、汗液、淋巴液、骨髓、毛发、脸颊细胞、气味等。然后在框504处,从生物样品中提取细胞,并在框506处将其重编程为干细胞,如诱导多能干细胞(iPSC)。然后在框508处,将iPSC分化为多种组织,如神经元、心肌细胞等,并在框510处进行分析以获取组学数据。所述组学数据可以包含基因组学数据、表观基因组学数据、转录组学数据、蛋白质组学数据、染色体组学数据、代谢组学数据和/或生物网络。如下文参照图4A-4C更详细描述的,可以将SNP、基因和基因组学区域鉴定为与特定药理学表型有关。当针对特定药理学表型或一组药理学表型(例如,指示对丙戊酸的反应的药理学表型)分析患者的组学、社会组学、生理组学和环境学数据时,可以针对与特定药理学表型有关的经过鉴定的SNP、基因和基因组学区域对iPSC进行分析。更一般地,可以基于被鉴定为与患者的正在检查的药理学表型集相关的组学数据来选择要分析的组学数据。

更具体地,通过将转录因子或“重编程因子”或其它试剂引入给定的细胞类型,将细胞重编程为iPSC。例如,可以使用山中(Yamanaka)因子(包含转录因子Oct4、Sox2、cMyc和Klf4)将细胞重编程为iPSC。然后可以将iPSC分化为多种组织,如神经元、脂肪细胞、心肌细胞、胰岛β细胞等。分化iPSC之后,可以使用各种分析技术(如DNA甲基化分析、DNAse足迹分析、过滤器结合分析等)来分析分化的iPSC,以鉴定表观基因组学信息。实际上,药理学表型预测系统执行虚拟活检,并且分化的iPSC至少在一定程度上具有其相应组织的表型和表观基因组学特性。

在上述实施例中,从患者的生物样品中提取细胞,将其重新编程为干细胞,分化为各种组织,并进行分析以获取组学数据(分化的、重编程的细胞分析法)。可替代地,在某些实施例中,在不提取细胞的情况下测定患者的生物样品(无细胞分析法)。在其它实施例中,从患者的生物样品中提取细胞,并在不对细胞进行重新编程或分化的情况下进行分析(原代细胞分析法)。在其它实施例中,将细胞重编程为iPSC,并在不对细胞进行分化的情况下进行分析(重编程的干细胞分析法)。例如,可以在不进行分化的情况下对iPSC进行分析以获取干细胞组学。尽管这些只是用于从患者的生物样品中生成组学数据的一些示例过程,但是可以在过程中的任何合适阶段执行分析,并且可以按照任何合适的方式生成组学数据。

医疗保健提供者还可以获取包含生命体征、睡眠循环、昼夜节律等的生理度量。此外,医疗保健提供者可以获取与药物代谢组学有关的数据,包含作为代谢作用的产物的代谢物(如乙酸、乳酸等)和药物的药物代谢组学代谢物。可以通过例如在实验室中对患者的生物样品进行的光谱法或光谱学来鉴定代谢物,并且可以将结果作为患者的代谢概况提供给医疗保健提供者。然后可以使用代谢概况来鉴定代谢疾病特征、鉴定能够改变药物反应的化合物、鉴定代谢物变量并将所述代谢物变量映射到已知的代谢和生物学通路等。

在一些实施例中,药理学表型预测系统可以利用药物代谢组学数据,所述药物代谢组学数据包含对多种药物和药物代谢物的存在或不存在和/或定量水平的系统评估。可以从全血、柠檬酸盐血、血斑、其它组织和体液等中收集此类信息。药理学表型预测系统可以利用EHR系统或其它数据库中预先存在的一种或多种药物代谢组学数据实例,和/或针对当前治疗或药理学表型预测查询的数据。可以同时收集处方药、非处方药、非处方药、非法药物等的数据。可以通过包含质谱法和其它形式的光谱学和光谱法和/或核磁共振、抗体和亲和力测试等的技术来测量药物和代谢物的浓度。此类信息可以在实施例中用于检测药物滥用或标示外使用、衡量对处方药的依从性、检测患者使用的或在其它诊所开出的其它处方药或非处方药,以评估患者的代谢物状态和其它目的等,并提出治疗建议,所述建议包含开药、停药和替代药物,以及剂量和方案变更、施用方式、监测、测试和诊断、专家转诊、额外诊断、其它治疗方法等。

在其它实施例中,可以从患者的客户计算装置、健身追踪器或量化的自我报告/被动报告方法获取生理度量。在另一个实例中,医疗保健提供者可以获取患者调查问卷(包含与患者的人口统计学、病史、社会经济状况、执法历史、睡眠周期、昼夜节律等有关的问题),并且可以将患者调查问卷的结果提供给药理学表型评估服务器。可以从定位在EMR服务器上的电子病历(EMR)和/或从定位在多药房服务器上的多药房数据中获取训练数据,所述多药房服务器汇总了来自多个药房的患者的药房数据。在一些实施例中,可以从包含几个服务器(例如,EMR服务器、多药房服务器等)以及医疗保健提供者和患者的客户端装置的源的组合中获取训练数据。例如,可以通过交叉引用患者的个人历史数据(例如,患者的职业、居住地等)与这些特征的更广泛的纵向数据(例如,人类暴露组工程(Human ExposomeProject)中的数据)来获取特定患者的训练数据。

除了向包含用于训练具有已知药理学表型的患者的组学数据的药理学表型评估服务器提供训练数据之外,药理学表型评估服务器还获取基线组学水平、组学分布或可用于训练药理学表型评估服务器任何其它合适的组学数据的联合体组学数据。

在任何情况下,训练数据的子集可以与所述训练数据的子集对应的训练患者相关联。另外,例如,药理学表型评估服务器可以基于人口统计学将训练患者的子集和相应的训练数据分配到队列中。然后,可以使用训练数据来训练药理学表型评估服务器,以生成用于预测患者的药理学表型的统计模型。可以使用各种机器学习技术来训练药理学表型评估服务器。

在训练了药理学表型评估服务器之后,可以接收可能在多个时间点收集的药理学表型未知的当前患者的组学数据、社会组学数据、生理组学数据和环境学数据。在一些实施例中,药理学表型评估服务器可以获取当前患者所患的疾病或病症的指示,以鉴定治疗每种疾病的最佳药物。这可以包含与应激有关的疾病,如创伤后应激障碍(PTSD)、抑郁症、***倾向、昼夜节律失调、药物滥用疾病、恐惧症、应激性溃疡、急性应激障碍、《牛津精神病学手册(Oxford Handbook of Psychiatry)》中包含的与应激有关的疾病等。当前患者所患的疾病或病症还可以包含躁郁症、精神***症、自闭症谱系障碍和注意力不足过动症(ADHD)。此外,这可以包含广泛性焦虑症和焦虑抑郁症以及非精神病并发症,如肠易激综合症(IBS)、炎症性肠病(IBD)、克罗恩病(Crohn′s disease)、胃炎、胃和十二指肠溃疡以及胃食管反流病(GERD)。此外,当前患者所患的疾病或病症可以包含心脏病、纤维肌痛、慢性疲劳综合症等。这些疾病或病症的药理学表型可以包含与任何当前和将来的药物和/或用于治疗相应疾病或病症的其它方法相关联的药理学表型。

然后,例如可以使用各种机器学习技术来分析组学、社会组学、生理组学和环境学数据,以预测患者的一种或几种药理学表型。可以将药理学表型的指示传输到医疗保健提供者的客户端装置,以供医疗保健提供者根据药理学表型检查并确定适当的治疗过程。可以在临床环境以及用于药物开发和保险应用的研究环境中预测药理学表型。在研究环境中,可能会在研究计划中预测与实验性药物相关的潜在患者队列的药理学表型。可以根据患者的与实验药物有关的预测药理学表型选择患者进行实验性治疗。

参照图1A,示例药理学表型预测系统100使用各种机器学习技术根据患者的组学、社会组学、生理组学和环境学数据来预测患者的药理学表型(精确的患者表型)。药理学表型预测系统100可以获取训练患者队列的训练数据,可以对这些数据进行分析以鉴定组学、社会组学、生理组学和环境学数据与包含在训练数据中的药理学表型之间的关系。然后,药理学表型预测系统100可以基于所述分析生成用于预测药理学表型的统计模型。当患者的药理学表型为未知时(例如,尚未向双相情感障碍患者开出锂处方,因此尚不清楚所述患者对锂的反应),药理学表型预测系统100可以获取患者的组学、社会组学、生理组学和环境学数据并将所述组学、社会组学、生理组学和环境学数据应用于统计模型,以预测患者的药理学表型。例如,药理学表型预测系统100可以预测患者对特定药物产生不良反应的可能性,可以预测药物的疗效或适当剂量等。药理学表型预测系统100可以在临床环境中执行临床决策支持(CDSS)以预测患者的精确的患者表型。另外,药理学表型预测系统100可以进行药物研究以开发配套诊断测试,从而鉴定对所开发或批准的药物将产生良好或不良反应并且将出现较少副作用或没有副作用的患者。此外,可以在实验治疗的背景下使用药理学表型预测系统100,以向研究人员推荐在临床研究背景下以处方形式开具给当前患者的实验药物和/或剂量。

药理学表型预测系统100包含药理学表型评估服务器102和可以通过网络130通信连接的多个客户端装置106-116,如下所述。在一个实施例中,药理学表型评估服务器102和客户端装置106-116可以在通信网络130上通过无线信号120进行通信,所述通信网络可以是任何合适的局域网或广域网,包含WiFi网络、蓝牙网络、蜂窝网络(如3G、4G、长期演进(LTE)、5G)、因特网等。在一些情况下,客户端装置106-116可以通过介于中间的无线或有线装置118与通信网络130进行通信,所述无线或有线装置可以是无线路由器、无线中继器、移动电话提供商的基站收发器等。举例来说,客户端装置106-116可以包含平板计算机106、智能手表107、支持网络的蜂窝电话108、可穿戴计算装置(如Google GlassTM

Figure BDA0002362218690000161

109)、个人数字助理(PDA)110、移动装置智能电话112(在本文中也被称为“移动装置”)、膝上型计算机114、台式计算机116、可穿戴生物传感器、便携式媒体播放器(未示出)、平板手机、被配置成进行有线或无线RF(射频)通信的任何装置等。此外,记录患者的组学数据、临床数据、人口统计学数据、多药房数据、社会组学数据、生理组学数据或其它环境学数据的任何其它合适的客户端装置也可以与药理学表型评估服务器102进行通信。

在一些实施例中,患者可以将数据输入到台式计算机116中,所述数据例如为响应于患者调查问卷(包含与患者的人口统计学、病史、社会经济状况、执法历史、睡眠周期、昼夜节律等有关的问题)的答案。在其它实施例中,医疗保健提供者可以输入数据。

客户端装置106-116中的每一个装置可以与药理学表型评估服务器102交互,以发送患者的组学数据、临床数据、人口统计学数据、多药房数据、社会组学数据、生理组学数据或其它环境学数据。在一些实施例中,可以周期性地(例如,每月、每三个月、每六个月等)收集社会组学、生理组学和环境学数据,以鉴定患者的社会学状况和环境随时间的变化(例如,从失业到就业、单身到已婚等)。同样,在一些实施例中,患者的社会组学、生理组学和环境学数据中的至少一些数据可以由医疗保健提供者通过医疗保健提供者的客户端装置106-116进行记录,或者可以通过患者的客户端装置106-116进行自我报告。

每个客户端装置106-116还可以与药理学表型评估服务器102交互,以接收当前患者的预测药理学表型的一个或多个指示。指示可以包含以处方形式开具给当前患者的药物的推荐,当前患者对所述药物有最高的预期反应(例如,疗效和最小不良药物反应以及反应的严重程度的最高组合)。指示还可以包含当前患者的各种疾病的风险,如患病的可能性、风险类别(例如,低、中或高风险)等。此外,指示可以包含药物滥用的可能性,如数值可能性或可能性类别(例如,低、中或高可能性)。

在示例实施方案中,药理学表型评估服务器102可以是基于云的服务器、应用服务器、网络服务器等,并且包含存储器150、一个或多个处理器(CPU)142(如联接到存储器150的微处理器)、网络接口单元144和I/O模块148,所述I/O模块例如可以是键盘或触摸屏。

药理学表型评估服务器102还可以通信地连接到联合体组学/环境学/生理组学/人口统计学/药房信息数据库154。联合体组学/环境学/生理组学/人口统计学/药学信息数据库154可以存储训练数据以及用于确定药理学表型的统计模型,所述训练数据包含训练患者的组学数据、基于全基因组的种族数据、临床数据、人口统计学数据、多药房数据、社会组学数据、生理组学数据或其它环境学数据。联合体组学/环境/生理组学/人口统计学/药房信息数据库154还可以包含联合体组学数据库和学术组学数据库以及药房数据库,包含(例如)RxNorm、药物-药物相互作用(如FDA黑盒标签)、药物-基因相互作用及其它。在一些实施例中,为了确定药理学表型,药理学表型评估服务器102可以从联合体组学/环境学/生理组学/人口统计学/药房信息数据库154中检索每个训练患者的患者信息。

存储器150可以是有形的非暂时性存储器,并且可以包含任何类型的合适的存储器模块,包含随机存取存储器(RAM)、只读存储器(ROM)、闪存、其它类型的持久性存储器等。存储器150可以存储例如能够在处理器142上执行的用于操作系统(OS)152的指令,所述操作系统可以是任何类型的合适的操作系统,如现代智能手机操作系统。存储器150还可以存储例如能够在处理器142上执行的用于机器学习引擎146的指令,所述机器学习引擎可以包含训练模块160和表型评估模块162。下文参照图1B更详细地描述了药理学表型评估服务器102。在一些实施例中,机器学习引擎146可以是客户端装置106-116、药理学表型评估服务器102或药理学表型评估服务器102与客户端装置106-116的组合中的一个或多个的一部分。

在任何情况下,机器学习引擎146可以从客户端装置106-116接收电子数据。例如,机器学习引擎146可以通过接收组学数据、临床数据、人口统计学数据、多药房数据、社会组学数据、生理组学数据或其它环境学数据等来获取一组训练数据。另外,机器学习引擎146可以通过接收与训练患者的药理学表型有关的表型组学数据(如训练患者患有的慢性疾病、对先前以处方形式开具给训练患者的药物的反应、训练患者中的每一个患者是否出现药物滥用问题等)来获取一组训练数据。

因此,训练模块160可以将组学数据、社会组学数据、生理组学数据和环境学数据分类为特定的药理学表型,如药物滥用、特定类型的慢性疾病、对特定药物的不良药物反应、特定药物的疗效水平等。然后,训练模块160可以分析已分类的组学数据、社会组学数据、生理组学数据和环境学数据,以产生用于每种药理学表型的统计模型。例如,可以生成用于确定当前患者将经历药物滥用问题的可能性的第一统计模型,可以生成用于确定患有一种疾病的风险的第二统计模型,可以生成用于确定患有另一种疾病的风险的第三统计模型,可以生成用于确定对特定药物产生负面反应的可能性的第四统计模型等。在一些实施例中,可以按照任何合适的方式组合每个统计模型以生成用于预测所述药理学表型中的每一个表型的总体统计模型。在任何情况下,可以使用各种机器学***滑等)、基于实例的算法(例如,k最近邻,学***移、带噪声的应用的基于密度的空间聚类、鉴定聚类结构的排序点等)、关联规则学***均单依赖估计器、贝叶斯信念网络、贝叶斯网络等)、人工神经网络(例如,感知器、Hopfield网络、径向基函数网络等)、深度学习算法(例如,多层感知器、深度玻尔兹曼机、深层置信网络、卷积神经网络、堆叠式自动编码器,生成对抗网络等)、降维算法(例如,主成分分析、主成分回归、偏最小二乘回归、萨蒙映射(Sammon mapping)、多维缩放、投影追踪、线性判别分析、混合判别分析、二次判别分析、灵活判别分析、因子分析,独立成分实体分析、非负矩阵分解,t分布随机邻域嵌入等)、集成算法(例如,增强、自举聚合、AdaBoost、堆叠泛化、梯度增强机、梯度增强回归树、随机决策森林等)、强化学习(例如,时差学习、Q学习、学习自动机、状态-行动-奖励-状态-行动等)、支持向量机、混合模型、进化算法、概率图形模型等。

在测试阶段,训练模块160可以将测试患者的测试组学数据、社会组学数据、生理组学数据和环境学数据与统计模型进行比较,以确定测试患者具有特定药理学表型的可能性。

如果训练模块160比预定的阈值量更频繁地做出正确判断,则可以将统计模型提供给表型评估模块162。另一方面,如果训练模块160没有比预定的阈值量更频繁地进行正确判断,则训练模块160可以继续获取训练数据以进行进一步的训练。

表型评估模块162可以获取统计模型以及当前患者的一组组学数据、社会组学、生理组学和环境学数据,可以在一段时间(例如,一个月、三个月、六个月、一年等)内收集所述数据。例如,可以在实验室中分析当前患者的生物样品(例如,血液样品、唾液、活组织切片、骨髓、毛发等),以获取当前患者的基因组学数据、表观基因组学数据、转录组学数据、蛋白质组学数据、染色体组学数据和/或代谢组学数据。然后可以将组学数据提供给表型评估模块162。另外,可以从医疗保健提供者的EMR服务器或客户端装置106-116提供患者的临床数据。可以从多药房服务器或从几家药房服务器提供多药房数据,并且可以从医疗保健提供者的客户端装置106-116或当前患者的客户端装置106-116提供人口统计学数据、社会组学数据、生理组学数据和其它环境学数据。

然后,可以将组学、社会组学、生理组学和环境学数据应用于由训练模块160生成的统计模型。基于分析,表型评估模块162可以确定指示当前患者具有某些药理学表型的可能性或其它半定量和定量的度量,如滥用药物的可能性、各种疾病的可能性、对各种药物的预测反应的总体评级等。表型评估模块162可以使所述可能性显示在用户界面上,以供医疗保健提供者进行检查。每个可能性可以表示为概率(例如,0.6)、百分比(例如,80%)、一组类别(例如“高”、“中等”或“低”)中的一个类别和/或以任何其它合适的方式表示。

药理学表型评估服务器102可以通过网络130与客户端装置106-116进行通信。数字网络130可以是专用网络、安全公共互联网、虚拟专用网络和/或一些其它类型的网络,如专用接入线、普通常规电话线、卫星链路、这些的组合等。在数字网络130包括因特网的情况下,数据通信可以通过因特网通信协议在数字网络130上进行。

现在转到图1B,药理学表型评估服务器102可以包含控制器224。控制器224可以包含程序存储器226、微控制器或微处理器(MP)228、随机存取存储器(RAM)230和/或输入/输出(I/O)电路234,所有这些都可以通过地址/数据总线232进行互连。在一些实施例中,控制器224还可以包含数据库239,或以其它方式通信连接到所述数据库或其它数据存储机制(例如,一个或多个硬盘驱动器、光存储驱动器、固态存储装置等)。数据库239可以包含如患者信息、训练数据、风险分析模板、网页模板和/或网页等数据,以及通过网络130与用户交互所必需的其它数据。数据库239可以包含与上文参照图1A描述的联合体组学/环境学/生理组学/人口统计学/药房信息数据库154和/或下文参照图3描述的数据源325a-d(例如,生物医学训练集325a、药理学数据库325b、环境学数据325c和按粒度分割的数据325d)类似的数据。

应当理解的是,尽管图1B仅描绘了一个微处理器228,但是控制器224可以包含多个微处理器228。类似地,控制器224的存储器可以包含多个RAM 230和/或多个程序存储器226。尽管图1B将I/O电路234描述为单个块,但是I/O电路234可以包含许多不同类型的I/O电路。控制器224可以将一个或多个RAM 230和/或程序存储器226实施为例如半导体存储器、磁性可读存储器和/或光学可读存储器。

如图1B所示,程序存储器226和/或RAM 230可以存储各种应用,以供微处理器228执行。例如,用户界面应用236可以向药理学表型评估服务器提供用户界面102,所述用户界面可以例如允许系统管理员对服务器操作的各个方面进行配置、故障排除或测试。服务器应用238可以进行操作以接收当前患者的一组组学数据、社会组学数据、生理组学数据和环境学数据,确定指示当前患者具有药理学表型的可能性或其它半定量和定量的度量,并向医疗保健提供者的客户端装置106-116发送所述可能性的指示。服务器应用238可以是单个模块238或多个模块238A、238B,如训练模块160和表型评估模块162。

尽管在图1B中将服务器应用238描绘为包含两个模块238A和238B,但是服务器应用238可以包含完成与药理学表型评估服务器102的实施有关的任务的任何数量的模块。应当理解的是,尽管在图1B中仅描绘了一个药理学表型评估服务器102,但是可以提供多个药理学表型评估服务器102以用于分配服务器负载、服务于不同的网页等。这些多个药理学表型评估服务器102可以包含网页服务器、特定于实体的服务器(例如

Figure BDA0002362218690000221

服务器等)、位于零售或专用网络中的服务器等。

现在参照图1C,膝上型计算机114(或客户端装置106-116中的任何一个)可以包含显示器240、通信单元258、用户输入装置(未示出)以及像药理学表型评估服务器102一样包含控制器242。类似于控制器224,控制器242可以包含程序存储器246、微控制器或微处理器(MP)248、随机存取存储器(RAM)250和/或输入/输出(I/O)电路254,所有这些都可以通过地址/数据总线252进行互连。程序存储器246可以包含操作系统260、数据存储装置262、多个软件应用264和/或多个软件例程268。例如,操作系统260可以包含Microsoft

Figure BDA0002362218690000222

OS

Figure BDA0002362218690000223

等。数据存储装置262可以包含如患者信息、多个应用264的应用数据、多个例程268的例程数据等数据和/或通过数字网络130与药理学表型评估服务器102交互所必需的其它数据。在一些实施例中,控制器242还可以包含驻留在膝上型计算机114内的其它数据存储机制(例如,一个或多个硬盘驱动器、光存储驱动器、固态存储装置等),或以其它方式通信连接到所述其它数据存储机制。

通信单元258可以通过如无线电话网络(例如,GSM、CDMA、LTE等)、Wi-Fi网络(802.11标准)、WiMAX网络、蓝牙网络等任何合适的无线通信协议网络与药理学表型评估服务器102通信。用户输入装置(未示出)可以包含显示在膝上型计算机114的显示器240上的“软”键盘、通过有线或无线连接进行通信的外部硬件键盘(例如,蓝牙键盘)、外部鼠标、用于接收语音输入的麦克风或任何其它合适的用户输入装置。如参考控制器224所讨论的,应当理解的是,尽管图1C仅描绘了一个微处理器248,但是控制器242可以包含多个微处理器248。类似地,控制器242的存储器可以包含多个RAM 250和/或多个程序存储器246。尽管图1C将I/O电路254描述为单个块,但是I/O电路254可以包含许多不同类型的I/O电路。控制器242可以将一个或多个RAM 250和/或程序存储器246实施为例如半导体存储器、磁性可读存储器和/或光学可读存储器。

除其它软件应用之外,一个或多个处理器248可以适于并被配置成执行驻留在程序存储器246中的多个软件应用264中的任何一个或多个和/或多个软件例程268中的任何一个或多个。多个应用264中的一个应用可以是客户端应用266,所述客户端应用可以被实施为一系列机器可读指令,用于执行与在膝上型计算机114处接收信息、在膝上型计算机上显示信息和/或从膝上型计算机发送信息相关联的各种任务。

多个应用264中的一个应用可以是本地应用和/或网络浏览器270(如Apple’sGoogle ChromeTM、Microsoft Internet

Figure BDA0002362218690000232

和Mozilla ),所述本地应用和/或网络浏览器可以被实施为一系列机器可读指令,用于接收、解释和/或显示来自药理学表型评估服务器102的网页信息,同时还从如医疗保健提供者等用户处接收输入。多个应用中的另一个应用可以包含嵌入式网络浏览器276,所述嵌入式网络浏览器可以被实施为一系列机器可读指令,用于接收、解释和/或显示来自药理学表型评估服务器102的网页信息。

多个例程中的一个例程可以包含风险分析显示例程272,所述风险分析显示例程获取当前患者具有某些药理学表型的可能性,并在显示器240上显示所述可能性和/或用于治疗当前患者的建议的指示。多个例程中的另一个例程可以包含数据输入例程274,所述数据输入例程从医疗保健提供者获取当前患者的社会组学、生理组学和环境学数据,并将接收到的社会组学、生理组学和环境学数据与先前存储的当前患者的社会组学、生理组学和环境学数据(例如,先前访问时收集的环境学数据)一起发送到药理学表型评估服务器102。

优选地,用户可以从客户端装置(如客户端装置106-116中的一个装置)处启动客户端应用266以与药理学表型评估服务器102进行通信,从而实施药理学表型预测系统100。另外,用户还可以启动或实例化任何其它合适的用户界面应用(例如,本机应用或网页浏览器270,或多个软件应用264中的任何其它应用)以访问药理学表型评估服务器102,从而实现药理学表型预测系统100。

如上所述,图1A所示的药理学表型评估服务器102可以包含存储器150,所述存储器可以存储能够在处理器142上执行的用于机器学习引擎146的指令。机器学习引擎146可以包含训练模块160和表型评估模块162。

图2示出了可以提供给药理学表型预测系统100的组学、社会组学、生理组学和环境学数据,所述药理学表型预测系统进而在临床或研究环境中预测药理学表型。组学、社会组学、生理组学和环境学数据分为四类:个人/队列和群体组学和药物代谢组学302;暴露组304;社会组学人口统计学和应激/创伤306;以及医学生理组学、结构化或非结构化电子健康记录(EHR)、实验室值、应激和***因素和创伤以及医疗结果数据308。然而,这仅是为了便于说明。暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308可以作为社会组学、生理组学和环境学数据的一部分被包含在内,而个人/队列和群体组学和药物代谢组学302可以作为组学数据的一部分被包含在内。另外,可以按照任何其它合适的方式对个人/队列和群体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医疗结果数据308进行分类和/或组织。

在任何情况下,个体/队列和群体组学和药物代谢组学302可以包含基因组学、表观基因组学、染色质状态、转录组学、蛋白质组学、代谢组学、生物网络和系统模型等,这些中的每一个可以从基因组中提取或至少与基因组有关。个体/队列和群体组学和药物代谢组学302还可以包含将组织内的离散分子实体化学映射到各种药理学表型。离散的分子实体可以是作为代谢作用的产物的代谢物(如乙酸、乳酸等)和药物的药物代谢组代谢物。

暴露组304可以包含指示患者环境的信息,如患者住所的位置、住所的类型、住所的大小、住所的质量,患者的工作环境(包含患者工作场所的位置)、从患者住所到工作场所的距离、患者在工作场所和/或住所被如何对待等。暴露组304还可以包含患者经历的任何其它环境暴露,包含气候因素、生活方式因素(例如,烟草、酒精)、饮食、身体活动、污染物、辐射、感染、教育程度等。

社会组学、人口统计学和应激/创伤306可以包含如性别、血统、年龄、收入、婚姻状况、教育水平、语言等人口统计学数据。社会组学、人口统计学和应激/创伤306还可以包含其它家庭数据、文化条件、昼夜节律数据、与年龄有关的健康状况、孤立或认知情况、经济和社区生活状况等。此外,社会组学、人口统计学和应激/创伤306可以包含创伤、家庭暴力、执法历史或任何其它应激或***因素。在一些实施例中,可以通过不良童年经历(ACE)分数对童年时期的应激和***因素进行量化,所述分数评估了不同类型的***、忽视和困难儿童时期的其它举措。这可以包含身体、情感和性***、身体和情感上的疏忽、家庭内部的精神疾病、家庭内部的家庭暴力、离婚、家庭内部的药物滥用、被关押的亲属等。

此外,医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308可以包含创伤、家庭暴力、执法历史或任何其它应激或***因素。在一些实施例中,可以通过不良童年经历(ACE)分数对童年时期的应激和***因素进行量化,所述分数评估了不同类型的***、忽视和困难儿童时期的其它举措。这可能包含身体、情感和性***、身体和情感上的疏忽、家庭内部的精神疾病、家庭内部的家庭暴力、离婚、家庭内部的药物滥用、被关押的亲属等。医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308还可以包含临床数据、多药房数据以及生理特征,如与基因和蛋白质相关的人体功能。此外,医学结果数据可以包含特定患者或患者队列的药理学表型。另外,医学结果数据可以包含指示药物或治疗疗效、不良药物事件或不良药物反应、病情稳定、反应缺乏、临床反应改善等的信息。

可以将训练患者队列的个人/队列和群体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308作为训练数据提供给药理学表型预测系统100,以生成用于预测药理学表型的统计模型。另外,可以从当前患者获取个体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308或其某些部分以应用于统计模型,从而预测当前患者的药理学表型或精确的患者表型。

图3示出了由药理学表型预测系统100执行的过程的详细视图320。如图2所示,药理学表型预测系统100从训练患者队列获取个体/队列和群体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308作为训练数据,以训练机器学习引擎146。在一些实例中,可以从GWAS、候选基因关联研究和/或其它机器学习方法中获取个体/队列和群体组学和药物代谢组学302以及其与药理学表型的各自相关性,如下文更详细描述的。还可以从包含生物医学训练集325a、药理学数据库325b、环境学数据325c以及按粒度分割的数据325d的几个数据源325a-d获取训练数据。

生物医学训练集325a包含与上文参照图2所描述的组学和药物代谢组学302以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308类似的组学、药物代谢组学、医学生理组学、EHR、实验室值、医学结果以及应激和***因素和创伤。药理学数据库325b包含药房记录、药物数据库、药物相-药物互作用、药物-基因相互作用等。此外,社会组学和环境学数据325c包含与上文参照图2所描述的暴露组304、社会组学人口统计学和应激/创伤306类似的社会组学、人口统计学和暴露组。按粒度划分的数据325d可以鉴定来自分别对应于单个患者、患者队列或一群患者的生物医学训练集325a、药理学数据库325b和环境学数据325c的数据中的任何数据。

然后,机器学习引擎146可以利用一队训练患者或一群训练患者的组学、社会组学、生理组学和环境学以及表型组学数据,生成用于使用机器学习技术预测药理学表型的统计模型。在一些实施例中,机器学习引擎146可以分析组学数据和药理学表型之间的关系,以鉴定与特定药理学表型高度相关的单核苷酸多态性(SNP)、基因和基因组学区域。下文参照图4B和4D对此进行了更加详细地讨论。

另外,机器学习引擎146可以根据队列或群体中每位训练患者的表型组学数据将具有至少一些已鉴定的SNP、基因和基因组学区域或其任何合适的组合的一队训练患者或一群训练患者分类为具有特定药理学表型或不具有特定药理学表型。机器学习引擎146可以进一步分析与每个类别相对应的一队训练患者或一群训练患者的社会组学、生理组学和环境学数据,以生成统计模型。例如,机器学习引擎146可以对每个类别的社会组学、生理组学和环境学数据执行统计测量,以区分具有特定药理学表型的训练患者的子集和不具有特定药理学表型的训练患者的子集二者的社会组学、生理组学和环境学数据。可以使用监督学习算法(如分类和回归)来训练机器学习引擎146。也可以使用非监督学习算法(如降维和聚类)来训练机器学习引擎146。

在任何情况下,机器学习引擎146可以在未知当前患者或当前患者组是否具有特定药理学表型的情况下从所述当前患者或当前患者组接收输入330,所述输入包含组学、社会组学、生理组学和环境学数据。输入可以包含上述个体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、结构化或非结构化EHR、实验室值、应激和***因素和创伤以及医学结果数据308中的任一个。例如,对于单个当前患者,输入可以包含个人数据、组学实验室测试、个人生理组学、EHR数据、用药史和环境学数据。对于一组当前患者,输入可以包含个人数据、队列组学、生理组学、EHR数据、用药史和环境学数据。

可以将当前患者或当前患者组的组学、社会组学、生理组学和环境学数据应用于包含在机器学习引擎146中的统计模型,以预测当前患者或当前患者组的药理学表型。例如,机器学习引擎146可以预测对华法林产生负面反应的可能性。另外或可替代地,机器学习引擎146可以生成指示华法林在治疗当前患者血栓形成方面的疗效的反应分数,所述疗效因华法林对当前患者的不良影响而打了折扣。

可以通过药理学表型预测系统100内的药理学表型临床决策支持引擎335来分析可能性、反应分数或其它半定量或定量的度量,从而向医疗保健提供者推荐以处方形式开具给当前患者的药物和/或剂量。在一些实施例中,可以对可用于针对特定医学指征的药物中的每一种药物的反应分数进行排名,并且药理学表型临床决策支持引擎335可以向医疗保健提供者推荐排名最高的药物以以处方形式开具给当前患者。也可以对特定药物的剂量进行排名。在另一个实例中,当对一种药物选择产生负面反应的可能性高于当前患者的阈值分数时,药物基因组学临床决策支持引擎335可以针对特定医学指征推荐不同的药物。另外,药理学表型临床决策支持引擎335可以将所推荐的药物与包含在环境学数据和/或病历中的当前患者的多药房数据进行比较。如果当前患者正在服用与所推荐的药物不相容的药物,则药理学表型临床决策支持引擎335可能会推荐具有次高反应分数的药物或负面反应出现的可能性不高于阈值可能性的另一种药物。在其它实施例中,当药理学表型是滥用药物的可能性时,药物基因组学临床决策支持引擎335可以建议早期干预,或者当药理学表型是疾病风险时,药理学表型临床决策支持引擎335可以建议筛选和/或治疗方案,以积极解决问题。在药理学表型不同于上述描述的其它实施例中,药理学表型临床决策支持引擎335可以推荐其它药物治疗、信息性分析或其它行动方案。

药理学表型的可能性、反应分数或其它半定量或定量的度量也可以按照各种能力用于药物研究340。例如,开发药物的研究人员可以使用这种方法来开发配套诊断测试,以鉴定对所开发或批准的药物将产生良好或不良反应并且将出现较少副作用或没有副作用的患者。此外,筛选或比较用作推定药物的多个分子实体并掌握使用这些药物进行的分子实验的比较数据的研究人员可以使用这些方法对群体的可能影响和不良事件进行前瞻性评估,以此来确定在开发过程中要开发的实体或优先级。另外,可以在实验治疗的背景下使用这些方法,以向研究人员推荐在临床研究背景下以处方形式开具给当前患者的实验药物和/或剂量。最后,这些方法可以用于药物基因组学测试的显式构建或模型生成,这些测试将在集成CDSS环境之外进行。

可以在反馈回路中将由药理学表型临床决策支持引擎335或药物研究工具340提供的预测药理学表型和/或推荐提供给数据源325a-d。然后,将当前患者的组学、社会组学、生理组学和环境以及表型组学数据用作训练数据以进一步训练机器学习引擎146,以供其它当前患者随后使用。以这种方式,机器学习引擎146可以不断地更新统计模型,以反映社会组学、生理组学、环境学和组学数据的至少近乎实时的表示。

图4A描绘了4D核组内多种不同组学模式的生物学背景和相互作用的示例性表示,以及在此背景下对组学数据进行的生物信息学分析的实例。图示450描绘了细胞核中定位在与染色质结合的区域中的染色体。常染色质的特征在于DNase 1超敏反应性和组蛋白标记的特定组合,其定义了活性基因组学调控元件,如启动子H3K4me3和H3K27ac以及增强子H3K4me1和H3K27ac。增强子可以增加或减少其靶基因中的转录,所述靶基因可以在序列近端和/或空间上定位(例如,Hi-C或ChIA-PET数据、或基因组架构映射或组合染色质捕获)和/或单独地或以组合形式(通过例如分子QTL连接)功能性地连接到增强子。异染色质定位在染色体区域的内部和核的***,靠近核层蛋白和核仁,异染色质的特征在于其自身的抑制性染色质标记和DNA结合蛋白,以及空间紧缩和连接子组蛋白。最新研究表明,在大脑中,DNA序列CAC是甲基化的常见位点,这与CpG最常被甲基化的其它组织相反。另外,在大脑中,一种带有表观基因组学信息的独特元件的反应性物种——5-羟甲基胞嘧啶(5hmC)相对较常见。相反,在***,甲基胞嘧啶(hmC)很常见。

图4A还描绘了表示首先由染色质构象捕获方法确定的转录组织的示例性空间层次460的示意图。空间层次460包含示出了转录调控的多尺度层次的Hi-C映射462。在这个图示中,基因组部分(在X轴上)与基因组其它部分(在Y轴上)之间的空间相互作用的归一化频率用颜色渐变表示,以生成染色质组织的二维图。

可以用表示DNA序列的固定长度的“箱”、或表示切位点增量或其集合的箱或功能性元件(如基因、染色质状态区段、环结构域、染色质结构域、TAD等)生成这个图。可以在距离、总体接触倾向和其它元素的各种归一化模式中使用阈值鉴定接触。例如,在序列长度不固定的箱中,以及在一对箱所描述的平方基因组区域可能具有可变的大小和形状的情况下,可以设计归一化方法来代替依赖于固定箱的传统方法。接触密度作为距离的函数可以被拟合为可积分函数,所述可积分函数可以在箱对的矩形区域上积分以产生映射到所述平方基因组区域的接触的预期值。可以使用例如可以应用Benjamini错误发现率的统计检验(如泊松分布p值)将所述预期值与映射到所述平方基因组区域的原始或标准化读取计数进行比较,以在局部或全基因组范围内按一定距离以调整后的方式生成富集和耗尽的染色质接触的集合。可以出于各种分析的目的来执行此操作,所述目的包含检测基因组学变体的靶基因以及进行接触的全基因组分析。

空间层次460还包含Hi-C映射462中所示的核和亚核转录拓扑的可视化464。如可视化464所示,染色体将核质的大部分可用体积填充为区域(CT),并且含有分别由常染色质和异染色质组成的外接的A隔室和B隔室。活性基因往往定位在CT的***,并且CT之间的染色体间环为反式增强子-启动子和启动子-启动子的空间相互作用提供了基础。CT的A和B染色质隔室包含拓扑相关结构域(TAD),所述结构域的线性序列的平均长度在大约1Mb内。可以首先使用染色质构象捕获方法(如Hi-C)对TAD进行表征,在所述方法中,初步缩放与分形球模型一致,而TAD内增强子-启动子环的高分辨率研究、TAD边界蛋白(包含CCCTC结合蛋白(CTCF)和黏连蛋白(RAD21))的组织以及直接成像支持TAD组织的环挤出模型。转录单元的特征(包含频繁相互作用的调控元件(FIRE))包含定位在16号染色体上的GRIN2A基因的内含子内的一个实例。

机器学习方法可以使用图4A中描述的表观基因组跟踪和/或生物信息学分析来鉴定基因、SNP和基因组学区域与药理学表型之间的关联。例如,表观基因组跟踪和/或生物信息学分析可以用于产生如图4C所示的基因调控网络。如上所述,训练模块160可以针对每种药理学表型生成统计模型。图4B是表示用于使用机器学习技术来鉴定对应于特定药理学表型的组学数据的示例性方法400的框图。方法400可以在药理学表型评估服务器102上执行。在一些实施例中,方法400可以在一组指令中实现,所述指令存储在非暂时性计算机可读存储器上并且能够在药理学表型评估服务器102上的一个或多个处理器上执行。例如,方法400可以由图1A的机器学习引擎146内的训练模块160执行。

在框402处,针对基因组中的几个非编码或编码SNP、基因和基因组学区域中的每一个执行统计检验(例如,通过GWAS或候选基因关联研究),以确定SNP与特定药理学表型之间的关系,所述药理学表型可以是药物反应、不良药物反应、不良药物事件、剂量、疾病风险等(例如,抑郁症患者对***的反应)。当统计检验显示SNP与特定药理学表型之间存在显著关系时(例如,p值小于使用零假设的阈值概率),则确定SNP与特定药理学表型相关。在一些实施例中,可以基于如图4A所示的生物信息学分析来鉴定SNP。

然后,在框404处,对与特定药理学表型相关的SNP进行连锁不平衡分析,以鉴定哪些SNP彼此独立。例如,当一组SNP都与相同的药理学表型相关并且处于紧密的连锁不平衡状态(例如,LD>0.9)时,该组SNP可能会链接,导致不清楚该组中的哪些SNP是产生与药理学表型的相关性的SNP。可以进行连锁不平衡分析以鉴定每一个可能产生与药理学表型的相关性的SNP(效应SNP)。更具体地,可以通过将SNP(原始SNP)与SNP的数据库(例如,来自1000个基因组工程)进行比较以找到与原始SNP链接的SNP来进行连锁不平衡分析。在一些实施例中,可以鉴定GWAS或候选基因关联研究的种族群体,并且可以从与所鉴定的种族群体相对应的SNP的数据库中检索SNP以及连锁不平衡系数。然后,药理学表型评估服务器102可以产生与原始SNP处于紧密连锁不平衡的所有SNP的一组允许性候选变体(方框406),所述原始SNP与来自GWAS或其它候选者关联研究的特定药理学表型相关。

另外,所述一组允许性候选变体(框406)可以包含与正在研究的药理学表型具有已知或可疑相关性的基因的身体SNP(框420)、靶向所述基因体的分子QTL以及驻留在与正在研究的药理学表型具有已知或可疑相关性的基因组学区域或网络中的SNP(框422)。在任何情况下,允许性候选变体(框406)可以进行生物信息学分析以将允许性候选变体过滤到中间候选变体(框410)的子集中,然后可以对中间候选变体的子集进行排名(例如,通过计分系统)(框412)。然后,可以将中间候选变体的子集中排名最高的与正在研究的药理学表型具有已知或可疑相关性的SNP、基因和基因组学区域(例如,排名高于阈值排名或分数高于阈值分数)鉴定为与特定药理学表型具有因果关系的SNP、基因和基因组学区域(框414)。例如,SNP、基因和基因组学区域可能与药物反应、不良药物反应、不良药物事件、疾病风险、剂量、并发症、药物滥用、药物-基因相互作用、药物-药物相互作用、多药房相互作用等相关。

更具体地,为了滤除一部分允许性候选变体以产生中间候选变体(框410)的子集,对允许性候选变体周围的基因组学区域的调控功能进行评估(框408a),以确定其序列背景(例如,等位基因)是否影响调控功能(变体依赖性)(框408b)并确定其靶基因(框408c)。

为了评估允许性候选变体是否具有功能,可以使用生物信息学分析来确定允许性候选变体是否定位在开放的染色质中,如DNase I超敏性所指示的。图4A中描绘了所述生物信息学分析的示例性图示450。

可以使用如支持向量机(SVM)等各种机器学***面。可以使用SVM测量SNP的特定等位基因产生基因组附近部分的状态变化的倾向。这可以指示SNP对用于训练SVM的组织或细胞系中的特定表观基因组跟踪(组学模态)的重要性水平。另外或可替代地,可以通过使用位置权重矩阵(PWM)或用于此目的其它算法鉴定改变转录因子结合的SNP来确定变体依赖性。

还可以使用各种生物信息学技术和机器学习技术来确定允许性候选变体的靶基因。可以使用定量性状基因座(QTL)映射来鉴定靶基因,从而鉴定允许性候选变体与基因表达和/或遗传基因座的组学状态之间的关联。可以利用生物学方法和数据集以及顺式-eQTL,反式-eQTL、dsQTL、esQTL、hQTL、haQTL、eQTL、meQTL、pQTL、rQTL等的软件分析映射系统。允许性候选变体可以调控同一条染色体上的基因表达(顺式调控元件)或者可以调控另一条染色体上的基因表达(反式调控元件)。但是,映射系统可能有多余的采样和错误的关系。因此,使用机器学习技术来执行加法校正以填充稀疏数据。

为了确定功能性允许性候选变体是否维持对附近基因的调控控制,生物信息学分析可以确定所述允许性候选变体是否被低甲基化、所述允许性候选变体是否与指示转录起始位点的组蛋白标记相关联和/或所述允许性候选变体是否会增强RNA、启动子RNA或其它RNA。

用于确定允许性候选变体与其调控的基因之间的长距离相互作用的方法可以包含Hi-C染色质构象捕获、ChIA-PET、染色质免疫沉淀测序(ChIP-seq)和QTL分析。此类方法也可以用于确定允许性候选变体的靶基因。可以将信息与QTL数据合并,并可以通过使用矩阵密集化方法提高信息密度或其它各种机器学习技术来检测或模拟其它接触。

在任何情况下,可以根据特定药理学表型的调控功能(框408a)、变体依赖性(框408b)和靶基因(框408c)对每个允许性候选变体进行评分和/或排名。分数高于阈值分数和/或排名高于阈值排名或其它分数或排名标准的允许性候选变体可以被包含在中间候选变体(框410)的子集中。

然后,使用机器学习技术将中间候选变体(框410)的子集相对于彼此进行评分和/或排序。例如,可以对中间候选变体的子集进行二部图分析,其中中间候选变体由图中的节点表示,并且两个中间候选变体之间的关系由边缘表示。中间候选变体可以被划分为不相交集合,其中不相交集合中的任何一个成员彼此之间都没有关系。在一些实施例中,两个中间候选变体之间的特定关系的相对强度可以被分配特定的权重。然后可以根据中间候选变体与来自其它不相交集合的其它中间候选变体具有的关系的数量来对每个中间候选变体进行评分。在一些实施例中,根据分配给中间候选变体与其它中间候选变体之间的每种关系的总权重对每个中间候选变体进行评分。

在任何情况下,然后可以将中间候选变体的子集中排名最高的SNP、基因和基因组学区域(例如,排名高于阈值排名或分数高于阈值分数)鉴定为与特定药理学表型(框414)相关的SNP、基因和基因组学区域。然后,在预测当前患者是否具有特定药理学表型时,可以针对当前患者对已鉴定的特定药理学表型的SNP、基因和基因组学区域进行分析。

当使用服务器102执行方法400和800时,并且在其它实施例中,可以通过使用加密和/或安全执行技术和/或受到额外安全保护的远程计算装置来保护敏感、专有或有价值的数据。这种数据可以包含符合HIPAA或其它机密性与法规规定的患者数据,受患者或客户特权限制的数据、商业实体的专有数据或其它此类数据。这种数据可以被加密以用于传输并且可以被解密以用于分析,并且可以通过使用如哈希表、椭圆曲线或其它度量等数学变换以匿名或加密的形式分析这种数据。在这种分析中,可以使用可信执行技术、可信平台模块以及其它类似的技术。可以使用省略或模糊个人健康信息(PHI)的数据表示形式,尤其是可以在准备报告和诊断信息以及向医疗保健从业者分发报告和诊断信息时使用。

图4C示出了包含指示药理学表型的基因和SNP的示例基因调控网络470或基因组学区域。可以使用上文参照图4B描述的方法400来鉴定示例基因调控网络470和/或可以根据GWAS或候选基因关联研究进行鉴定。基因调控网络470可以位于中枢神经系统内或在人体内的任何其它合适的系统内。

在任何情况下,基因调控网络470包含基因BCDEF(参考号472)、DEFGH(参考号474)、ABCF(参考号476)、IJKLM(参考号478)、MNOP(参考号480)、LMNOP(参考号482)、PQRS(参考号484)、HIJKLM(参考号486)、XYZ(参考号488)、CDEFG(参考号490)和ABCDEF(参考号492)。

基因调控网络470包含定位在内含子、启动子和基因间区域内的几个非编码SNP,包含与转录相关的非编码SNP,其与特定患者队列对药物X的反应显著相关。例如,在染色体1的BCDEF基因472中发现的SNP2指示药物X反应和疾病风险。在另一个实例中,在染色体1的BCDEF基因472中还发现了与SNP2具有紧密连锁不平衡(例如,LD>0.8)的SNP3,并且所述SNP3指示与药物X相关的不良药物反应。基因调控网络470还包含染色体间相互作用,其为反式增强子-启动子和启动子-启动子空间相互作用的子集提供基础。例如,在与染色体6内的基因HIJKLM(参考号486)相互作用的染色体1内的基因PQRS(参考号484)的增强子区域内发现的SNP15指示与药物X相关的不良药物反应。在一些情形中,基因调控网络470中的一个或多个变体、基因或增强子可以定位在性染色体上。

使用单箭头或双箭头在图4C中描绘了基因调控网络470内的互连基因(例如,基因IJKLM(参考号478)和基因LMNOP(参考号482))。每个连接可以包含可以在图例494中进一步描述的数值或分类系数(例如,P、C、V、T)。在一些实施例中,所述数值或分类系数指示互连基因之间的关系(例如,激活、易位、表达、抑制等)。

示例基因调控网络470仅仅是可从GWAS、候选基因关联研究获取的和/或训练患者以训练药理学表型预测系统100的组学数据的一个实例。另外的基因调控网络可以与另外的或替代性基因组学数据、表观基因组学数据、转录组学数据、蛋白质组学数据、染色体组学数据或代谢组学数据一起获取。

除了参照图4B所描述的方法400之外,图4D示出了用于使用机器学习技术来鉴定对应于特定药理学表型相的组学数据的另一示例性方法800。方法800可以在药理学表型评估服务器102上执行。在一些实施例中,方法800可以在一组指令中实现,所述指令存储在非暂时性计算机可读存储器上并且能够在药理学表型评估服务器102上的一个或多个处理器上执行。例如,方法800可以由图1A的机器学习引擎146内的训练模块160执行。

在方法800中,以与上述图4B的方法400中类似的方式鉴定允许性候选变体(框810)。更具体地,在框802和804处,针对基因组中的几个非编码或编码SNP、基因和基因组学区域中的每一个执行统计检验(例如,通过GWAS或候选基因关联研究),以确定SNP与特定药理学表型之间的关系,所述药理学表型可以是药物反应、不良药物反应、不良药物事件、剂量、疾病风险等(例如,对华法林的反应)。当统计检验显示SNP与特定药理学表型之间存在显著关系时(例如,p值小于使用零假设的阈值概率),则确定SNP与特定药理学表型相关。然后,在框806处,对与特定药理学表型相关的SNP和其它SNP进行连锁不平衡分析,以鉴定哪些SNP与相关SNP处于连锁不平衡。可以通过将SNP(原始SNP)与SNP的数据库(例如,来自1000个基因组工程)进行比较以找到与原始SNP链接的SNP来进行连锁不平衡分析。在一些实施例中,可以鉴定在GWAS或候选基因关联研究中使用的群体的种族群体,并且可以使用匹配群体的数据来在所鉴定的种族群体的SNP的数据库中找到具有显著连锁不平衡系数的SNP。还可以鉴定与所研究的药理学表型具有已知或可疑相关性的基因的身体SNP(框808)。

然后,可以对允许性候选变体(框810)进行生物信息学分析,以将允许性候选变体过滤到中间候选变体(框814)的子集中。图4B的方法400基于允许性候选变体作为推定的表达调控变体的状态(例如,根据调控功能、所述调控功能对变体等位基因的依赖性以及可鉴定的靶基因关系的存在)来过滤允许性候选变体。在方法800中,基于表达调控变体(框812a-812c)或编码变体(框812d)来过滤允许性候选变体以产生中间候选变体(814)的子集。为了基于编码变体进行过滤,方法800确定允许性候选变体是否为具有显著的次要等位基因频率(例如,至少为0.01的次要等位基因频率)的非同义编码变体。

更具体地,可以基于允许性候选变体的表达调控变体(例如,根据特定药理学表型的调控功能(框812a)、变体依赖性(框812b)和靶基因(框812c))对每个允许性候选变体进行评分和/或排名。分数高于阈值表达调控变体分数和/或排名高于阈值表达调控变体排名或其它分数或排名标准的允许性候选变体可以被包含在中间候选变体(框814)的子集中。另外,可以基于允许性候选变体的编码变体(例如,根据其是否为针对特定药理学表型具有显著的次要等位基因频率的非同义编码变体)对每个允许性候选变体进行评分和/或排名。分数高于阈值编码变体分数和/或排名高于阈值编码变体排名或其它分数或排名标准的允许性候选变体也可以被包含在中间候选变体(框814)的子集中。

然后,在框816处,将中间候选变体与靶基因相关联,并对在相关组织中表达的基因(例如,基于基因型-组织表达(GTEx)数据)进行通路分析,如使用通路分析进行通路映射和基因集富集。鉴定与重要和相关通路相关联的基因集,并将影响所述基因集的调控变体和编码变体鉴定为候选变体(框818)。

参照图4E描述了图4D中的方法对一组华法林表型的示例应用。华法林是一种抗凝剂,其用于预防和治疗心脏病和其它需要控制凝血的情况下的静脉血栓栓塞。患者之间的剂量需求相差多达10倍,尽管最近有其它抗凝剂可供使用,但华法林仍是常用处方。因此,可以利用上述方法预测患者对华法林的反应,并确定是否向患者施用华法林或其它抗凝剂以及给药剂量。

图4E示出了表示在图4D中描述的用于鉴定对应于华法林表型的组学数据的方法800的每个阶段中鉴定的单核苷酸多态性(SNP)的框图850。

为了鉴定一组华法林表型的关联和候选基因,在健康患者中对华法林反应和华法林的其它药理学表型、静脉血栓栓塞风险和基线抗凝蛋白水平使用23个GWAS。使用来自世界各地的群体的输入数据,包含欧洲、东亚、南亚、非洲和美国队列。在这个实例中,华法林表型包含几种表型类别,如华法林反应、ADE和疾病/背景。华法林反应类别包含华法林表型:华法林维持剂量。ADE类别包含华法林表型:止血因子和血液学表型、出血性终末凝血和凝血酶生成潜能表型。疾病/背景类别包含华法林表型:静脉血栓栓塞、血栓栓塞、血栓、血栓形成、凝血、出血、C4b结合蛋白水平、活化的部分凝血活酶时间、抗凝水平、XI因子、凝血酶原时间、血小板血栓形成。基于这23个GWAS以及23个另外的变体,总共有204个SNP被鉴定为关联和候选基因输入(框852)。

然后,对204个SNP执行连锁不平衡分析,并且针对被鉴定为允许性候选变体的总共4492个SNP,还鉴定了204个SNP的身体SNP(框854)。然后,将表达调控变体工作流应用于4492个SNP,从而在57个基因中产生总共186个SNP(框856)。如图4D所示,将框814的基因表达测试应用于186个SNP,从而在30个基因中总共产生66个SNP。此外,将编码变体工作流也应用于4492个SNP,产生总共37个次要等位基因频率至少为0.01的SNP(框858)。如图4D所示,将框814的基因表达测试也应用于37个SNP,从而在17个基因中总共产生22个SNP。因此,表达调控变体工作流和编码变体工作流的组合输出是41个基因中的87个SNP(框860)。最后,对87个SNP进行通路分析,以鉴定在31个基因中具有74个SNP的单一通路(框862)。

所述通路可以被称为华法林反应通路,并且包含在肝脏、小肠和脉管系统中表达的基因。图4F示出了包含指示华法林表型的基因和SNP的示例华法林反应通路870。可以使用如上文参照图4D所描述的方法800来鉴定所述示例华法林反应通路870。在任何情况下,华法林反应通路均包含以下基因:醛酮还原酶家族1成员C3(AKR1C3)、细胞色素P450家族2亚家族C成员19(CYP2C19)、细胞色素P450家族2亚家族C成员8成员(CYP2C8)、细胞色素P450家族2亚家族C成员9(CYP2C9)、细胞色素P450家族4亚家族F成员2(CYP4F2)、凝血因子V(F5)、凝血因子VII(F7)、凝血因子X(F10)、凝血因子XI(F11)、纤维蛋白原γ链(FGG)、血清类粘蛋白1(ORM1)、丝氨酸蛋白酶53(PRSS53)、维生素K环氧还原酶复合物亚基1(VKORC1)、合成素4(STX4)、凝血因子XIII A链(F13A1)、蛋白C受体(PROCR)、血管性血友病因子(VWF)、补体因子H相关5(CFHR5)、纤维蛋白原α链(FGA)、含黄素的单加氧酶5(FMO5)、富含组氨酸的糖蛋白(HRG)、激肽原1(KNG1)、过剩4(SURF4)、α1-3-N-乙酰半乳糖胺基转移酶和α1-3-半乳糖基转移酶(ABO)、溶菌酶(LYZ)、聚梳家族环指3(PCGF3)、丝氨酸蛋白酶8(PRSS8)、瞬时受体电位阳离子通道亚家族C成员4相关模式(TRPC4AP)、溶质载体家族44成员2(SLC44A2)、鞘氨醇激酶1(SPHK1)和泛素特异性肽酶7(USP7)。

包含在31个基因中的74个SNP(未示出)为:包含在AKR1C3基因(在肝脏中表达)中的rs12775913(调控SNP)、rs346803(调控SNP)、rs346797(调控SNP)、rs762635(调控SNP)和rs76896860(调控SNP);包含在CYP2C19基因(在肝脏中表达)中的rs3758581(编码SNP);包含在CYP2C8基因(在肝脏中表达)中的rs10509681(编码SNP)和rs11572080(编码SNP);包含在CYP2C9基因(在肝脏中表达)中的rs1057910(编码SNP)、rs1799853(编码SNP)和rs7900194(编码SNP);包含在CYP4F2基因(在肝脏中表达)中的rs2108622(编码SNP);包含在F5基因(在肝脏中表达)中的rs6009(调控SNP)、rs11441998(调控SNP)、rs2026045(调控SNP)、rs34580812(调控SNP)、rs749767(调控SNP)、rs9378928(调控SNP)和rs7937890(调控SNP);包含在F7基因(在肝脏中表达)中的rs7552487(调控SNP)、rs6681619(调控SNP)、rs8102532(调控SNP)、rs491098(编码SNP)和rs6046(编码SNP);包含在F10基因(在肝脏中表达)中的rs11150596(调控SNP)和rs11150596(调控SNP);包含在F11基因(在肝脏中表达)中的rs2165743(调控SNP)和rs11252944(调控SNP);包含在FGG基因(在肝脏中表达)中的rs8050894(调控SNP);包含在ORM1基因中的rs10982156(调控SNP);包含在PRSS53基因(在肝脏中表达)中的rs7199949(编码SNP);包含在VKORC1基因(在肝脏中表达)中的rs2884737(调控SNP)、rs9934438(调控SNP)、rs897984(调控SNP)和rs17708472(调控SNP);包含在STX4基因(在小肠中表达)中的rs35675346(调控SNP)和rs33988698(调控SNP);包含在F13A1基因(在脉管系统中表达)中的rs5985(编码SNP);包含在PROCR基因(在脉管系统中表达)中的rs867186(编码SNP);包含在VWF基因(在脉管系统中表达)中的rs75648520(调控SNP)、rs55734215(调控SNP)、rs12244584(调控SNP)和rs1063856(编码SNP);包含在CFHR5基因(在肝脏中表达)中的rs674302(调控SNP);包含在FGA基因(在肝脏中表达)中的rs12928852(调控SNP)和rs6050(编码SNP);包含在FMO5基因(在肝脏中表达)中的rs8060857(调控SNP)和rs7475662(调控SNP);包含在HRG基因(在肝脏中表达)中的rs9898(编码SNP);包含在KNG1基因(在肝脏中表达)中的rs710446(编码SNP);包含在SURF4基因(在肝脏中表达)中的rs11577661(调控SNP);包含在ABO基因(在小肠中表达)中的rs11427024(调控SNP)、rs6684766(调控SNP)、rs2303222(调控SNP)、rs1088838(调控SNP)、rs13130318(调控SNP)和rs12951513(调SNP);包含在LYZ基因(在小肠中表达)中的rs8118005(调控SNP);包含在PCGF3基因(在小肠中表达)中的rs76649221(调控SNP)、rs9332511(调控SNP)和rs6588133(调控SNP);包含在PRSS8基因(在小肠中表达)中的rs11281612(调控SNP);包含在TRPC4AP基因(在小肠中表达)中的rs11589005(调控SNP)、rs8062719(调控SNP)、rs889555(调控SNP)、rs36101491(调控SNP)、rs7426380(调控SNP)、rs6579208(调控SNP)、rs77420750(调控SNP)和rs73905041(编码SNP);包含在SLC44A2基因(在脉管系统中表达)中的rs3211770(调控SNP)、rs3211770(调控SNP)、rs3087969(编码SNP)和rs2288904(编码SNP);包含在SPHK1基因(在脉管系统中表达)中的rs683790(调控SNP)和rs346803(编码SNP);以及包含在USP7基因(在脉管系统中表达)中的rs201033241(编码SNP)。

除华法林外,图4B和4D中描述的方法还可以应用于一组锂表型以及任何其它药理学表型。通过将图4B和4D中描述的方法应用于锂表型,可以确定12个基因中有78个SNP的锂反应通路。锂反应通路包含以下基因:锚蛋白3(ANK3)、芳基碳氢化合物核转运蛋白受体样(ARNTL)、电压门控性钙通道辅助亚基γ2(CACNG2)、电压门控性钙通道辅助亚基α1 C(CACNA1C)、细胞周期蛋白依赖性激酶抑制剂1A(CDKN1A)、cAMP反应元件结合蛋白1(CREB1)、AMPA型谷氨酸正性受体亚基1(GRIA2)、糖原合成酶激酶3β(GSK3B)、核受体亚家族1,D组,成员1(NR1D1)、溶质载体家族1成员2(SLC1A2)、5-羟色胺受体1A(HTR1A)以及TRAF2和NCK相互作用激酶(TNIK)。包含在12个基因中的78个SNP为:包含在ANK3基因中的rs2185502、rs10821792、rs1938540、rs3808943、rs61847646、rs75314561、rs61846516、rs10994397、rs10994318、rs61847579、rs12412727、rs10994308、rs4948418、rs4948412、rs4948413、rs4948416、rs10821745、rs10994336、rs10994360、rs9633532、rs1938526、rs10994322和rs10994321;包含在ARNTL基因中的rs10766075、rs7938308、rs10832017、rs4603287、rs7934154、rs12361893、rs4414197、rs4757140、rs4757141、rs61882122、rs11022755、rs11022754、rs1481892、rs1481891、rs4353253、rs4756764、rs2403662、rs4237700、rs10832018、rs12290622、rs7928655、rs34148132、rs4146388、rs4146387、rs7949336、rs4757139、rs7107287和rs1351525;包含在CACNG2基因中的rs2284017和rs2284016;包含在CACNA1C基因中的rs2007044和rs1016388;包含在CDKN1A基因中的rs3176336、rs3176333、rs3176334、rs3176320、rs4135240、rs2395655和rs733590;包含在CREB1基因中的rs10932201;包含在GRIA2基因中的rs78957301;包含在GSK3B基因中的rs334558;包含在NR1D1基因中的rs2314339;包含在SLC1A2基因中的rs3794088、rs3794087、rs4354668、rs12418812、rs1923294、rs5791047、rs111885243、rs752949和rs16927292;包含在HTR1A基因中的rs6449693和rs878567;以及包含在TNIK基因中的rs7372276。

在图4G中描绘了上述锂反应通路890。锂是用于治疗精神疾病/精神失常的精神治疗药物。上述方法可以用于预测患者对锂的反应,并确定是否向患者施用锂或其它精神治疗药物以及给药剂量。在任何情况下,可以通过使用图4B和4D中描述的方法400、800来鉴定示例锂反应通路890。锂反应通路890中的每个基因都在大脑的一部分中表达,包含额叶、岛叶、颞叶皮层、扣带皮层、杏仁核、海马、前尾状核、丘脑、运动皮层、梭状皮层、黑质、小脑和下丘脑。

在一些实施例中,药理学表型预测系统100可以测试当前患者中是否存在已鉴定的SNP、基因和基因组学区域,以确定当前患者是否具有特定的药理学表型。例如,已鉴定的SNP、基因和基因组学区域可以指示对用于治疗TBI的丙戊酸的负面反应。当当前患者患有TBI时,可以提供当前患者的生物样品,并使用例如上文关于图5所述的用于生成组学数据的过程500来分析所述生物样品以检测是否存在已鉴定的SNP、基因和基因组学区域。当当前患者具有指示对丙戊酸的负面反应的至少一些已鉴定的SNP、基因和基因组学区域时,不向当前患者施用丙戊酸。在其它实施例中,以任何合适的方式对已鉴定的SNP、基因和基因组学区域进行评分、组合和/或加权,以确定哪些组合指示对丙戊酸的负面反应。然后将评分或加权系统应用于当前患者生物样品中的SNP、基因和基因组学区域,以确定当前患者是否具有指示对丙戊酸的负面反应的组合。

在任何情况下,药理学表型预测系统100可以提供指示特定药理学表型的已鉴定的SNP、基因和基因组学区域作为所述药理学表型的组学数据。机器学习引擎146可以获取用于训练具有至少一些已鉴定的SNP、基因和基因组学区域的患者的带有社会组学、生理组学和环境学数据的组学数据,以及所述训练患者的表型组学数据。以这种方式,机器学习引擎146可以将具有指示特定药理学表型(例如,对用于治疗抑郁症的***的负面反应)的已鉴定的SNP、基因和基因组学区域的训练患者分类为具有特定药理学表型或不具有特定药理学表型。然后,可以使用社会组学、生理组学和环境学数据来区分具有已鉴定的SNP、基因和基因组学区域且确实具有特定药理学表型的训练患者与具有已鉴定的SNP、基因和基因组学区域但不具有特定药理学表型的训练患者。

例如,当机器学习技术是决策树时,可以生成包含多个节点的决策树,每个节点表示对当前患者的数据的测试。节点可以由分支连接,每个分支表示测试或其它测量的结果或可观察/可记录状态(例如,“是”分支和“否”分支),其中分支可以被加权并且叶节点可以指示当前患者是否存在药理学表型。在其它实施例中,叶节点指示例如通过汇总或组合加权分支所确定的药理学表型的可能性,或者叶节点可以指示能够与阈值进行比较以确定当前患者是否具有药理学表型的分数。在任何情况下,可以生成决策树,决策树顶部附近的节点表示对当前患者的组学数据的测试,例如,如已鉴定的SNP、基因和基因组学区域所示。当当前患者具有指示特定药理学表型(例如,对用于治疗抑郁症的***的负面反应)的已鉴定的SNP、基因和基因组学区域的合适组合时,决策树分支到几个节点,这些节点表示对当前患者的社会组学、生理组学和环境学数据的测试。

在另一个实例中,当机器学***面来创建用于确定当前患者是否具有特定药理学表型的统计模型,所述超平面将与对应于具有药理学表型的训练患者的训练向量第一子集与对应于不具有药理学表型的训练患者的训练向量第二子集分开。

可以针对具有指示特定药理学表型的已鉴定的SNP、基因和基因组学区域的训练患者或训练患者队列获取环境学、生理组学和社会组学数据。更具体地,训练模块160可以例如从客户端装置106-116和/或一个或几个服务器(例如,EMR服务器、多药房服务器等)获取一组训练数据,所述训练数据可以包含几个训练患者的组学数据以及社会组学、生理组学和环境学数据,其中训练患者的药理学表型是已知的(例如,先前确定的或当前确定的)并且也在训练数据中提供。环境学、生理组学和社会组学数据可以包含临床数据、人口统计学数据、多药房数据、社会经济学数据、教育数据、药物滥用数据、饮食和锻炼数据、执法数据、昼夜节律数据、家庭数据或指示患者社会状况或环境条件的任何其它合适的数据。

在示例性情形中,在第一时间段(例如,一年)中收集训练患者的组学、表型组学、社会组学、生理组学和环境学数据。尽管患者可以是训练患者,但是也可以基于患者的组学、表型组学、社会组学、生理组学和环境学数据来确定药理学表型预测系统100的结果。如上所述,具有用于训练药理学表型预测系统100的训练数据的训练患者也可以成为用于预测训练患者的未知药理学表型的当前患者。在这个实例中,可以在第1年的一月至十二月期间收集组学、表型组学、社会组学、生理组学和环境学数据。尽管组学、表型组学、社会组学、生理组学和环境学数据可以是针对单个训练患者的,但是也可以收集一队训练患者的组学、表型组学、社会组学、生理组学和环境学数据。例如,可以收集一队训练患者的组学、表型组学、社会组学、生理组学和环境学数据,其中每个患者均具有指示对用于治疗疾病Y的药物X的负面反应的已鉴定的SNP、基因和基因组学区域。

组学、表型组学、社会组学、生理组学和环境学数据可以包含图2中所示的个体/队列和群体组学和药物代谢组学302、暴露组304、社会组学人口统计学和应激/创伤306、以及医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据308。然而,这些仅仅是可以从训练患者获取以训练药理学表型评估服务器102的组学、表型组学、社会组学、生理组学和环境学数据的几个实例。还可以包含另外的社会组学、生理组学和环境学数据,如指示训练患者的睡眠和其它复发性生活方式时态模式的昼夜节律数据。

组学和药物代谢组学数据可以是对训练患者的生物样品进行的药物基因组学分析的结果。第1年的暴露组数据可以包含训练患者在第1年八月的就业状况和居住地。

医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据可以指示训练患者在第1年一月至十二月的执法经历。

医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据还可以包含多药房数据,所述多药房数据包含以处方形式开具给训练患者的药物以及处方所述药物的时间。例如,在第1年的三月给训练患者开出了药物A以治疗疾病1、药物B以治疗疾病2以及药物C以治疗疾病3,并且在第1年的八月开出了药物D以治疗疾病4。在第1年的八月,训练患者还逐渐停用了药物C。此外,医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据还可以包含指示训练患者的药理学表型(如所述训练患者被诊断患有的疾病)的表型组学数据。例如,在第1年一月,训练患者被诊断患有疾病1-3。

此外,所述数据可以包含其它表型组学数据,如描述药物疗效和/或副作用的信息。例如,训练患者可能出现药物C的副作用,因此,在经历这些副作用之后,训练患者可能逐渐停用药物C。训练患者还可能对服用药物C产生积极反应,这可以指示所述药物对训练患者的疗效。

社会组学和人口统计学数据可以指示训练患者的家庭状况。例如,社会组学和人口统计学数据可以指示训练患者在第1年一月的婚姻状况和子女数量。社会组学和人口统计学数据还可以指示训练患者从第1年一月至十二月的收入金额。社会组学和人口统计学数据还可以指示关于受到或未受到相关疾病和并发症影响的家庭成员的可用信息,以及他们的治疗反应和其它药理学表型。

在这个示例性情形中,组学、表型组学、社会组学、生理组学和环境学数据还可以包含在第2年的一月至十二月期间从训练患者收集的数据。在第2年中,组学和药物代谢组学数据包含三月份获取的训练患者的蛋白质组学和转录组学以及八月份获取的药物基因组学分析结果。

第2年的组学和药物代谢组学数据可以包含训练患者在第2年三月的住院代谢检查的结果,所述结果指示存在药物B的有毒代谢产物。组学和药物代谢组学数据还可以包含训练患者在第2年八月的另一次住院代谢检查的结果,所述结果指示药物E的血液水平正常。

第2年的医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据指示对训练患者进行的各种心理健康、药物滥用以及应激和创伤问卷调查的结果。

第2年的医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据还指示,训练患者在二月份对药物C产生了负面反应,并随后停止服用药物C。相反,在第2年三月向患者开出药物F并在八月向患者开出药物E。然后,训练患者对服用药物E和F产生积极反应,这可以指示所述药物对训练患者的疗效。

此外,响应于检测到药物B的有毒代谢产物的存在(如训练患者的组学和药物代谢组学数据所示),训练患者在第2年三月停止服用药物B。医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据进一步指示,训练患者的疾病1诊断在第2年四月得到了控制,并且减少了药物A的剂量。第2年的社会组学和人口统计学数据还指示训练患者从第2年一月至十二月的收入金额。

可以使用包含在第1年和第2年的组学、表型组学、社会组学、生理组学和环境学数据中的信息来训练药理学表型评估服务器102以生成统计模型。可以针对包含训练患者队列或群体的一些训练患者(例如,数十、数百、数千)收集类似的信息,结合组学数据以生成统计模型。在这种统计模型的生成中,可以鉴定重要特征,并生成使用这种受限信息集的模型,以便允许利用有限信息集来预测当前患者的表型。

例如,如上所述,可以获取一队训练患者的组学、表型组学、社会组学、生理组学和环境学数据,其中每个训练患者均具有指示对用于治疗疾病Y的药物X的负面反应的已鉴定的SNP、基因和基因组学区域。训练模块160可以将组学、表型组学、社会组学、生理组学和环境学数据的第一子集(例如,指示对用于治疗疾病Y的药物X的负面反应的一队训练患者的已鉴定的SNP、基因和基因组学区域)分类为与训练对药物X具有负面反应的患者相对应,并且可以将组学、表型组学、社会组学、生理组学和环境学数据的第二子集分类为与训练对药物X没有负面反应的患者相对应。在一些实施例中,训练模块160可以对每个分类(训练对药物X具有负面反应的患者和训练对药物X没有负面反应的患者)的组学、表型组学、社会组学、生理组学和环境学数据的子集执行统计测量。例如,训练模块160可以确定对应于每个分类的训练患者的平均收入、平均ACE分数等。

然后,训练模块160可以生成统计模型(例如,决策树、神经网络、超平面、线性或非线性回归系数等),以便基于每个分类的统计测量预测当前患者是否对用于治疗疾病Y的药物X具有负面反应。例如,统计模型可以是具有通过分支连接的几个节点的决策树,其中每个节点表示对组学数据的测试,所述组学数据与指示对用于治疗疾病Y的药物X的负面反应的已鉴定的SNP、基因和基因组学区域有关。分支可以包含不同SNP、基因和基因组学区域的权重或分数,并且当当前患者的综合权重或分数超过阈值时,这可以指示当前患者具有指示对药物X的负面反应的SNP、基因和基因组学区域的组合。

决策树可以进一步包含通过分支连接的几个节点,其中每个节点表示对社会组学、生理组学和环境学数据的测试。第一个节点可以测试当前患者的年收入是否大于20,000美元,其通过“是”分支连接到第二个节点,所述第二个节点测试当前患者的ACE分数是否大于5,其通过“是”分支连接到第三个节点,所述第三个节点测试当前患者是否经历过家庭暴力,其通过“否”分支连接到叶节点,所述叶节点预测当前患者是否会对药物X产生负面反应。叶分支可以指示当前患者对药物X产生负面反应的可能性,所述可能性可以基于在各个节点处的每个测试的结果和/或分配给相应分支的权重来确定。在一些实施例中,叶分支可以指示对药物X的反应分数,所述反应分数也可以基于在各个节点处的每个测试的结果和/或分配给相应分支的权重来确定。反应分数可以指示药物在治疗相应疾病方面的疗效,所述疗效因药物对患者的不良影响而打了折扣。

如在这个示例性情形中所描述的,可以将几个训练患者中的每一个患者的组学、社会组学、生理组学和环境学数据与所述训练患者的药理学表型(例如,训练患者被诊断患有的疾病、对药物的反应、药物滥用问题)的指示进行组合,以生成用于预测当前患者的药理学表型的统计模型。在一些实施例中,可以将训练患者的组学、社会组学、生理组学和环境学数据与来自先前研究(例如GWAS)的组学和/或基因组学数据进行组合,以鉴定基因、转录因子、蛋白质、代谢物、染色质状态、环境和患者的药理学表型之间的关系。

在任何情况下,将每个训练患者的组学、社会组学、生理组学和环境学数据组合以产生统计模型。在一些实施例中,可以将训练患者的组学、社会组学、生理组学和环境学数据分类为与被诊断患有特定疾病(或未被诊断为患有特定疾病)的训练患者相对应、分类为与患有药物滥用问题(或未患药物滥用问题)的训练患者相对应、分类为与对药物具有特殊反应的训练患者相对应或以任何其它合适的方式对所述数据进行分类。在一些情形中,可以在不同时间段将同一位训练患者的组学、社会组学、生理组学和环境学数据细分为多种药理学表型。例如,随着训练患者的社会组学、生理组学和环境学数据发生变化,训练患者的组学数据可能会随着时间而改变,并且在第一时间段,训练患者可能患有一种精神疾病,而在第二时间段,训练患者可能患有另一种精神疾病。

同样,在一些实施例中,可以根据人口统计学对训练患者的组学、社会组学、生理组学和环境学数据进行分类。例如,可以将欧洲血统的训练患者的组学、社会组学、生理组学和环境学数据分配给一个队列,而将中国血统的训练患者的组学、社会组学、生理组学和环境学数据分配给另一个队列。在另一个实例中,可以将年龄介于25岁到35岁之间的训练患者的组学、社会组学、生理组学和环境学数据分配给一个队列,而将年龄介于35岁到45岁之间的训练患者的组学、社会组学、生理组学和环境学数据分配给另一个队列。

在这种实施例中,训练模块160可以针对每种药理学表型和/或针对每个队列(例如,基于人口统计学分离的队列)生成不同的统计模型。例如,可以生成用于确定当前患者将经历药物滥用问题的可能性的第一统计模型,可以生成用于确定一种疾病的风险的第二统计模型,可以生成用于确定另一种疾病的风险的第三统计模型,可以生成用于确定对特定药物产生负面反应的可能性的第四统计模型等。在其它实施例中,训练模块160可以生成单个统计模型来确定当前患者具有任何药理学表型的可能性的,或者可以生成任何数量的统计模型来确定当前患者具有任何数目的药理学表型的可能性的。

一旦将组学、社会组学、生理组学和环境学数据分类为与各个队列和/或药理学表型相对应的子集,就可以分析特定药理学表型的组学、社会组学、生理组学和环境学数据以生成统计模型。可以使用神经网络、深度学习、决策树、支持向量机或上述任何一种机器学习方法来生成统计模型。例如,可以分析欧洲血统的训练患者的组学、社会组学、生理组学和环境学数据,以确定具有在XYZ基因中发现的SNP 2、失业且有暴力犯罪记录的训练患者与患上精神***症之间存在很高的相关性。因此,具有在XYZ基因中发现的SNP 2、失业且有暴力犯罪记录的欧洲血统患者可能处于患精神***症的高风险中。

当机器学习技术是神经网络或深度学习时,训练模块160可以生成具有输入节点、中间或“隐藏”节点、边缘和输出节点的图。节点可以表示对组学、社会组学、生理组学和环境学数据执行的测试或功能,并且边缘可以表示节点之间的连接。在一些实施例中,输出节点可以包含药理学表型或药理学表型可能性的指示。在一些实施例中,可以在确定药理学表型时根据先前节点的测试或功能的强度对边缘进行加权。

因此,对于药理学表型确定而言,权重较高的先前节点的组学、社会组学、生理组学和环境学数据的类型可能比权重较低的先前节点的组学、社会组学、生理组学和环境学数据的类型更重要。通过鉴定最重要的组学、社会组学、生理组学和环境学数据,训练模块160可以从统计模型中消除最不重要且可能具有误导性和/或随机噪声的组学、社会组学、生理组学和环境学数据。另外,药理学表型的最重要的组学数据(通过对阈值以上的组学数据进行排名、加权或评分所确定的)可以用于选择组学数据的类型,以分析患者的生物样品。

例如,神经网络可以包含表示组学、社会组学、生理组学和环境学数据的四个输入节点,所述输入节点各自连接到几个隐藏节点。然后将隐藏节点连接到输出节点,所述输出节点指示当前患者患有双相情感障碍的可能性。所述连接可以具有分配的权重,并且隐藏节点可以包含对组学、社会组学、生理组学和环境学数据执行的测试或功能。在一些实施例中,测试或功能可以是由训练数据或先前研究(如GWAS)确定的分布。例如,具有特定SNP且在收入分布的第98个百分点中的患者比具有相同SNP且在在收入分布的第10个百分点中的患者感染疾病Y的可能性更低。

在一些实施例中,隐藏节点可以连接到几个输出节点,所述输出节点各自指示当前患者将患有不同疾病的可能性、当前患者将具有药物滥用问题的可能性和/或当前患者对特定药物的可能性或反应评分。在这个实例中,四个输入节点可以包含患者的血统、患者的当前收入和/或患者的收入在上一年中的变化、患者的LMNOP基因中是否存在SNP 13以及患者的不良睡眠模式。

在一些实施例中,四个输入节点中的每一个节点可以为患者的组学、社会组学、生理组学和环境学数据分配数值,并且可以将测试或功能应用于隐藏节点处的数值。然后,例如可以对所述测试或功能的结果进行加权和/或汇总以确定对锂的反应分数。反应分数可以指示药物在治疗相应疾病方面的疗效,所述疗效因药物对患者的不良影响而打了折扣。在这个实例中,锂的反应分数可能很高(例如,100分中的80分),这指示患者在服用锂治疗双相情感障碍时会积极地反应。因此,医疗保健提供者可以开出锂处方来治疗患者的躁郁症。在一些实施例中,可以将用于治疗躁郁症的锂的反应分数与用于治疗躁郁症的其它处方药的反应分数进行比较。然后,可以根据药物各自的反应分数对药物进行排名,并且可以向医疗保健提供者推荐排名最高的药物以以处方形式开具给患者。但是,这仅仅是用于确定表型的统计模型的输入和结果输出的一个实例。在其它实例中,任意数量的输入节点都可以包含患者的几种类型的组学数据、社会组学数据和环境学数据。另外,任何数量的输出节点都可以确定患有不同疾病的可能性或风险、药物滥用问题的可能性、并发症的可能性等。

由于收集了另外的训练数据,可以调整权重、节点和/或连接。以这种方式,统计模型被不断地或周期性地更新,以反映社会组学、生理组学、环境学和组学数据的至少近乎实时的表示。

在一些实施例中,机器学习技术可以用于鉴定队列或人口统计学标记,以将患者分类为具有特定药理学表型或不具有特定药理学表型。如以上实例中所示,可以通过分别对具有和不具有特定药理学表型的训练患者的第一子集和第二子集的社会组学、生理组学和环境数据进行统计测量,来开发包含在隐藏节点中的测试或功能。可以使用统计测量来确定包含在训练患者的社会组学、生理组学和环境学数据中的最重要的变量,以区分具有药理学表型的训练患者和不具有药理学表型的训练患者。以这种方式,包含在隐藏节点中的测试或功能不一定是先验的。

在使用如上所述的机器学习技术(例如,神经网络、深度学习、决策树、支持向量机等)生成统计模型之后,训练模块160可以使用来自测试患者的测试组学、社会组学、生理组学和环境学数据以及测试患者药理学表型对所述统计模型进行测试。测试患者可以是药理学表型已知的患者。然而,出于测试的目的,训练模块160可以通过将测试患者的测试组学、社会组学、生理组学和环境学数据与使用机器学习技术生成的统计模型进行比较,来确定测试患者具有各种药理学表型的可能性。

例如,训练模块160可以使用测试患者的测试组学、社会组学、生理组学和环境学数据从神经网络遍历节点。当训练模块160到达指示特定药理学表型的可能性或反应分数的结果节点时,可以将所述可能性或反应分数与已知的测试患者药理学表型进行比较。

在一些实施例中,如果测试患者具有特定药理学表型(例如,疾病Y)的可能性大于0.5并且已知的测试患者药理学表型是其确实患有疾病Y,则可以认为所述确定是正确的。在另一个实例中,如果引起测试患者的强烈反应而无有害副作用的药物的反应分数最高,则可以认为所述确定是正确的。在其它实施例中,当已知的测试患者药理学表型是其具有特定药理学表型时,则可能性可能必须高于0.7,或者所确定的可能性的某个其它预定阈值必须被认为是正确的。

此外,在一些实施例中,当训练模块160的正确率超过预定阈值时间量时,可以将统计模型呈现给表型评估模块162。另一方面,如果训练模块160的正确率不超过阈值量,则训练模块160可以继续获取训练数据集以进行进一步的训练。

一旦统计模型已经被充分测试以验证其准确性,则表型评估模块162可以获取统计模型。基于统计模型,表型评估模块162可以确定当前患者具有各种药理学表型的可能性。表型评估模块162可以在未知当前患者是否具有某些药理学表型的情况下获取当前患者的组学、社会组学、生理组学和环境学数据。可以在几个时间点收集社会组学、生理组学和环境学数据,并且所述数据可以类似于在上述示例性情形中描述的针对训练患者收集的社会组学和环境学数据。

更具体地,社会组学、生理组学和环境学数据可以包含临床数据,如当前患者的病史,包含当前患者已经被诊断为患有的疾病、实验室测试的结果以及对所述患者执行的操作程序、当前患者的家族病史等社会组学、生理组学和环境学数据还可以包含多药房数据,如在特定时间段内以处方形式开具给当前患者的每种药物、每次处方的持续时间、重新装药的次数,当前患者是否已按时补充每种药物等。另外,社会组学、生理组学和环境学数据可以包含人口统计学数据,如当前患者的血统或种族、当前患者的年龄、当前患者的体重、当前患者的性别、当前患者的居住地等。此外,社会组学、生理组学和环境学数据可以包含当前患者的社会经济学数据,如当前患者的收入金额和/或收入来源、教育数据(例如,高中文凭、GED、大学毕业生、硕士学位等)以及指示当前患者锻炼频率的饮食和运动数据、当前患者的饮食习惯、在特定时间段内体重增加或体重减轻的量等。此外,社会组学、生理组学和环境学数据可以包含家庭数据,如当前患者的婚姻状况、目前与当前患者住在一起的孩子和家庭成员的数量、指示当前患者的犯罪记录以及当前患者是否曾经是***或它他犯罪的受害者的执法数据、指示当前患者是否患有或曾经患有药物滥用问题的药物滥用数据以及指示当前患者的睡眠模式的昼夜节律数据。

除了社会在学、生理在学和环境学数据外,表型评估模块162还可以获取当前患者的组学数据。所述组学数据可以类似于如图4C所示的组学数据。更具体地,组学数据可以包含指示基因性状的基因组学数据、指示基因表达的表观基因组学数据、指示DNA转录的转录组学数据、指示由基因组表达的蛋白质的蛋白质组学数据、指示基因组中染色质状态的染色体组学数据和/或指示基因组中代谢物的代谢组学数据。

然后,表型评估模块162可以将当前患者的组学、社会组学、生理组学和环境学数据应用于统计模型,以确定当前患者具有各种药理学学表型的可能性。当生成几个统计模型时,表型评估模块162可以将当前患者的组学、社会组学、生理组学和环境学数据应用于所述统计模型中的每一个模型,以确定例如当前患者患有疾病Y、具有药物滥用问题以及出现并发症的可能性。

在一些实施例中,医疗保健提供者可以提供对特定类型的药理学表型(如当前患者对特定药物的预测反应)的请求,或对治疗特定疾病的最佳药物的请求。因此,表型评估模块162可以应用被生成以响应医疗保健提供者的请求的统计模型或统计模型的一部分。然后,医疗保健提供者可以从药理学表型评估服务器102接收用于治疗特定疾病的最佳药物和剂量的指示。

在其它实施例中,药理学表型评估服务器102可以通过将当前患者的组学、社会组学、生理组学和环境学数据应用于统计模型来确定几种药理学表型中的每一种药理学表型的可能性或反应分数,从而评估所述药组学、社会组学、生理组学和环境学数据。然后,药理学表型评估服务器102可以生成风险分析显示,以供当前患者的医疗保健提供者进行检查。

风险分析显示可以包含患者传记信息的指示,如患者的姓名、出生日期、地址等。风险分析显示还可以包含各种药理学表型的可能性或其它半定量和定量的度量中的每一个的指示,所述可能性或其它半定量和定量的度量可以表示为概率(例如,0.6)、百分比(例如,80%)、一组类别(例如“高风险”、“中等风险”或“低风险”)中的一个类别和/或以任何其它合适的方式表示。另外,风险分析显示可以包含对药物的反应分数的指示,所述反应分数可以是数字的(例如,100分中的75分)、分类的(例如,“强烈反应”、“不良反应”等)或以任何其它合适的方式表示。另外,可以显示每个可能性或反应分数以及相应药理学表型的描述(例如,“疾病Y的高风险”)。可以在统计模型的内部工作环境中以定量或半定量的形式存储和处理这些风险因素和水平,但是可以将其转换为定性术语,以便输出给护理提供者和患者。

在一些实施例中,药理学表型评估服务器102可以将药理学表型的可能性与可能性阈值(例如,0.5)进行比较,并且可以在药理学表型的可能性超过可能性阈值时将所述药理学表型包含在风险分析显示中。例如,可以仅将对当前患者具有高风险的疾病包含在风险分析显示中。在另一个实例中,风险分析显示可以包含如下指示:当当前患者的药物滥用问题的可能性超过可能性阈值时,当前患者可能患有药物滥用问题。以这种方式,医疗保健提供者可以向当前患者推荐或提供早期干预。同样,在一些实施例中,可以对与特定疾病相对应的每种药物的反应分数进行排名(例如,从最高到最低)。可以在风险分析显示器上以排名的顺序提供药物和相应的反应分数。在其它实施例中,可以仅将针对特定疾病的排名最高的药物包含在风险分析显示中。

除了显示针对特定疾病的排名最高的一种或多种药物(和/或其它疗法)作为向医疗保健提供者推荐给患者开处方的建议之外,风险分析显示还可以包含用于当前患者的药物的推荐剂量。风险分析显示还可以包含任何社会组学、生理组学、环境学或人口统计学信息,这些信息可能会导致当前患者对药物的反应发生改变(例如,饮食、运动、暴露等发生变化)。此外,风险分析显示可以包含通过改变剂量、改变药物或消除当前患者根据其多药房数据而采取的治疗方案或其它方法来改变当前患者的现有疗法的建议。例如,当所推荐的药物可能使当前患者的多药房数据中的一种或几种药物变得多余时,风险分析显示可以包含停止服用这些药物的建议。

在一些实施例中,如果患者正在服用与排名最高的药物不相容的药物,则药理学表型评估服务器102可以推荐具有较低反应分数(或其它药物特异性属性)但与现有疗法(或其它多药房属性)兼容性更高的药物。例如,药理学表型评估服务器102可以获取当前患者的多药房数据,并将多药房数据内的药物与所推荐的药物进行比较以检查禁忌症。风险分析显示中可以包含与以处方形式开具给当前患者的任何药物都不存在禁忌症的排名最高的药物。

除了临床环境之外,可以在用于药物开发和保险应用的研究环境中预测药理学表型。在研究环境中,可能会在研究计划中预测与新型药物、实验性药物或再利用药物相关的潜在患者队列的药理学表型。可以根据患者的与实验药物有关的预测药理学表型选择患者进行实验性治疗。

此外,当当前患者的药理学表型变为已知时(例如,当前患者在阈值时间量(如一年)后具有某些药理学表型),则可以将当前患者的组学、社会组学、生理组学和环境学以及表型组学数据添加到训练数据中,并且可以相应地更新统计模型。

图6示出了当前患者的示例时间线600,其中随着时间的推移收集当前患者的组学、社会组学、生理组学和环境学以及表型组学数据。然后,药理学表型预测系统100可以根据统计模型分析当前患者的所收集的数据,以预测当前患者的药理学表型。更具体地,在示例时间线600中,收集了当前患者的诊断、治疗方法和结果602。还收集了当前患者的医学生理组学、EHR、实验室值、应激和***因素和创伤604,以及当前患者的社会组学和人口统计学608、组学和药物代谢组学610以及暴露组数据612。此外,还收集了当前患者的表型组学数据606(其可以指示当前患者的医疗结果602)。

如上所述,在临床治疗和/或药理学或其它生物医学研究环境中,药理学表型预测系统100可以包含临床医师的临床决策支持模块614和研究人员的临床决策支持模块616。

在临床医师的临床决策支持模块614中,基于来自个体训练患者或训练患者队列/群体的训练数据,以与上述方式类似的方式生成统计模型。将当前患者的组学、社会组学、生理组学、环境学和表型组学数据(例如,诊断、治疗方法和结果602;医学生理组学、EHR,实验室值、应激和***因素和创伤604;表型组学数据606;社会组学和人口统计学608;组学和药物代谢组学610以及暴露组数据612)应用于统计模型,以预测当前患者的药理学表型。药理学表型可以包含疾病风险或条件、药物推荐、药物不良反应分数、总体药物反应分数等。然而,这些仅仅是药理学表型的几个实例。全文中描述了另外的或替代性药理学表型。

在研究人员的临床决策支持模块616中,基于来自个体患者或患者队列/群体的训练数据,以与上述方式类似的方式生成统计模型。将患者的组学、社会组学、生理组学、环境学和表型组学数据应用于统计模型,以鉴定GWAS分析结果,所述结果描述了训练患者队列与特定药理学表型、药理学/药物代谢组学结果、精确表型组学分析结果、生物标志物等之间的关系。

在时间线600内的第一个时间点处,从当前患者收集组学、社会组学、生理组学和环境学数据。患者的表型组学状态此时为阴性622。然后,当前患者开始经历疾病症状并且随后住院,从而导致在第二时间点处进一步的阴性表型组学状态624。将所有这些信息(包含患者因住院而对治疗产生的反应626)提供给临床医师的临床决策支持模块614。然后,临床医师的临床决策支持模块614基于组学、社会组学、生理组学和环境学数据鉴定当前患者的药理学表型,并提供例如对当前患者具有最高预测反应的治疗选择628。因此,当前患者的表型组学状态从阴性622、624转变为阳性630,并在随后的某个时间点保持阳性632。

图7描绘了表示用于使用机器学习技术来鉴定药理学表型的示例性方法700的流程图。方法700可以在药理学表型评估服务器102上执行。在一些实施例中,方法700可以在一组指令中实现,所述指令存储在非暂时性计算机可读存储器上并且能够在药理学表型评估服务器102上的一个或多个处理器上执行。例如,方法700可以由图1A的机器学习引擎146内的训练模块160和表型评估模块162执行。

在框702处,训练模块160可以获取一组训练数据,所述训练数据包含训练患者的组学、社会组学、生理组学和环境学数据,其中已知训练患者是否具有药理学表型(例如,具有当前或先前确定的药理学表型)。环境学、生理组学和社会组学数据可以包含临床数据、人口统计学数据、多药房数据、社会经济学数据、教育数据、药物滥用数据、饮食和锻炼数据、执法数据、昼夜节律数据、家庭数据或指示患者的环境的任何其它合适的数据。组学数据可以包含指示基因性状的基因组学数据、指示基因表达的表观基因组学数据、指示DNA转录的转录组学数据、指示由基因组表达的蛋白质的蛋白质组学数据、指示基因组中染色质状态的染色体组学数据和/或指示基因组中代谢物的代谢组学数据。如上所述,可以在几个时间点(例如,在三年的时间跨度上)获取训练患者的组学、社会组学、生理组学和环境学数据。

可以从定位在EMR服务器上的电子病历(EMR)和/或从定位在多药房服务器上的多药房数据中获取社会组学、生理组学和环境学数据,所述多药房服务器汇总了来自多个药房的患者的药房数据。另外,可以从训练患者的医疗保健提供者处或从训练患者的自我报告中获取社会组学、生理组学和环境学数据。在一些实施例中,可以从包含几个服务器(例如,EMR服务器、多药房服务器等)以及医疗保健提供者和患者的客户端装置106-116的源的组合中获取训练数据。

可以从医疗保健提供者的客户端装置106-116中获取组学数据。例如,医疗保健提供者可以(例如,从唾液、活组织切片、血液样品、骨髓、毛发、汗液、气味等)获取用于测量患者的组学的生物样品,并将通过分析生物样品所获取的实验室结果提供给药理学表型评估服务器102。在其它实施例中,可以直接从分析生物样品的实验室中获取组学数据。在其它实施例中,可以从GWAS或候选基因关联研究中获取组学数据,所述研究描述了训练患者队列与特定药理学表型之间的关系。

训练模块160还可以获取与训练患者的药理学表型有关的表型组学数据,如训练患者患有的慢性疾病、对先前以处方形式开具给训练患者的药物的药理学反应、所述训练患者中的每一个患者是否患有药物滥用问题等。

然后,训练模块160可以根据与组学、社会组学、生理组学和环境学数据相关联的训练患者的药理学表型来对所述组学、社会组学、生理组学和环境学数据进行分类(框704)。药理学表型可以包含至少一些训练患者被诊断患有的疾病、药物滥用问题、对各种药物的药理学反应、并发症等。在一些情形中,可以在不同时间段将同一位训练患者的组学、社会组学、生理组学和环境学数据细分为多种药理学表型。例如,随着训练患者的环境学数据发生变化,训练患者的组学数据可能会随着时间而改变,并且在第一时间段,训练患者可能患有一种精神疾病,而在第二时间段,训练患者可能患有另一种精神疾病或并发症。

同样,在一些实施例中,可以根据人口统计学对训练患者的组学、社会组学、生理组学和环境学数据进行分类。例如,可以将欧洲血统的训练患者的组学、社会组学、生理组学和环境学数据分配给一个队列,而将中国血统的训练患者的组学、社会组学、生理组学和环境学数据分配给另一个队列。在另一个实例中,可以将年龄介于25岁到35岁之间的训练患者的组学、社会组学、生理组学和环境学数据分配给一个队列,而将年龄介于35岁到45岁之间的训练患者的组学、社会组学、生理组学和环境学数据分配给另一个队列。

然后,可以使用各种机器学习技术来分析训练患者的组学、社会组学、生理组学和环境学数据及其各自的药理学表型,以产生用于确定指示当前患者具有各种药理学表型的可能性或其它半定量和定量的度量的统计模型(框706)。统计模型还可以用于确定反应分数、剂量或当前患者对各种药物的预测反应的任何其它合适的指示。

例如,如上文参照图4B所述,使用各种机器学习技术来分析了来自GWAS或候选基因关联研究的统计测试,所述研究指示训练患者队列与特定药理学表型之间的关系,从而对研究中鉴定出的变体和/或与鉴定出的变体具有紧密联系的变体进行评分和/或排名。排名最高的变体可以被鉴定为与特定药理学表型相关或强烈相关的SNP、基因和基因组学区域。

例如,对于华法林表型,可以鉴定出华法林反应通路(如图4F所示),所述华法林反应通路包含在肝脏、小肠和脉管系统中表达的31个基因中的74个SNP。华法林反应通路包含以下基因:AKR1C3(在肝脏中表达)、CYP2C19(在肝脏中表达)、CYP2C8(在肝脏中表达)、CYP2C9(在肝脏中表达)、CYP4F2(在肝脏中表达)、F5(在肝脏中表达)、F7(在肝脏中表达)、F10(在肝脏中表达)、F11(在肝脏中表达)、FGG(在肝脏中表达)、ORM1(在肝脏中表达)、PRSS53(在肝脏中表达)、VKORC1(在肝脏中表达)、STX4(在小肠中表达)、F13A1(在脉管系统中表达)、PROCR(在脉管系统中表达)、VWF(在脉管系统中表达)、CFHR5(在肝中表达)、FGA(在肝脏中表达)、FMO5(在肝脏中表达)、HRG(在肝脏中表达)、KNG1(在肝脏中表达)、SURF4(在肝脏中表达)、ABO(在小肠中表达)、LYZ(在小肠中表达)、PCGF3(在小肠中表达)、PRSS8(在小肠中表达)、TRPC4AP(在小肠中表达)、SLC44A2(在脉管系统中表达)、SPHK1(在脉管系统中表达)和USP7(在脉管系统中表达)。包含在31个基因中的74个SNP为:包含在AKR1C3基因中的rs12775913(调控SNP)、rs346803(调控SNP)、rs346797(调控SNP)、rs762635(调控SNP)和rs76896860(调控SNP);包含在CYP2C19基因中的rs3758581(编码SNP);包含在CYP2C8基因中的rs10509681(编码SNP)和rs11572080(编码SNP);包含在CYP2C9基因中的rs1057910(编码SNP)、rs1799853(编码SNP)和rs7900194(编码SNP);包含在CYP4F2基因中的rs2108622(编码SNP);包含在F5基因中的rs6009(调控SNP)、rs11441998(调控SNP)、rs2026045(调控SNP)、rs34580812(调控SNP)、rs749767(调控SNP)、rs9378928(调控SNP)和rs7937890(调控SNP);包含在F7基因中的rs7552487(调控SNP)、rs6681619(调控SNP)、rs8102532(调控SNP)、rs491098(编码SNP)和rs6046(编码SNP);包含在F10基因中的rs11150596(调控SNP)和rs11150596(调控SNP);包含在F11基因中的rs2165743(调控SNP)和rs11252944(调控SNP);包含在FGG基因中的rs8050894(调控SNP);包含在ORM1基因中的rs10982156(调控SNP);包含在PRSS53基因中的rs7199949(编码SNP);包含在VKORC1基因中的rs2884737(调控SNP)、rs9934438(调控SNP)、rs897984(调控SNP)和rs17708472(调控SNP);包含在STX4基因中的rs35675346(调控SNP)和rs33988698(调控SNP);包含在F13A1基因中的rs5985(编码SNP);包含在PROCR基因中的rs867186(编码SNP);包含在VWF基因中的rs75648520(调控SNP)、rs55734215(调控SNP)、rs12244584(调控SNP)和rs1063856(编码SNP);包含在CFHR5基因中的rs674302(调控SNP);包含在FGA基因中的rs12928852(调控SNP)和rs6050(编码SNP);包含在FMO5基因中的rs8060857(调控SNP)和rs7475662(调控SNP);包含在HRG基因中的rs9898(编码SNP);包含在KNG1基因中的rs710446(编码SNP);包含在SURF4基因中的rs11577661(调控SNP);包含在ABO基因中的rs11427024(调控SNP)、rs6684766(调控SNP)、rs2303222(调控SNP)、rs1088838(调控SNP)、rs13130318(调控SNP)和rs12951513(调SNP);包含在LYZ基因中的rs8118005(调控SNP);包含在PCGF3基因中的rs76649221(调控SNP)、rs9332511(调控SNP)和rs6588133(调控SNP);包含在PRSS8基因中的rs11281612(调控SNP);包含在TRPC4AP基因中的rs11589005(调控SNP)、rs8062719(调控SNP)、rs889555(调控SNP)、rs36101491(调控SNP)、rs7426380(调控SNP)、rs6579208(调控SNP)、rs77420750(调控SNP)和rs73905041(编码SNP);包含在SLC44A2基因中的rs3211770(调控SNP)、rs3211770(调控SNP)、rs3087969(编码SNP)和rs2288904(编码SNP);包含在SPHK1基因中的rs683790(调控SNP)和rs346803(编码SNP);以及包含在USP7基因中的rs201033241(编码SNP)。

在另一个实例中,对于锂表型,可以鉴定出锂反应通路,所述锂反应通路包含在大脑中表达的12个基因中的78个SNP。

可以获取具有合适的SNP、基因和基因组学区域的组合的训练患者的环境学数据、社会组学数据、生理组学数据和表型组学数据,以区分具有已鉴定的SNP、基因和基因组学区域且确实具有特定药理学表型的训练患者与具有已鉴定的SNP、基因和基因组学区域但不具有特定药理学表型的训练患者。

可以使用机器学***滑等)、基于实例的算法(例如,k最近邻,学***移、带噪声的应用的基于密度的空间聚类、鉴定聚类结构的排序点等)、关联规则学***均单依赖估计器、贝叶斯信念网络、贝叶斯网络等)、人工神经网络(例如,感知器、Hopfield网络、径向基函数网络等)、深度学***均收入或社会组学数据,如平均ACE分数等)外,还可以基于已鉴定的SNP、基因和基因组学区域来生成统计模型。

此外,训练模块160可以针对几种药理学表型生成几个统计模型。例如,可以生成用于确定当前患者将经历药物滥用问题的可能性的第一统计模型,可以生成用于确定患有一种疾病的风险的第二统计模型,可以生成用于确定患有另一种疾病的风险的第三统计模型,可以生成用于确定对特定药物产生负面反应的可能性的第四统计模型等。在任何情况下,每个统计模型可以是图形模型、决策树、概率分布或用于根据训练数据确定当前患者具有某种药理学表型的可能性或药物反应分数的任何其它合适的模型。

在框708处,可以获取当前患者的组学、社会组学、生理组学和环境学数据。可以使用与上文参照图5所描述的过程500类似的过程来获取组学数据。例如,医疗保健提供者可以获取患者的生物样品,并将其发送至分析实验室进行分析。然后从生物样品中提取细胞,并将其重编程为干细胞,如iPSC。然后,将iPSC分化为多种组织,如神经元、心肌细胞等,并进行分析以获取组学数据。所述组学数据可以包含基因组学数据、表观基因组学数据、转录组学数据、蛋白质组学数据、染色体组学数据、代谢组学数据和/或生物网络。具体地,组学数据可以包含通过对患者样品进行代谢组学测量来对患者的当前药物进行定量评估。

可以在几个时间点收集例如在如上所述的暴露组、社会组学和人口统计学以及医学生理组学、EHR、实验室值、应激和***因素和创伤以及医学结果数据中的社会组学、生理组学和环境学数据。例如,当前患者的社会组学、生理组学和环境学数据可以指示当前患者是单身,然后在第1年结婚,然后在第2年离婚。所述社会组学、生理组学和环境学数据也可以指示当前患者在第1年已就业,然后在第2年失去了工作。此外,所述社会组学、生理组学和环境学数据可以指示当前患者在第1年是家庭***的受害者。可以将纵向数据与统计模型中所示的相似时间段内训练患者的相似经历进行比较。

然后在框710处,可以将当前患者的组学、社会组学、生理组学和环境学数据应用于统计模型以确定当前患者的药理学表型。药理学表型可以包含当前患者患有各种疾病的可能性或指示当前患者对各种药物的预期反应以及药物的推荐剂量的反应分数。例如,如果统计模型是神经网络,则表型评估模块162可以使用当前患者的组学、社会组学、生理组学和环境学数据来遍历神经网络的节点,使其到达各个输出节点,从而以确定可能性或反应分数。如果生成了几个统计模型,则表型评估模块162可以将组学、社会组学、生理组学和环境学数据应用于所述统计模型中的每一个模型,以确定例如患有双相情感障碍的可能性或风险、患有精神***症的可能性或风险、存在药物滥用问题的可能性、服用锂治疗双相情感障碍的反应分数等。

例如,可以分析当前患者的组学数据以鉴定当前患者的组学数据中的SNP和基因,所述SNP和基因与华法林反应通路中与华法林表型相关的74个SNP或31个基因中的任何一个相同,从而确定当前患者是否有所述华法林表型中的任何一种。另外,还可以将当前患者的社会组学、生理组学和环境学数据应用于华法林统计模型以确定当前患者的华法林表型。除了对社会组学、生理组学和环境学数据进行的统计测量外,还可以基于已鉴定的74个SNP、31个基因和华法林反应通路来生成华法林统计模型。

在另一个实例中,可以分析当前患者的组学数据以鉴定当前患者的组学数据中的SNP和基因,所述SNP和基因与锂反应通路中与锂表型相关的78个SNP或12个基因中的任何一个相同,从而确定当前患者是否有所述锂表型中的任何一种。另外,还可以将当前患者的社会组学、生理组学和环境学数据应用于锂统计模型以确定当前患者的锂表型。除了对社会组学、生理组学和环境学数据进行的统计测量外,还可以基于已鉴定的78个SNP、12个基因和锂反应通路来生成锂统计模型。

在框712处,表型评估模块162可以将当前患者的药理学表型的一个或多个指示显示在医疗保健提供者的客户端装置的用户界面上。例如,表型评估模块162可以生成风险分析显示,所述风险分析显示包含各种药理学表型的可能性或其它半定量和定量的度量中的每一个的指示,所述可能性或其它半定量和定量的度量可以表示为概率(例如,0.6)、百分比(例如,80%)、一组类别(例如“高风险”、“中等风险”或“低风险”)中的一个类别和/或以任何其它合适的方式表示。另外,风险分析显示可以包含对药物的反应分数的指示,所述反应分数可以是数字的(例如,100分中的75分)、分类的(例如,“强烈反应”、“不良反应”等)或以任何其它合适的方式表示。可以显示每个可能性或反应分数以及相应药理学表型的描述(例如,“疾病Y的高风险”)。以这种方式,当前患者的医疗保健提供者可以查看当前患者的药理学表型的指示,并制定适当的治疗计划或治疗方案。例如,医疗保健提供者可以开出治疗特定疾病的药物,其具有治疗特定疾病的药物的最高反应分数。

在一些实施例中,药理学表型评估服务器102可以将药理学表型的可能性与可能性阈值(例如,0.5)进行比较,并且可以在药理学表型的可能性超过可能性阈值时将所述药理学表型包含在风险分析显示中。例如,可以仅将对当前患者具有高风险的疾病包含在风险分析显示中。在另一个实例中,风险分析显示可以包含如下指示:当当前患者的药物滥用问题的可能性超过可能性阈值时,当前患者可能患有药物滥用问题。以这种方式,医疗保健提供者可以向当前患者推荐或提供早期干预。同样,在一些实施例中,可以对与特定疾病相对应的每种药物的反应分数进行排名(例如,从最高到最低)。可以在风险分析显示器上以排名的顺序提供药物和相应的反应分数。在其它实施例中,可以仅将针对特定疾病的排名最高的药物包含在风险分析显示中。

除了显示针对特定疾病的排名最高的药物作为向医疗保健提供者推荐给患者开处方的建议之外,风险分析显示还可以包含用于当前患者的药物的推荐剂量。风险分析显示还可以包含任何社会组学、生理组学、环境学或人口统计学信息,这些信息可能会导致当前患者对药物的反应发生改变(例如,饮食、运动、暴露等发生变化)。此外,风险分析显示可以包含根据当前患者的多药房数据增加或减少其正在服用的药物量的建议。例如,当所推荐的药物可能使当前患者的多药房数据中的一种或几种药物变得多余时,风险分析显示可以包含停止服用这些药物的建议。此类建议可以涉及一种或多种药物、药物组合或其它治疗措施。

在一些实施例中,如果患者正在服用与排名最高的药物不相容的药物,则药理学表型评估服务器102可以推荐具有次高反应分数的药物。例如,药理学表型评估服务器102可以获取当前患者的多药房数据,并将多药房数据内的药物与所推荐的药物进行比较以检查禁忌症。风险分析显示中可以包含与以处方形式开具给当前患者的任何药物都不存在禁忌症的排名最高的药物。

如在上文关于华法林的实例中,可以将当前患者的组学数据与华法林反应通路中与华法林表型相关的74个SNP或31个基因进行比较,以确定当前患者是否具有所述华法林表型中的任何一种。然后,药理学表型评估服务器102或医疗保健提供者可以基于所述比较来确定是否应向当前患者施用华法林或另一种抗凝剂。还可以确定华法林的推荐剂量。例如,当前患者可以具有华法林反应通路中与对华法林的负面反应相关的SNP或基因。因此,药理学表型评估服务器102可以推荐另一种抗凝剂来向当前患者施用。在另一个实例中,当前患者可以具有华法林反应通路中与华法林剂量表型相关的SNP或基因。因此,药理学表型评估服务器102可以基于华法林剂量表型提供推荐剂量以向当前患者施用华法林。在又一个实例中,当前患者可以具有华法林反应通路中与疾病风险相关的SNP或基因,其中华法林可以主动预防凝血、凝固或血栓形成。在任何情况下,医疗保健提供者可以按照推荐的剂量向当前患者施用华法林,或者可以施用另一种抗凝剂。

如在上文关于锂的实例中,可以将当前患者的组学数据与锂反应通路中与锂表型相关的78个SNP或12个基因进行比较,以确定当前患者是否具有所述锂表型中的任何一种。然后,药理学表型评估服务器102或医疗保健提供者可以基于所述比较来确定是否应向当前患者施用锂或另一种精神治疗药物。还可以确定锂的推荐剂量。例如,当前患者可以具有锂反应通路中与对锂的负面反应相关的SNP或基因。因此,药理学表型评估服务器102可以推荐另一种精神治疗药物来向当前患者施用。在另一个实例中,当前患者可以具有锂反应通路中与锂剂量表型相关的SNP或基因。因此,药理学表型评估服务器102可以基于锂剂量表型提供推荐剂量以向当前患者施用锂。在任何情况下,医疗保健提供者可以按照推荐的剂量向当前患者施用锂,或者可以施用另一种精神治疗药物。

除了临床环境之外,可以在用于药物开发和保险应用的研究环境中预测药理学表型。在研究环境中,可能会在研究计划中预测与实验性药物相关的潜在患者队列的药理学表型。可以根据患者的与实验药物有关的预测药理学表型选择患者进行实验性治疗。

此外,当当前患者的药理学表型变为已知时(例如,当前患者在阈值时间量(如一年)后具有药理学表型),则可以将当前患者的组学、社会组学、生理组学和环境学以及表型组学数据添加到训练数据中(框714),并且可以相应地更新统计模型。在一些实施例中,将组学、社会组学、生理组学、环境学和表型组学数据存储在几个数据源716中,如图3中所描述的数据源325a-d。然后,训练模块160可以从数据源716检索数据,以进一步训练模型。

贯穿整个说明书,多个实例可以实施被描述为单个实例的组件、操作或结构。尽管一种或多种方法的各个操作被示出和描述为单独的操作,但是可以同时执行各个操作中的一个或多个,并且不需要以所示的顺序执行操作。在示例配置中作为单独组件呈现的结构和功能可以实施为组合结构或组件。类似地,作为单个组件呈现的结构和功能可以实施为单独的组件。这些和其它变化、修改、添加和改进都落入本文主题的范围内。

另外,本文将某些实施例描述为包含逻辑或多个例程、子例程、应用或指令。这些可以构成软件(例如,在机器可读媒体上或在传输信号中具体化的代码)或硬件。在硬件中,例程等是能够执行某些操作的有形单元并且可以按照某种方式进行配置或布置。在示例实施例中,一个或多个计算机系统(例如,独立的客户端或服务器计算机系统)或者计算机系统的一个或多个硬件模块(例如,处理器或处理器组)可以通过软件(例如,应用或应用部分)被配置成操作以执行如本文所描述的某些操作的硬件模块。

在各个实施例中,可以机械地或电子地实施硬件模块。例如,硬件模块可以包括被永久地配置成执行某些操作的专用电路或逻辑(例如,专用处理器,如场可编程门阵列(FPGA)或专用集成电路(ASIC))。硬件模块还可以包括通过软件被临时地配置成执行某些操作的可编程逻辑或电路(例如,如专用处理器或其它可编程处理器中所包含的)。应了解到,在专用且永久配置的电路中或在临时配置的电路中(例如,通过软件进行配置)机械地实施硬件模块的决策可能受成本和时间考虑驱使。

相应地,术语“硬件模块”应被理解为涵盖有形实体,其是被物理构造、永久配置(例如,硬接线)或临时配置(例如,编程)成以某种方式操作或执行本文所描述的任何操作的实体。考虑到硬件模块被临时配置(例如,编程)的实施例,无需在任何一个时刻配置或实例化每个硬件模块。例如,在硬件模块包括使用软件来配置的通用处理器的情况下,通用处理器在不同时间可以被配置成对应的不同硬件模块。因此,软件可以配置处理器例如以在一个时刻构成特定的硬件模块并且在不同时刻构成不同的硬件模块。

硬件模块可以向其它硬件模块提供信息并且从其它硬件模块接收信息。因而,所描述的硬件模块可以被视为是通信联接的。在多个此类硬件模块同时存在的情况下,可以通过连接硬件模块的信号传输(例如,通过适当的电路和总线)来实现通信。在多个硬件模块在不同时间被配置或实例化的实施例中,可以例如通过在多个硬件模块可以访问的存储器结构中存储和检索信息来实现这种硬件模块之间的通信。例如,一个硬件模块可以执行操作并且将所述操作的输出存储在其通信联接的存储器装置中。然后,另外的硬件模块可以在稍后的时间访问存储器装置以检索和处理所存储输出。硬件模块还可以发起与输入或输出装置的通信,并且可以对资源(例如,信息集合)进行操作。

本文描述的示例方法的各种操作可以至少部分地由被临时配置(例如,通过软件)或永久配置成执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置,此类处理器可以构成操作以执行一个或多个操作或功能的处理器实施模块。在一些实例实施例中,本文所提及的模块可以包括处理器实施模块。

类似地,本文所描述的方法或例程可以至少部分地由处理器实施。例如,方法的操作中的至少一些操作可以由一个或多个处理器或处理器实施的硬件模块执行。操作中的某些的执行可以分布在不仅驻留在单个机器内还跨多个机器部署的一个或多个处理器之间。在一些示例实施例中,一个或多个处理器可以定位在单个位置(例如,在家庭环境中、在办公室环境中或作为服务器场),而在其它实施例中,处理器可以跨多个位置分布。

操作中的某些的执行可以分布在不仅驻留在单个机器内还跨多个机器部署的一个或多个处理器之间。在一些示例实施例中,一个或多个处理器或处理器实施模块可以定位在单个地理位置(例如,在家庭环境、办公室环境或服务器场中)。在其它示例实施例中,一个或多个处理器或处理器实施模块可以跨多个地理位置分布。

除非另外特别说明,否则本文中使用如“处理”、“运算”、“计算”、“确定”、“呈现”、“显示”等词语进行的讨论可以指操纵或转换数据的机器(例如,计算机)的动作或过程,所述数据表示为一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器或其它接收、存储、发送或显示信息的机器组件中的物理(例如,电、磁或光)量。

如本文所使用的,对“一个实施例”或“实施例”的任何提及意味着结合所述实施例描述的特定特征、结构或特性包含在至少一个实施例中。在说明书中各个地方出现的短语“在一个实施例中”未必都指同一实施例。

可以使用表达“联接”和“连接”及其派生词来描述一些实施例。例如,可以使用术语“联接”来描述一些实施例,以表示两个或更多个元件直接物理接触或电接触。然而,术语“联接”还可以意指两个或更多个元件并非彼此直接接触,但仍然彼此协作或交互。实施例并不局限于这些范围。

如本文所使用的,术语“包括(comprises/comprising)”、“包含(includes/including)”、“具有(has/having)”或其任何其它变型均旨在涵盖非排他性的包含。例如,包括一列元件的过程、方法、制品或设备不一定仅限于那些元件,但是可以包含没有明确列出或这种过程、方法、制品或设备所固有的其它元件。此外,除非有相反的明确说明,否则“或”是指包含性的“或”,而不是指排他性的“或”。例如,以下任一项均满足条件A或B:A为真(或存在)并且B为假(或不存在)、A为假(或不存在)并且B为真(或存在)以及A和B均为真(或存在)。

另外,“一个/一种(a/an)”用于描述本文的实施例的元件和组件。这仅仅是为了方便起见并给出一般性描述。此描述和所附的权利要求书应被理解为包含一个或至少一个,并且除非明显地另有所指,否则单数也包含复数。

此详细描述应被解释为仅提供实例,并且未描述每个可能的实施例,因为描述每个可能的实施例将是不切实际的,即使不是不可能的。可以使用当前技术或在本申请的提交日期之后开发的技术来实施许多替代实施例。

61页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:使用光学断层扫描对细胞进行形态计量学基因分型以检测肿瘤突变负荷

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!