基因组数据的重新识别的前摄抗性

文档序号:1343636 发布日期:2020-07-17 浏览:7次 >En<

阅读说明:本技术 基因组数据的重新识别的前摄抗性 (Proactive resistance to re-identification of genomic data ) 是由 屈劲 夏伏彪 毛勇 A·R·曼科维赫 R·J·克拉辛斯基 于 2018-11-30 设计创作,主要内容包括:一种用于评估与来自调查者的请求相关联的风险的方法(100),所述请求是针对来自基因数据的数据库(242)的等位基因频率的,所述方法包括:(i)生成(120)等位基因数据库(280),其包括针对多个等位基因中每个的等位基因频率信息和请求频率信息;(ii)生成(130)调查者数据库(290),其包括关于多个调查者的等位基因请求信息;(iii)接收(140)来自调查者的针对基因数据的请求,包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;(iv)基于接收到的请求来更新(150)请求频率信息;(v)更新(160)针对请求调查者的等位基因请求信息;(vi)计算(170)等位基因风险评分;(vii)计算(180)调查者风险评分;并且(viii)基于所述等位基因风险评分和所述调查者风险评分来评估(190)与接收到的请求相关联的风险。(A method (100) for assessing risk associated with a request from a researcher for allele frequencies from a database (242) of genetic data, the method comprising: (i) generating (120) an allele database (280) comprising allele frequency information and request frequency information for each of a plurality of alleles; (ii) generating (130) a investigator database (290) comprising allele-request information regarding a plurality of investigators; (iii) receiving (140) a request for genetic data from a researcher, comprising a request for allele frequencies of one or more alleles and an identifier of the researcher; (iv) updating (150) the request frequency information based on the received request; (v) updating (160) allele request information for the requesting investigator; (vi) calculating (170) an allele risk score; (vii) calculating (180) a investigator risk score; and (viii) assessing (190) a risk associated with the received request based on the allele risk score and the investigator risk score.)

基因组数据的重新识别的前摄抗性

技术领域

本公开总体上涉及用于评估与对来自基因序列的数据库的信息的请求相关联的风险的方法和系统。

背景技术

通过共享和比较数百万个体的基因型,临床医师和研究人员可以更好地预测基因变体的临床影响,在罕见病例之间实现链接,更好地理解基因型-表现型相关性,并且开发新颖处置。因此,存在使能共享基因组和临床数据的解决方案。

来自全球基因组学与健康联盟的灯塔项目是这样的解决方案的仅一个范例。该项目允许研究人员针对关于特定等位基因的信息查询基因序列的数据库。这通过防止提供基因序列的个体的重新识别来减轻风险,但是解决方案也可以任选地公开与查询的等位基因相关联的额外的元数据,诸如等位基因频率、致病性评分、以及相关联的表现型、以及其他数据。

尽管罕见等位基因常常证明对于研究人员而言是特别感兴趣的,但是这些罕见等位基因还增加了重新识别的概率或简易性。因此,这些数据库可能易受重新识别攻击影响,诸如属性泄露攻击和在其中攻击者查询大量变体的攻击。

属性泄露攻击是攻击者试图确定关于个体的敏感属性是否可以通过可从基因序列的数据库泄露的属性(诸如HIV状态和/或金属健康状态)推断的重新识别攻击,并且通常要求一些先验属性信息。

查询大量变体的攻击者正试图基于基因序列的先验知识或者怀疑来确定基因序列的数据库是否包括特定基因组序列。遗憾的是,用于群体等位基因的模型可以被用于降低这样的攻击中要求的查询的数目。尽管阈值可以针对基因组序列的数据库的查询的数目来设置,但是将阈值设置太低可能使得具有先前信息的攻击者能够获得足够的基因信息,并且将阈值设置太高可能阻止有效研究人员。

发明内容

存在针对与基因序列的数据库的查询相关联的风险的经改进的评估的继续需要。

本公开总体上涉及用于评估与针对来自基因序列的数据库的信息的请求的相关联的风险的发明方法和系统。本文中的各种实施例和实施方式涉及一种系统,包括:等位基因数据库,其包括针对多个等位基因中的每个的等位基因频率信息和请求频率信息;以及调查者数据库,其包括关于多个调查者的等位基因请求信息。所述系统接收来自调查者的基因数据的请求,其包括针对至少一个等位基因的等位基因频率的请求,以及所述调查者的标识符。所述系统基于接收到的请求来更新等位基因数据库和调查者数据库,并且基于经更新的等位基因数据库来计算等位基因风险评分,并且基于经更新的调查者数据库来计算调查者风险评分。所述系统然后可以基于所述等位基因评分和所述调查者风险评分来评估与接收到的请求相关联的风险。

通常在一个方面中,提供了一种用于评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险的方法。所述方法包括以下步骤:(i)生成等位基因数据库,所述等位基因数据库包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;(ii)生成调查者数据库,所述调查者数据库包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;(iii)接收来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;(iv)在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新所述请求频率信息;(v)在所述调查者数据库中基于接收到的调查者标识符来更新针对请求调查者的所述等位基因请求信息;(vi)基于经更新的等位基因数据库来计算等位基因风险评分;(vii)基于经更新的调查者数据库来计算调查者风险评分;并且(viii)基于所述等位基因风险评分和所述调查者风险评分来评估与所述接收到的请求相关联的风险。

根据实施例,评估与接收到的请求相关联的风险的步骤包括以下步骤:(i)将所计算的等位基因风险评分和调查者风险评分进行加和以生成总风险评估评分;并且(ii)将所述总风险评估与预定阈值进行比较。

根据实施例,所述方法还包括在与所述接收到的请求相关联的所述风险被评估为低于预定阈值的情况下允许来自所述调查者的针对基因数据的所述请求的步骤。

根据实施例,所述方法还包括在与所述接收到的请求相关联的所述风险被评估为高于预定阈值的情况下拒绝来自所述调查者的针对基因数据的所述请求的步骤。

根据实施例,所述方法还包括报告与所述接收到的请求相关联的所述风险的步骤。

根据实施例,所述等位基因风险评分是使用以下等式计算的:

其中,Ri是所述基因序列的风险水平,n是罕见等位基因的数目,F(j)是等位基因j的频率,并且指数(i,j)是针对基因序列i的等位基因j的请求的数目。

根据实施例,所述调查者风险评分是使用以下等式计算的:

其中,Dj是针对调查者j的风险水平,m是所述基因序列,n是罕见等位基因的数目,指数(i,j)是针对基因序列i的等位基因j的请求的数目,F(i)是等位基因i的频率,并且Rk是风险水平。

根据实施例,所述方法还包括请求来自所述调查者的额外识别信息的步骤。

根据一方面是一种风险评估系统,其被配置为评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险。所述系统包括:(i)等位基因数据库,其包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;(ii)调查者数据库,其包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;(iii)处理器,其被配置为接收来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符,所述处理器包括:等位基因数据库生成器,其被配置为在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新所述请求频率信息;调查者数据库生成器,其被配置为在所述调查者数据库中基于接收到的调查者标识符来更新针对请求调查者的所述等位基因请求信息;以及风险分析器生成器,其被配置为:(i)基于经更新的等位基因数据库来计算等位基因风险评分;(ii)基于经更新的调查者数据库来计算调查者风险评分;并且(ii)基于所述等位基因风险评分和所述调查者风险评分来评估与所述接收到的请求相关联的风险。。

根据实施例,所述系统还包括被配置为报告所述评估风险的用户接口。

在各种实施方式中,处理器或者控制器可以与一个或多个存储介质(通常地在本文中被称为“存储器”,例如易失性和非易失性计算机存储器,诸如RAM、PROM、EPROM和EEPROM、软盘、压缩光盘、光盘、磁带等)相关联。在一些实施方式中,存储介质可以编码有一个或多个程序,其当在一个或多个处理器和/或控制器上运行时执行本文所讨论的功能中的至少一些。各种存储介质可以被固定在处理器或者控制器内或者可以是可移动的,使得被存储在其上的一个或多个程序可以被加载到处理器或者控制器中,从而实施本文所讨论的本发明的各方面。术语“程序”或者“计算机程序”在一般的意义上在文本中被用于指代可以被用于将一个或多个处理器或者控制器编程的任何类型的计算机代码(例如,软件或者微代码)。

如本文所使用的术语“网络”是指两个或更多个设备(包括控制器或者处理器)的任何互连,其促进任何两个或更多个设备和/或耦合到所述网络的多个设备中间的信息的传输(例如用于设备控制、数据存储、数据交换等)。如应容易意识到的,适于将多个设备互连的网络的各种实施方式可以包括各种网络拓扑中的任一种并且采用各种通信协议中的任一种。此外,在根据本公开的各种网络中,两个设备之间的任何一个连接可以表示两个系统之间的专用连接,或者备选地非专用连接。除了承载旨在用于两个设备的信息之外,这样的非专用连接可以承载不必旨在用于所述两个设备中的任一个的信息(例如,开放网络连接)。此外,应容易理意识到,如本文所讨论的设备的各种网络可以采用一个或多个无线、导线/线缆、和/或光纤链路来促进贯穿网络的信息传输。

应该意识到,以下更详细讨论的前述概念和额外的概念的所有组合(假定这样的概念不相互不一致)被预期为本文公开的发明主题的部分。具体而言,出现在本公开的结束处的请求保护的主题的所有组合被预期为本文公开的发明主题的部分。还应该意识到,本文明确采用的也可以出现在通过引用并入的任何公开中的术语应该被赋予与本文公开的特定概念最一致的含义。

本发明的这些和其他方面将根据在下文中所描述的(一个或多个)实施例而显而易见并且参考在下文中所描述的(一个或多个)实施例得到阐述。

附图说明

在附图中,相似附图标记通常贯穿不用的视图指代相同部分。而且,附图不必按比例绘制,相反重点通常放置于图示本发明的原理上。

图1是根据实施例的用于评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险的方法的流程图;并且

图2是根据实施例的风险评估系统的示意性表示。

具体实施方式

本公开描述了用于评估与提供来自基因序列的数据库的等位基因数据相关联的风险的系统和方法的各种实施例。更一般地,申请人已经识别并且意识到,提供通过确定是否向调查者提供所请求的等位基因数据减轻风险的系统将是有益的。该系统包括:等位基因数据库,其包括针对多个等位基因中的每个的等位基因频率信息和请求频率信息;以及调查者数据库,其包括关于多个调查者的等位基因请求信息。当系统接收来自调查者的基因数据的请求(其包括针对等位基因频率的请求和调查者的标识符)时,等位基因数据库和调查者数据库被更新。系统然后基于经更新的等位基因数据库来计算等位基因风险评分,并且基于经更新的调查者数据库来计算调查者风险评分。系统然后基于等位基因评分和调查者风险评分来评估与接收到的请求相关联的风险。

参考图1,在一个实施例中,是用于评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险的方法100的流程图。在方法的步骤110处,提供了风险评估系统。风险评估系统可以是本文所描述或以其他方式设想的系统中的任一个。

在方法的步骤120处,生成等位基因数据库。等位基因数据库包括从多个基因组序列提取的等位基因频率信息。等位基因数据库还包括针对数据库中的等位基因中的每个的请求频率信息。请求频率信息包括针对关于相应等位基因的信息的先前请求的计数。

等位基因频率信息是关于一个或多个基因序列的集合中的等位基因的发生频率或者基因或DNA序列的变体的信息。例如,等位基因频率信息可以包括在序列的集合或者数据库内找到的基因序列内的单核苷酸多态性(SNP)的频率。基因序列可以是全基因组序列和/或部分序列,诸如外显子组或个体基因或其他基因组区域。

仅作为一个范例,如果数据库包括多个基因序列并且rs1805007处的C等位基因对T等位基因的相对频率是9:1,rs1805007的C等位基因的频率是90%或0.9并且rs1805007的T等位基因的频率是10%或0.1。当新基因序列被添加到集合时,基因序列被分析用于其rs1805007处的等位基因值(除了一个或多个其他位置之外),并且等位基因数据库中的rs1805007的等位基因频率信息被更新。基因序列和等位基因频率信息可以被存储在相同或者不同数据库中。例如,基因序列可以被存储在一个或多个远程数据库中,并且编译的等位基因频率信息可以被存储在单个本地或者远程数据库中,尽管多个数据库是可能的。

根据实施例,等位基因频率信息和请求频率信息被存储在数据库表或者其他存储介质中。参考表1,例如,是等位基因频率表的实施例。在该表中,存在m个基因序列(基因序列1、2、i、...m)和n个等位基因(等位基因1、2、j、...n)。针对每个等位基因提供等位基因频率F(1、2、j、…n)。

表1、等位基因频率表

表1还包括请求频率信息,包括针对关于相应等位基因的信息的先前请求的计数。在表1中,每个基因组中的每个等位基因的指数指示关于该等位基因的信息的先前请求的计数。针对每个等位基因的指数被设置为“0”,直到其被查询。当等位基因j被查询时,例如,包含等位基因j的每个基因序列的指数被改变为“1”,而不包含等位基因j的每个基因序列的指数保持在“0”处。当等位基因j下一次再次被查询时,包含等位基因j的每个基因序列的指数从“1”改变为“2”,而不包含等位基因j的每个基因序列的指数保持为“0”。以这种方式,系统跟踪针对关于每个等位基因的信息的请求的计数。类似地,系统跟踪每个基因序列已经报告的等位基因的数目。

在方法的步骤130处,生成调查者数据库。调查者数据库包括关于多个调查者的等位基因请求信息,包括关于由调查者中的每个先前请求的等位基因频率信息的信息。调查者数据库可以被存储在与等位基因频率信息和/或基因序列相同的数据库中,或者可以远离包括等位基因频率信息和/或基因序列的数据库来存储。调查者信息可以被存储在单个本地或远程数据库中,但是多个数据库是可能的。

存储在调查者数据库中的关于调查者的信息可以包括关于真实或者自动化的个体或者实体的任何识别信息,其向风险评估系统提交查询。系统可以收集识别信息,诸如IP地址、电子邮件地址、名字、电话号码、坐标或者位置、地址、制度或研究设施关联、凭证、和/或任何其他识别或者潜在识别信息。存储在调查者数据库内的等位基因频率信息可以包括关于基因序列的集合中的一个或多个等位基因的发生频率的信息。调查者数据库还包括关于由调查者先前请求的等位基因频率信息的信息。调查者数据库使用任何方法跟踪由调查者请求的等位基因,其被用于后续风险评估。

根据实施例,关于调查者和调查者查询的信息被存储在数据库表或其他存储介质中。参考表2,例如,是调查者查询表的实施例。在该表中,存在m个基因序列,n个等位基因(等位基因1、2、i、...n)、和q个调查者(调查者1、2、j、...q)。针对每个等位基因提供等位基因频率F(1、2、i、…n)。

表2、调查者查询表

等位基因频率 调查者1 调查者2 调查者j 调查者q
等位基因1 F1 指数(1,1)
等位基因2 F2
等位基因i F(i) 指数(i,j)
等位基因n F(n)

表2还包括请求频率信息,包括针对关于相应等位基因的信息的先前请求的计数。与表1相对,针对每个调查者维持针对关于每个相应等位基因的信息的先前请求的计数。针对每个调查者的每个等位基因的指数被设置为“0”,直到其由该调查者查询。当调查者j查询等位基因i时,例如,等位基因i处的调查者j的指数被改变为“1”以反映请求。当调查者1查询等位基因1时,等位基因1处的调查者1的指数被改变为“1”以反映请求。

在方法的步骤140处,风险评估系统接收来自调查者的针对信息的请求。针对信息的请求包括针对一个或多个等位基因的等位基因频率的请求,并且优选地包括关于调查者的识别信息。针对信息的请求可以是直接提交给风险评估系统的查询,或者可以提交给基因序列的数据库并且由风险评估系统拦截、转移到风险评估系统、或者重新路由到风险评估系统,作为安全措施。调查者可以是经由本地或者远程用户接口提交请求的人,或者可以是计算机或者其他自动化或者计算机化实体,其被编程或者以其他方式引导以查询基因信息的数据库。请求可以要么本地要么远程提交,并且可以经由无线和/或有线通信做出。根据实施例,基因信息的数据库包括允许调查者请求信息的API或其他门户、网关、或接口。

针对信息的请求包括针对一个或多个等位基因的等位基因频率的请求。例如,查询可以包括请求等位基因频率信息的等位基因、SNP、和/或基因组位置的列表。研究人员可能希望知道rs1805007处的等位基因A的频率。因此,请求可以包括参考SNP ID号、染色体位置、和/或任何其他信息。

针对信息的请求包括关于调查者的调查者信息。例如,请求可以包括识别信息,诸如IP地址、电子邮件地址、名字、电话号码、坐标或者位置、地址、制度或研究设施关联、凭证、和/或任何其他识别或者潜在识别信息。

在方法的步骤150处,等位基因数据库基于针对信息的接收到的请求中识别的一个或多个等位基因来更新。针对信息的接收到的请求中所识别的一个或多个等位基因中的每个的请求频率增加以反映最新请求。参考表1,例如,如果等位基因j被查询时,包含等位基因j的每个基因序列的指数被改变为“1”,而不包含等位基因j的每个基因序列的指数保持为“0”。

在方法的步骤160处,调查者数据库基于在针对信息的接收到的请求中提供或者由针对信息的接收到的请求提供的调查者信息来更新。针对请求或者查询调查者的信息的接收到的请求中所识别的一个或多个等位基因中的每个的请求频率增加以反映最新请求。参考表2,例如,如果调查者j查询等位基因i时,例如,等位基因i处的调查者j的指数被改变为“1”以反映请求。

在方法的步骤170处,风险评估系统基于经更新的等位基因数据库来计算等位基因风险评分。等位基因风险评分基于等位基因数据库中的所有序列中间的等位基因的频率。因此,尽管等位基因在公众中可能是非常罕见的,但是其在等位基因数据库中可能常见并且因此存在低等位基因风险评分。类似地,尽管等位基因通常可能是非常常见的,但是其在等位基因数据库中可能是罕见的并且因此存在高等位基因风险评分。

风险评估系统的风险管理器基于针对该特定序列的请求信息、等位基因频率、和/或请求历史来确定基因信息的数据库中的特定序列的风险水平。等位基因的频率越低,包含该等位基因的(一个或多个)基因组序列能够重新识别的概率越大。因此,等位基因频率的倒数可以被用于表达重新识别序列的可能性。根据实施例,针对数据库中的基因序列的风险水平使用等式1计算:

其中,Ri是第i个基因序列的风险水平,n是罕见等位基因的数目,F(j)是等位基因j的频率,并且指数(i,j)是针对基因序列i的等位基因j的请求的数目。

等位基因数据库可以跟踪针对每个基因序列m的风险水平。参考表3,例如,是等位基因表,其中,每个基因序列m包括基于针对该基因序列的等位基因频率以及针对在该基因序列内找到的等位基因的等位基因频率的请求的数目的该基因序列的风险水平R(m)。该风险水平可以利用每个新请求来更新。

表3、具有风险水平的等位基因频率表

根据实施例,风险水平可以基于一个或多个其他内部和/或外部信息块来修改。例如,如果关于存储在基因信息的数据库内的基因序列的信息公开或者在另一可访问数据库中可用,则相应地针对该基因序列的风险水平增加,因为重新识别可以是更容易的。例如,如果个体的基因组的全部或部分已经公开或者经由可访问数据库可用,则实体可以通过例如查询已知等位基因更容易地确定个体的基因组是否被存储在基因信息的数据库内。

在方法的步骤180处,风险评估系统基于经更新的调查者数据库来计算调查者风险评分。调查者风险评分基于由调查者请求的等位基因的数目,以及数据库中的那些等位基因的数目。

风险评估系统的风险管理器确定调查者数据库或者查询表中的特定调查者的风险水平。根据实施例,针对数据库中的调查者的风险水平使用等式2来计算:

其中,Dj是针对调查者j的风险水平,m是基因序列,n是罕见等位基因的数目,指数(i,j)是针对基因序列i的等位基因j的请求的数目,F(i)是等位基因i的频率,并且Rk是风险水平。

调查者数据库可以跟踪针对每个调查者q的风险水平。参考表4,例如,是调查者表,其中,每个调查者(1、2、j、...q)包括基于调查者已经在该和任何先前请求中请求的等位基因的等位基因频率的该调查者的风险水平D(q)。调查者风险水平可以利用每个新请求来更新。

表4、具有风险水平的调查者查询表

等位基因频率 调查者1 调查者2 调查者j 调查者q
等位基因1 F1 指数(1,1)
等位基因2 F2
等位基因i F(i) 指数(i,j)
等位基因n F(n)
风险水平 D1 Dj Dq

根据实施例,调查者风险水平可以基于一个或多个其他内部和/或外部信息块来修改。例如,如果已知关于调查者数据库内的调查者的信息,诸如与调查者相关联的高风险因子,则相应地针对该调查者的风险水平可以增加。根据另一实施例,如果调查者是新或未知的,或预定时间框架内尚未访问或查询数据库,则相应地针对该调查者的风险水平可以增加。还可以存在调查者的风险水平减小的情况,诸如利用两因子验证、生物测定验证、或其他验证方法,其增加调查者有效并且不太可能试图重新识别数据库中的基因序列的可能性。

在方法的步骤190处,风险评估系统评估与针对来自基因信息的数据库的信息的接收到的请求相关联的风险。该评估至少部分地基于计算的等位基因风险评分和计算的调查者风险评分。

根据一个实施例,计算的等位基因风险评分和计算的调查者风险评分可以包括总风险评估评分,其是与接收到的请求相关联的风险。例如,总和可以是等式1和等式2的输出的总和,但是计算总风险评估评分的其他方法是可能的。

根据一个实施例,等位基因风险评分和调查者风险评分的总和与一个或多个阈值进行比较以确定风险水平。例如,风险评估系统可以包括连续或一系列风险水平值,诸如无风险、低风险、中等风险、以及高风险值。如果等位基因风险评分和调查者风险评分的总和根据系统的风险容限满足和/或超过高风险值或者中等风险值,则风险评估系统可以确定风险太大并且调查应当被拒绝。如果等位基因风险评分和调查者风险评分的总和根据系统的风险容限落在高风险值或者中等风险值之下,则风险评估系统可以确定风险是可接受的并且调查应当被允许。

在方法的步骤192处,风险评估系统可以通过允许或者拒绝来自调查者的针对基因信息的接收到的请求来实施所评估的风险。例如,如果所评估的风险由风险评估系统确定为是太大的,则系统将拒绝接收到的请求。如果所评估的风险由风险评估系统确定为是可接受的,则系统将准许接收到的请求。拒绝或者准许接收到的请求可以包括允许查询行进到数据库或者防止查询行进到数据库。类似地,拒绝或者准许接收到的请求可以包括防止从查询检索的信息被提供到调查者,或者允许检索的信息被提供到调查者。因此,请求可以在查询过程中任何点处被允许或者拒绝。

作为步骤192处的另一选项,风险评估系统可以响应于评估的风险而请求来自调查者的额外信息。例如,如果调查者不能被识别、或者如果调查者被识别为高风险调查者、或者如果调查者正请求触发高等位基因风险评分的信息,则风险评估系统可以请求关于调查者的身份的信息。根据实施例,风险评估系统可以要求调查者注册为系统的用户,并且因此必须提供足够的识别信息。

在方法的步骤194处,风险评估系统可以报告所评估的风险。所评估的风险的报告可以被存储用于分析、立即报告、和/或在请求时可用。报告可以包括关于请求的(一个或多个)等位基因、调查者的身份、所计算的等位基因风险评分和调查者风险评分、评估的风险水平、时间和日期、和/或任何其他信息的信息。该信息可以被存储在数据库中、被显示在用户接口上、被提供在打印报告中、或以其他方式存储或者提供。例如,风险评估系统可以立即将评估的风险水平报告给风险评估系统的管理员。报告可以全部或者部分基于所评估的风险水平。例如,报告可以针对每个请求提供,或者可以仅响应于高风险请求或者调查者而提供,以及许多其他选项。

参考图2,在一个实施例中,是风险评估系统200的示意性表示,诸如风险管理器。系统200可以包括本文所描述或以其他方式预想的模块、元件、数据库、处理器、和/或其他部件中的任一个。

根据实施例,系统200包括用户接口210以接收来自管理员的输入,和/或向管理员提供诸如风险评估的信息。用户接口可以是允许信息传达和/或接收的任何设备或系统,诸如扬声器或屏幕,以及许多其他类型的用户接口。信息还可以传达给计算设备或者自动化系统和/或从计算设备或自动化系统接收。用户接口可以与系统的一个或多个其他部件一起定位,或者远离系统定位并且经由有线和/或无线通信网络通信。

根据实施例,系统200包括执行方法的一个或多个步骤的处理器220,并且可以包括模块中的一个或多个。处理器220可以由一个或多个模块形成,并且可以包括例如存储器230。处理器220可以采取任何适合的形式,包括但不限于微控制器、多个微控制器、电路、单个处理器、或多个处理器。存储器230可以采取任何适合的形式,包括非易失性存储器和/或RAM。非易失性存储器可以包括只读存储器(ROM)、硬盘驱动器(HDD)、或固态驱动器(SSD)。除了其他事物,存储器可以存储操作系统。RAM可以由处理器用于数据的瞬态存储。根据实施例,操作系统可以包含在由处理器运行时控制系统200的一个或多个部件的操作的代码。

根据实施例,系统200包括等位基因数据库生成器240,等位基因数据库生成器240可以是处理器、一个或多个处理器的部件、和/或软件算法。等位基因数据库生成器240生成等位基因数据库280,等位基因数据库280包括从多个基因组序列提取的等位基因频率信息。等位基因数据库还包括针对数据库中的等位基因中的每个的请求频率信息,其包括针对关于相应等位基因的信息的先前请求的计数。如本文所描述或以其他方式设想的,等位基因频率信息是关于一个或多个基因序列的集合中的等位基因的发生频率或者基因或DNA序列的变体的信息。基因序列可以是全基因组序列和/或部分序列,诸如外显子组或个体基因或其他基因组区域。表1和3中所提供的信息仅是信息的类型和信息的结构的几个范例,然后可以包括在等位基因数据库280中。

等位基因数据库生成器240使用来自多个基因序列的信息生成等位基因数据库280,所述基因序列可以是全基因组序列和/或部分序列,诸如外显子组或个体基因或其他基因组区域。根据实施例,基因序列被存储在基因信息数据库242中,基因信息数据库242可以是系统200的部件,或者可以远离系统200但是与系统200通信。例如,等位基因数据库生成器240可以经由有线和/或无线通信链路与基因信息数据库242通信以便从存储在基因信息数据库中的基因序列提取等位基因频率信息。

根据实施例,等位基因数据库生成器240还响应于来自调查者的针对信息的请求而更新等位基因数据库280。针对信息的请求包括针对一个或多个等位基因的等位基因频率的请求。针对信息的请求可以是直接提交给风险评估系统的查询,或者可以提交给基因序列的数据库并且由风险评估系统拦截、转移到风险评估系统、或者重新路由到风险评估系统,作为安全措施。调查者可以是经由本地或者远程用户接口提交请求的人,或者可以是计算机或者其他自动化或者计算机化实体,其被编程或者以其他方式引导以查询基因信息的数据库。请求可以要么本地要么远程提交,并且可以经由无线和/或有线通信做出。

利用针对一个或多个等位基因的等位基因频率的请求,等位基因数据库生成器240更新等位基因数据库280。根据实施例,针对信息的接收到的请求中所识别的一个或多个等位基因中的每个的请求频率增加以反映最新请求。参考表1,例如,如果等位基因j被查询时,则包含等位基因j的每个基因序列的指数被改变为“1”,而不包含等位基因j的每个基因序列的指数保持在“0”处。

根据实施例,系统200包括调查者数据库生成器250,调查者数据库生成器250可以是处理器、一个或多个处理器的部件、和/或软件算法。调查者数据库生成器250生成调查者数据库290,调查者数据库290包括关于多个调查者的等位基因请求信息,以及关于由调查者中的每个先前请求的等位基因频率信息的信息。调查者数据库290可以是单个本地或远程数据库,或者可以包括多个数据库。

存储在调查者数据库内的关于调查者的信息可以包括关于真实或者自动化的个体或者实体的任何识别信息,其向风险评估系统提交查询。系统可以收集识别信息,诸如IP地址、电子邮件地址、名字、电话号码、坐标或者位置、地址、制度或研究设施关联、凭证、和/或任何其他识别或者潜在识别信息。存储在调查者数据库内的等位基因频率信息可以包括关于基因序列的集合中的一个或多个等位基因的发生频率的信息。调查者数据库还包括关于由调查者先前请求的等位基因频率信息的信息。调查者数据库使用任何方法跟踪由调查者请求的等位基因,其被用于后续风险评估。表2和4中所提供的信息仅是信息的类型和信息的结构的几个范例,然后可以包括在调查者数据库290中。

根据实施例,调查者数据库生成器250还响应于来自调查者的信息的请求来更新调查者数据库290。针对信息的请求包括针对一个或多个等位基因的等位基因频率的请求,以及关于请求或者查询调查者的身份的信息。例如,针对请求或者查询调查者的信息的接收到的请求中所识别的一个或多个等位基因中的每个的请求频率增加以反映最新请求。参考表2,例如,如果调查者j查询等位基因j,例如,等位基因i处的调查者j的指数被改变为“1”以反映请求。

根据实施例,系统200包括风险分析器260,风险分析器260可以是处理器、一个或多个处理器的部件、和/或软件算法。风险分析器260基于经更新的等位基因数据库来计算等位基因评分,基于经更新的调查者数据库来计算调查者风险评分,和/或至少部分地基于所计算的等位基因风险评分和所计算的调查者风险评分来评估与针对来自基因信息的数据库的信息的接收到的请求相关联的风险。

等位基因风险评分基于等位基因数据库中的所有序列中间的等位基因的频率。例如,风险分析器260基于针对该特定序列的请求的信息、等位基因频率、和/或请求历史来确定等位基因风险评分。根据仅一个实施例,针对数据库中的基因序列的风险水平使用本文中详细描述的等式1来计算。除了生成和存储的许多其他方法之外,可以生成和/或存储等位基因风险评分,如结合表3所描述的。

根据实施例,等位基因风险评分或者风险水平可以基于一个或多个其他内部和/或外部信息块来修改。例如,如果关于存储在基因信息的数据库内的基因序列的信息公开或者在另一可访问数据库中可用,相应地针对该基因序列的风险水平增加,因为重新识别可以是更容易的。

调查者风险评分基于由调查者请求的等位基因的数目,以及数据库中的那些等位基因的数目。根据仅一个实施例,针对调查者数据库中的特定调查者的风险水平使用本文中详细描述的等式2来计算。除了生成和存储的许多其他方法之外,可以生成和/或存储针对调查者的风险水平,如结合表4所描述的。

根据实施例,调查者风险水平可以基于一个或多个其他内部和/或外部信息块来修改。例如,如果已知关于调查者数据库内的调查者的信息,诸如与调查者相关联的高风险因子,则相应地针对该调查者的风险水平可以增加。根据另一实施例,如果调查者是新或未知的,或预定时间框架内尚未访问或查询数据库,则相应地针对该调查者的风险水平可以增加。还可以存在调查者的风险水平减小的情况,诸如利用两因子验证、生物测定验证、或其他验证方法,其增加调查者有效并且不太可能试图重新识别数据库中的基因序列的可能性。

风险分析器260至少部分地基于所计算的等位基因风险评分和所计算的调查者风险评分来评估与针对来自基因信息的数据库的信息的接收到的请求相关联的风险。例如,所计算的等位基因风险评分和所计算的调查者风险评分的总和可以包括与接收到的请求相关联的风险。除了许多其他可能的方法之外,总和可以是等式1和等式2的输出的总和。所计算的风险可以与一个或多个阈值进行比较以确定如本文所描述或以其他方式设想的风险水平。

系统200可以通过允许或者拒绝来自调查者的针对基因信息的接收到的请求实施所评估的风险。例如,风险分析器260可以向系统提供风险评估的结果,或者风险分析器260可以基于风险评估来允许或者拒绝接收到的请求。例如,如果所评估的风险由风险评估系统确定为是太大的,则系统拒绝接收到的请求。如果所评估的风险由风险评估系统确定为是可接受的,则系统允许接收到的请求。系统可以响应于评估的风险而请求来自调查者的额外信息。例如,如果调查者不能被识别、或者如果调查者被识别为高风险调查者、或者如果调查者正请求触发高等位基因风险评分的信息,则风险分析器260可以引导系统请求关于调查者的身份的信息。

根据实施例,系统200包括报告生成器270,报告生成器270可以是处理器、一个或多个处理器的部件、和/或软件算法。报告生成器270被配置为生成由系统200执行的风险评估的报告。报告可以经由用户接口210、和/或通过用于报告的任何其他系统、设备、机构、或方法提供给用户。系统200还可以被配置为生成由系统200执行的风险评估的打印报告。报告可以包括关于请求的(一个或多个)等位基因、调查者的身份、计算的等位基因风险评分和调查者风险评分、评估的风险水平、时间和日期、和/或任何其他信息的信息。报告可以全部或者部分基于评估的风险水平。例如,报告可以针对每个请求提供,可以仅响应于高风险请求或者调查者而提供,以及许多其他选项。

根据实施例,用于评估与针对关于来自基因序列的数据库的等位基因频率数据的信息的请求相关联的风险的本文所描述或以其他方式设想的方法和系统显著地改进基因序列数据共享系统的安全性。这节省计算能力并且改进系统的效率。

如本文所定义和使用的所有定义应被理解为控制在字典定义、通过引用并入的文献中的定义和/或所定义的术语的普通含义上。

如本文中在说明书和权利要求书中所使用的词语“a(一)”和“an(一个)”应被理解为意指“至少一个”,除非明确相反指示。

如在本说明书和权利要求书中所使用的短语“和/或”应该被理解为是指如此联合的元素中的“任一个或两者”,即在一些情况下联合存在并且在其它情况下分离存在的元素。利用“和/或”列出的多个元素应该以相同的方式解释,即如此联合的元素中的“一个或多个”。除了由“和/或”子句特别识别的元素,其他元素可以任选地存在,不管与具体识别的那些元素相关还是不相关。

如在本说明书和权利要求书中所使用的,“或”应当被理解为具有与上面所定义的“和/或”相同的含义。例如,当在列表中分离项目时,“或”或“和/或”应被解释为包含性的,即包括多个元素或元素列表中的至少一个元素,但也包括多于一个元素,以及任选的其他未列出项目。仅清楚地指示为相反的术语,诸如“仅一个”或“确切地一个”,或者,当在权利要求中使用时,“由...组成”,将指包括多个元素或元素列表中的确切地一个元素。通常,如本文使用的术语“或”仅当前面有排他性术语(例如“任一个”,“...中的一个”,“...中的仅一个”,或者“...中的确切地一个”)时才应解释为指示排他性备选(即,“一个或另一个但是并非两者”)。

如本文中在说明书和权利要求书中所使用的,涉及一个或多个元素的列表的短语“至少一个”应该被理解为是指选自元素列表中的元素中的任何一个或多个的至少一个元素,但是不必包括元素列表内具体列出的每一个元素和每个元素中的至少一个,并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”涉及的元素列表内具体识别的元素之外元素可以任选地存在,而不管与具体识别的那些元素相关还是不相关。

还应该理解,除非明确地相反指示,在本文所要求保护的包括多于一个步骤或动作的任何方法中,方法的步骤或动作的顺序不必限于叙述该方法的步骤或动作的顺序。

在权利要求书以及上面的说明书中,所有的过渡性短语,诸如“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”、“保持”、“带有”等等应被理解为是开放式的,即意味着包括但不限于。只有过渡性短语“由...组成”和“实质上由...组成”应分别是封闭式或半封闭式过渡短语。

尽管在本文中已经描述并且图示了若干发明实施例,但是本领域的普通技术人员将容易预想到用于执行功能和/或获得结果和/或本文所描述的优点中的一个或多个的各种其他模块和/或结构,并且这样的变型和修改中的每个被认为是在本文所描述的发明实施例的范围内。更一般地,本领域的技术人员将容易意识到,在本文中所描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用发明教导的一个或多个特定应用。本领域的技术人员将认识到或者能够使用不超过常规试验确定本文所描述的特定发明实施例的许多等价方案。因此,应理解,前述实施例仅通过范例呈现,并且在权利要求书和其等价方案的范围内,可以实践除特别地所描述和要求保护外的发明实施例。本公开的发明实施例涉及本文所描述的每个个体特征、系统、制品、材料、工具和/或方法。另外,如果这样的特征、系统、制品、材料、工具和/或方法不互相矛盾,则两个或更多个这样的特征、系统、制品、材料、工具和/或方法的任何组合被包括在本公开的发明范围内。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:产业机械起动控制系统、起动控制方法及程序

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!