单基因病名称的推荐方法和系统

文档序号:88108 发布日期:2021-10-08 浏览:43次 >En<

阅读说明:本技术 单基因病名称的推荐方法和系统 (Recommendation method and system for single-gene disease name ) 是由 马旭 陈翠霞 曹宗富 蔡瑞琨 李乾 殷哲 于 2021-06-09 设计创作,主要内容包括:本发明公开一种单基因病名称的推荐方法和系统,能够精准、高效、全面的推荐出用户所患的单基因病名称。该方法包括:将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记;基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征一一对应的最佳标准临床特征;分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,并累加得到总离散增量;令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。(The invention discloses a method and a system for recommending a single-gene disease name, which can accurately, efficiently and comprehensively recommend the single-gene disease name suffered by a user. The method comprises the following steps: marking the nodes of the clinical characteristics in the characteristic set I input by the user on a standardized clinical characteristic phenotype tree; traversing the nth single-gene disease name in the feature relation database, and marking the nodes of the standard clinical features in the corresponding feature set A on the standardized clinical feature phenotype tree; matching the optimal standard clinical characteristics which are in one-to-one correspondence with each clinical characteristic of the characteristic set I from the characteristic set A based on the node marks on the standardized clinical characteristic phenotype tree; respectively calculating discrete increments of each clinical characteristic and the corresponding optimal standard clinical characteristic link, and accumulating to obtain a total discrete increment; and (3) traversing the nth single-gene disease name in the characteristic relational database again by n &#43;1 until the single-gene disease name in the characteristic relational database is completely traversed, summarizing and sorting the total discrete increments corresponding to the characteristic set I and each characteristic set A, and outputting the single-gene disease name corresponding to the minimum total discrete increment.)

单基因病名称的推荐方法和系统

技术领域

本发明涉数字医疗

技术领域

,尤其涉及一种单基因病名称的推荐方法和系统。

背景技术

出生缺陷又称先天缺陷,是指由于先天性、遗传性和不良环境等原因引起的出生时的各种结构性畸形和功能性异常的总称。全国出生缺陷率高达5.6%,我国年出生人口1600-2000万,每年新增出生缺陷数约为90万例,其中出生时临床明显可见的出生缺陷约有25万例,部分出生缺陷发生率呈上升态势。出生缺陷按照病因学分类可以分为三类:一是遗传因素引起的,包括染色体异常和单基因病突变;二是环境因素引起的,包括理化生物和生活方式等方面;三是遗传和环境因素共同作用导致。

除了染色体疾病,单基因病是引起出生缺陷最主要的遗传学病因。单基因遗传病是指疾病的发生主要受一个基因座上的基因控制,由于单个基因的突变而引起的遗传病,又称孟德尔遗传病。它的遗传方式遵循孟德尔定律,突变既可来自父母,也可源于自身,都有遗传给下一代的可能。它是由一对等位基因突变导致的疾病,又称孟德尔式遗传病,由于我国人口基数大,总数已近千万,已经对人口健康构成了较大的威胁。根据世界卫生组织WHO统计,在全球出生人口中所有单基因遗传病的累计发病率高达10%。单基因遗传病危害严重,大多数会致畸,致残甚至致死,缺乏有效治疗手段。

单基因病存在如下复杂的特点:1、单基因病种类繁多,目前OMIM数据库中记录的已经超过8000种,总发病率也高达1%以上;2、单基因病表型复杂,同一种单基因病表型异质性强,存在不同单基因病之间临床特征相互重叠的现象;3、单基因病遗传模式多样化,即使同一种单基因病,也可能表现为不同的遗传模式,不同的单基因病也可表现为相同的遗传模式。这些复杂因素将使得临床医生很难对所有的单基因病表型都非常了解,给单基因病临床诊疗带来了极大的困难,极易造成误诊和漏诊,也使得单基因病患者不得不反复到不同医院就诊,增大了单基因病患者家庭的经济负担和压力。

三级预防策略对单基因病的预防和控制发挥了较大的作用,一级预防指防止出生缺陷儿的发生,目前的措施有婚前检查、遗传咨询、孕前保健等,但其特异性不足,不能有效预防遗传性出生缺陷;二级预防指在孕期通过早发现、早诊断和早干预,减少缺陷儿的出生,孕产期保健服务、产前筛查和产前诊断是目前二级预防的主要措施;三级预防是指在出生缺陷儿的出生后采取及时、有效的诊断和治疗康复,以提高患儿的生活质量,防止或降低因病致残,促进健康,目前的主要措施有先天性甲低、PKU等遗传代谢病和听力障碍筛查工作。

随着精准医学时代到来,单基因病出生缺陷需要更加精准的三级预防。单基因病出生缺陷的精准预防必须对单基因病进行准确诊断,而准确的诊断不能仅仅依靠临床特征等表型信息,更需要通过遗传检测技术查明影响单基因病家庭或患儿的致病基因和突变。一旦查明单基因病家庭或患儿的致病基因和突变,则可以在三级预防的不同阶段进行更精准更有效的干预。通过单基因病家庭的致病突变确认,可进行遗传咨询和生育指导,譬如通过植入前诊断或孕早期的产前诊断避免患儿的出生,实现更精准的一级和二级预防。精准医学时代下,单基因病的确诊最终需要通过遗传检测技术来帮助鉴定受累家庭或个体携带的致病变异,从而对单基因病患者和家庭进行遗传咨询和出生缺陷干预指导。通过对单基因病致病突变的遗传检测筛查,可早期发现早期确诊患儿,便可以早期进行治疗和康复,实现更精准的三级预防。

高通量基因组技术带来了基因组学大数据。计算机信息技术和数据库技术的不断成熟使得基因组学大数据能够方便的以各种形式进行高效率存储,为基因组学大数据的分析挖掘和共享提供了可能。在精准医学产生和发展的过程中,由于高通量而且成本急剧降低的测序技术在单基因病、肿瘤等复杂疾病中的大量应用,使得每天的数据量呈指数级增长,这些数据和其他组学数据和表型信息一起,组成了海量的生物医学数据。

虽然遗传基因测序技术作为临床单病例的单基因疾病分子诊断已经被证明了其可行性,也比传统检测方法可以节省时间。但是,目前市场上出现的单基因疾病高通量检测一般是单项或者常见几百种单基因病,检测成本从单项检测500到高覆盖率的为60000元不等,检测周期是:一般实验结果2-3周,纸质报告20工作日,成本昂贵且周期长。例如,华大基因、博奥检验、金维智、百迈客、安诺优达、万康源基因等推出的遗传基因检测相关的服务重在测序,是最基本的基础数据分析,挖掘相对粗略,同时对单基因病覆盖度也有限制,没有深入结合临床疾病表型和功能变异注释相关信息,确认单基因病及相关变异,没有精准和个性化的遗传解读分析。

发明内容

本发明的目的在于提供一种单基因病名称的推荐方法和系统,能够基于用户的临床特征,精准、高效、全面的推荐出用户所患的单基因病名称,有助于为临床医生对单基因病的辅助诊断和鉴别诊断提供线索。

为了实现上述目的,本发明的第一方面提供一种单基因病名称的推荐方法,包括:

根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;

将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;

遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;

基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征一一对应的最佳标准临床特征;

根据共处根节点的临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,并累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量;

令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

优选地,链路分布的获取方法包括:

所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;

遍历所述特征集合I中的第i个临床特征,从所述特征集合A中匹配出与所述第i个临床特征对应的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;

令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;

将所述特征集合I中的全部临床特征,以及特征集合A中一一对应的最佳标准临床特征在标准化临床特征表型树上做节点标记,统计出每个临床特征所对应的第一链路,以及每个最佳标准临床特征所对应的第二链路。

较佳地,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量的方法包括:

分别计算每个共处根节点中的第一链路对应的离散量,以及每条第二链路对应的离散量;

针对共有节点的第一链路与第二链路,计算所述第一链路和所述第二链路对应的离散增量;

遍历包括共有节点的每一条第一链路及每一条第二链路,分别计算任意第一链路与任意第二链路对应的离散增量。

进一步地,针对共有节点的第一链路与第二链路,计算所述第一链路和所述第二链路对应的离散增量的方法包括:

获取第一链路与第二链路中共有节点的数量第一链路中所有节点的数量第一链路中每个共有节点对单基因病的贡献度总和第一链路中的特征集合与特征集合A的Jaccard距离第一链路中的特征集合与特征集合A的富集显著性值

采用公式计算第j个临床特征在第一链路中的离散增量,所述Ij表示第j个临床特征;

获取第一链路与第二链路中共有节点的数量第二链路中所有节点的数量第二链路中每个共有节点对单基因病的贡献度总和第二链路中的特征集合与特征集合A的Jaccard距离第二链路中的特征集合与特征集合A的富集显著性值

采用公式计算第j个最佳标准临床特征在第二链路中的离散增量,所述Aj表示第j个最佳标准临床特征。

进一步地,累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量的方法包括:

采用公式计算特征集合I与第n个单基因病名称的总离散增量;其中,

D(N1+N2)=(N1+N2)logb(N1+N2)-N1logbN1-N2logbN2

D(Ne 1+Ne 2)=(Ne 1+Ne 2)logb(Ne 1+Ne 2)-Ne 1logbNe 1-Ne 2logbNe 2

优选地,根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树的方法包括:

从单基因病的公共数据库和文献数据库,获得已知的单基因病名称及其对应的标准临床特征;

基于已知的单基因病名称及其对应的标准临床特征,建立单基因病名称与标准临床特征的特征关系数据库。

与现有技术相比,本发明提供的人乳头瘤病毒HPV分型与风险性预测方法具有以下有益效果:

本发明提供的单基因病名称的推荐方法中,首先基于单基因病名称的特征关系数据库构建单基因病的标准化临床特征表型树,然后将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记,并遍历特征关系数据库中的第n个单基因病名称,将当前第n个单基因病名称对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,接着根据标准化临床特征表型树上的节点标记,从特征集合A中分别匹配出与特征集合I中每个临床特征一一对应的最佳标准临床特征,并根据每个临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,进而累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量,在此之后,令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

可见,本发明提供的单基因病名称的推荐方法的使用过程具有便捷友好的特点,通过即时搜索和表型树可以非常方便的输入标准化的临床特征,可以精准、高效、全面的推荐出用户所患的单基因病名称,有助于为临床医生对单基因病的辅助诊断和鉴别诊断提供线索。

本发明的第二方面提供一种单基因病名称的推荐系统,应用于上述技术方案所述的单基因病名称的推荐方法中,所述系统包括:

数据获取单元,用于根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;

输入标记单元,用于将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;

遍历标记单元,用于遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;

检索单元,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征一一对应的最佳标准临床特征;

计算单元,用于根据共处根节点的临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,并累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量;

判断输入单元,用于令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

优选地,链路分布的获取方法包括:

所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;

遍历所述特征集合I中的第i个临床特征,从所述特征集合A中匹配出与所述第i个临床特征对应的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;

令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;

将所述特征集合I中的全部临床特征,以及特征集合A中一一对应的最佳标准临床特征在标准化临床特征表型树上做节点标记,统计出每个临床特征所对应的第一链路,以及每个最佳标准临床特征所对应的第二链路。

与现有技术相比,本发明提供的单基因病名称的推荐系统的有益效果与上述技术方案提供的单基因病名称的推荐方法的有益效果相同,在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述单基因病名称的推荐方法的步骤。

与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的单基因病名称的推荐方法的有益效果相同,在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例中单基因病名称的推荐方法的流程示意图;

图2为本发明实施例中标准化临床特征表型树上的节点标记示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。

实施例一

请参阅图1,本实施例提供一种单基因病名称的推荐方法,包括:

根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征一一对应的最佳标准临床特征;根据共处根节点的临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,并累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量;令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

本实施例提供的单基因病名称的推荐方法中,首先基于单基因病名称的特征关系数据库构建单基因病的标准化临床特征表型树,然后将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记,并遍历特征关系数据库中的第n个单基因病名称,将当前第n个单基因病名称对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,接着根据标准化临床特征表型树上的节点标记,从特征集合A中分别匹配出与特征集合I中每个临床特征一一对应的最佳标准临床特征,并根据每个临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,进而累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量,在此之后,令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

可见,本实施例提供的单基因病名称的推荐方法的使用过程具有便捷友好的特点,通过即时搜索和表型树可以非常方便的输入标准化的临床特征,可以精准、高效、全面的推荐出用户所患的单基因病名称,有助于为临床医生对单基因病的辅助诊断和鉴别诊断提供线索。

上述实施中,根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树的方法包括:

从单基因病的公共数据库和文献数据库,获得已知的单基因病名称及其对应的标准临床特征;基于已知的单基因病名称及其对应的标准临床特征,建立单基因病名称与标准临床特征的特征关系数据库。

具体实施时,公共数据库为MedGen数据库,文献数据库为PubMed数据库,特征关系数据库中包括互相匹配的单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。PubMed数据库作为MedGen数据库下载数据的补充。

上述实施例中,链路分布的获取方法包括:

特征集合I包括多个临床特征,特征集合A包括多个标准临床特征;遍历特征集合I中的第i个临床特征,从特征集合A中匹配出与第i个临床特征对应的标准临床特征,作为与第i个临床特征对应的最佳标准临床特征,i的初始值为1;令i=i+1后重新遍历特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;将特征集合I中的全部临床特征,以及特征集合A中一一对应的最佳标准临床特征在标准化临床特征表型树上做节点标记,统计出每个临床特征所对应的第一链路,以及每个最佳标准临床特征所对应的第二链路。

具体实施时,首先分析特征集合I中包括的多个临床特征,如m个,将其中的每个临床特征分别在标准化临床特征表型树上做节点标记,然后从特征关系数据库中依次轮询其中的单基因病名称,并将轮询到的第n个单基因病名称对应的标准临床特征与特征集合I中的每个临床特征一一对应匹配,然后将匹配成功的多个最佳标准临床特征在标准化临床特征表型树上做节点标记,最终基于第n个单基因病名称中的最佳标准临床特征与特征集合I中的临床特征,统计出每个临床特征所对应的第一链路,以及每个最佳标准临床特征所对应的第二链路。

上述实施例中,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量的方法包括:

分别计算每个共处根节点中的第一链路对应的离散量,以及每条第二链路对应的离散量;针对共有节点的第一链路与第二链路,计算第一链路和第二链路对应的离散增量;遍历包括共有节点的每一条第一链路及每一条第二链路,分别计算任意第一链路与任意第二链路对应的离散增量。

上述实施例中,针对共有节点的第一链路与第二链路,计算所述第一链路和所述第二链路对应的离散增量的方法包括:

获取第一链路与第二链路中共有节点的数量第一链路中所有节点的数量第一链路中每个共有节点对单基因病的贡献度总和第一链路中的特征集合与特征集合A的Jaccard距离第一链路中的特征集合与特征集合A的富集显著性值

采用公式计算第j个临床特征在第一链路中的离散增量,所述Ij表示第j个临床特征;

获取第一链路与第二链路中共有节点的数量第二链路中所有节点的数量第二链路中每个共有节点对单基因病的贡献度总和第二链路中的特征集合与特征集合A的Jaccard距离第二链路中的特征集合与特征集合A的富集显著性值

采用公式计算第j个最佳标准临床特征在第二链路中的离散增量,所述Aj表示第j个最佳标准临床特征。

具体实施时,离散量D的计算模型为,采用共有表型数n1、表型总数n2、共有表型贡献度n3、Jaccard距离n4、表型富集显著性n5五个维度的特征向量构建离散量D,离散源X=[n1,n2,n3,n4,n5]的离散量模型定义为:

其中对数的底b取10。

如果有两个离散源,X=[n1,n2,n3,n4,n5],Y=[m1,m2,m3,m4,m5],定义离散增量的模型为:

其中,表示5个维度的特征向量;

D(M+N)=(M+N)logb(M+N)-MlogbM-NlogbN;

D(mi+ni)=(mi+ni)logb(mi+ni)-milogbmi-nilogbni

离散增量Δ(X,Y)就可看作是一个生物相似性关系的定量表示,它体现了两组数据X和Y之间的相似程度,Δ(X,Y)的值越小,则两组数据越相似。

示例性地,基于第n个单基因病名称对应特征集合A与用户输入的特征集合I在标准化临床特征表型树上的节点标记,标记的结果如图2所示,标准化临床特征表型树中的每一个节点表示一个标准化临床特征,假设标准化临床特征表型树中匹配后包含T个主干根节点,以集合B:[B1,B2,B3,..Bt...BT]表示,标准化临床特征表型树中标记的第n个单基因病名称对应的最佳标准临床特征,以集合A:[A1,A2,A3,..Ai...An]表示,用户输入的患者的特征集合I中的临床特征有m个,以集合I:[I1,I2,I3,...Ij...,Im]表示,●表示第n个单基因病名称属于第n个单基因病的所有最佳临床标准化表型特征,表示属于用户输入的患者的临床特征,表示标准化临床特征表型树中任一临床表型特征叶子或节点,中有数字的图标表示:假设属于同根节点的输入表型Ij节点与标准化表型树上这种单基因疾病所包含表型Ai节点中共有的节点。

以表型Ij节点为例说明,如果从同根节点Bt起到输入表型Ij节点止作为为第一链路,从同根节点Bt起到第n个单基因病Ai节点止作为第二链路,那么这两个同根链路存在共有节点4个,将这两个分支链路分别构建离散源。对于第一链路的节点集合,统计该链路上共有节点数量从图可见为4,所有节点数量从图可见为5,计算每个共有节点对该单基因病的贡献度总和第一链路中的特征集合与特征集合A的Jaccard距离第一链路中的特征集合与特征集合A的富集显著性值这5个值,将这5个值作为特征向量,构建某个输入表型特征在表型树分支上的第一离散源,定义为并采用公式

计算第j个临床特征在第一链路中的离散增量,其中,

类似的,对第二链路的节点集合,统计该链路上共有节点数量从图可见为4,统计第二链路中所有节点的数量从图可见为6,第二链路中每个共有节点对单基因病的贡献度总和第二链路中的特征集合与特征集合A的Jaccard距离第二链路中的特征集合与特征集合A的富集显著性值将这5个值作为特征向量,构建第n个单基因病的表型在标准化临床特征表型树上的第二离散源,定义为并采用公式计算第j个最佳标准临床特征在第二链路中的离散增量,其中,

针对第一离散源和第二离散源的离散增量的计算过程如下,分别计算这两个集合的离散增量,获得第n个单基因病名称分支内部的离散增量,以此类推,遍历计算出所有输入的临床特征在整个第n个单基因病名称上靶标到属于该单基因病的表型树分支内部离散增量,将这些离散增量加和,从而得到总离散增量。该值越小说明两集合相似度越大,则属于该疾病的可能性也越大。

具体来说,累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量的方法包括:

采用公式计算特征集合I与第n个单基因病名称的总离散增量;其中,

D(N1+N2)=(N1+N2)logb(N1+N2)-N1logbN1-N2logbN2

D(Ne 1+Ne 2)=(Ne 1+Ne 2)logb(Ne 1+Ne 2)-Ne 1logbNe 1-Ne 2logbNe 2

以此类推,针对某种单基因疾病的最佳标准临床特征之一Ai,遍历用户输入临床表型特征集合I:[I1,I2,I3,...Ij...,Im]的每个元素,如果不存在同根节点则表示没有相关性,可直接跳过,如果存在同根节点,计算两个链路节点集合的离散量之间的离散增量,这些离散增量的总和定义为表型树层级内部的相似度。然后,针对某种单基因疾病的表型特征集合A:[A1,A2,A3,..Ai...An]中的每个最佳标准临床特征,都遍历一遍I:[I1,I2,I3,...Ij...,Im]中的每个临床特征,同理计算每两个元素对应的链路集合的离散量之间的离散增量,此时计算出表型树所有分支层级内部的相似度。最后求得所有的离散增量总和,也即总离散增量,这个总离散增量定义为用户输入的患者的临床表型集合I:[I1,I2,I3,...Ij...,Im]与某种单基因疾病临床标准化表型特征集合A:[A1,A2,A3,..Ai...An]的相似度量化指标,该值越小,说明两个集合越相似,患者罹患该单基因疾病的可能性就越高。

计算单基因病名称推荐指标——总离散增量,然后针对第n+1个单基因病,也可以通过以上所有过程计算得到用户输入的患者临床特征集合I:[I1,I2,I3,...Ij...,Im]与这种单基因疾病临床标准化表型特征集合A:[A1,A2,A3,..Ai...An]的相似度量化指标——总离散增量。同理可以计算出数据库现存所有单基因疾病表型特征集合与输入患者临床表型集合的相似度量化指标。

最终将这些相似度量化指标——总离散增量排倒序,值越小说明用户输入的患者的临床表型特征集合I:[I1,I2,I3,...Ij...,Im]与某种单基因疾病临床标准化表型特征集合A:[A1,A2,A3,..Ai...An]两个集合越相似,则该患者罹患该单基因疾病的可能性就越高。将这个优先级排序列表作为预测的精准化推荐结果输出到系统报告页面,完成单基因疾病名称的自动化、智能化、精准化推荐,为医生的临床诊断提供辅助工具,降低漏检率和误诊率。

需要补充的是,共有节点对该单基因病的贡献度总和的计算方法如下:

在特征关系数据库中,假设共有a种标准临床特征,a种标准临床特征在特征关系数据库中一共出现N次,假定每种标准临床特征出现的次数为ai,则每个标准临床特征在特征关系数据库中出现的频率为fi,fi的计算公式为:

fi=ai/N;

对于特征关系数据库中的某种单基因病,假定对应有m个标准临床特征,每个标准临床特征在特征关系数据库中的分布频率依次为f1、f2、……、fm,则某个标准临床特征对该单基因病的贡献度ci的计算公式为:

上述公式中,k为校正因子,且k>1,特征关系数据库作为参考数据库使用。

两个特征集合的Jaccard距离计算公式如下:

本实施例通过Jaccard相似系数和Jaccard距离度量输入临床特征与单基因病表型关联关系,Jaccard相似系数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。计算方法为:

Jaccard距离算法为其中,|A|表示集合A中的临床特征数目(第一链路),|B|表示集合B中的临床特征数目(第二链路),|A∩B|表示集合A和集合B交集中的临床特征数目,|A∪B|表示集合A和集合B并集中的临床特征数目。特别说明:若A、B两个集合都为空,则J(A,B)=1;J(A,B)取值范围为[0,1]。Jaccard相似性指数越大,d距离越小,两个集合越相似。

两个特征集合的富集显著性值计算公式如下:

利用算法计算集合A与集合B的临床特征富集因子f,其中,a表示集合A包含在集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在集合B中的临床特征数目,c表示集合A不包含在集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在集合B中的临床特征数目,利用算法计算集合A与集合B的富集显著性值值,其中n=a+b+c+d。

综上,本实施例具有如下创新点:

1、对单基因病种覆盖面广泛,由于特征关系数据库是基于公共数据库和文献数据库中的海量单基因病数据建立的,单基因病表型与临床特征关系中文数据库覆盖的单基因病种类达8600种以上,单基因病表型临床特征超过11000个,表型与临床特征关系数据达9万种以上,囊括了单基因病研究方向最新的数据库版本和文献报道,因此可以确保特征关系数据库能够覆盖目前已知的所有单基因病及对应的临床特征,进而保证单基因病名称推荐的准确性。

2、友好智能的辅助医生录入临床表型特征,基于Web的系统不受病例资料文本格式的限制,不仅能够支持标准化结构化表型信息录入,还可支持自由文本格式的病例资料录入,用户可通过鼠标点击或者输入关键词即时搜索输入标准化临床特征,采用即时搜索和表型树方式可以非常方便的输入标准化的临床特征,对输入表型进行模糊处理,允许用户输入相似的临床特征,非常方便和友好,更加智能,适用范围更广。

3、打包和发布工具流程快速、简单、规范化、可移植,系统的开发发布规则成功的规避了传统生物信息学软件学习门槛高,很难被没有相关背景的人员使用的缺点。使用Docker来封装计算流程的每个步骤。

4、疾病名称推荐更加精准、自动化、智能化,通过引入机器学习预测模型——离散增量,使得系统能自动学习底层知识库和表型树的层级关系,更充分利用输入信息,瞬间精准、智能的推荐该患者可能罹患的单基因疾病名称。为单基因病的临床诊断和鉴别提供线索和理论支持,也为缩小进一步基因检测的范围提供数据支持。可以作为单基因病临床辅助诊断的一个便利工具,具有准确的关联预测模型以及质量评估参数,为单基因病精细化个性化诊疗提供可靠理论支持和技术支撑,进一步提高诊断理论依据和效率,提高单基因病的确诊率、缩短首诊时间,降低误诊率和患者就医经济负担。

实施例二

本实施例提供一种单基因病名称的推荐系统,包括:

数据获取单元,用于根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;

输入标记单元,用于将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;

遍历标记单元,用于遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;

检索单元,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征一一对应的最佳标准临床特征;

计算单元,用于根据共处根节点的临床特征与最佳标准临床特征的链路分布,分别计算每个临床特征与对应最佳标准临床特征链路的离散增量,并累加得到特征集合I与第n个单基因病名称中对应最佳标准临床特征的总离散增量;

判断输入单元,用于令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的总离散增量汇总排序,输出最小总离散增量对应的单基因病名称。

优选地,链路分布的获取方法包括:

所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;

遍历所述特征集合I中的第i个临床特征,从所述特征集合A中匹配出与所述第i个临床特征对应的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;

令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;

将所述特征集合I中的全部临床特征,以及特征集合A中一一对应的最佳标准临床特征在标准化临床特征表型树上做节点标记,统计出每个临床特征所对应的第一链路,以及每个最佳标准临床特征所对应的第二链路。

与现有技术相比,本发明实施例提供的单基因病名称的推荐系统的有益效果与上述实施例一提供的单基因病名称的推荐方法的有益效果相同,在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述单基因病名称的推荐方法的步骤。

与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的单基因病名称的推荐方法的有益效果相同,在此不做赘述。

本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!