一种融合多源数据构建生物医学异构信息网络的方法

文档序号:1143099 发布日期:2020-09-11 浏览:22次 >En<

阅读说明:本技术 一种融合多源数据构建生物医学异构信息网络的方法 (Method for constructing biomedical heterogeneous information network by fusing multi-source data ) 是由 段磊 何承鑫 王婷婷 张译丹 邓赓 于 2020-06-17 设计创作,主要内容包括:本发明公开了一种融合多源数据构建生物医学异构信息网络的方法;以此为上层分析提供技术支持。其中多源数据包括结构化数据和非结构化数据;对于结构化数据而言,通过映射不同数据库中每个生物医学实体类型的标识符,集成来自不同数据源的数据,让彼此关联起来,这使得数据模型更具可伸缩性和可扩展性,能为数据分析提供便利,相比于与传统的数据库,新的数据模型具有可扩展性、可视化、全面性等特点。对于非结构化数据而言,通过识别实体、简化句子、提取三元组、谓词映射等一系列过程,得到生物医学文献中的生物医学实体与实体之间的关系,最后结合结构化的数据构建出生物医学异构信息网络。(The invention discloses a method for constructing a biomedical heterogeneous information network by fusing multi-source data; thereby providing technical support for upper layer analysis. Wherein the multi-source data comprises structured data and unstructured data; for structured data, the identifiers of each biomedical entity type in different databases are mapped, data from different data sources are integrated and associated with each other, so that the data model has higher scalability and extensibility, convenience can be provided for data analysis, and compared with the traditional database, the new data model has the characteristics of extensibility, visualization, comprehensiveness and the like. For unstructured data, the relationship between biomedical entities in biomedical documents and entities is obtained through a series of processes of entity identification, sentence simplification, triple extraction, predicate mapping and the like, and finally a biomedical heterogeneous information network is constructed by combining structured data.)

一种融合多源数据构建生物医学异构信息网络的方法

技术领域

本发明涉及信息技术领域,具体来讲是一种融合多源数据构建生物医学异构信息网络的方法。

背景技术

目前对于结构化数据而言,在生物信息学中对生命活动这一复杂的生物过程有着系统的研究,随着基因组学、转录组学、蛋白质组学以及代谢组学等从微观到宏观的不同层次的研究发展,生物医学数据在不断扩大,大量的与不同类型的生物医学实体相关的数据库也在不断地产生,如GenBank和OMIM等。然而,大多数的数据库只提供单一类型的生物医学实体或关系。例如,HUGO基因命名委员会(HGNC)数据库只存储基因数据,DisGeNET数据库只关注基因与疾病之间的关系。其次,大部分数据库的可扩展性不够好,更新数据不方便。再者很多数据库是关系数据库,不能提供良好的可视化。因此,克服这些挑战将为生物医学领域的专家提供更高质量的帮助,从而不断提高生物医学技术。不同数据库的数据差异很大,没有统一的标准来规范它们。因此,有必要以规范的形式来管理它们,以便更好地发现知识。

另一方面,对于非结构化数据而言,生物医学中的文献也提供了丰富而有用的信息,由于大量生物医学文献包含非结构化的数据,使得研究者很难从这些数据中获得想要的信息。异构信息网络提供实体之间的结构化关系,可以作为一种解决方案。然而,生物医学文献中的非结构化数据普遍是异构的、复杂的、海量的,也没有明确的标准可以参考来提取正确的信息合理和正式地表示它。

科学技术的进步,推动了生物医学领域的发展,不断增加的海量生物医学数据为科学家获取潜在知识提供了全面的基础。如何弥补生成大量数据的能力和对生物学理解之间的差距,首先需要对于产生的海量生物信息数据进行规范化地管理,以便更好地去分析数据发现知识,例如,大量数据的产生和分析有助于更好地阐明复杂疾病的生物学机制。于是提出通过融合多源数据来构建生物医学异构信息网络以此为上层分析提供技术支持。

发明内容

因此,为了解决上述不足,本发明在此提供一种融合多源数据构建生物医学异构信息网络的方法;以此为上层分析提供技术支持。

本发明是这样实现的:构造了一种融合多源数据构建生物医学异构信息网络的方法,其特征在于:

具体实现步骤如下;

(一)结构化数据, 通过映射不同数据库中每个生物医学实体类型的标识符,集成来自不同数据源的数据让彼此关联起来,这使得数据模型更具可伸缩性和可扩展性,能为数据分析提供直接的便利,相比于与传统的数据库,新的数据模型具有可扩展性、可视化、全面性等特点;具体实现的步骤如下;

步骤1,通过相关的生物实体数据库建立生物医学实体的识别映射,即构建实体在不同数据库中的识别编号;

步骤2,通过收集生物实体之间具有联系的数据库,根据识别映射将其进行整合;

步骤3、将整合后的数据构造成网络;

(二)非结构化数据,通过识别实体、简化句子、提取三元组、谓词映射等一系列过程,构建生物医学文献中的生物医学异构信息网络。具体的步骤如下:

步骤1,对文献进行句子分割;

步骤2,对得到的句子进行词性标注;

步骤3,进行生物医学实体的识别;

步骤4,对句子依赖进行解析;

步骤5,根据依赖树对句子进行简化;

步骤6,句子简化之后进行三元组提取;

步骤7,通过上下文的投影映射进行谓词映射;

步骤8,修正后的三元组构成网络中的节点与边。

根据本发明所述一种融合多源数据构建生物医学异构信息网络的方法,其特征在于:对于结构化数据而言,具体的实现方式为;

步骤1,首先得建立生物医学实体的识别映射,即通过生物实体的固有标识(基因的symbol)将实体在各个信息数据库中的系统编号给集成起来,形成实体的识别映射表,这个步骤通过给定相关的数据库进行爬虫将其数据下载下来,利用给定字段的完全匹配返回相应的id,进行查重筛选最后集成到一个实体对应多个id的信息(表),其中也会存在一些实体会有同义词,这时会通过同义词进行一一比对完成给定字段的匹配返回id;

步骤2,通过收集生物实体之间具有联系的数据库,根据识别映射将其进行整合(得到生物实体的识别映射信息(表)以后,这只是针对单一实体的信息收集,接下来需要对多个实体之间的联系进行数据的集成,对此将其实体之间的关系分成实体两两之间的联系进行收集,利用实体的识别映射表将其之间的关系对应起来,并存放之间联系的语义信息;

步骤3,整合后的数据可以构造成网络;以上两个步骤的操作都是建立在图数据库(Neo4j)的基础上,这样一来对数据后续的管理、收集以及可视化具有很好地适用性,通过将实体的识别映射信息(表)作为节点类型进行存储,将生物实体之间的联系表通过边类型进行输入储存完成最后网络的构建。

根据本发明所述一种融合多源数据构建生物医学异构信息网络的方法,其特征在于:对于非结构化数据而言,具体的实现方式为;

步骤1,对文献进行句子分割;首先对文献需要做一个预处理,将其以句子为单位进行划分,即通过给定的符号作为分隔符进行文献的分割;

步骤2,对得到的句子进行词性标注;分割后的句子需要关注的是其中出现的名词以及名词之间的谓语,进而判断这些是否是有用的,所以对分割好的每个句子作为输入,利用现成的pos工具,得到词性标注的序列结果;

步骤3,进行生物医学实体的识别;利用PubTator进行生物医学命名实体识别(BioNER)生成带有类别标签的语料库,该识别方法能够识别五种生物医学实体并提供其实体类型,包括基因/蛋白质,化学物质,疾病,物种和SNP,并将类型化的实体提及替换为其类型;

步骤4,对句子依赖进行解析;使用python NLP库spaCy2进行依赖项解析,得到句子中词语之间的依赖关系;解析结果呈树状结构,该树结构指示句子中单词之间的一组有向语法关系;

步骤5,据依赖树对句子进行简化;从根开始遍历语法依赖树结构,碰到词性为名词的非叶子结点,则将节点及子树切分出来,组装成子句,这些名词节点被重复并作为原始叶子保留在原始树中,而作为根保留在子树中;每棵树都可以写成一个简短的句子,这样原始的长句子可以按层次划分为较短的句子;

步骤6,句子简化之后进行三元组提取;对于划分后的短句,利用频繁模式挖掘方法,提取句子中频繁出现的模式,保留至少包含一个实体提及的模式,并利用这些模式,匹配原始句子中的实体及关系,从而提取出候选三元组;

步骤7,通过上下文的投影映射进行谓词映射;由于三元组中的关系存在一义多词的情况,需要对谓词进行映射,将语义相同的谓词映射到同一个谓词中,压缩关系类别、减少冗余,而对于相同的谓词,可能由于上下文不同,从而具有不同的意思,所以考虑三元组中谓词及其上下文的表示,通过Bi-LSTM网络,衡量提取三元组中的谓词同知识库中三元组的谓词的相似性,找出知识库中最相似的谓词将三元组的谓词替换,从而达到压缩关系类别的目的;

步骤8,修正后的三元组构成网络中的节点与边;将最后得到的三元组,可以在对结构化数据处理生成后的网络中进行修正完成从结构和非结构数据的数据源中构建生物医学异构信息网络;在修正的过程中,可以将三元组中的实体根据实体的识别映射信息(表)进行匹配,再对关系进行是否重复的筛选,筛选过后再添加到已有的图数据库中,完成数据的存储。

本发明具有如下优点:生物医学数据库之间的信息独立和数据类型单一不利于生物医学实体之间的综合关联分析和数据模式的可扩展性。为了解决传统关系数据库中存在的这些问题,将数据集成并构建可扩展的异构生物医学信息网络。对于未来工作,可继续扩展网络的规模,并且从透视图中添加现有的经过身份验证的数据节点和关系。通过对网络的扩展,进一步分析异构生物医学信息网络。

本发明包括结构化数据和非结构化数据;对于结构化数据而言,通过映射不同数据库中每个生物医学实体类型的标识符,集成来自不同数据源的数据让彼此关联起来,使得数据模型更具可伸缩性和可扩展性,为数据分析提供直接的便利。相比于与传统的数据库,新的数据模型具有可扩展性、可视化、全面性等特点。对于非结构化数据而言;通过识别实体、简化句子、提取三元组、谓词映射等一系列过程,构建生物医学文献中的生物医学异构信息网络。

附图说明

图1是结构化数据的识别映射示例(也可表达为 识别映射表示例);

图2是PubTator进行实体识别示例(也可表达为 生物医学实体识别示例);

图3是句子语法依赖解析示例;

图4是Bi-LSTM网络框架示意图。

具体实施方式

下面将结合附图1-图4对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明在此提供一种融合多源数据构建生物医学异构信息网络的方法,多源数据主要分为:结构化数据和非结构化数据;分别按照以下实施:

(一)结构化数据(以现有的生物医学信息相关的数据库为代表):

实施时,通过构建生物医学异构信息网络进行数据管理,构建了一个综合性的数据库,与传统的单一数据库相比,本发明的综合数据库对生物医学实体之间关系的分析将更加全面。通过映射不同数据库中每个生物医学实体类型的标识符,集成来自不同数据源的数据让彼此关联起来,这使得数据模型更具可伸缩性和可扩展性,能为数据分析提供直接的便利,相比于与传统的数据库,新的数据模型具有可扩展性、可视化、全面性等特点。如图1,具体实现的步骤如下:

步骤1,通过相关的生物实体数据库建立生物医学实体的识别映射,即构建实体在不同数据库中的识别编号。因为同一个生物实体在不同的数据库中的编号可能不一致,实体的名称也会存在不同的表达,所以需要建立实体的识别映射。例如,实体:‘基因’(symbol:AKT3),有着许多数据库对其信息进行整理,同一个基因可能有:HGNC数据库(id:393)Entrez Gene数据库(id:10000) Ensembl数据库(id:ENSG00000117020) OMIM数据库(id:611223) UniProtKB数据库(id:Q9Y243)等数据库存放着相关的信息,这些数据库有不同的编码系统来识别基因。同样,其他生物实体也有类似的情况,所以为了解决这个问题,首先得建立生物医学实体的识别映射,即通过生物实体的固有标识(基因的symbol)将实体在各个信息数据库中的系统编号给集成起来,形成实体的识别映射表,这个步骤通过给定相关的数据库进行爬虫将其数据下载下来,利用给定字段的完全匹配返回相应的id,进行查重筛选最后集成到一个实体对应多个id的信息(表),其中也会存在一些实体会有同义词,这时会通过同义词进行一一比对,完成给定字段的匹配返回id。

步骤2,通过收集生物实体之间具有联系的数据库,根据识别映射将其进行整合;得到生物实体的识别映射信息(表)以后,这只是针对单一实体的信息收集,接下来需要对多个实体之间的联系进行数据的集成,对此将其实体之间的关系分成实体两两之间的联系进行收集,利用实体的识别映射表将其之间的关系对应起来,并存放之间联系的语义信息。例如DisGeNET数据库存放的是实体‘基因’与实体‘疾病’之间的关系(疾病的致病基因),基因标识符来自于EntrezGene数据库,疾病标识符来自UMLS数据库,因此通过实体映射表将这两类实体联系起来,语义赋予‘致病基因’,再者HumanNet数据库存放的是基因之间的相关性,而标识都是用的EntrezGene数据库的编号(id)所以可以直接将基因之间的联系建立起来,等等。

步骤3,整合后的数据可以构造成网络;以上两个步骤的操作都是建立在图数据库(Neo4j)的基础上,这样一来对数据后续的管理、收集以及可视化具有很好地适用性,通过将实体的识别映射信息(表)作为节点类型进行存储,将生物实体之间的联系表通过边类型进行输入储存完成最后网络的构建。

(部分)相关数据库的资源(来源)信息汇总

(二)非结构化数据(以生物医学信息相关的文献为代表):

如何从生物医学文献中构建生物实体之间的异构信息网络,通过识别实体、简化句子、提取三元组、谓词映射等一系列过程,构建生物医学文献中的生物医学异构信息网络。具体的步骤如下:

步骤1,对文献进行句子分割;文献中会存在有标点符号以及多余的占位符,所以首先对文献需要做一个预处理,将其以句子(即句号。或者.)为单位进行划分,即通过给定的符号作为分隔符进行文献的分割。

步骤2,对得到的句子进行词性标注;分割后的句子需要关注的是其中出现的名词以及名词之间的谓语,进而判断这些是否是有用的,所以对分割好的每个句子作为输入,利用现成的pos工具,得到词性标注的序列结果。

步骤3,进行生物医学实体的识别;利用PubTator进行生物医学命名实体识别(BioNER)生成带有类别标签的语料库,该识别方法能够识别五种生物医学实体并提供其实体类型,包括基因/蛋白质,化学物质,疾病,物种和SNP,并将类型化的实体提及替换为其类型,PubTator识别效果如图2所示。其中紫色代表基因,橘色代表疾病。

步骤4,对句子依赖进行解析;由于生物医学文献中的命名实体可能包含一个或多个单词,这可能超出句子依赖解析器的词汇范围,导致解析错误。所以使用python NLP库spaCy2进行依赖项解析,得到句子中词语之间的依赖关系。 解析结果呈树状结构,该树结构指示句子中单词之间的一组有向语法关系,如图3中示例所示。

步骤5,据依赖树对句子进行简化;如前面所提到的,生物医学文献中的句子可能很长,因此所关注实体之间的依赖标记可能很长。这就可能导致句子模式的稀疏性和不完整性。因此,需要在模式挖掘之前化简冗长而复杂的句子。

为了分解句子,需要了解句子的结构和英语语法。在语言学中,单词可以分为内容单词和功能单词,内容词,包括名词,大多数动词和形容词,是指具有某些词汇,词法含义,表示某些对象,动作或特征的词。另一方面,功能词用于语法目的。注意到,在生物医学文献中,句子的复杂性主要是由于名词结构的复杂性所致,其中名词可以被其他名词,形容词,形容词从句等修饰。所以从根开始遍历语法依赖树结构,碰到词性为名词的非叶子结点,则将节点及子树切分出来,组装成子句,这些名词节点被重复并作为原始叶子保留在原始树中,而作为根保留在子树中。每棵树都可以写成一个简短的句子,这样原始的长句子可以按层次划分为较短的句子。

步骤6,句子简化之后进行三元组提取;对于划分后的短句,利用频繁模式挖掘方法,提取句子中频繁出现的模式,保留至少包含一个实体提及的模式,并利用这些模式,匹配原始句子中的实体及关系,从而提取出候选三元组。

步骤7,通过上下文的投影映射进行谓词映射;由于三元组中的关系存在一义多词的情况,需要对谓词进行映射,将语义相同的谓词映射到同一个谓词中,压缩关系类别、减少冗余,而对于相同的谓词,可能由于上下文不同,从而具有不同的意思,所以我们考虑三元组中谓词及其上下文的表示,通过Bi-LSTM网络,衡量提取三元组中的谓词同知识库中三元组的谓词的相似性,找出知识库中最相似的谓词将三元组的谓词替换,从而达到压缩关系类别的目的。如图4,其中<St, Pt, Ot>代表提取的三元组,<Sdb, Pdb, Odb>代表提取的知识库中的三元组。

步骤8,修正后的三元组构成网络中的节点与边;将最后得到的三元组,可以在对结构化数据处理生成后的网络中进行修正完成从结构和非结构数据的数据源中构建生物医学异构信息网络。在修正的过程中,可以将三元组中的实体根据实体的识别映射信息(表)进行匹配,再对关系进行是否重复的筛选,筛选过后再添加到已有的图数据库中,完成数据的存储。

综上,本发明公开了一种融合多源数据构建生物医学异构信息网络的方法;以此为上层分析提供技术支持。其中多源数据包括结构化数据和非结构化数据;对于结构化数据而言,通过映射不同数据库中每个生物医学实体类型的标识符,集成来自不同数据源的数据让彼此关联起来,这使得数据模型更具可伸缩性和可扩展性,能为数据分析提供直接的便利,相比于与传统的数据库,新的数据模型具有可扩展性、可视化、全面性等特点。对于非结构化数据而言;通过识别实体、简化句子、提取三元组、谓词映射等一系列过程,构建生物医学文献中的生物医学异构信息网络。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:分子力场拟合方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!