一种基于三支半概念的生物信息类提取方法

文档序号:139175 发布日期:2021-10-22 浏览:39次 >En<

阅读说明:本技术 一种基于三支半概念的生物信息类提取方法 (Biological information class extraction method based on three-branch semi-concept ) 是由 毛华 刘晓庆 程艺林 王刚 连萌璇 于 2021-07-16 设计创作,主要内容包括:本发明提供了一种基于三支半概念的生物信息类提取方法。该方法将原始生物信息系统视为一个原始形式背景,并以生物特征集不变,生物个体集分为两部分的形式,产生两个小的生物信息系统,即两个小的形式背景。对于每一个小的形式背景,求出三支半概念。然后从其中一个小的形式背景所产生的三支半概念集中任取一元素,与另一个小的形式背景产生的三支半概念集中的每个元素实施并运算。得到的三支半概念集与两个小的形式背景各自所产生的三支半概念集,组成原始形式背景的全体三支半概念。通过三支半概念,可得到生物信息系统中任意生物个体集在生物特征上的分类,能够较为全面地表达生物信息类,而且相比基于三支概念的提取方法,本发明计算量较小。(The invention provides a biological information class extraction method based on three-branch semi-concept. The method regards an original biological information system as an original form background, and generates two small biological information systems, namely two small form backgrounds, in a form that a biological feature set is unchanged and a biological individual set is divided into two parts. For each small formal background, three and a half concepts are solved. Then, an element is taken from the three-branch semi-concept set generated by one small form background, and is subjected to the operation of combination with each element in the three-branch semi-concept set generated by the other small form background. The obtained three-branch and half-concept set and the three-branch and half-concept set generated by the two small form backgrounds respectively form the whole three-branch and half-concept of the original form background. Through the three-branch semi-concept, the classification of any biological individual set in the biological information system on biological characteristics can be obtained, the biological information class can be more comprehensively expressed, and compared with an extraction method based on the three-branch concept, the method has smaller calculation amount.)

一种基于三支半概念的生物信息类提取方法

技术领域

本发明涉及生物信息类提取领域,具体地说是一种基于三支半概念的生物信息类提取方法。

背景技术

生物信息系统是由生物个体集、生物特征集及生物个体与生物特征之间的二元关系构成。现在,有很多基于三支概念的生物信息类提取方法。例如,2015年祁建军等在《Knowledge-BasedSystems》杂志上通过讨论三支概念格与经典概念格的关系,提出构建三支概念格的生成算法。如图1所示,图1示出了祁建军等所提出的三支概念算法流程图。然而,三支概念格的构造需要生物个体和生物特征同时满足条件,即生物个体集X共有的生物特征和共无的生物特征集必为(A,B),共有生物特征A和共无生物特征B的生物个体集必是X,这就导致求出全部的三支概念需要以指数级的计算得到结果,计算量过大。常用的进行生物信息类分析的方法是SPSS,但基于SPSS只能讨论生物个体间的共有特征,不考虑共无的生物特征。然而,共无的生物特征也是生物个体的特征,因此需要从共无的属性特征对生物个体集进行分析。

发明内容

本发明的目的就是提供一种基于三支半概念的生物信息类提取方法,以解决现有方法计算量大或只考虑生物个体间共有特征、不考虑共无特征的问题。

本发明是这样实现的:一种基于三支半概念的生物信息类提取方法,包括如下步骤:

a、将原始生物信息系统任意分为两部分以及称前者为第一部分生物信息系统,后者为第二部分生物信息系统;其中是m0个生物个体构成的生物个体集;是n0个生物特征构成的生物特征集;为生物个体集和生物特征集间的二元关系;为生物个体集和生物特征集间的二元关系;为生物个体集和生物特征集间的二元关系;二元关系也称共有值,共有值为1,表示生物个体与生物特征之间存在关系,共有值为0,表示生物个体与生物特征之间不存在关系;第一部分生物信息系统中生物个体数量为(或写作m1),第二部分生物信息系统中生物个体数量为(或写作m2),其中(或写作m0)为原始生物信息系统中生物个体数量;

b、将第一部分生物信息系统作为输入,得到第一部分生物信息系统产生的全部三支半概念,记为3WS1

c、将第二部分生物信息系统作为输入,得到第二部分生物信息系统产生的全部三支半概念,记为3WS2

d、对于第一部分生物信息系统中的任一个三支半概念,与第二部分生物信息系统中的每一个三支半概念实施并运算,得到原始生物信息系统中除3WS1与3WS2之外的其他所有三支半概念,记为3WS3

e、将3WS1、3WS2以及3WS3全部列出,得到原始生物信息系统中全部的三支半概念,记为3WS,其中,3WS=3WS1∪3WS2∪3WS3

f、根据得到的全部的三支半概念3WS中的层次结构,画出原始生物信息系统的Hasse示图。

上述方法中,步骤b具体包括如下步骤:

b-1、输入第一部分生物信息系统

b-2、求出第一部分生物信息系统中生物个体集的全部子集

b-3、对于每一个生物个体子集找出与Xi中所有生物个体的共有值为1的生物特征集Ai,即寻找满足条件Xi *=Ai的全部Ai

b-4、对于每一个生物个体子集找出与Xi中所有生物个体的共有值为0的生物特征集Bi,即寻找满足条件的全部Bi

b-5、得到第一部分生物信息系统中的全部(Xi,(Ai,Bi))构成的集3WS1,其中

上述方法中,步骤c具体包括如下步骤:

c-1、输入第二部分生物信息系统

c-2、求出第二部分生物信息系统中生物个体集的全部子集

c-3、对于每一个生物个体子集找出与Yj中所有生物个体的共有值为1的生物特征集Cj,即寻找满足条件Yj *=Cj的全部Cj

c-4、对于每一个生物个体子集找出与Yj中所有生物个体的共有值为0的生物特征集Dj,即寻找满足条件的全部Dj

c-5、得到第二部分生物信息系统中的全部(Yj,(Cj,Dj))构成的集3WS2,其中

上述方法中,步骤d具体包括如下步骤:

d-1、对于每一个三支半概念(Xi,(Ai,Bi))∈3WS1,(Yj,(Cj,Dj))∈3WS2,首先计算Xi∪Yj;(Xi,(Ai,Bi))指生物个体集Xi所有生物个体共有的生物特征集为Ai,共无的生物特征集为Bi;(Yj,(Cj,Dj))指生物个体集Yj所有生物个体共有的生物特征集为Cj,共无的生物特征集为Dj

d-2、找出与Xi∪Yj中所有生物个体的共有值为1的生物特征集P,即(Xi∪Yj)*=Ai∩Cj

d-3、找出与Xi∪Yj中所有生物个体的共有值为0的生物特征集Q,即

d-4、得到原始生物信息系统中除3WS1与3WS2之外的其他所有三支半概念3WS3,其形式为(Xi∪Yj,(Ai,Bj)∩(Ci,Dj))。

本发明基于SPSS和三支概念生物信息类提取方法这两种思想进行改进,提出三支半概念,进而提取出生物信息类。具体是:本发明将原始生物信息系统视为一个原始形式背景,并以生物特征集不变,生物个体集分为两部分的形式,产生两个小的生物信息系统,即两个小的形式背景。对于每一个小的形式背景,求出三支半概念。然后从其中一个小的形式背景所产生的三支半概念集中任取一元素,与另一个小的形式背景产生的三支半概念集中的每个元素实施并运算。如此并运算得到的三支半概念集与两个小的形式背景各自所产生的的三支半概念集,组成原始形式背景的全体三支半概念。通过三支半概念,可以得到生物信息系统中任意生物个体集在生物特征上的分类,能够较为全面地表达生物信息类,而且相比基于三支概念的生物信息类提取方法,本发明计算量较小。

附图说明

图1是现有技术中祁建军等三支概念算法的流程示意图。

图2是本发明中三支半概念算法的流程示意图。

图3是本发明实施例中生物信息系统(G4,M9,R4×9)的三支半概念格的Hasse示图。

图4是祁建军等生成的生物信息系统(G4,M9,R4×9)的三支概念格的Hasse示图。

图5是生物信息系统(G4,M9,R4×9)的SPSS生物信息类图。

图6是生物信息系统(G4,M9,R4×9)的SPSS生物信息类表。

具体实施方式

本发明受到国家自然科学基金项目资助(项目号:61572011)和河北省研究生创新资助项目资助(项目号:CXZZBS2020004)。

首先给出本发明涉及的主要定义。

定义1(形式背景)对于一个三元组(G,M,R),G和M是非空集,G为所有对象构成的集,M为所有属性构成的集,R为定义在G和M上的二元关系,则称(G,M,R)是一个形式背景。设x∈G且a∈M,xRa指对象x和属性a之间存在关系R,表示“对象x有属性a”。xRca指对象x和属性a之间不存在关系R,表示“对象x无属性a”。

设生物个体集为G,生物特征集为M,两集间的关系为则生物信息系统可以表示为K=(G,M,R)的形式背景。在生物信息系统中,生物个体与生物特征之间的关系仅存在有或无,因此二元关系R的取值为1或0。

定义2(三支半概念)在形式背景K=(G,M,R)中,设对象集属性集若满足:

其中,

则(X,(A,B))是三支半概念。其中,称X为三支半概念(X,(A,B))的外延,(A,B)为三支半概念(X,(A,B))的内涵。

三支半概念(X,(A,B))是由外延X和内涵(A,B)构成。在生物信息系统中,每一个三支半概念代表一组生物信息类。所得三支半概念的外延是指生物个体集X,内涵是指生物个体集X中所有生物个体共有的生物特征A和共无的生物特征B。X和(A,B)之间的关系为:生物个体集X所有生物个体共有的生物特征集和共无的生物特征集必为(A,B)。

定义3(三支半概念的并运算)在形式背景K=(G,M,R)中,设(X,(A,B))与是两个三支半概念。定义两个三支半概念之间的并运算为:

实际上,由于是一个三支半概念。

定义4(Hasse示图与父子关系)给定一个有限偏序集P,设P上的偏序关系为“≤”。对每一个x,y∈P,若x≤y,并且不存在满足x<z<y的z∈P,则将x置于y的下方,做一条线段连接x与y,此线段上不存在其他属于P的元素。将P依据上述规则产生的图称为偏序集P的Hasse示图。将Hasse示图中满足上述条件的x,y∈P,称x,y有父子关系。

定理1(三支半概念的格性质)对于形式背景K=(G,M,R),全体三支半概念构成的集记作OES(G,M,R),对于任意的(X1,(A1,B1)),(X2,(A2,B2))∈OES(G,M,R),定义二者的偏序关系:

OES(G,M,R)在定义的偏序关系下构成的偏序集(OES(G,M,R),≤)是一个完备格,记作OESL(G,M,R),称为三支半概念格。其中,上下确界定义为:

定理2(最小元、最大元存在性)对于任给的一个有限偏序集P,在P中存在最小元(记为0)与最大元(记为1)。

定义5(链)如果有限偏序集P中的子集C满足对于任何的a,b∈C,成立a≤b或b≤a,则称C是P中的一个链。

定义6(极大链)有限偏序集P中的一个链C,若对于P中的任何满足的链D,都有C=D,则称C是P中的一个极大链。

定义7(层)对于有限偏序集P中的任一个元素x,称集合{|l|l是x与0之间的极大链}的最大者为x所在的层。

由定理1可知OESL(G,M,R)就是一个偏序集,所以可用一个Hasse示图表示OESL(G,M,R)的层次结构,即三支半概念格。Hasse示图中每个结点代表一个三支半概念,任意两个三支半概念的关系用边连接表示。由定理1可知(OES(G,M,R),≤)中最小元0为所在的层为1,最大元1为所在的层为n。作如下定义:

定义8(标号)在有限偏序集P的Hasse示图中,第α层元素个数记为Nα,1≤α≤n。规定N0=0。将第α层最左侧元素标号为同层元素从左到右标号依次增加1,如此得到该Hasse示图中所有元素所对应的标号。

定义9(生物信息支持度)给定生物信息系统(G,M,R),对每一个生物个体集为X共有生物信息的支持度,称为X共无生物信息的支持度。

如图2所示,本发明所提供的基于三支半概念的生物信息类提取方法,包括如下步骤:

a、将原始生物信息系统任意分为两部分以及具体过程如下:

给定原始生物信息系统其中是m0个生物个体构成的集,简称生物个体集,即其中gs为第s个生物个体(s=1,2,...,m0);是n0个生物特征构成的集,简称生物特征集,即其中mq为第q个生物特征(q=1,2,...,n0);为生物个体集和生物特征集间的二元关系,即按照所需将数量为的生物个体分为两部分:第一部分生物个体数量为第二部分生物个体数量为其中且这两部分中的生物个体下标顺序应该按照中的下标顺序,不能破坏。

b、将得到的生物信息系统作为输入,得到生物信息系统产生的全部三支半概念,记为3WS1,具体过程如下:

b-1、输入步骤a所得的生物信息系统

b-2、求出生物信息系统中生物个体集的全部子集

b-3、对于每一个生物个体子集找出与Xi中所有生物个体的共有值为1的生物特征集Ai,即寻找满足条件Xi *=Ai的全部Ai

b-4、对于每一个生物个体子集找出与Xi中所有生物个体的共有值为0的生物特征集Bi,即寻找满足条件的全部Bi

b-5、得到生物信息系统中的全部(Xi,(Ai,Bi))构成的集3WS1,其中

c、将得到的生物信息系统作为输入,得到生物信息系统产生的全部三支半概念,记为3WS2,具体过程如下:

c-1、输入步骤a所得的生物信息系统

c-2、求出生物信息系统中生物个体集的全部子集

c-3、对于每一个生物个体子集找出与Yj中所有生物个体的共有值为1的生物特征集Cj,即寻找满足条件Yj *=Cj的全部Cj

c-4、对于每一个生物个体子集找出与Yj中所有生物个体的共有值为0的生物特征集Dj,即寻找满足条件的全部Dj

c-5、得到生物信息系统中的全部(Yj,(Cj,Dj))构成的集3WS2,其中

d、对于中的任一个三支半概念,与中的每一个三支半概念实施并运算,得到原始生物信息系统除3WS1与3WS2之外的其他所有三支半概念,记为3WS3,具体过程如下:

d-1、对于每一个三支半概念(Xi,(Ai,Bi))∈3WS1,(Yj,(Cj,Dj))∈3WS2,Xi∪Yj为生物信息系统中的生物个体集实施三支半概念并运算的准备过程。

d-2、找出与Xi∪Yj中所有生物个体的共有值为1的生物特征集P,即(Xi∪Yj)*=Ai∩Cj

d-3、找出与Xi∪Yj中所有生物个体的共有值为0的生物特征集Q,即

d-4、得到生物信息系统除3WS1与3WS2之外的其他所有三支半概念3WS3,其形式为(Xi∪Yj,(Ai,Bj)∩(Ci,Dj))。

e、将3WS1、3WS2以及3WS3全部列出,得到原始生物信息系统中全部的三支半概念,记为3WS,其中,3WS=3WS1∪3WS2∪3WS3

f、将得到的全体三支半概念3WS中的层次结构,根据定理1画出生物信息系统的Hasse示图。

下面结合具体例子详细介绍本发明。

以河北大学刘超等于2012年在《昆虫学报》上发表的《基于防御腺特征的琵甲族属级阶元系统发育关系分析》中表3的生物实际背景为例,原生物信息中有16个生物个体,9个生物特征。现任取其中4个生物个体,9个生物特征,如表1所示。

表1琵甲族生物信息系统

表1中数值1代表所在行对应的生物个体有所在列对应的生物特征,数值0代表所在行对应的生物个体无所在列对应的生物特征。其中A代表贮液囊呈卵形,B代表囊体着生于第V可见腹板近基部之前,C代表贮液囊末端超过第IV可见腹板基部,D代表贮液囊壁厚,E代表贮液囊外表具稀疏花纹,F代表贮液囊外表具稠密花纹,G代表贮液囊外表光滑,H代表贮液囊外表有少量皱褶,I代表贮液囊外表有明显皱褶。

令b1=A,b2=B,b3=C,b4=D,b5=E,b6=F,b7=G,b8=H,b9=I。

令a1=琵甲属Blaps,a2=异琵甲属Thaumatoblaps,a3=贞琵甲属Agnaptoria,a4=小琵甲属Gnaptorina。

令G4={a1,a2,a3,a4},M9={b1,b2,b3,b4,b5,b6,b7,b8,b9},R4×9为生物个体集和生物特征集间的二元关系,如表2所示。

表2琵甲族生物的原始形式背景(G4,M9,R4×9)

b<sub>1</sub> b<sub>2</sub> b<sub>3</sub> b<sub>4</sub> b<sub>5</sub> b<sub>6</sub> b<sub>7</sub> b<sub>8</sub> b<sub>9</sub>
a<sub>1</sub> 1 0 1 1 0 1 0 0 1
a<sub>2</sub> 1 0 1 0 1 0 0 1 0
a<sub>3</sub> 0 0 0 0 0 1 0 1 0
a<sub>4</sub> 0 0 1 1 0 1 0 0 1

对上述生物信息系统(G4,M9,R4×9),表2所示的三支半概念生成过程如下:

根据步骤a,将原始生物信息系统(G4,M9,R4×9)任意分为两部分,这里取第一部分的生物信息系统(G2,M9,R2×9)为表3所示:

表3第一部分生物信息系统(G2,M9,R2×9)

b<sub>1</sub> b<sub>2</sub> b<sub>3</sub> b<sub>4</sub> b<sub>5</sub> b<sub>6</sub> b<sub>7</sub> b<sub>8</sub> b<sub>9</sub>
a<sub>1</sub> 1 0 1 1 0 1 0 0 1
a<sub>2</sub> 1 0 1 0 1 0 0 1 0

根据步骤b-1,输入生成的第一部分生物信息系统(G2,M9,R2×9)。

根据步骤b-2,找出生成的第一部分生物信息系统(G2,M9,R2×9)中的生物个体集G2的全部子集

根据步骤b-3,分别得到的共有值为1的生物特征集,即A1={b1,b3,b4,b6,b9},A2={b1,b3,b5,b8},A3={b1,b3},A4=M9

根据步骤b-4,分别得到的共有值为0的生物特征集,即B1={b2,b5,b7,b8},B2={b2,b4,b6,b7,b9},B3={b2,b7},B4=M9

根据步骤b-5,得到第一部分生物信息系统(G2,M9,R2×9)中的全部3WS1为(a1,({b1,b3,b4,b6,b9},{b2,b5,b7,b8})),(a2,({b1,b3,b5,b8},{b2,b4,b6,b7,b9})),({a1,a2},({b1,b3},{b2,b7})),

这里取第二部分的生物信息系统(G2,M9,R2×9)为表4所示:

表4第二部分生物信息系统(G2,M9,R2×9)

b<sub>1</sub> b<sub>2</sub> b<sub>3</sub> b<sub>4</sub> b<sub>5</sub> b<sub>6</sub> b<sub>7</sub> b<sub>8</sub> b<sub>9</sub>
a<sub>3</sub> 0 0 0 0 0 1 0 1 0
a<sub>4</sub> 0 0 1 1 0 1 0 0 1

根据步骤c-1,输入生成的第二部分生物信息系统(G2,M9,R2×9)。

根据步骤c-2,找出生成的第二部分生物信息系统(G2,M9,R2×9)中的生物个体集G2的全部子集

根据步骤c-3,分别得到的共有值为1的生物特征集,即C1={b6,b8},C2={b3,b4,b6,b9},C3={b6},C4=M9。根据步骤c-4,分别得到的共有值为0的生物特征集,即D1={b1,b2,b3,b4,b5,b7,b9},D2={b1,b2,b5,b7,b8},D3={b1,b2,b5,b7},D4=M9

根据步骤c-5,得到第二部分生物信息系统(G2,M9,R2×9)中的全部3WS2为(a3,({b6,b8},{b1,b2,b3,b4,b5,b7,b9})),(a4,({b3,b4,b6,b9},{b1,b2,b5,b7,b8})),({a3,a4},({b6},{b1,b2,b5,b7})),

根据步骤d-1,生物信息系统(G4,M9,R4×9)的生物个体集实施三支半概念并运算的准备过程:{a1,a3},{a1,a4},{a1,a3,a4},{a2,a3},{a2,a4},{a2,a3,a4},{a1,a2,a3},{a1,a2,a4},{a1,a2,a3,a4}。

根据步骤d-2,找出步骤d-1中生物个体集的共有值为1的生物特征集P:

根据步骤d-3,找出步骤d-1生物个体集的共有值为0的生物特征集Q:

根据步骤d-4,得到生物信息系统(G4,M9,R4×9)除3WS1与3WS2之外的其他所有三支半概念,记为3WS3:({a1,a3},({b6},{b2,b5,b7})),({a1,a4},({b3,b4,b6,b9},{b2,b5,b7,b8})),({a1,a3,a4},({b6},{b2,b5,b7})),({a2,a3},({b8},{b2,b4,b7,b9})),({a2,a4},({b3},{b2,b7})),

根据步骤e,得到生物信息系统(G4,M9,R4×9)中的全部三支半概念集3WS=3WS1∪3WS2∪3WS3,见表5。

表5生物信息系统(G4,M9,R4×9)的全部三支半概念3WS

根据步骤f,生成生物信息系统(G4,M9,R4×9)的三支半概念格的Hasse示图如图3所示。根据层与标号的定义得到表6。

表6生物信息系统(G4,M9,R4×9)的层与标号

应用本发明的方法得到生物信息系统(G4,M9,R4×9)共计16组生物信息类。在每一组所生成的生物信息类中,生物个体共有的生物特征以及共无的生物特征均已给出,使得生物信息类的挖掘更为完善。

在生物信息系统(G4,M9,R4×9)中,标号β=1所示的生物信息类中生物个体是空集,在生物信息类研究中意义不大,故可以省略分析。

标号β=2所示的生物信息类中生物个体为琵甲属,此生物个体共有的生物特征为{ACDFI},共无的生物特征为{BEGH}。

标号β=3所示的生物信息类中生物个体为异琵甲属,此生物个体共有的生物特征为{ACEH},共无的生物特征为{BDFGI}。

标号β=4所示的生物信息类中生物个体为贞琵甲属,此生物个体共有的生物特征为{FH},共无的生物特征为{ABCDEGI}。

标号β=5所示的生物信息类中生物个体为小琵甲属,此生物个体共有的生物特征为{CDFI},共无的生物特征为{ABEGH}。

标号β=6所示的生物信息类中生物个体为琵甲属、贞琵甲属,这两个生物个体共有的生物特征为{F},共无的生物特征为{BEG}。

标号β=7所示的生物信息类中生物个体为琵甲属、异琵甲属,这两个生物个体共有的生物特征为{AC},共无的生物特征为{BG}。

标号β=8所示的生物信息类中生物个体为琵甲属、小琵甲属,这两个生物个体共有的生物特征为{CDFI},共无的生物特征为{BEGH}。

标号β=9所示的生物信息类中生物个体为贞琵甲属、小琵甲属,这两个生物个体共有的生物特征为{F},共无的生物特征为{ABEG}。

标号β=10所示的生物信息类中生物个体为异琵甲属、小琵甲属,这两个生物个体共有的生物特征为{C},共无的生物特征为{BG}。

标号β=11所示的生物信息类中生物个体为异琵甲属、贞琵甲属,这两个生物个体共有的生物特征为{H},共无的生物特征为{BDGI}。

标号β=12所示的生物信息类中生物个体为琵甲属、贞琵甲属、小琵甲属,这三个生物个体共有的生物特征为{F},共无的生物特征为{BEG}。

标号β=13所示的生物信息类中生物个体为琵甲属、异琵甲属、贞琵甲属,这三个生物个体不存在共有的生物特征,共无的生物特征为{BG}。

标号β=14所示的生物信息类中生物个体为异琵甲属、贞琵甲属、小琵甲属,这三个生物个体不存在共有的生物特征,共无的生物特征为{BG}。

标号β=15所示的生物信息类中生物个体为琵甲属、异琵甲属、小琵甲属,这三个生物个体共有的生物特征为{C},共无的生物特征为{BG}。

标号β=16所示的生物信息类中生物个体为琵甲属、异琵甲属、贞琵甲属、小琵甲属,这四个生物个体不存在共有的生物特征,共无的生物特征为{BG}。

本发明的效果可以通过两个方面得以体现:

1、本发明缩短了提取每组生物信息类的时间,降低了复杂度。

在进行生物信息提取过程中,祁建军等提出的构建三支概念格的方法需要保证生物个体集和生物特征集同时满足共有和共无的关系,这需要很大的统一性。采用本发明的基于三支半概念进行生物信息类提取过程中,只需讨论生物个体间的共有的生物特征集和共无的生物特征集,反之不需要。并且将原始的生物信息系统分为两个小的生物信息系统,其中一个小的生物信息系统中每个三支半概念的外延与另一个小的生物信息系统中每个生物个体集的并集作为一个三支半概念的外延;一个小的生物信息系统中每个三支半概念的内涵与另一个小的生物信息系统中每个生物特征集的交集作为一个三支半概念的内涵。对于生物信息系统(G,M,R),本发明的时间复杂度为遍历一次生物个体集的时间,即时间复杂度为O(2|G|)。而祁建军等提出的构建三支概念格的方法需要遍历两次生物个体集,即时间复杂度为O(2|G|×2|G|)=O(22|G|)。O(22|G|)远大于O(2|G|)。因此,本发明缩短了提取每组生物信息类的时间,降低了时间复杂度。

2、提取生物信息过程的合理性。将本发明与祁建军等的方法以及与SPSS方法进行比较。

首先,本发明与祁建军等的方法的比较:

在祁建军等的方法中,需要保证生物个体集与生物特征集同时满足条件,并且只能对满足条件的生物个体进行分类,祁建军等的方法得到生物信息系统(G4,M9,R4×9)的三支概念格的Hasse示图如图4。通过图3与图4的对比可知,祁建军等的方法导致分类结果缺失一些重要的信息。本发明考虑生物个体集共有和共无的生物特征集两个因素,使得对于任一个生物个体集都有讨论,不仅包含了三支概念中的生物信息类,还可以提取出更多的生物信息类。

表7为祁建军等生成的生物信息系统(G4,M9,R4×9)的全部三支概念,表8为祁建军等的方法生成的生物信息系统(G4,M9,R4×9)的层与标号。

标号β=1所示的生物信息类中生物个体是空集,在生物信息类研究中意义不大,故可以省略分析。

标号β=2所示的生物信息类中生物个体为琵甲属,这个生物个体共有的生物特征为{ACDFI},共无的生物特征为{BEGH}。

标号β=3所示的生物信息类中生物个体为异琵甲属,这个生物个体共有的生物特征为{ACEH},共无的生物特征为{BDFGI}。

标号β=4所示的生物信息类中生物个体为贞琵甲属,这个生物个体共有的生物特征为{FH},共无的生物特征为{ABCDEGI}。

标号β=5所示的生物信息类中生物个体为小琵甲属,这个生物个体共有的生物特征为{CDFI},共无的生物特征为{ABEGH}。

表8祁建军等生成的生物信息系统(G4,M9,R4×9)的层与标号

标号β=6所示的生物信息类中生物个体为贞琵甲属、小琵甲属,这两个生物个体共有的生物特征为{F},共无的生物特征为{ABEG}。

标号β=7所示的生物信息类中生物个体为琵甲属、小琵甲属,这两个生物个体共有的生物特征为{CDFI},共无的生物特征为{BEGH}。

标号β=8所示的生物信息类中生物个体为异琵甲属、贞琵甲属,这两个生物个体共有的生物特征为{H},共无的生物特征为{BDGI}。

标号β=9所示的生物信息类中生物个体为琵甲属、异琵甲属,这两个生物个体共有的生物特征为{AC},共无的生物特征为{BG}。

标号β=10所示的生物信息类中生物个体为琵甲属、贞琵甲属、小琵甲属,这三个生物个体共有的生物特征为{F},共无的生物特征为{BEG}。

标号β=11所示的生物信息类中生物个体为琵甲属、异琵甲属、小琵甲属,这三个生物个体共有的生物特征为{C},共无的生物特征为{BG}。

标号β=12所示的生物信息类中生物个体为琵甲属、贞琵甲属、异琵甲属、小琵甲属,这四个生物个体不存在共有的生物特征,共无的生物特征为{BG}。

下面从不同角度分析本发明较祁建军等的方法的优势之处:

从绝对数量上:对于生物信息系统(G4,M9,R4×9),本发明生成的生物信息类的数量为16组(详见表5),而祁建军等的方法生成的三支概念为12组(详见表7),表7中的12组三支概念在表5中均存在。但是表5中有4组在祁建军等的方法中没有体现:

本发明生成的即琵甲属、异琵甲属与贞琵甲属所对应的的生物信息类在祁建军等的方法生成的三支概念中无法得到体现。

即异琵甲属、贞琵甲属与小琵甲属所对应的的生物信息类在祁建军等的方法生成的三支概念中无法得到体现。

({a3,a4},({b6},{b1,b2,b5,b7})),即贞琵甲属与小琵甲属所对应的的生物信息类在祁建军等的方法生成的三支概念中无法得到体现。

({a1,a3},({b6},{b2,b5,b7})),即琵甲属与贞琵甲属所对应的的生物信息类在祁建军等的方法生成的三支概念中无法得到体现。

由于寻找生物信息类的目的就是希望最大程度地反映出不同生物个体集所具有的生物特征情况,因此,本发明从获得生物信息的数量上较祁建军等的方法更优势。

第二,从相对数量上,即在同一共有生物信息支持度与共无生物信息支持度下的比较:对于生物信息系统(G4,M9,R4×9),本发明由于只需判断生物信息类是否为三支半概念,因此对于给定的生物个体集所对应的共有的生物特征以及共无的生物特征是固定的,但是给定共有的生物特征以及共无的生物特征,并不需要固定生物个体集。祁建军等的方法产生的三支概念需要生物个体集与共有的生物特征以及共无的生物特征满足一定制约条件,这就导致了给定共有的生物特征以及共无的生物特征,所对应的生物个体集仅存在一组。因此根据上述论述,给定共有的生物特征以及共无的生物特征,此时的共有特征、共无特征生物信息支持度保证了所对应的生物个体集。表9表示生物信息系统(G4,M9,R4×9)存在的生物信息支持度。同一支持度下祁建军等的方法与本发明生物信息类对比见表10。

表9生物信息系统(G4,M9,R4×9)存在的生物信息支持度

表10同一支持度下祁建军等的方法与本发明生物信息类对比

表10意味着在相同的共有生物信息支持度和共无生物信息支持度意义下,本发明较祁建军等的方法更具优势。

第三,从同一层的生物信息类数量上:对于生物信息系统(G4,M9,R4×9),尽管本发明与祁建军等的方法得到的生物信息类图均为5层,但是从图3和图4可以看出,本发明与祁建军等的方法结果在第1层、第2层、第5层相同,分别有1组、4组、1组。而本发明在第3层具有6组生物信息类,而祁建军等的方法在该层只有4组。本发明在第4层具有4组生物信息类,而祁建军等的方法在该层只有2组。因此,本发明从同一层的生物信息类数量上较祁建军等的方法更具优势。

总上,本发明较祁建军等的方法更全面地反映同一生物信息系统中生物信息类的情况。

其次,对于SPSS所生成的生物信息类,本发明同样更具优势,具体可以从以下几方面进行说明:

第一,在数量方面:对于生物信息系统(G4,M9,R4×9),SPSS生成的生物信息类图见图5。由图5可得SPSS所生成的生物信息类的组成见表11。本发明生成的生物信息类的数量为16组(详见表5),由表11可知SPSS所生成的生物信息类的数量为7组。

从本质上图5是一个偏序集(P,≤)对应的Hasse示图,见图6。设a1,a2,a3,a4分别为图5中的1,2,3,4。其中P={a1,a2,a3,a4,Sa,Sb,Sc},Sa={a1,a4,},Sb={a2,a3,},Sc={a1,a2,a3,a4},P中元素的偏序关系由图6所示。生物信息系统(G4,M9,R4×9)的SPSS生物信息类标号见表12。

表11生物信息系统(G4,M9,R4×9)的SPSS方法生物信息类

SPSS方法生物信息类 SPSS方法生物信息类
1 a<sub>1</sub> 5 S<sub>a</sub>
2 a<sub>4</sub> 6 S<sub>b</sub>
3 a<sub>2</sub> 7 S<sub>c</sub>
4 a<sub>3</sub>

表12生物信息系统(G4,M9,R4×9)的SPSS方法的层与标号

按照层数划分(详见图6),第1层分别为琵甲属组成的生物信息类,小琵甲属组成的生物信息类,异琵甲属组成的生物信息类,贞琵甲属组成的生物信息类。

第2层从左至右分别为琵甲属与小琵甲属组成的生物信息类,即Sa,以及异琵甲属与贞琵甲属组成的生物信息类,即Sb

第3层为琵甲属、异琵甲属与贞琵甲属以及小琵甲属组成的生物信息类,即Sc

SPSS不显示生物个体集中所有生物个体共无的生物特征。如果仅考虑生物个体集共有的生物特征,则SPSS方法得到的生物信息类均在本发明生成的生物信息类中得到体现:

表12中β=1的共有生物特征为b1,b3,b4,b6,b9的生物信息类,对应于表6中标号为2的生物信息类;

表12中β=2的共有生物特征为b3,b4,b6,b9的生物信息类,对应于表6中标号为5的生物信息类;

表12中β=3的共有生物特征为b1,b3,b5,b8的生物信息类,对应于表6中标号为3的生物信息类;

表12中β=4的共有生物特征为b6,b8的生物信息类,对应于表6中标号为4的生物信息类;

表12中β=5的共有生物特征为b3,b4,b6,b9的生物信息类,对应于表6中标号为8的生物信息类;

表12中β=6的共有生物特征为b8的生物信息类,对应于表6中标号为11的生物信息类;

表12中β=7不存在共有生物特征的生物信息类,对应于表6中标号为16的生物信息类。

不考虑生物个体集为空集的情况下,本发明产生的生物信息类中有8组生物信息类在SPSS方法中没有体现,分别为:

({a1,a3},({b6},{b2,b5,b7})),即琵甲属、贞琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

({a1,a2},({b1,b3},{b2,b7})),即琵甲属、异琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

({a3,a4},({b6},{b1,b2,b5,b7})),即贞琵甲属、小琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

({a2,a4},({b3},{b2,b7})),即异琵甲属、小琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

({a1,a3,a4},({b6},{b2,b5,b7})),即琵甲属、贞琵甲属与小琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

即异琵甲属、贞琵甲属与小琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

({a1,a2,a4},({b3},{b2,b7}),即琵甲属、异琵甲属与小琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

即琵甲属、异琵甲属与贞琵甲属所对应的生物信息类在SPSS生成的生物信息类中没有得到体现。

由于寻找生物信息类的目的就是希望最大程度地反映出不同生物个体集所具有的生物特征情况,因此,本发明从获得生物信息的数量上较SPSS方法更具优势。

第二,在共有、共无生物信息支持度方面:SPSS说明了琵甲属、异琵甲属、贞琵甲属、小琵甲属之间互相独立,这对应于本发明中标号β=1,2,3,4的生物信息类属于同一层。但是本发明中标号β=2的生物信息类与标号β=7的生物信息类属于父子关系,在生物分类学中表示两者有亲缘关系,在SPSS中没有得到体现。标号β=7的生物信息类与标号β=13的生物信息类属于父子关系,有亲缘关系,在SPSS中没有得到体现。SPSS方法中对生物个体集进行分析时,只从共有的生物特征角度进行分类,从而导致共无的生物特征的信息类缺失。本发明从生物个体集中共有和共无的生物特征两方面同时考虑,有利于生物学者更全面地进行生物信息类分析。在SPSS方法中,没有明确地给出所得生物信息类共有的生物特征,即不存在共有生物信息支持度。而且SPSS方法不考虑生物个体之间的共无生物特征,即不存在共无生物信息支持度。本发明同时考虑了生物信息类中共有的生物特征以及共无的生物特征,即存在共有生物信息支持度以及共无生物信息支持度。因此,本发明从共有、共无生物信息支持度方面较SPSS更具优势。

第三,在层的方面:对于生物信息系统(G4,M9,R4×9),SPSS方法共有三层,而本发明共有五层,分别为:

第1层为生物个体集为空集。

第2层由左至右依次为:生物个体为琵甲属,共有的生物特征为{ACDFI},共无的生物特征为{BEGH}的生物信息类;生物个体为异琵甲属,共有的生物特征为{ACEH},共无的生物特征为{BDFGI}的生物信息类;生物个体为贞琵甲属,共有的生物特征为{FH},共无的生物特征为{ABCDEGI}的生物信息类;生物个体为小琵甲属,共有的生物特征为{CDFI},共无的生物特征为{ABEGH}的生物信息类。

第3层由左至右依次为:生物个体为琵甲属、贞琵甲属,共有的生物特征为{F},共无的生物特征为{BEG}的生物信息类;生物个体为琵甲属、异琵甲属,共有的生物特征为{AC},共无的生物特征为{BG}的生物信息类;生物个体为琵甲属、小琵甲属,共有的生物特征为{CDFI},共无的生物特征为{BEGH}的生物信息类;生物个体为贞琵甲属、小琵甲属,共有的生物特征为{F},共无的生物特征为{ABEG}的生物信息类;生物个体为异琵甲属、小琵甲属,共有的生物特征为{C},共无的生物特征为{BG}的生物信息类;生物个体为异琵甲属、贞琵甲属,共有的生物特征为{H},共无的生物特征为{BDGI}的生物信息类。

第4层由左至右依次为:生物个体为琵甲属、贞琵甲属、小琵甲属,共有的生物特征为{F},共无的生物特征为{BEG}的生物信息类;生物个体为琵甲属、异琵甲属、贞琵甲属,不存在共有的生物特征,共无的生物特征为{BG}的生物信息类;生物个体为异琵甲属、贞琵甲属、小琵甲属,不存在共有的生物特征,共无的生物特征为{BG}的生物信息类;生物个体为琵甲属、异琵甲属、小琵甲属,共有的生物特征为{C},共无的生物特征为{BG}的生物信息类。

第5层由左至右依次为:生物个体为琵甲属、贞琵甲属、异琵甲属、小琵甲属,不存在共有的生物特征,共无的生物特征为{BG}的生物信息类。

因此,本发明在层的方面较SPSS更具优势。

故而,本发明较SPSS方法更全面地反映同一生物信息系统中生物信息类的情况。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:判断肝细胞肝癌患者预后的基因模型、构建方法和应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!