用于预测肿瘤类型的方法、电子设备和计算机存储介质

文档序号：1339748 发布日期：2020-07-17 浏览：25次 >En<

阅读说明：本技术 用于预测肿瘤类型的方法、电子设备和计算机存储介质 (Method, electronic device, and computer storage medium for predicting tumor type ) 是由姚鸣张鹏王凯于 2020-03-11 设计创作，主要内容包括：本公开涉及一种用于预测肿瘤类型的方法、电子设备和计算机存储介质。该方法包括：获取关于待测肿瘤的特征信息；获取关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息；基于比对结果信息,生成关于多种预定突变类型的突变类型数据；基于特征信息和突变类型数据,生成用于输入预测模型的输入数据；以及经由预测模型,提取输入数据的特征值,以便基于所提取的特征值预测待测肿瘤的类型,预测模型经由对多个训练样本的机器学习模型训练而生成。本公开能够提高预测原发部位的肿瘤的类型的准确性。(The present disclosure relates to a method, electronic device, and computer storage medium for predicting a tumor type. The method comprises the following steps: acquiring characteristic information about a tumor to be detected; obtaining the comparison result information of the genome sequencing sequence of a sample to be detected of a tumor to be detected and a reference genome sequence; generating mutation type data on a plurality of predetermined mutation types based on the alignment result information; generating input data for inputting the prediction model based on the feature information and the mutation type data; and extracting feature values of the input data via a prediction model to predict a type of the tumor to be measured based on the extracted feature values, the prediction model being generated via machine learning model training on a plurality of training samples. The present disclosure can improve the accuracy of predicting the type of tumor at the primary site.)

技术领域

本公开总体上涉及生物信息处理，并且具体地，涉及用于预测肿瘤类型的方法、电子设备和计算机存储介质。

背景技术

癌症原发部位的诊断都是指导临床治疗的主要依据。传统的用于预测肿瘤类型的方案主要是基于组织学的预测方式，例如基于免疫组化的评估和高质量的肿瘤组织的横断面成像。癌症的临床治疗与肿瘤的起源部位、组织病理学亚型和分期具有密切关系。但是，传统的基于组织学的预测肿瘤类型的方式在许多肿瘤案例中面临挑战性，尤其是对于那些出现转移性、低分化肿瘤，有时难以明确和准确地确定原发位置的肿瘤的类型。而不明确或不正确的肿瘤类型分类可能会对治疗手段的选择和治疗效果方面产生负面影响。

综上，传统的用于预测肿瘤类型的方案存在难以明确和准确地确定原发部位的肿瘤的类型的不足之处。

发明内容

本公开提供一种预测肿瘤类型的方法、电子设备和计算机存储介质，能够提高预测原发部位的肿瘤的类型的准确性。

根据本公开的第一方面，提供了一种用于预测肿瘤类型的方法。该方法包括：获取关于待测肿瘤的特征信息；获取关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息；基于比对结果信息，生成关于多种预定突变类型的突变类型数据；基于特征信息和突变类型数据，生成用于输入预测模型的输入数据；以及经由预测模型，提取输入数据的特征值，以便基于所提取的特征值预测待测肿瘤的类型，预测模型经由对多个训练样本的机器学习模型训练而生成。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：存储器，被配置为存储一个或多个计算机程序；以及处理器，耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的

具体实施方式

中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于实施预测肿瘤类型的方法的系统100的示意图；

图2示出了根据本公开的实施例的用于预测肿瘤类型的方法200的流程图；

图3示意性地示出了基于随机森林模型所构建的预测模型300的示意图；

图4示出了根据本公开的实施例的用于生成关于基因变异的第二数据的方法400的流程图；

图5示出了根据本公开的实施例的用于生成预测模型的输入数据的方法500的流程图；

图6示出了根据本公开的实施例的用于生成输入数据的方法600的流程图；以及

图7示意性示出了适于用来实现本公开实施例的电子设备700的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文，在上述传统的基于组织学的预测肿瘤类型的方式对于肿瘤出现转移性、低分化肿瘤的情形，难以明确和准确地确定原发部位的肿瘤的类型，而癌症原发部位的确定是指导临床治疗的主要依据。因此，传统的预测肿瘤类型的方法不利于为癌症诊断与治疗提供准确的检测或指导依据。

应当理解，即使肿瘤患者都存在某敏感突变，可以指导分子靶向治疗，但临床反应往往与肿瘤原发部位有关。例如，BRAF基因的氨基酸突变V600E是由许多组织位点产生的干扰物，而对RAF抑制剂的反应的效果程度会由于因肿瘤类型的不同而不同。因此，能够准确指示肿瘤原发部位的基因组测序结果有利于为癌症诊断与治疗提供准确的指导检测依据。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于预测肿瘤类型的方案。该方案包括：获取关于待测肿瘤的特征信息；获取关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息；基于比对结果信息，生成关于多种预定突变类型的突变类型数据；基于特征信息和突变类型数据，生成用于输入预测模型的输入数据；以及经由预测模型，提取输入数据的特征值，以便基于所提取的特征值预测待测肿瘤的类型，预测模型经由对多个训练样本的机器学习模型训练而生成。

在上述方案中，通过基于待测肿瘤的特征信息和经基因组测序比对而确定的多种基因组突变特征生成的输入数据，并且经由经样本训练的预测模型提取输入数据的特征，以及预测待测肿瘤的类型，本公开预测原发部位的肿瘤的类型的准确性。这是因为，一方面，突变在DNA数据中积累，形成了不受局部转移环境影响的肿瘤进化的历史记录，因此利于更为准确地指示肿瘤原发部位；另一方面，通过带有综合考虑经由传统的免疫组织化学、临床评估而确定的待测肿瘤的特征信息对肿瘤类型预测方面的贡献，以及考虑经由DNA测序比对而获得基因组多种突变类型情况对肿瘤类型预测方面的贡献，利于提高预测原发部位的肿瘤类型的准确性。

图1示出了根据本公开的实施例的用于实施预测肿瘤类型的方法的系统100的示意图。如图1所示，系统100包括：数据获取单元112、数据转换模块114和预测模型116。在一些实施例中，系统100还包括：比对单元110、生信服务器140、网络150、服务器120。

在一些实施例中，数据获取单元112、数据转换模块114、预测模型116可以配置在一个或者多个计算设备130上；而比对单元110可以独立于计算设备130之外。计算设备130可以通过有线或者无线的方式(例如网络150)与比对单元110、生信服务器140、服务器120进行数据交互。

关于计算设备130，其用于基于所获取的待测肿瘤的特征信息和基于待测样本的基因组测序信息而生成的突变类型数据，经由预测模型，来预测肿瘤的类型。在一些实施例中，计算设备130可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。

在一些实施例中，计算设备130可以经由网络150获取来自生信服务器140的关于预定数量(例如而不限于一万个)肿瘤患者(例如已知其原发部位的肿瘤类型)的基因组(DNA)测序序列与参考基因组序列的比对结果信息，以用于形成训练预测模型116的训练样本数据。在一些实施例中，计算设备130也可以配置有一般的生信处理流程，并且将来自比对单元110的结果经由所配置的生信处理流程而生成关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息。计算设备130还可以直接经由网络150获取来自服务器120的关于患者(即待测肿瘤的所属对象)的与待测肿瘤有关的特征信息和患者的属性信息。该待测肿瘤的特征信息例如是经由传统的免疫组织化学、临床评估而确定的待测癌症(或者待测肿瘤)分期类型信息。患者的属性信息例如是患者的年龄数据和性别信息。在一些实施例中，可以在计算设备130的本地直接输入关于待测肿瘤的特征信息和患者的属性信息。

关于数据获取单元112，其用于获取关于待测肿瘤的特征信息和获取关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息。在一些实施例中，数据获取单元112还用于获取关于待测肿瘤的对象(即患者)的属性信息。数据获取单元112将所获取的特征信息、比对结果信息和属性信息发送至数据转换模块114。

关于数据转换模块114，其用于基于所获取的比对结果信息，生成关于多种预定突变类型的突变类型数据，以及进一步将所获取的特征信息和属性信息、所生成的突变类型数据转换至用于输入预测模型116的输入数据。在一些实施例中，数据转换模块114还可以首先针对所获取的比对结果信息进行初步过滤，然后再基于经过滤的对结果信息生成关于多种预定突变类型的突变类型数据。通过采用上述手段，有利于提高突变数据的可靠性。

关于上文提及的突变类型，其例如包括：同义突变(same sense mutation)、错义突变(missense mutation)、无义突变(nonsense mutation)、终止密码突变(terminatorcodon mutation)、拷贝数变异和基因融合。其中，同义突变是指碱基置换后，虽然每个密码子变成了另一个密码子，但由于密码子的简并性，因而改变前、后密码子所编码的氨基酸不变，故实际上不会发生突变效应。错义突变是指：碱基对的置换使mRNA的某一个密码子变成编码另一种氨基酸的密码子的突变。错义突变可导致机体内某种蛋白质或酶在结构及功能发生异常，从而引起疾病。无义突变是指：某个编码氨基酸的密码突变为终止密码，多肽链合成提前终止，产生没有生物活性的多肽片段。终止密码突变是指：基因中一个终止密码突变为编码某个氨基酸的密码子的突变。拷贝数变异是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。基因融合是指：将两个或多个基因的编码区首尾相连，置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下，构成的嵌合基因的突变情形。融合基因的表达产物为融合蛋白。

关于预测模型116，其用于提取由数据转换模块114所生成的输入数据的特征值，来预测待测肿瘤的类型。预测模型116是经由对多个训练样本的机器学习模型训练而生成。预测模型116可以由可以基于随机森林模型或者深度学习的网络模型而构建。

以下将结合图2描述根据本公开的实施例的用于预测肿瘤类型的方法。图2示出了根据本公开的实施例的用于预测肿瘤类型的方法200的流程图。应当理解，方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框202处，计算设备130获取关于待测肿瘤的特征信息。在一些实施例中，该特征信息例如包括关于待测对象的肿瘤的分期类型信息。在一些实施例中，计算设备130还可以进一步获取待测肿瘤的所属对象的属性信息。

关于肿瘤的分期(或者癌症的分期)，在医学上，肿瘤的分期例如是经由传统的免疫组织化学和/或临床评估手段，基于肿瘤大小、是否已经侵犯到邻近的器官、有多少癌细胞扩散到邻近区域的淋巴结、以及是否出现在远端的部位当中(远端转移)等因素，而针对肿瘤进行的分期。例如，医学的TNM分期包括一至四期；其中，一期也就是早期；二期和三期属于中期，二期属于中期偏早，三期属于中期偏晚；还有四期，属于晚期，即广泛转移。

关于肿瘤的分期类型信息，在一些实施例中，其例如包括：基于待测肿瘤属于肿瘤的分期的一期、二期、三期、四期和未知分期类型的分布情况而生成的五维特征向量。例如，如果待测肿瘤属于肿瘤分期的三期，则上述五维特征向量例如是(0,0,1,0,0)。即在三期所对应的特征值上为“1”，而在一期、二期、四期和未知分期类型所分别对应的特征值上为“0”。如果待测肿瘤属于肿瘤的分期为二和三期，则上述五维特征向量例如是(0,1,1,0,0)。

关于待测肿瘤的所属对象的属性信息，即肿瘤患者的属性信息。在一些实施中，该属性信息例如包括关于待测肿瘤的所属对象的年龄信息和性别信息中的至少一项。关于性别信息，例如有一些肿瘤与性别的关联性较为明显，例如乳腺癌等等，因此将性别信息作为预测模型的输入数据之一有利于准确预测与性别高度相关的肿瘤类型。关于年龄信息，计算设备130可以将根据待测样本的所属对象属于预定的几个年龄范围的哪一个年龄范围，来生成关于年龄信息的特征值。例如，预定的几个年龄范围包括：25岁以下、25至50岁、50至75岁和75岁以上四个年龄范围。如果待测样本的所属对象为45岁，则关于年龄信息的特征值例如是(0,1,0,0)。通过采用上述手段，使得本公开既能够在预测肿瘤类型的过程中考虑了不同年龄段在肿瘤生成、发展即变化方面所存在的差异，同时也不会给数据处理带来过多的负担。

在框204处，计算设备130获取关于待测肿瘤的待测样本的基因组测序序列与参考基因组序列的比对结果信息。应当理解，用于训练样本的测序方式应当于针对待测样本的测序方式应当一致。

关于待测样本，在一些实施例中，其可以是待测个体的肿瘤组织的采样样本或血液的采样样本。例如，采集待测个体的组织和/或血液样本之后，可以获取的采样样本的DNA数据，然后随机抽样，以便例如通过基因组测序手段生成关于待测样本的测序序列。然后，计算设备130将待测样本的基因组测序序列与参考基因组序列(例如是人类Hg19标准样本的基因序列)进行比对，以便生成比对结果信息。

关于测序手段，其例如是经由全基因组测序、全部外显子测序、和预定基因的探针测序中的一种测序技术而获得的。在一些实施例中，可以通过不同DNA测序手段针对血液或者组织的采样样本进行测序。例如：可以利用美国食品和药物管理局(FDA)批准的临床测序分析(如MSK公司的Panel)针对组织和血液的采样样本进行测序、WES的全部外显子测序、或者全基因组测序(Whole Genome Sequencing，简称WGS)获取基因组(DNA)测序序列。其中，全基因组测序信息中包含了所有基因和生命特征之间的内在关联性。

在框206处，计算设备130基于比对结果信息，生成关于多种预定突变类型的突变类型数据。应当理解，DNA数据作为底层的分子数据，其包括突变、拷贝数改变和基因融合等多种信息。进一步的，DNA层面的突变特征与特定的肿瘤类型相关，例如，在结直肠癌中通常存在APC功能缺失突变，在前列腺癌中通常存在TMPRSS2-ERG融合，在皮肤黑素瘤中通常存在C>T替代的相关突变特征。对于其他类型的癌症，基因组改变的组合通常会同时发生，例如子宫内膜癌中通常同时发生TP53和CTNNB1突变。在特定的肿瘤类型中，如胰腺腺癌中的KRAS突变和某些肿瘤中的基因融合等高度普遍的改变的缺失，也可以成为特定的肿瘤类型分类提供重要证据。因此，将多种预定突变类型的突变类型数据作为预测模型的输入数据的依据之一，有利于充分考虑DNA层面的突变的内在关联性对肿瘤特征的影响。在一些实施例中，生成关于多种预定突变类型的突变类型数据的方式例如包括以下的至少两种：生成关于氨基酸变异的第一数据；生成关于基因变异的第二数据；生成关于拷贝数变异的第三数据；以及生成关于融合的结构变异的第四数据。在一些实施例中，基于比对结果信息，上述多种预定突变类型的突变类型数据包括关于氨基酸变异的第一数据、关于基因变异的第二数据、关于拷贝数变异的第三数据和关于融合的结构变异的第四数据。

关于生成关于氨基酸变异的第一数据的方式，在一些实施例中，其例如包括：计算设备130基于比对结果信息，获取每一个基因的氨基酸变异信息；以及基于每一个基因上所有的氨基酸变异信息与预定氨基酸变异集合的比较，生成关于氨基酸变异的第一数据，预定氨基酸变异集合包括氨基酸变异的变异概率大于或者等于第一预定概率阈值的多个氨基酸变。关于氨基酸变异，例如，某个编码氨基酸的密码突变为终止密码，例如，DNA分子中的ATG中的G被T取代时，相应mRNA链上的密码子便从UAC变为UAA，因而使翻译就此停止，造成肽链缩短。这种氨基酸变异在多数情况下会影响蛋白质或酶的功能。再例如，人类正常血红蛋白β链的第六位是谷氨酸，其密码子为GAA或GAG，如果第二个碱基A被U替代，就变成GUA或GUG，谷氨酸则被缬氨酸所替代，形成异常血红蛋白HbS，导致个体产生镰形细胞贫血。因此，通过基于关于氨基酸变异的第一数据来用于预测模型输入的依据之一，有利于提升预测原发部位的肿瘤类型的准确性。

关于预定氨基酸变异集合，其例如是常见的氨基酸变异集合，该常见的变异集合例如而不限于是针对一万人的人群中，统计频繁出现的氨基酸变异，例如，针对出现概率大于或者等于第一预定概率阈值(例如0.5％，即在一万人的人群中出现人次超过50例的)的氨基酸变异进行统计，以生成常见的氨基酸变异集合。该常见的氨基酸变异集合例如包括突变EGFR L858R等多个常见氨基酸变异的信息，常见的氨基酸变异集中所包括的每个常见氨基酸变异例如都对应一位特征值。例如，计算设备130基于比对结果信息，获取关于待测肿瘤的每一个基因上所有的氨基酸变异信息，然后确定每一个基因上所有的氨基酸变异信息是否属于常见的氨基酸变异集合，如果某一基因的氨基酸变异为EGFR L858R，即属于预先统计的常见的氨基酸变异集合，则对应于变异EGFR L858R这一位的特征值被表示为“1”，如果所获取的每一个基因上所有的氨基酸变异信息都不具有变异EGFR L858R，则对应变异EGFR L858R这一位的特征值被表示为“0”。

关于生成关于基因变异的第二数据的方式，在一些实施例中，其例如包括：计算设备130基于比对结果信息，确定每一个基因上的位点发生突变的个数；以及基于每一个基因上的位点发生突变的个数，生成关于基因变异的第二数据。例如，探针的测序数据涉及450个基因，则关于基因变异的第二数据可以是450位的数据，每一位的特征值表示对应基因有多少位点发生突变。例如某基因有3个位点发生突变，则与该基因对应的特征值为3。例如，WES的测序数据涉及2万个基因，则关于基因变异的第二数据可以是具有2万位特征值的数据。下文将进一步结合图4来说明用于生成关于基因变异的第二数据的具体方式，在此，不再赘述。

关于生成关于拷贝数变异的第三数据的方式，在一些实施例中，其例如包括：计算设备130基于比对结果信息，确定每一个基因是否发生插入片段和缺失片段中的至少一项，以便生成关于拷贝数变异的第三数据。拷贝数变异(CNV)是基因组结构变异(Structuralvariation,SV)的重要组成部分。CNV位点的突变率远高于单核苷酸多态性(single nucleotide polymorphism，SNP),是人类疾病的重要致病因素之一。因此，通过基于待测样本的比对结果信息生成关于拷贝数变异的第三数据，并将其作为预测模型的输入数据之一，能够更为准确地预测原发部位的肿瘤类型。例如，计算设备130根据每一个基因按照是否发生插入片段、以及是否发生缺失片段的情况来形成两维特征矩阵。如果某基因没有发生插入片段和缺失片段，则与该基因对应的插入片段和缺失片段的特征值都被表示为“0”；如果某基因发生插入片段，则该基因对应的插入片段的特征值例如被表示为“+2”；如果某基因发生缺失片段，则该基因对应的缺失片段特征值例如被表示为“-2”。由此，可以生成特征矩阵形式的第三数据。

关于生成关于融合的结构变异的第四数据的方式，在一些实施例中，其例如包括：计算设备130基于比对结果信息，获取关于融合的结构变异信息；以及基于融合与预定融合集合的比较，生成关于融合的结构变异的第四数据，预定融合集合包括融合的发生概率大于或者等于第二预定概率阈值的多个融合。预定融合集合例如是常见融合集合，该常见融合集合例如而不限于是针对一万人的人群中，针对出现概率大于或者等于第二预定概率阈值(例如1％)的基因融合整理而成。常见融合集合中包括多个频繁发生的常见融合。例如，如果计算设备130如果基于比对结果信息确定待测样本中存在常见融合集合中的某个常见融合，则与该常见融合对应的特征值例如被表示为“1”，如果待测样本中不存在该常见融合，则与该常见融合对应的特征值例如被表示为“0”。由此，可以生成特征矩阵形式的第四数据。通过采用上述手段，能够预测肿瘤的类型的过程中考虑出现常见基因融合的情况对肿瘤特征的影响。

在框208处，计算设备130基于特征信息和突变类型数据，生成用于输入预测模型的输入数据。在一些实施例中，计算设备130基于特征信息、突变类型数据以及待测肿瘤的所属对象的属性信息，生成预测模型的输入数据。例如，计算设备130基于待测肿瘤的患者的年龄信息、性别信息、肿瘤的分期类型信息、关于氨基酸变异的第一数据、关于基因变异的第二数据、关于拷贝数变异的第三数据；以及关于融合的结构变异的第四数据突变类型数据以及待测肿瘤的所属对象的属性信息，生成预测模型116的特征输入矩阵。由此，通过将DNA层面的单点突变数据、小片段的插入或缺失数据、长片段的CNV数据和融合数据生成量化数据，以用于输入预测模型，有利于考虑多种DNA层面的变异的联系，以及对肿瘤的共同影响，利于提高预测肿瘤的原发灶的准确性，改善对肿瘤治疗手段选择的指导。例如，如果发现肺部发生突变，可能肺部并非突变的原发部位，可能是由其他部位转移的，如仅针对肺部用药，治疗效果可能并非理想，而准确确定原发灶，并针对其原发灶用药能够带来更为明显的疗效。

下文将进一步结合图5来说明关于生成预测模型的输入数据的具体方式，在此，不再赘述。

在框210处，计算设备130经由预测模型，提取输入数据的特征值，以便基于所提取的特征值预测待测肿瘤的类型，预测模型经由对多个训练样本的机器学习模型训练而生成。

关于预测模型116，在一些实施例中，预测模型116可以基于随机森林模型或者深度学习的网络模型而构建。

关于预测模型116的输入，其例如是，计算设备130将所获取肿瘤的特征信息、突变类型数据和待测肿瘤的所属对象的属性信息进行合并，以生成待处理数据，并进一步将所生成的待处理数据通过相似度校准和/或随机抽样等方式进行降维处理，以便生成预测模型116的输入特征矩阵。关于用于生成预测模型116的输入数据的具体方法，下文将进一步结合图5和图6加以说明，在此，不再赘述。

关于预测模型116的训练样本，计算设备130可以预先统计一定量(例如一万个)已知悉肿瘤类型的肿瘤患者的关于肿瘤的DNA测序比对结果信息，并过滤掉罕见肿瘤类型或肿瘤含量低的DNA测序对比信息，以便基于经过滤的DNA测序比对结果信息，生成基因组层面的突变类型数据，然后将肿瘤的分期特征信息、相关肿瘤患者的属性信息合并成样本数据集。在一些实施例中，计算设备130将四分之三的样本数据集用于预测模型116的训练，将其他四分之一的样本数据集用于预测模型116的测试，以便进行交叉验证。

关于预测模型116的输出，其例如是预定数量的肿瘤类型以及与该肿瘤类型对应的发生概率。以下表一示例出样本ID为100010ASM1L1(其实际肿瘤类型为CRC)的待测样本的预测输出数据。其中，在预测模型116的输出数据中，会给出多个肿瘤类型，以及对于每一个所给出的肿瘤类型对应给出一个预测概率，多个肿瘤类型的多个对应预测概率之和为1。如表一所示，预测概率排名靠前的三个肿瘤类型例如被定义为一级预测、二级预测以及三级预测。如表一所示，样本ID为100010ASM1L1的一级预测、二级预测以及三级预测分别为：预测概率最高的CRC(其预测概率约为0.9346)、GC(其预测概率约为0.0110)以及PAC(其预测概率约为0.0107)。

表一

以下表二示例出样本ID为：100155AZD1L1(其实际肿瘤类型为PAC)的待测样本的预测输出数据。如表二所示，样本ID为100010ASM1L1的一级预测、二级预测以及三级预测分别为：预测概率最高的ECC(其预测概率约为0.2578)、PAC(其预测概率约为0.2345)、GBC(其预测概率约为0.1548)。

表二

由上述表一和表二所示结果可知，预测模型116所预测的一级预测、二级预测以及三级预测中准确指示了原发部位的实际肿瘤类型。

在上述方案中，通过将基于待测肿瘤的特征信息和DNA测序比对层面的突变类型数据所生成的输入数据输入经样本训练的预测模型，进而基于所提取的输入数据的特征来预测待测肿瘤的类型，本公开能够综合考虑传统的免疫组织化学、临床评估信息以及DNA数据中的突变信息对肿瘤类型预测方面的贡献，由于突变在DNA数据中积累，形成了不受局部转移环境影响的肿瘤进化的历史记录。进而能够提高预测原发部位的肿瘤的类型的准确性。

在一些实施例中，预测模型116可以是基于随机森林模型而构建的。随机森林模型是一种集成算法(Ensemble Learning)模型。图3示意性地示出了基于随机森林模型所构建的预测模型300的示意图。如图3所示，预测模型300通过自举汇聚法(bootstrapaggregating)，针对原始数据集(例如是关于待测肿瘤的输入数据310)进行随机采样320(例如有放回抽样)，以重新选出N个(N为自然数)新数据集(例如，第一训练样本330-1、第二训练样本330-2至第N训练样本330-N)，以用于进行分类器训练340，使用多个分类器(例如，第一分类器350-1、第二分类器350-2至第N分类器350-N)针对第一训练样本330-1、第二训练样本330-2至第N训练样本330-N进行分类。然后经由投票模型360进行多数投票，或者通过针对分类器的输出求均值的方法统计所有分类器的分类结果，以便以分类结果最高的强分类器370的输出类型作为预测模型的输出数据(例如是关于待测样本的肿瘤类型的最终标签以及对应预测概率)。

由于预测模型300通过针对原始输入数据经随机采样以生成多个训练样本，能够处理关于DNA突变信息的高维度的、稀疏性的输入数据，而无需做特征选择，因此，对于对输入数据的适应能力强，具有很好的抗噪声能力。而且在训练过程中，预测模型300通过多组没有关联的分类器进行分类决策，然后以分类结果最高的强分类器的输出类型作为预测模型的输出数据，利于检测到特征之间的互相影响，进而使得本公开的预测模型的预测结果具有较高的精确度和泛化性能。以下表三例如示例性示出预测模型300的预测结果。如表三所示，第一列表示预测模型300所预测的肿瘤类型(或癌症类型)，后面列的数据为每一个肿瘤类型的预测概率。

表三

以下将结合图4描述根据本公开的实施例的用于生成关于基因变异的第二数据的方法。图4示出了根据本公开的实施例的用于生成关于基因变异的第二数据的方法400的流程图。应当理解，方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框402处，计算设备130基于比对结果信息，针对每一个基因上的位点发生突变个数进行统计。

在框404处，计算设备130统计预定量的对象中在每一个基因上的位点发生突变的最大个数。例如，这个最大个数例如是1万个人的数据中，该基因突变出现的最大次数。

在框406处，计算设备130基于待测对象的每一个基因上的位点发生突变个数和所统计的每一个基因上的位点发生突变的最大个数，生成关于基因变异的第二数据。例如，计算设备130通过将待测对象的每一个基因上的位点发生突变个数除以每一个基因上的位点发生突变的最大个数，以此可以保证关于第二数据的特征矩阵的每一个维度的稳定性。

以下将结合图5描述根据本公开的实施例的用于生成预测模型的输入数据的方法。图5示出了根据本公开的实施例的用于生成预测模型的输入数据的方法500的流程图。应当理解，方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框502处，计算设备130基于特征信息、突变类型数据和待测肿瘤的所属对象的属性信息，生成待处理数据。例如，针对待测样本，计算设备130将前述特征信息、突变类型数据和待测肿瘤的所属对象的属性信息进行合并，以生成待处理数据。该待处理的数据的维度一般较高，例如包括9000个以上的特征，并且这些特征中存在较多的相似特征。

在框504处，计算设备130计算待处理数据所包括的多个特征之间的相似度。例如，计算设备130计算每一个特征与其他特征之间的相似度。

在框506处，计算设备130基于所计算的相似度与预定相似度阈值的比较，针对待处理数据进行降维处理，以生成输入数据。例如，如果计算设备130确定所计算的待处理数据内部的一个特征与另一特征的相似度超过预定相似度阈值(例如而不限于是80％)，则会过滤掉其中的一个特征，以便针对待处理数据进行降维处理，例如而不限于将处理后特征维度降至待处理数据的原始特征维度的1/3。进行上述降维处理的原因在于，如果高度相似的特征过多，其对于预测模型中的解释度的影响权重过大，因此，通过将超过预定相似度阈值的特征进行过滤，利于提高预测模型的预测准确性。

经研究发现，经由上述基于相似度的降维处理的数据中依然比较稀疏，存在一些不涉及突变的信息，这些信息对预测结果的影响较小。而且，特征维度较高，预测模型的训练成本较高，训练效率相对较低。因此，可以针对经前述降维处理的数据进行进一步的处理。在一些实施例中，生成预测模型的输入数据的方法400还包括图6所示的方法。

以下将结合图6描述根据本公开的实施例的用于生成输入数据的方法。图6示出了根据本公开的实施例的用于生成输入数据的方法600的流程图。应当理解，方法600例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框602处，计算设备130基于多个预定维度值中的每一个预定维度值，分别针对经降维处理的数据进行多次随机抽样，以便生成特征维度为每一个预定维度值的多个样本数据。例如，计算设备130分别基于预定维度值500、1000、2000中的每一个维度值，分别针对经降维处理的数据进行多次随机抽样，分别针对500、1000、2000中的每一个维度值生成多个样本数据。

在框604处，计算设备130基于特征维度为每一个预定维度值的多个样本数据，针对预测模型进行训练，以便生成与每一个预定维度值相关联的关于肿瘤类型的多个预测结果。

在框606处，计算设备130确定多个预测结果的变化值是否小于或者等于预定变化阈值。

如果计算设备130确定预测结果的变化值小于或者等于预定变化阈值，在框608处，基于与多个预测结果相关联的每一个预定维度值来确定用于预测模型的输入数据。

通过采用上述手段，本公开将针对预测肿瘤类型这一预测结果的贡献较小的特征通过随机抽样的方式进行过滤，能够在保证较高的关于肿瘤类型的预测准确性的同时，能够显著提高预测模型的训练效率。

图7示意性示出了适于用来实现本公开实施例的电子设备700的框图。设备700可以是用于实现执行图2、图4至图6所示的方法200、400至600，以及图4所示预测模型300的设备。如图7所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708，处理单元701执行上文所描述的各个方法和处理，例如执行方法200、400至600。例如，在一些实施例中，方法200、400至600可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU701执行时，可以执行上文描述的方法200、400至600的一个或多个操作。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、400至600的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种细菌中功能性前噬菌体及其位置与序列的检测方法

用于预测肿瘤类型的方法、电子设备和计算机存储介质

相关技术

网友询问留言