用于医学文本内的癌症分期注释的方法和系统

文档序号:555565 发布日期:2021-05-14 浏览:16次 >En<

阅读说明:本技术 用于医学文本内的癌症分期注释的方法和系统 (Method and system for cancer staging annotation within medical text ) 是由 吴庆鑫 W-J·易 R·C·范奥明 S·F·皮拉托 于 2019-08-27 设计创作,主要内容包括:一种用于使用注释系统(400)根据基于文本的源生成标准化癌症分期的方法(100),包括:(i)由分期注释器从基于文本的源中提取(130)关于患者的癌症的分期的信息以生成癌症注释;(ii)由疾病注释器根据基于文本的源识别(140)指示癌症的类型的信息;(iii)由分期同义词注释器从基于文本的源中提取(150)与癌症同义的信息以生成癌症注释;(iv)由分期规范化器将来自分期注释器和分期同义词注释器的癌症注释转换(160)为标准化癌症分期;并且(v)报告(170)标准化癌症分期,该报告包括标准化癌症分期、从基于文本的源中提取的癌症注释和/或癌症注释中的每个在基于文本的源内的位置。(A method (100) for generating a standardized cancer stage from a text-based source using an annotation system (400), comprising: (i) extracting (130), by a staging annotator from a text-based source, information about the staging of the patient&#39;s cancer to generate a cancer annotation; (ii) identifying (140), by a disease annotator, information indicative of a type of cancer from a text-based source; (iii) extracting (150), by a staging synonym annotator, information synonymous with cancer from a text-based source to generate a cancer annotation; (iv) converting (160), by a staging normalizer, cancer annotations from a staging annotator and a staging synonym annotator into normalized cancer stages; and (v) reporting (170) the standardized cancer stage, the report including the standardized cancer stage, the cancer annotation extracted from the text-based source, and/or the location of each of the cancer annotations within the text-based source.)

用于医学文本内的癌症分期注释的方法和系统

技术领域

本公开总体上涉及用于表征和标准化从文档获得的癌症分期信息的方法和系统。

背景技术

癌症分期是癌症的关键属性。例如,癌症分期衡量癌症的大小及其已经增长多远。因此,分期信息可以帮助医学专业人员选择最佳处置。例如,当搜索针对特定患者的合格试验时,患者的癌症分期必须与如合格性准则中找到的试验的癌症分期要求精确匹配。然而,除了自由文本之外,在临床试验中没有结构化的癌症分期信息。因此,从整个临床试验文档中检测分期并将其归一化对于临床试验匹配至关重要。然而,从试验中手动提取分期信息是耗时、费力且容易出错的。

存在用于癌症的两种主要类型的标准化分期系统。这些是TNM(肿瘤、结节和转移)系统和数字分期系统。标准化分期系统提供多种益处。首先,医学专家有公共语言来描述癌症。第二,可以在不同的医学处置机构之间对处置指南进行标准化。此外,如果使用标准化分期系统,则可以在研究学习之间准确比较处置结果。除了这两种主要类型的分期系统外,还有若干其他方法来描述未标准化的癌症分期。这些分期同义词中的一些可以手动转换到标准化分期系统之一,但是没有自动的转换机制。例如,诸如“原位癌”的短语能够等同于“0期”,而诸如“转移性癌症”和“晚期癌症”的短语则是“4期”的同义词。

尽管分期信息能够是极其有益的,但是通常没有结构化的分期信息可用,因为包括医学试验文档在内的许多种类的临床文档作为自由文本存在,并且在该自由文本中找到的分期信息是非结构化的。

发明内容

持续需要从基于文本的文档中自动提取分期信息并将所提取的分期信息转换为标准化格式的方法和系统。本文的各种实施例和实施方式涉及一种方法和系统,其被配置为接收和处理诸如试验文档或临床文档的基于文本的源,以进行基于文本的分析。该系统从基于文本的源中提取关于患者的癌症的分期的信息以生成一个或多个癌症注释,包括基于文本的源内具有指示癌症的分期的信息一个或多个位置的识别。该系统识别基于文本的源内之事癌症的类型的信息,并且如果同义词信息由决策模型确定为与基于文本的源内识别的癌症的类型密切相关,则从基于文本的源内提取与癌症同义的信息以生成一个或多个癌症注释。该系统将癌症注释转换为规范化或标准化癌症分期。任选地报告癌症分期以及从基于文本的源中提取的癌症注释和/或基于文本的源内的一个或多个癌症注释的位置。

通常,在一个方面中,提供了一种用于使用注释系统根据基于文本的源生成标准化癌症分期的方法。该方法包括:(i)接收基于文本的源,所述基于文本的源包括关于患者的医学状态或状况的信息;(ii)由处理器处理所述基于文本的源以进行基于文本的分析;(iii)由分期注释器从所述基于文本的源中提取关于所述患者的癌症的分期的信息以生成一个或多个癌症注释,所述一个或多个癌症注释包括对所述基于文本的源内包括指示癌症的分期的信息的一个或多个位置的识别;(iv)由疾病注释器识别来自所述基于文本的源的指示癌症的类型的信息;(v)在同义词信息由决策模型确定为与所识别的指示癌症的类型的信息密切相关的情况下,由分期同义词注释器从所述基于文本的源中提取与癌症同义的信息以生成一个或多个癌症注释;(vi)由分期规范化器将来自所述分期注释器和所述分期同义词注释器的所述一个或多个癌症注释转换为标准化癌症分期;并且(vii)报告所述标准化癌症分期,所述报告包括:所述标准化癌症分期、从所述基于文本的源中提取的所述一个或多个癌症注释和/或所述一个或多个癌症注释中的每个癌症注释在所述基于文本的源内的所述位置。

根据实施例,所述方法还包括基于报告来实施动作。根据实施例,动作是由医疗保健专业人员对处置计划的实施。根据另一个实施例,动作是基于从临床试验中提取的癌症分期对针对患者的合适的临床试验的识别。

根据实施例,分期注释器包括:(i)TNM注释器,其被配置为识别所述基于文本的源内包括指示肿瘤的TNM分类的信息的一个或多个位置;以及(ii)数字注释器,其被配置为识别所述基于文本的源内包括指示肿瘤的数字分类的信息的一个或多个位置。

根据实施例,标准化癌症分期包括罗马数字。

根据实施例,该方法还包括通过以下操作来测试注释系统:(i)由查看所述基于文本的源的观察者生成标准化癌症分期;(ii)将所述观察者的标准化癌症分期与由所述注释系统生成的所述标准化癌症分期进行比较;(iii)根据所述比较来识别所述观察者的标准化癌症分期与由所述注释系统生成的所述标准化癌症分期之间的任何差异;并且(iv)在所述观察者的标准化癌症分期与由所述注释系统生成的所述标准化癌症分期不匹配的情况下修改以下各项中的一项或多项:所述疾病注释器、所述分期注释器、所述分期同义词注释器和/或所述分期规范化器。

根据实施例,来自基于文本的源的与癌症同义的信息包括描述肿瘤的物理状态的信息。

在另一方面中是一种被配置为根据基于文本的源生成标准化癌症分期的系统。该系统包括:多个基于文本的源;处理器,其被配置为:(i)从所述基于文本的源中提取关于所述患者的癌症的分期的信息以生成一个或多个癌症注释,所述一个或多个癌症注释包括对所述基于文本的源内包括指示癌症的分期的信息的一个或多个位置的识别;(ii)识别来自所述基于文本的源的指示癌症的类型的信息;(iii)在同义词信息被确定为与所识别的指示癌症的类型的信息密切相关的情况下,从所述基于文本的源中提取与癌症同义的信息以生成一个或多个癌症注释;(iv)将来自所述分期注释器和所述分期同义词注释器的所述一个或多个癌症注释转换为标准化癌症分期;并且(v)生成所述标准化癌症分期的报告,所述报告包括:所述标准化癌症分期、从所述基于文本的源中提取的所述一个或多个癌症注释和/或所述一个或多个癌症注释在所述基于文本的源内的所述位置;以及用户接口,其被配置为将所述标准化癌症分期的报告传递给用户。

根据实施例,所述处理器被配置为:(i)识别所述基于文本的源内包括指示肿瘤的TNM分类的信息的一个或多个位置;和/或(ii)识别所述基于文本的源内包括指示肿瘤的数字分类的信息的一个或多个位置。

根据实施例,处理器被配置为:(i)将所述标准化癌症分期与由人类观察者生成的标准化癌症分期进行比较;(ii)识别所述标准化癌症分期与由所述人类观察者生成的所述标准化癌症分期之间的任何差异;并且(iii)在所述标准化癌症分期与由所述人类观察者生成的所述标准化癌症分期不匹配的情况下修改所述系统。

根据实施例,多个基于文本的源包括关于一个或多个患者的临床文档。根据另一实施例,多个基于文本的源包括关于一个或多个临床试验的文档。

应该意识到,以下更详细讨论的前述概念和额外的概念的所有组合(假定这样的概念不相互不一致)被预期为本文公开的发明主题的部分。具体而言,出现在本公开的结束处的请求保护的主题的所有组合被预期为本文公开的发明主题的部分。还应该意识到,本文明确采用的也可以出现在通过引用并入的任何公开中的术语应该被赋予与本文公开的特定概念最一致的含义。

各种实施例的这些和其他方面将根据在下文中所描述的(一个或多个)实施例而显而易见并且参考在下文中所描述的(一个或多个)实施例得到阐述。

附图说明

在附图中,相似附图标记通常贯穿不同的视图指代相同的部分。而且,附图不一定按比例绘制,相反重点通常放在说明各种实施例的原理上。

图1是根据实施例的用于标准化癌症分期信息的方法的流程图。

图2是根据实施例的用于标准化癌症分期信息的方法的流程图。

图3是根据实施例的用于标准化癌症分期信息的方法的流程图。

图4是根据实施例的用于标准化癌症分期信息的系统的示意性表示。

具体实施方式

本公开描述了用于从基于文本的文档中提取分期信息并将所提取的分期信息转换成标准化格式的系统和方法的各种实施例。更一般地,申请人已经认识并意识到,提供一种将从基于文本的文档中提取的癌症分期信息标准化的系统将是有益的。该系统从基于文本的源中提取关于患者的癌症分期的信息以生成一个或多个癌症注释,包括对基于文本的源内具有指示癌症的分期的信息的一个或多个位置的识别。该系统识别基于文本的源内指示癌症的类型的信息,并且如果同义信息由决策模型确定为与基于文本的源内识别的癌症的类型密切相关,则从基于文本的源中提取与癌症同义的信息以生成一个或多个癌症注释。该系统将癌症注释转换为规范化或标准化癌症分期。任选地报告癌症分期以及从基于文本的源中提取的癌症注释和/或基于文本的源内的一个或多个癌症注释的位置。

参考图1,在一个实施例中,是方法100的流程图,方法100用于从基于文本的文档中提取分期信息并使用注释系统将所提取的分期信息转换为标准化格式。结合附图描述的方法仅作为示例提供,并且不应被理解为本公开的范围的限制。注释系统可以是本文描述或以其他方式设想的系统中的任一个。

在该方法的步骤110处,由注释系统获得或接收一个或多个基于文本的源。这些基于文本的源可以是任何文本、文档或其他包含文本的记录或源。根据优选实施例,基于文本的源是数字或数字化源。例如,基于文本的源可以是医学试验信息,包括资格、参数或关于该试验的其他信息。作为另一个示例,基于文本的源可以是临床记录,实验室报告或关于患者的其他医学信息。这些仅是示例,并不意味着详尽无遗。基于文本的源可以由个体或另一系统提供给注释系统。额外地和/或备选地,基于文本的源可以由注释系统检索。例如,注释系统可以连续或周期性地访问数据库、网站或包括或提供基于文本的源的任何其他资源。例如,在试验文档的情况下,可以从医学试验和相关联的信息的数据库中检索这些文档。

接收或获得的基于文本的源可以被存储在本地或远程数据库中以由注释系统使用。例如,注释系统可以包括用于存储基于文本的源的数据库,和/或可以与存储基于文本的源的数据库进行通信。这些数据库可以与注释系统一起定位,或者可以远离注释系统定位,例如在云存储设备和/或其他远程存储设备中。

在该方法的步骤120处,注释系统处理基于文本的源,以准备它们以用于基于文本的分析。注释系统可以在接收到每个基于文本的源时对其进行处理,或者可以分批处理基于文本的源,或者可以恰在该方法的后续步骤中分析基于文本的源之前对其进行处理。可以使用任何有助于下游基于文本的分析的处理方法或系统来处理基于文本的源。该处理可以包括例如从源中识别和/或提取文本,尤其是在源包括文本以外的内容(例如图像、表格或其他非文本内容)的情况下。该处理还可以包括提取文本的归一化,提取文本的翻译,以及许多其他形式或种类的处理。可以将经处理的基于文本的源或其中的经处理的内容存储在本地或远程存储设备中,以用于该过程的后续步骤。

在该方法的步骤130中,注释系统的分期注释器从基于文本的源内或从基于文本的源内提取的文本内提取关于患者的癌症的分期的信息以生成一个或更多癌症注释。该信息包括,例如,包括指示癌症分期的信息的基于文本的源内的一个或多个位置的识别。

分期注释器可以包括一个或多个注释器,其被配置为从基于文本的源内识别和/或提取癌症分期信息。参考图2,在一个实施例中,图2是注释系统200,注释系统200包括被配置为生成一个或多个癌症注释的注释器220。注释器220接收一个或多个基于文本的源210,并处理该信息以生成一个或多个癌症注释。

根据实施例,分期注释器220包括TNM注释器222,其被配置为识别包括指示肿瘤的TNM分类的信息的基于文本的源内的一个或多个位置。TNM分类表征肿瘤的解剖范围。分类的“T”描述原发肿瘤的大小以及是否其侵犯了附近的组织;分类的“N”描述可能涉及的任何附近淋巴结;并且分类中的“M”描述癌症的任何转移。TNM分期通常写为<前缀>T<等级>N<等级>M<等级>,其中,<前缀>指定是临床分期还是病理分期(或几个更多变体中的任一个),并且其中,三个<等级>描述原发性肿瘤、淋巴结和转移。<等级>是0和(直到)4之间的数字,跟随有任选字母。<前缀>和任何<等级>是任选的,并且当查看基于文本的源时可以省略。

相应地,考虑到每个组件的任选性,TNM注释器222被配置为识别<前缀>和<等级>的所有可能的组合。注释器还被配置为识别分期的枚举和范围,例如T1,2和T2a-c。请注意,<等级>的实际允许值是针对每种癌症类型定义的。如下所述,TNM分期与数字分期系统之间存在关系。

根据实施例,分期注释器包括数字注释器224,其被配置为识别基于文本的源内包括指示肿瘤的数字分类的信息的一个或多个位置。数字分期以许多不同的方式和格式在文本中编写或提供。例如,分期可以写为“I期”、“分期:I”、“I和II期”、“I期和II期”、“Ia到IIIb期”等。

根据实施例,数字注释器224被配置为首先检测没有范围的单个分期,例如“分期:III”,“3期”等等。可以通过对基于文本的源(例如临床试验文档)中识别的分期格式的所有变体执行横向识别来配置或训练数字注释器。因此,数字注释器可以通过执行模式识别或用于识别基于文本的源内的文本或字符的任何其他方法来识别单个分期。

在识别分期后,数字注释器224任选地通过将所有识别的分期转换为单个标准化格式来归一化所识别的分期。作为一种选择,识别的分期全部被转换为罗马数字。因此,诸如“3”或“三”的分期将转换为罗马数字“III”。

因此,数字注释器224还可以被配置为检测诸如‘Ia到IIIb期’、‘I和II期’、‘分期:I,II,III’等的分期范围。数字注释器可以被配置为将检测到的分期范围转换为标准化格式。作为一种选择,识别的分期范围都将转换为罗马数字范围。因此,诸如“1和2期”的分期指示符被转换为“I和II期”。

根据实施例,分期注释器包括分期同义词注释器226,其被配置为识别基于文本的源内的一个或多个位置,和/或从基于文本的源内的一个或多个位置提取信息,包括与癌症同义的信息,以生成一个或多个分期同义词注释。参考图3,在一个实施例中,图3是用于使用分期同义词注释器226导出状态同义词注释330的过程300的流程图。分期同义词注释器226从一个或多个基于文本的源210接收并分析信息。

在来自图1的方法的步骤140,注释系统的疾病注释器310从基于文本的源内识别和/或提取指示癌症的类型的信息。疾病注释器310可以被编程或训练以识别指示癌症的类型的术语、短语或其他信息。例如,疾病注释器310可以被编程或训练以单独或与其他术语结合识别和/或提取诸如“颈部”或“喉咙”或“胰腺”的位置信息,以确定癌症的位置或类型。这产生疾病注释312,其包括癌症类型的识别或其他表征。

在来自图1的方法的步骤150处,分期同义词注释器226识别基于文本的源内的一个或多个位置,和/或从基于文本的源内的一个或多个位置提取信息,包括与癌症同义的信息,以生成一个或多个分期同义词注释227。

癌症文档可以包括描述或以其他方式关于癌症并且指示或直接描述癌症分期的各种术语。例如,也经常使用癌症分期同义词,诸如“局部晚期乳腺癌”或“转移性肺癌”等。这些同义词可以转换为数字分期。根据实施例,这些同义词可以从多个癌症分期相关文档中收集和包括,例如期刊、病历和论文。单独检测可能同义词短语(诸如“转移”)可能是不够的,因为这些短语有时不描述癌症分期。作为示例,诸如“原位肺癌”的短语意指肺癌的早期分期,但单独“原位”能够意指“就地”,其与癌症分期无关。

参考表1,在一个实施例中,表1是分期同义词和与分期同义词相关的数字分期的示例。

表1、分期同义词的示例

注释器系统可以被配置为确定分期同义词注释是否与所识别的指示癌症的类型的信息充分相关。例如,分期同义词注释器226可以比较疾病注释312和分期同义词注释227以确定它们是否兼容。如果分期同义词注释227与疾病注释312兼容,意味着例如分期同义词是与所识别的癌症类型相关联的同义词,则生成最终分期同义词注释330。例如,决策模型320可以用于确定由分期同义词注释器识别的分期同义词注释是否准确。作为仅一个示例,如果癌症标签表现为与检测到的分期同义词非常接近(例如,不超过2个术语距离),则决策模型可以将分期同义词注释报告为是准确的。通过将两个注释与决策模型结合在一起,分期同义词注释器呈现良好性能。最终分期同义词注释330是癌症注释,其可以由注释器系统在该过程的后续步骤中利用。

根据实施例,分期注释器任选地包括一个或多个专用注释器228,其被配置为从基于文本的源内或从基于文本的源中提取的文本内提取关于患者癌症的分期的信息以生成一个或多个癌症注释。一个或多个专用注释器228被配置为识别专门癌症分期分类。例如,专用注释器228可以被配置为识别Ann Arbor分期、Spigelman分期和/或癌症分期分类的任何其他专门类型。

可以将由注释系统中的注释器中的任一个生成的提取的一个或多个癌症注释存储在本地或远程数据库中,以由注释系统使用。例如,注释系统可以包括用于存储一个或多个癌症注释的数据库,和/或可以与存储一个或多个癌症注释的数据库通信。这些数据库可以与注释系统一起定位,或者可以远离注释系统定位,例如在云存储和/或其他远程存储设备中。

再次参考图1,在一个实施例中,在方法的步骤160,分期规范化器将来自注释器的一个或多个癌症注释转换为规范化癌症分期。例如,如图2所示,规范化器230从注释器220接收一个或多个癌症注释并且将癌症注释修改为标准化格式。标准化格式可以由用户、系统要求和/或经由其他机制选择或以其他方式确定。例如,规范化器230可以被配置或编程为将来自注释器的所有癌症注释转换为罗马数字。

根据实施例,规范化器230可以被配置或编程为将相同分期的不同格式规范化为相同格式。作为另一示例,规范化器230可以被配置或编程为将不同分期系统(诸如分期同义词)转换为数字分期,如表1所示。在没有这一点的情况下,“1期肺癌”不会与“早期肺癌”匹配,这将忽略掉重要癌症注释。

参考表2,在一个示例中,表2是一组规范化器或用于规范化器230的规范化协议,其将不同的分期指示符转换为标准化格式。根据实施例,可以组合两个或更多个规范化器或规范化协议的输出,或者可以串联地组织两个或更多个规范化器或规范化协议,使得规范化器230的最终输出是从基于文本的源中提取的标准化分期。该最终输出还可以包括基于文本的源内的位置,其中,识别了标准化分期所基于的注释。

表2、规范化器的示例

标准化分期和/或注释位置可以存储在本地或远程数据库中,以由注释系统使用。例如,注释系统可以包括用于存储标准化分期的数据库,和/或可以与存储标准化分期的数据库通信。这些数据库可以与注释系统一起定位,或者可以远离注释系统定位,例如在云存储和/或其他远程存储设备中。

再次参考图1,在一个实施例中,在该方法的步骤170,注释系统生成和/或提供如由规范化器230生成的规范化癌症分期的报告。根据实施例,该报告还可以包括从基于文本的源中提取的一个或多个癌症注释,和/或一个或多个癌症注释在基于文本的源内的位置。

可以经由系统的用户接口提供报告,该系统可以是允许信息被传达和/或接收的任何设备或系统,并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。该报告可以是视觉显示、印刷文本、电子邮件、可听报告、传输和/或传达该信息的任何其他方法。该报告可以在本地或远程提供,并且因此系统或用户接口可以包括或以其他方式连接到通信系统。例如,系统可以通过诸如互联网或其他网络的通信系统传递报告。

在该方法的任选步骤180,报告中包含的信息用于实施一个或多个后续动作。作为仅一个示例,该报告可以由医疗保健专业人员接收和查看。例如,可以由医疗保健专业人员利用来自关于患者提供的基于文本的源的癌症分期信息,以确定、确认或以其他方式通知针对患者的处置。

作为另一示例,报告可以用于从临床试验文档中提取癌症分期要求。由于癌症分期要求通常在临床试验文档中提供为自由文本形式,因此用于识别和报告癌症分期要求的标准化方案可能对繁忙的医疗保健专业人员或其他临床医师高度有益。作为示例,提取的标准化癌症分期信息可以被存储在数据库中或以其他方式用于创建临床试验列表。例如,医疗保健专业人员或其他临床医生可以利用此列表来确定患者的可能的临床试验。

注释系统可以使用各种训练方法来训练。例如,可以将大量文档(诸如临床试验文档)手动注释为标准数据。注释器系统然后可以注释同一组文档。然后,系统可以将手动注释与注释系统注释进行比较,这将示出真阳性(TP)、假阳性(FP)和假阴性(FN)。然后,系统或个体可以手动查看任何假注释。如果在查看时检测到注释器系统注释中的错误,则可以将信息提供回到注释系统中以改进注释。可以重复该过程,直到精度和召回率达到足够的水平。

例如,方法100可以包括训练和/或测试步骤112。人类观察者通过查看基于文本的源来生成标准化癌症分期。该系统将观察者的标准化癌症分期与由注释系统生成的标准化癌症分期进行比较。该系统基于比较来识别观察者的标准化癌症分期与由注释系统生成的标准化癌症分期之间的任何差异。根据实施例,如果观察者的标准化癌症分期和由注释系统生成的标准化癌症分期不匹配或不足够相似,则系统的用户或训练元素可以修改疾病注释器、分期注释器、分期同义词注释器和/或分期规范化器中的一个或多个,以在未来的迭代中适当地标准化癌症分期。

参考图4,在一个实施例中,图4是用于生成基因组参考的注释系统400的示意性表示。系统400可以是本文所描述或以其他方式设想的系统中的任一个,并且可以包括本文所描述或以其他方式设想的部件中的任一个。

根据实施例,系统400包括经由一个或多个系统总线412互连的处理器420、存储器430、用户接口440、通信接口450、和存储设备460中的一个或多个。在一些方面中,将理解,图4构成抽象并且系统400的部件的实际组织可以是不同的并且比所图示的更复杂的。

根据实施例,系统400包括能够运行存储在存储器430或存储设备460中的指令或以其他方式处理数据以例如执行方法的一个或多个步骤的处理器420。处理器420可以由一个或多个模块形成。处理器420可以采取任何适当的形式,包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器、或多个处理器。

存储器430可以采取任何适当的形式,包括非易失性存储器和/或RAM。存储器430可以包括各种存储器,诸如例如L1、L2或L3高速缓存或系统存储器。这样一来,存储器430可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或者其他类似存储器设备。除了其他事物,存储器可以存储操作系统。RAM由处理器用于数据的暂时存储。根据实施例,操作系统可以获得在由处理器运行时控制系统400的一个或多个部件的操作的代码。将显而易见的是,在处理器以硬件实施本文所描述的功能中的一个或多个的实施例中,可以省略描述为对应于其他实施例中的这样的功能的软件。

用户接口440可以包括用于使能与用户通信的一个或多个设备。用户接口可以是允许信息传达和/或接收的任何设备或系统,并且可以包括显示器、鼠标、和/或用于接收用户命令的键盘。在一些实施例中,用户接口440可以包括可以经由通信接口450呈现给远程终端的命令行接口或者图形用户接口。用户接口可以与系统的一个或多个其他部件一起定位,或者远离系统定位并且经由有线和/或无线通信网络进行通信。

通信接口450可以包括用于使能与其他硬件设备通信的一个或多个设备。例如,通信接口450可以包括被配置为根据以太网协议通信的网络接口卡(NIC)。此外,通信接口450可以实施用于根据TCP/IP协议通信的TCP/IP栈。针对通信接口450的各种备选或者额外的硬件或者配置将是显而易见的。

存储设备460可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备或者类似存储介质。在各种实施例中,存储设备460可以存储用于由处理器420运行的指令或者处理器420可以操作的数据。例如,存储设备460可以存储用于控制系统400的各种操作的操作系统461。存储设备460还可以存储一个或多个基于文本的源462和/或一个或多个注释463。

将显而易见的是,被描述为被存储在存储设备460中的各种信息可以额外地或者备选地被存储在存储器430中。在该方面中,存储器430还可以被认为是构成存储设备并且存储设备460可以被认为是存储器。各种其他布置将是显而易见的。此外,存储器430和存储设备460两者可以被认为是非瞬态机器可读介质。如本文所使用的,术语非瞬态将被理解为排除瞬态信号但是包括所有形式的存储设备,包括易失性和非易失性存储器两者。

尽管注释系统400被示出为包括每个所描述的部件之一,但是在各种实施例中,可以复制各种部件。例如,处理器420可以包括多个微处理器,所述多个微处理器被配置为独立地执行本文所描述的方法或者被配置为执行本文所描述的方法的步骤或子例程,使得多个处理器协作来实现本文所描述的功能。此外,在系统400的一个或多个部件被实施在云计算系统中的情况下,各种硬件部件可以属于单独的物理系统。例如,处理器420可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变型和配置是可能的。

根据实施例,注释系统400的存储设备460可以存储一个或多个算法和/或指令,以执行本文描述或以其他方式设想的方法的一个或多个功能或步骤。例如,除了其他指令之外,处理器420可以包括注释指令464、规范化指令465和报告指令466。

根据实施例,注释指令464指导系统根据一个或多个基于文本的源生成一个或多个注释,其可以包括基于文本的源内包括指示癌症的分期的信息的一个或多个位置的识别。例如,根据实施例,注释系统接收一个或多个基于文本的源并处理该信息以生成一个或多个癌症注释。注释指令464可以包括用于疾病识别、TNM注释、数字注释、分期同义词注释和/或如本文中所描述或以其他方式设想的识别或注释的专用形式的指令。

根据实施例,关于分期同义词注释,注释指令464指导系统确定分期同义词注释是否与所识别的癌症的类型充分相关,并且如果是,则生成最终分期同义词注释。例如,注释指令可以包括比较或决策模型,其用于基于比较来确定由分期同义词注释器识别的分期同义词注释是否准确。

指令可以指导系统将一个或多个注释存储在本地或远程数据库中,以由注释系统检索和使用。数据库可以与注释系统一起定位,或者可以远离注释系统定位,例如在云存储和/或其他远程存储设备中。

根据实施例,规范化指令465指导系统生成规范化分期信息。例如,根据实施例,规范化指令指导系统将一个或多个癌症注释从非标准化格式转换为标准化癌症分期输出。标准化格式可以由用户、系统要求和/或经由其他机制选择或以其他方式确定。例如,规范化指令可以被配置或编程为将来自注释器的所有癌症注释转换为罗马数字,但是许多其他格式是可能的。规范化指令也可以被配置或编程为生成规范化分期信息,其包括基于文本的源内的位置,其中,识别标准化分期所基于的每个注释。

指令可以指导系统将规范化分期信息存储在本地或远程数据库中,以由注释系统检索和使用。数据库可以与注释系统一起定位,或者可以远离注释系统定位,例如在云存储和/或其他远程存储设备中。

根据实施例,报告指令466指导系统生成和/或提供规范化分期信息的报告。根据实施例,该报告还可以包括从基于文本的源中提取的一个或多个癌症注释,和/或一个或多个癌症注释中的每个在基于文本的源内的位置。例如,根据实施例,注释系统生成报告并经由用户接口或经由通信网络提供报告。该报告可以是视觉显示、印刷文本、电子邮件、可听报告、传输和/或传达该信息的任何其他方法。该报告可以在本地或远程提供,并且因此系统或用户接口可以包括或以其他方式连接到通信系统。例如,系统可以通过诸如互联网或其他网络的通信系统传递报告。

根据实施例,医疗保健专业人员可以利用所提供的报告来实施一个或多个后续动作。例如,该报告可以由医疗保健专业人员接收和查看。例如,可以由医疗保健专业人员利用来自关于患者提供的基于文本的源的癌症分期信息,以确定、确认或以其他方式通知针对患者的处置。作为另一示例,该报告可以用于从临床试验文档中提取癌症分期要求。这些和其他后续操作都是可能的。

本文描述或以其他方式设想的注释方法和系统提供了超过现有系统的许多优点。从临床文档中手动提取癌症分期信息极度耗时且费力。然而,从临床试验文档中捕获癌症分期的能力是端到端自动匹配系统的实质部件。

精度是相关或准确实例在检索的实例中的分数。由于癌症分期是患者和潜在的临床试验之间必须匹配的关键准则,因此临床试验信息中的癌症分期识别的准精度极其重要。本文描述或以其他方式设想的注释方法和系统提高了精度,并且因此实现患者和临床试验之间的匹配的更大准确度。

本文中描述或以其他方式设想的注释方法和系统也显著改进了召回率,其中,召回率是已经检索到的相关实例在相关实例的总量中的分数。由系统改进的召回率直接贡献于改进临床试验匹配的召回率。尽管一些注释器可能仅与一些分期系统一起良好工作,但是本文中描述或以其他方式设想到的注释方法和系统对于所有分期系统很好地起作用。其包括主要分期系统,例如TNM和数字分期系统、也被广泛使用的分期同义词和不经常使用的次要分期系统。

因此,本文描述或以其他方式设想的注释方法和系统显著改进了患者处置。例如,医疗保健专业人员可以利用注释方法或系统从针对患者的医学记录中识别和/或确认癌症分期,这将直接通知患者处置的过程,包括可能从初始处置的立场以及在处置过程中的更改或修改。作为又一示例,医疗保健专业人员可以潜在地以自动化方式利用注释方法或系统来更准确地识别在临床试验内发现的分期准则,这有助于患者与一个或多个可能的临床试验的匹配。这可以显著地改进患者的护理,或者至少提供更多的处置选择。

如本文所定义和使用的所有定义应被理解为控制在字典定义、通过引用并入的文献中的定义和/或所定义的术语的普通含义上。

如本文中在说明书和权利要求书中所使用的词语“a(一)”和“an(一个)”应被理解为意指“至少一个”,除非明确相反指示。

如在本说明书和权利要求书中所使用的短语“和/或”应该被理解为是指如此联合的元素中的“任一个或两者”,即在一些情况下联合存在并且在其它情况下分离存在的元素。利用“和/或”列出的多个元素应该以相同的方式解释,即如此联合的元素中的“一个或多个”。除了由“和/或”子句特别识别的元素,其他元素可以任选地存在,不管与具体识别的那些元素相关还是不相关。

如在本说明书和权利要求书中所使用的,“或”应当被理解为具有与上面所定义的“和/或”相同的含义。例如,当在列表中分离项目时,“或”或“和/或”应被解释为包含性的,即包括多个元素或元素列表中的至少一个元素,但也包括多于一个元素,以及任选的其他未列出项目。仅清楚地指示为相反的术语,诸如“仅一个”或“确切地一个”,或者,当在权利要求中使用时,“由...组成”,将指包括多个元素或元素列表中的确切地一个元素。通常,如本文使用的术语“或”仅当前面有排他性术语(例如“任一个”,“...中的一个”,“...中的仅一个”,或者“...中的确切地一个”)时才应解释为指示排他性备选(即,“一个或另一个但是并非两者”)。

如本文中在说明书和权利要求书中所使用的,涉及一个或多个元素的列表的短语“至少一个”应该被理解为是指选自元素列表中的元素中的任何一个或多个的至少一个元素,但是不必包括元素列表内具体列出的每一个元素和每个元素中的至少一个,并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”涉及的元素列表内具体识别的元素之外元素可以任选地存在,而不管与具体识别的那些元素相关还是不相关。

还应该理解,除非明确地相反指示,在本文所要求保护的包括多于一个步骤或动作的任何方法中,方法的步骤或动作的顺序不必限于叙述该方法的步骤或动作的顺序。

在权利要求书以及上面的说明书中,所有的过渡性短语,诸如“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”、“保持”、“带有”等等应被理解为是开放式的,即意味着包括但不限于。只有过渡性短语“由...组成”和“实质上由...组成”应分别是封闭式或半封闭式过渡短语。

尽管在本文中已经描述并且图示了若干发明实施例,但是本领域的普通技术人员将容易预想到用于执行功能和/或获得结果和/或本文所描述的优点中的一个或多个的各种其他模块和/或结构,并且这样的变型和修改中的每个被认为是在本文所描述的发明实施例的范围内。更一般地,本领域的技术人员将容易意识到,在本文中所描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用发明教导的一个或多个特定应用。本领域的技术人员将认识到或者能够使用不超过常规试验确定本文所描述的特定发明实施例的许多等价方案。因此,应理解,前述实施例仅通过范例呈现,并且在权利要求书和其等价方案的范围内,可以实践除特别地所描述和要求保护外的发明实施例。本公开的发明实施例涉及本文所描述的每个个体特征、系统、制品、材料、工具和/或方法。另外,如果这样的特征、系统、制品、材料、工具和/或方法不互相矛盾,则两个或更多个这样的特征、系统、制品、材料、工具和/或方法的任何组合被包括在本公开的发明范围内。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:在启动和关闭期间操作医疗装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!