一种基于深度学习和知识图谱的icd智能编码的方法

文档序号：1952747 发布日期：2021-12-10 浏览：13次 >En<

阅读说明：本技术 一种基于深度学习和知识图谱的icd智能编码的方法 (ICD intelligent coding method based on deep learning and knowledge graph ) 是由张友书肖尚华程岚祝伟于 2021-09-29 设计创作，主要内容包括：本发明提出了一种基于深度学习和知识图谱的ICD智能编码的方法,包括：获取电子病历数据和医嘱项目数据；对所述电子病历数据和医嘱项目数据进行数据标准化处理,得到标准化处理后的数据；构建BERT+BiLSTM+CRF训练诊断名称识别模型,利用该模型识别所述标准化处理后的数据的诊断名称；基于BERT模型,计算每一个诊断名称的最终ICD编码；对各个诊断名称的ICD编码进行合并；基于疾病收费项目知识图谱,根据当前病历的收费医嘱,计算本次消耗医疗资源最多的诊断,将其作为主要诊断。(The invention provides an ICD intelligent coding method based on deep learning and knowledge graph, comprising the following steps: acquiring electronic medical record data and medical advice item data; carrying out data standardization processing on the electronic medical record data and the medical advice item data to obtain data after standardization processing; building a BERT + BilSTM + CRF training diagnosis name recognition model, and recognizing the diagnosis name of the data after the standardization processing by using the model; calculating a final ICD code of each diagnosis name based on a BERT model; merging ICD codes of all diagnosis names; based on the disease charge item knowledge map, the diagnosis that consumes the most medical resources at this time is calculated according to the charge medical advice of the current medical record, and is taken as the main diagnosis.)

一种基于深度学习和知识图谱的ICD智能编码的方法

技术领域

本发明涉及智能编码技术领域，特别涉及一种基于深度学习和知识图谱的ICD智能编码的方法。

背景技术

计算机辅助编码，目前主要有三种技术方案：

第一种是关键词搜索提示方案，类似百度搜索的关键词提示，该方案基于医生输入的诊断关键字，搜索全部ICD编码名称，提示ICD名称和编码，引导编码人员一步步操作得出最终编码。

第二种是基于规则的编码系统，设置一定的编码逻辑规则，在一定条件下触发规则，提示正确的编码。

第三种是基于AI智能编码方案。应用先进的自然语言处理技术和深度学习模型，无需人工干预，基于病历信息自动生成正确的ICD编码。

针对第三种方案，现有专利《一种基于病案的实时智能辅助ICD编码系统和方法》，公开了一种ICD计算机辅助编码方法，但是该方法存在以下问题：

1.主要诊断选择，没有考虑费用信息。原则上应选消耗医疗资源最多的诊断作为主要诊断。

2.缺少诊断合并模块。没有解决合并编码问题，合并编码问题，如表1所示。

表1合并编码案例

3.模型textCNN效果不够好。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于深度学习和知识图谱的ICD智能编码的方法。

为了实现上述目的，本发明的实施例提供一种基于深度学习和知识图谱的ICD智能编码的方法，包括如下步骤：

步骤S1，获取电子病历数据和医嘱项目数据；

步骤S2，对所述电子病历数据和医嘱项目数据进行数据标准化处理，得到标准化处理后的数据；

步骤S3，构建BERT+BiLSTM+CRF训练诊断名称识别模型，利用该模型识别所述标准化处理后的数据的诊断名称；

步骤S4，基于BERT模型，计算每一个诊断名称的最终ICD编码，包括如下步骤：

步骤S41，构建训练集；

步骤S42，构建训练模型，包括：基于所述训练集，在bert-base基础上进行fine-tuning，得到最终的BERT模型；

步骤S43，基于训练好的BERT模型进行编码，包括：

对于识别后的每一个诊断名称Ci，计算LCS(ICD名称j,Ci)；

对于LCS>1的ICD名称，从ICD字典中查找到对应的ICD编码，构建Pairi<诊断名称，ICD编码>，输入训练好的bert模型，得到概率Pi；

计算得到概率最大的Pair，该Pair中的ICD编码为诊断名称最终ICD编码；

步骤S5，对各个诊断名称的ICD编码进行合并；

步骤S6，基于疾病收费项目知识图谱，根据当前病历的收费医嘱，计算本次消耗医疗资源最多的诊断，将其作为主要诊断。

进一步，所述步骤S2中，对所述电子病历数据和医嘱项目数据进行数据标准化处理，包括如下步骤：对病历文书名称标准化、病历字段名称标准化、医嘱收费项目标准化。

进一步，在所述步骤S3中，

步骤S31，构建训练集

步骤S32，基于所述训练集，构建BERT+BiLSTM+CRF训练诊断名称识别模型；

步骤S33，基于训练好的模型进行诊断名称识别，识别出所述标准化处理后数据的文本中的诊断名称。

进一步，在所述步骤S32中，构建BERT+BiLSTM+CRF训练诊断名称识别模型，包括如下步骤：

使用预训练语言模型bert-base对输入的文本进行字嵌入表示；

将字嵌入表示作为BiLSTM输入，输出每个字符对BIOE的概率；

将字符BIOE概率作为CRF输入，输出每个字符的BIOE标签。

进一步，在所述步骤S5中，对各个诊断名称的ICD编码进行合并，包括如下步骤：

步骤S51，建立诊断编码合并规则集合S＝{s1,s2,s3,…,sn},每条规则为一个三元表达式code1+code2->code3，code1、code2，code3为诊断编码；

步骤S52，建立诊断编码倒排表；

步骤S53，遍历当前所有诊断C，对于c_i根据诊断编码倒排表找到相关合并规则集合Si；

步骤S54，遍历Si中所有规则s＝c_i+c_i1->c_i2，查看三元表达式中c_i1，是否存在于所有诊断C中；

如果存在，则将c_i2加入到所有诊断C，并从所有诊断C删除c_i和c_i1，重复步骤S53；如果不存在，则遍历下一条规则，直到遍历结束。

进一步，在所述步骤S6中，

遍历所有诊断C，对于当前诊断C_i；

从所述疾病收费项目知识图谱中找到C_i对应的收费项目K_i；

将所有医嘱F和K_i求交集得到F_i；

遍历F_i的金额，得到C_i对应医疗资源消耗总金额M_i；

根据按M_i从大到小排序，得到C_i对应的顺序；

费用排第一的即为主要诊断。

根据本发明实施例的基于深度学习和知识图谱的ICD智能编码的方法，引入疾病和收费项目知识图谱，准确地选择出主要诊断；引入编码合并规则，提升编码正确率；应用最新的深度学习模型BERT(BERT为目前公认效果好的自然语言处理模型)，准确地将诊断名词映射为标准ICD编码。本发明无需人工干预，自动编码，极大地减轻医生和编码员的工作量；将编码环境前置，医生可以根据患者情况，利用本系统直接编码，能显著降低医生和编码沟通次数，提升编码工作效率，以及编码准确率；引入疾病收费项目知识图谱，及编码合并规则，提升编码正确率；采用最新的深度学习模型BERT，准确地将诊断名词映射为标准ICD编码。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于深度学习和知识图谱的ICD智能编码的方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面对本发明涉及的几个专业术语进行解释说明。

DRG：疾病诊断相关组(Diagnosis Related Groups，DRG)是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案，即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素，将患者分入若干诊断组进行管理的体系。

病案首页：住院病案首页是医务人员使用文字、符号、代码、数字等方式，将患者住院期间相关信息精炼汇总在特定的表格中，形成的病例数据摘要。住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。其中诊断和手术操作ICD编码，是决定DRG分组器的最主要因素。

ICD编码：国际疾病分类(international Classification of diseases,ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示。ICD规则中规定当两个疾病诊断或者一个疾病诊断伴随有相关的临床表现时，使用一个合并编码来反映疾病的整体情况

主要诊断选择：主要诊断一般是患者住院的理由，原则上应选择本次住院消耗医疗资源最多、对患者健康危害最大、住院时间最长的疾病诊断。主要诊断选择一直以来都是病案首页填写中的重难点内容，并且直接影响ICD编码和DRGs分组的准确性。

如图1所示，本发明实施例的基于深度学习和知识图谱的ICD智能编码的方法，包括如下步骤：

步骤S1，获取电子病历数据和医嘱项目数据。

具体的，从电子病历系统和医嘱系统中，获取入院记录、手术记录、出院记录、死亡记录、收费医嘱等关键信息。

步骤S2，对电子病历数据和医嘱项目数据进行数据标准化处理，得到标准化处理后的数据。

具体的，将各个医院电子病历文书标准化，便于后续统一处理识别。进行标准化处理，包括：病历文书名称标准化、病历字段名称标准化、医嘱收费项目标准化。

步骤S3，构建BERT+BiLSTM+CRF训练诊断名称识别模型，利用该模型识别标准化处理后的数据的诊断名称。

步骤S31，构建训练集。基于过去三个月的电子病历，构造诊断名称识别训练集S＝{s₁,s₂,s₃,…,s_n}，其中s_i为一句话，如“1.上消化道出血2.胃溃疡3.冠状动脉粥样硬化心力衰竭”，诊断为上消化道出血、胃溃疡、冠状动脉粥样硬化、心力衰竭步骤S32，训练模型。基于训练集，采用BERT+BiLSTM+CRF训练诊断名称识别模型。

步骤S321，使用预训练语言模型bert-base对输入的文本进行字嵌入表示

步骤S322，将字嵌入表示作为BiLSTM输入，输出每个字符对BIOE的概率

步骤S323，将字符BIOE概率作为CRF输入，输出每个字符的BIOE标签

步骤S33，基于训练好的模型进行诊断名称识别，得到一段文本中的诊断名称。

步骤S4，基于BERT模型，计算每一个诊断名称的最终ICD编码，包括如下步骤：

步骤S41，构建训练集；

基于过去三个月的电子病历，构造诊断名称编码训练集S＝{s₁,s₂,s₃,…,s_n}，其中s_i为<诊断名称，ICD编码>，如<冠心病,I25.102>。负样本随机生成。

步骤S42，构建训练模型，包括：基于训练集，采用next sentence prediction方式，在bert-base基础上进行fine-tuning，得到最终的bert模型。

步骤S43，基于训练好的BERT模型进行编码，包括：

对于识别后的每一个诊断名称C_i，计算LCS(ICD名称_j,C_i)；

对于LCS>1的ICD名称，从ICD字典中查找到对应的ICD编码，构建Pair_i<诊断名称，ICD编码>，输入训练好的bert模型，得到概率P_i；

计算得到概率最大的Pair，该Pair中的ICD编码为诊断名称最终ICD编码。

步骤S5，对各个诊断名称的ICD编码进行合并；。

步骤S51，建立诊断编码合并规则集合S＝{s₁,s₂,s₃,…,s_n},每条规则为一个三元表达式code1+code2->code3，code1、code2，code3为诊断编码。当code1和code2同时出现时，生成code3并去掉code1和code2。

步骤S52，建立诊断编码倒排表，加快查找速度，查找平均时间复杂度可用O(n)减少至O(1)。倒排表示如下：

code1:s₁,s₂

code2:s₁,s₃

code3:s₄

步骤S53，遍历当前所有诊断C，对于c_i根据诊断编码倒排表找到相关合并规则集合S_i

步骤S54，遍历Si中所有规则s＝c_i+c_i1->c_i2，查看三元表达式中c_i1，是否存在于所有诊断C中。如果存在，则将c_i2加入到所有诊断C，并从所有诊断C删除c_i和c_i1。重复步骤S53。如果不存在，则遍历下一条规则，直到遍历结束。

步骤S6，基于疾病收费项目知识图谱，根据当前病历的收费医嘱，计算本次消耗医疗资源最多的诊断，将其作为主要诊断。

具体来说，遍历所有诊断C，对于当前诊断C_i；从疾病收费项目知识图谱中找到C_i对应的收费项目K_i；将所有医嘱F和K_i求交集得到F_i；遍历F_i的金额，得到C_i对应医疗资源消耗总金额M_i；根据按M_i从大到小排序，得到C_i对应的顺序；费用排第一的即为主要诊断。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种地区DRG分组模拟方法

一种基于深度学习和知识图谱的icd智能编码的方法

相关技术

网友询问留言