疾病名称对码方法、装置、计算机设备及存储介质

文档序号：1185115 发布日期：2020-09-22 浏览：5次 >En<

阅读说明：本技术 疾病名称对码方法、装置、计算机设备及存储介质 (Disease name code matching method and device, computer equipment and storage medium ) 是由金晓辉阮晓雯徐亮于 2020-04-26 设计创作，主要内容包括：本申请实施例属于人工智能领域,涉及一种疾病名称对码方法、装置、计算机设备及存储介质,所述方法包括：从电子病历中获取疾病名称列表；对所述疾病名称列表中重复的疾病名称进行去重处理,得到去重后的疾病名称列表；将所述去重后的疾病名称列表输入到精确匹配模型中,依据标准疾病分类表进行对码,得到第一对码结果和候选对码疾病名称；将得到的候选对码疾病名称输入到模糊匹配模型中,依据所述标准疾病分类表进行对码,得到第二对码结果；根据所述第一对码结果和所述第二对码结果生成疾病名称对码列表。本申请对疾病名称进行多维度、多模式的对码,提高了疾病名称对码的准确率,疾病名称列表还可存储于区块链中以提高数据的隐私性和安全性。(The embodiment of the application belongs to the field of artificial intelligence, and relates to a disease name code matching method, a disease name code matching device, computer equipment and a storage medium, wherein the method comprises the following steps: acquiring a disease name list from an electronic medical record; carrying out duplication elimination processing on repeated disease names in the disease name list to obtain a duplication eliminated disease name list; inputting the de-duplicated disease name list into an accurate matching model, and performing code matching according to a standard disease classification table to obtain a first code matching result and candidate code matching disease names; inputting the obtained candidate code matching disease names into a fuzzy matching model, and performing code matching according to the standard disease classification table to obtain a second code matching result; and generating a disease name pair code list according to the first pair code result and the second pair code result. According to the method and the device, multi-dimensional and multi-mode code matching is carried out on the disease names, the accuracy of code matching of the disease names is improved, and the disease name list can be stored in the block chain so as to improve the privacy and safety of data.)

技术领域

本申请涉及人工智能技术领域，尤其涉及一种疾病名称对码方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，电子病历的使用更为普及。电子病历是指在医疗活动中以数字化信息记录的个体健康信息。电子病历由医护人员创建、收集、管理和咨询，包含长时间跨度、多维度、丰富的个体健康信息。ICD-10(International Classification ofDiseases,version 10)是由世界卫生组织制定的国际统一的疾病分类方法，它将疾病分门别类，并以编码的方式来表示，使疾病门类成为一个有序的组合。ICD-10收录的疾病种类近26000条，涵盖所有科别的各种疾病。现有医疗领域对电子病历的应用研究通常基于ICD-10编码，因此对电子病历中的疾病名称进行对码，即，将电子病历中的疾病名称与ICD-10编码相对应显得尤为重要。

现有的ICD-10专用编码查询数据库系统，提供了从中文疾病名称到ICD-10编码的查询功能，但是它仅能针对包含标准疾病名称的病历文本进行查询。由于各医疗机构中医护人员文化水平参差不齐，对疾病表述习惯不一，因此电子病历中存在大量不规范的表述，例如口语化表述、疾病名称缩写表述和同一疾病的不同表述。因此，现有的ICD-10专用编码查询数据库系统在进行疾病名称对码时存在大量无法处理的数据，疾病名称对码的准确率较低。

发明内容

本申请实施例的目的在于提出一种疾病名称对码方法、装置、计算机设备及存储介质，以解决疾病名称对码准确率较低的问题。

为了解决上述技术问题，本申请实施例提供一种疾病名称对码方法，采用了如下所述的技术方案：

从电子病历中获取疾病名称列表；

对所述疾病名称列表中重复的疾病名称进行去重处理，得到去重后的疾病名称列表；

将所述去重后的疾病名称列表输入到精确匹配模型中，依据标准疾病分类表进行对码，得到第一对码结果和候选对码疾病名称；

将得到的候选对码疾病名称输入到模糊匹配模型中，依据所述标准疾病分类表进行对码，得到第二对码结果；

根据所述第一对码结果和所述第二对码结果生成疾病名称对码列表。

进一步的，所述精确匹配模型由若干有序排列的精确匹配子模型组成；所述将所述去重后的疾病名称列表输入到精确匹配模型中，依据标准疾病分类表进行对码，得到第一对码结果和候选对码疾病名称的步骤具体包括：

将所述去重后的疾病名称列表中的各疾病名称，按照所述精确匹配模型中精确匹配子模型的排列顺序，输入至精确匹配子模型；

通过当前精确匹配子模型，在标准疾病分类表中查询与输入的疾病名称匹配的标准疾病名称；

当查询到匹配的标准疾病名称时，将查询到的标准疾病名称以及与所述标准疾病名称对应的疾病编码作为所述疾病名称的第一对码结果；

当所述当前精确匹配子模型未查询到匹配的标准疾病名称时，将所述疾病名称输入至下一个精确匹配子模型继续执行匹配；

若疾病名称未被各精确匹配子模型完成匹配，将所述疾病名称标记为候选对码疾病名称。

进一步的，所述将所述去重后的疾病名称列表中的各疾病名称，按照所述精确匹配模型中精确匹配子模型的排列顺序，输入至精确匹配子模型的步骤具体包括：

将所述去重后的疾病名称列表中的各疾病名称，按照所述精确匹配模型中四个精确匹配子模型的排列顺序，输入至精确匹配子模型；所述四个精确匹配子模型包括完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型。

进一步的，所述模糊匹配模型由若干模糊匹配子模型组成；所述将得到的候选对码疾病名称输入到模糊匹配模型中，依据所述标准疾病分类表进行对码，得到第二对码结果的步骤具体包括：

将得到的候选对码疾病名称输入到所述模糊匹配模型中的各模糊匹配子模型；

基于所述各模糊匹配子模型，计算所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的相似度；

根据所述各模糊匹配子模型计算得到的相似度，生成第二对码结果。

进一步的，所述将得到的候选对码疾病名称输入到所述模糊匹配模型中的各模糊匹配子模型的步骤具体包括：

将得到的候选对码疾病名称输入到所述模糊匹配模型中的四个模糊匹配子模型，所述四个模糊匹配子模型包括词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型。

进一步的，当所述模糊匹配子模型为编辑距离子模型时，所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的相似度的计算步骤具体包括：

计算所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的文本编辑距离；

将各文本编辑距离进行归一化，并以归一化之后的各文本编辑距离作为所述候选对码疾病名称与所述各标准疾病名称的相似度。

进一步的，所述根据所述各模糊匹配子模型计算得到的相似度，生成第二对码结果的步骤具体包括：

对于每个候选对码疾病名称，从所述各模糊匹配子模型计算得到的相似度中，筛选最大相似度所对应的标准疾病名称和疾病编码进行HardVoting融合，得到第二对码结果；

或者，

根据所述各模糊匹配模型计算得到的相似度进行SoftVoting融合，得到第二对码结果。

为了解决上述技术问题，本申请实施例还提供一种疾病名称对码装置，包括：

列表获取模块，用于从电子病历中获取疾病名称列表；

列表去重模块，用于对所述疾病名称列表中重复的疾病名称进行去重处理，得到去重后的疾病名称列表；

精确匹配模块，用于将所述去重后的疾病名称列表输入到精确匹配模型中，依据标准疾病分类表进行对码，得到第一对码结果和候选对码疾病名称；

模糊匹配模块，用于将得到的候选对码疾病名称输入到模糊匹配模型中，依据所述标准疾病分类表进行对码，得到第二对码结果；

列表生成模块，用于根据所述第一对码结果和所述第二对码结果生成疾病名称对码列表。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的疾病名称对码方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的疾病名称对码方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：先对疾病名称列表进行去重以减少计算量；将去重后的疾病名称列表输入到精确匹配模型中进行精确匹配，得到第一对码结果，未能实现精确匹配的疾病名称作为候选对码疾病名称输入到模糊匹配模型进行模糊匹配，得到第二对码结果，在两次对码时，均依据标准疾病分类表进行对码；最后根据第一对码结果和第二对码结果生成疾病名称对码列表，通过精确匹配和模糊匹配对疾病名称进行多维度、多模式的对码，提高了疾病名称对码的准确率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的疾病名称对码方法的一个实施例的流程图；

图3是图2中步骤S203的一种

具体实施方式

的流程图；

图4是图2中步骤S204的一种具体实施方式的流程图；

图5是根据本申请的疾病名称对码装置的一个实施例的结构示意图；

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的疾病名称对码方法一般由服务器执行，相应地，疾病名称对码装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的疾病名称对码方法的一个实施例的流程图。所述的疾病名称对码方法，包括以下步骤：

步骤201，从电子病历中获取疾病名称列表。

在本实施例中，疾病名称对码方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端或服务器进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，疾病名称列表可以是电子病历中记载的疾病名称组成的列表。

具体地，电子病历中记载的信息是结构化的，例如电子病历包含疾病名称信息、症状记录信息和诊治信息。服务器从结构化的电子病历中读取大量疾病名称，得到疾病名称列表。在疾病名称列表中，电子病历标识与疾病名称对应存储。电子病历标识是电子病历的标识，电子病历标识可以是字母、数字、特殊符号等结合的字符串。

在一个实施例中，服务器读取的电子病历既可以来自各种终端，也可以来自预设的数据库。

在一个实施例中，服务器可以设置定时任务，来定时进行疾病名称对码，比如每个月或者每个季度进行一次对码，可以设置定时任务，在每个月或每个季度的特定时间激活对码任务。服务器可以使用Linux中的Cron(定时任务)触发信息同步指令，Cron可以在约定的时间执行特定的任务。

步骤202，对疾病名称列表中重复的疾病名称进行去重处理，得到去重后的疾病名称列表。

具体地，疾病名称列表中可能存在大量相同的疾病名称。例如，在流感高发期，会有很多患流感的病人去医院治疗，此时医院得到的电子病历会有很多“流感”这样的疾病名称，若不进行去重处理，服务器需进行大量重复计算，增加计算量，降低对码效率。

服务器先识别疾病名称列表中重复出现的疾病名称，然后进行去重处理，得到去重后的疾病名称列表。

大量重复的疾病名称可以仅保留一个，将其余重复的疾病名称删除，将删除的疾病名称所对应的电子病历标识与保留的疾病名称所对应的电子病历标识关联存储，以便最后恢复全部疾病名称的对码结果；其中，保留的疾病名称所对应的电子病历标识可以沿用初始的电子病历标识，或者重新设置保留的疾病名称所对应的电子病历标识。

步骤203，将去重后的疾病名称列表输入到精确匹配模型中，依据标准疾病分类表进行对码，得到第一对码结果和候选对码疾病名称。

具体地，精确匹配模型从文本层面对疾病名称进行精确匹配，精确匹配模型根据标准疾病分类表对疾病名称进行对码，即，将疾病名称与标准疾病分类表中的标准疾病名称进行精确匹配。标准疾病分类表中存储着标准疾病名称以及与标准疾病名称对应的疾病编码，标准疾病分类表可以是国际疾病分类(International Classification ofDiseases，ICD)的第10版本：ICD-10。

当疾病名称可以与某个标准疾病名称精确匹配时，将该标准疾病名称以及与该标准疾病名称对应的疾病编码作为第一对码结果。未能被精确匹配模型完成匹配的疾病名称，作为候选对码疾病名称，接受第二轮对码。

步骤204，将得到的候选对码疾病名称输入到模糊匹配模型中，依据标准疾病分类表进行对码，得到第二对码结果。

具体地，模糊匹配模型通过相似度计算对候选对码疾病名称进行模糊匹配，将能够与候选对码疾病名称实现模糊匹配的标准疾病名称、以及与该标准疾病名称对应的疾病编码作为第二对码结果。

在一个实施例中，服务器可以采用不同种类的模糊匹配方法，计算候选对码疾病名称与标准疾病分类表中标准疾病名称的相似度，并结合不同种类模糊匹配方法计算得到的相似度，确定与候选对码疾病名称实现模糊匹配的标准疾病名称，将该标准疾病名称以及与该标准疾病名称对应的疾病编码作为第二对码结果。

步骤205，根据第一对码结果和第二对码结果生成疾病名称对码列表。

具体地，服务器将第一对码结果和第二对码结果合并到一个列表中，在新的列表中，电子病历标识、疾病名称、与疾病名称匹配的标准疾病名称、以及与标准疾病名称对应的疾病编码对应存储。对于在去重处理中被删除的疾病名称，服务器将与被删除的疾病名称相关联的疾病名称的第一对码结果或第二对码结果，作为被删除的疾病名称的对码结果，从而得到完整的疾病名称对码列表。

在一个实施例中，服务器还可以将生成的疾病名称对码列表上传至区块链中，以提高疾病名称对码列表的隐私性和安全性。

本实施例中，先对疾病名称列表进行去重以减少计算量；将去重后的疾病名称列表输入到精确匹配模型中进行精确匹配，得到第一对码结果，未能实现精确匹配的疾病名称作为候选对码疾病名称输入到模糊匹配模型进行模糊匹配，得到第二对码结果，在两次对码时，均依据标准疾病分类表进行对码；最后根据第一对码结果和第二对码结果生成疾病名称对码列表，通过精确匹配和模糊匹配对疾病名称进行多维度、多模式的对码，提高了疾病名称对码的准确率。

进一步的，精确匹配模型由若干有序排列的精确匹配子模型组成，如图3所示，上述步骤203可以包括：

步骤2031，将去重后的疾病名称列表中的各疾病名称，按照精确匹配模型中精确匹配子模型的排列顺序，输入至精确匹配子模型。

具体地，精确匹配模型可以由若干个不同的、有序排列的精确匹配子模型构成，精确匹配子模型可以先对输入的疾病名称进行简单的文本层面的预处理，然后进行精确匹配。预处理可以是对疾病名称中的字符或词组进行处理，例如错别字纠正、重复字符或词组的去除、同义词转换、无意义字符的去除等。不同的精确匹配子模型可以对疾病名称进行不同的文本层面的预处理；可以理解，也可以存在不对疾病名称进行预处理的精确匹配子模型。

服务器按照精确匹配模型中精确匹配子模型的排列顺序，将去重后的疾病名称列表中的疾病名称，先输入到精确匹配子模型中。

步骤2032，通过当前精确匹配子模型，在标准疾病分类表中查询与输入的疾病名称匹配的标准疾病名称。

具体地，当前精确匹配子模型依据预处理程序对输入的疾病名称进行预处理，并在预处理后获取标准疾病分类表，将疾病名称依次与标准疾病分类表中的各标准疾病名称一一比较，查询能够匹配的标准疾病名称。

步骤2033，当查询到匹配的标准疾病名称时，将查询到的标准疾病名称以及与标准疾病名称对应的疾病编码作为疾病名称的第一对码结果。

具体地，当查询到与疾病名称匹配的标准疾病名称时，将匹配的标准疾病名称以及与该标准疾病名称对应的疾病编码作为疾病名称的第一对码结果。

精确匹配子模型完成对一个疾病名称的对码后，开始处理下一个输入的疾病名称。当疾病名称可以被某个精确匹配子模型匹配时，结束对该疾病名称的处理，该疾病名称不再被其余的精确匹配子模型进行匹配。

步骤2034，当当前精确匹配子模型未查询到匹配的标准疾病名称时，将疾病名称输入至下一个精确匹配子模型继续执行匹配。

具体地，如果当前精确匹配子模型未能在标准疾病分类表中查询到与疾病名称匹配的标准疾病名称时，按照精确匹配子模型的排列顺序，将疾病名称输入至下一个精确匹配子模型继续执行匹配。

步骤2035，若疾病名称未被各精确匹配子模型完成匹配，将疾病名称标记为候选对码疾病名称。

具体地，当精确匹配子模型无法对疾病名称进行匹配时，将疾病名称输入下一个精确匹配子模型进行匹配。当各精确匹配子模型都无法对疾病名称进行匹配时，将疾病名称标记为候选对码疾病名称。

本实施例中，将去重后的疾病名称列表中的各疾病名称，按照精确匹配子模型的排列顺序输入精确匹配子模型进行匹配，若可以匹配，则生成第一对码结果，若不能匹配，则输入下一个精确匹配子模型继续执行匹配，精确匹配子模型不相同，保证了能够从多维度对疾病名称进行精确匹配，提高了疾病名称对码的准确率。

在一个实施例中，上述步骤203具体可以包括：将去重后的疾病名称列表中的各疾病名称，按照精确匹配模型中四个精确匹配子模型的排列顺序，输入至精确匹配子模型。四个精确匹配子模型包括完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型。

具体地，精确匹配模型中存在四个精确匹配子模型，且四个精确匹配子模型按排列顺序依次为完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型。服务器首先将去重后的疾病名称列表中的各疾病名称输入完全匹配子模型。

完全匹配子模型：用于对疾病名称进行完全匹配，将输入的疾病名称与标准疾病分类表中的标准疾病名称依次比较，若疾病名称与某标准疾病名称完全一致，则确定疾病名称与该标准疾病名称完全匹配。完全匹配子模型将匹配到的标准疾病名称以及与标准疾病名称对应的疾病编码作为第一对码结果。未能被完全匹配子模型匹配的疾病名称输入到去停用词子模型。

去停用词子模型：对疾病名称进行去停用词预处理后再进行匹配。首先，去除疾病名称中没有含义的标点符号(例如“？@％￥#,；/”等)；然后访问预先构建的医学疾病专用停用词库，医学疾病专用停用词库中记录了数字、方位词和一些特定用语；调用医学疾病专用停用词库去除疾病名中的停用词(例如，疾病名称为“左跖骨骨折”，则去除“左”)；将去除停用词后的疾病名称与标准疾病分类表中的标准疾病名称依次匹配，匹配到的标准疾病名称以及与标准疾病名称对应的疾病编码作为第一对码结果。未匹配的疾病名称输入到主次分离子模型。

主次分离子模型：对疾病名称进行主次疾病分离预处理后再进行匹配。疾病名称可能由多个疾病名称连在一起，主次分离子模型提取主疾病名称和次疾病名称。(例如，疾病名称为“1.糖尿病2.高血压”，提取主疾病名称“糖尿病”、次疾病名称“高血压”)。将主疾病名称和次疾病名称依次与标准疾病分类表中的标准疾病名称进行匹配，得到第一对码结果。其中，主疾病名称可以是先识别到的疾病名称，次疾病名称可以是后识别到的疾病名称。如果疾病名称是由多个疾病名称连在一起，会得到多个对码结果，主疾病名称对应主对码结果，次疾病名称对应次对码结果。未被主次分离子模型匹配的疾病名称输入到同义识别子模型。

同义识别子模型：对疾病名称进行同义转换的预处理后再进行匹配。同义识别子模型访问预先构建的同义疾病词库，同义疾病词库记录着对同一身体部位的不同表示、同一症状的不同表示和同一疾病的不同表示等。调用同义疾病词库对疾病名称中的同义词进行替换，例如，将“恶性肿瘤”统一替换为“癌”、“甲亢”替换为“甲状腺机能亢进”等。再将同义替换后的疾病名称与标准疾病分类表中的标准疾病名称依次匹配，得到第一对码结果。

四个精确匹配子模型都未能匹配的疾病名称标记为候选对码疾病名称。

可以理解，上述四个精确匹配子模型还可以以任意顺序排列。

本实施例中，将疾病名称按照精确匹配模型中四个精确匹配子模型的排列顺序，输入至精确匹配子模型，四个精确匹配子模型依次为完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型，依据四个精确匹配子模型可以采用不同的方法对疾病名称进行匹配，提高了对疾病名称对码的准确率。

进一步的，模糊匹配模型由若干模糊匹配子模型组成，如图4所示，上述步骤204具体可以包括：

步骤2041，将得到的候选对码疾病名称输入到模糊匹配模型中的各模糊匹配子模型。

具体地，模糊匹配模型可以由若干模糊匹配子模型组成，候选对码疾病名称输入到模糊匹配模型中的每个模糊匹配子模型，每个模糊匹配子模型可以通过不同的模糊匹配方法对候选对码疾病名称进行匹配。

在一个实施例中，将得到的候选对码疾病名称输入到模糊匹配模型中的各模糊匹配子模型的步骤具体包括：将得到的候选对码疾病名称输入到模糊匹配模型中的四个模糊匹配子模型，四个模糊匹配子模型包括词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型。

具体地，模糊匹配模型由四个模糊匹配子模型组成，四个模糊匹配子模型包括词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型。每一个候选对码疾病名称都会被输入四个模糊匹配子模型进行不同的模糊匹配。

词频匹配子模型，将候选对码疾病名称和标准疾病分类表中的各标准疾病名称解析为单个字符的集合(例如，“糖尿病”解析为{“糖”,“尿”,“病”})。使用Jaccard系数(Jaccard index,又称为Jaccard相似系数，用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。)作为候选对码疾病名称的字符集合与各标准疾病名称字符集合间的相似度，计算过程中加入控制参数进行平滑操作。

举例说明，候选对码疾病名称为“糖尿病”，词频匹配子模型逐一计算“糖尿病”与ICD-10中26000条标准疾病名称的Jaccard系数，计算公式如下：

其中，A为候选对码疾病名称的字符集合，B为标准疾病名称的字符集合；Jaccard(A,B)是A与B之间的相似度；lenA表示集合A的长度，即集合A中字符的个数；lenB表示集合B的长度，即集合B中字符的个数；len(A∩B)表示集合A与集合B中相同字符的个数，α、β为控制参数，控制参数人为设置，比如可以将α设为1，β设为0.5。

则计算候选对码疾病名称“糖尿病”与标准疾病名称“糖尿病足”的Jaccard为：

N-Gram子模型：N-Gram(又称N元模型)常用于自然语言处理，文本的N-Gram表示将文本按长度N切分得到的词组，N值一般取2或者3。N-Gram子模型将候选对码疾病名称和标准疾病名称分别解析为词组的集合,例如，将“糖尿病”解析为{“$糖”,“糖尿”,“尿病”，“病$”}，其中$为填充字符。再以如下公式计算候选对码疾病名称的词组集合与各标准疾病名称词组集合间的相似度：

其中，其中，M为候选对码疾病名称的词组集合，N为标准疾病名称的词组集合；Jaccard(M,N)是M与N之间的相似度；lenM表示集合M的长度，即集合M中词组的个数；lenN表示集合N的长度，即集合N中词组的个数；len(M∩N)表示集合M与集合N中相同词组的个数，δ、ε为控制参数，控制参数人为设置。

编辑距离子模型：用于计算候选对码疾病名称与各标准疾病名称之间的Levenshtein距离，距离越小，相似度越高。

Levenshtein距离(也称文本编辑距离)是指将一个字符串转化成另一个字符串所需的最少操作次数，转化操作包括***、删除、替换。

例如：将“eeba”转变成“abac”：

eeba(删除第一个e)→eba

eba(将剩下的e替换成a)→aba

aba(在末尾***c)→abac

则“eeba”和“abac”的Levenshtein距离就是3。

余弦计算子模型：余弦计算子模型需要需先进行训练。首先从网络上爬取医学相关的数据构建医学语料库(例如爬取***、百度百科、医疗百科的数据构建医学语料库)，以爬取到的数据训练Word2Vec模型，Word2Vec模型是生成词向量的模型。余弦计算子模型先将候选对码疾病名称进行分词，然后使用训练好的Word2Vec模型将分词部分转化为词向量，计算各个词向量的向量平均值作为疾病名称向量。例如，疾病名称“上呼吸道感染”分词后为“上”、“呼吸道”和“感染”，“上呼吸道感染”的疾病名称向量可以用“上”、“呼吸道”和“感染”三个分词的词向量的平均值来表示。同样地，计算标准疾病名称的疾病名称向量。通过PCA模型对疾病名称向量进行降维，将疾病名称向量平移到以原点为中心的区域内，以增大向量之间的差异性。计算经过PCA修正后的候选对码疾病名称的疾病名称向量与各标准疾病名称的疾病名称向量间的余弦相似度。其中，PCA(principal componentsanalysis，又称主成分分析技术)，主要用于数据降维。

本实施例中，将候选对码疾病名称输入至模糊匹配模型中的四个模糊匹配子模型，四个模糊匹配子模型为词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型，每个模糊匹配子模型均对候选对码疾病名称进行匹配，保证了对候选对码疾病名称对码的准确率。

可以理解，服务器的数据库中存储着标准疾病分类表，各精确匹配子模型和各模糊匹配子模型中都预存了标准疾病分类表的存储地址；在进行匹配时，各精确匹配子模型和各模糊匹配子模型根据存储地址获取标准疾病分类表，依据标准疾病分类表进行匹配。

步骤2042，基于各模糊匹配子模型，计算候选对码疾病名称与标准疾病分类表中各标准疾病名称的相似度。

具体地，对于每一个模糊匹配子模型，计算输入的候选对码疾病名称与标准疾病分类表中各标准疾病名称的相似度。

在一个实施例中，当模糊匹配子模型为编辑距离子模型时，候选对码疾病名称与标准疾病分类表中各标准疾病名称的相似度的计算步骤具体包括：计算候选对码疾病名称与标准疾病分类表中各标准疾病名称的文本编辑距离；将各文本编辑距离进行归一化，并以归一化之后的各文本编辑距离作为候选对码疾病名称与各标准疾病名称的相似度。

具体地，对于每一个候选对码疾病名称，编辑距离子模型计算候选对码疾病名称与各标准疾病名称的文本编辑距离。文本编辑距离为整数，文本编辑距离越小，代表相似度越高；为了后续与其它模糊匹配子模型计算得到的相似度进行运算，需要将文本编辑距离进行归一化，将文本编辑距离的数值压缩到区间[0,1]，并以归一化后的文本编辑距离作为候选对码疾病名称与各标准疾病名称的相似度。

编辑距离子模型可以通过线性归一化、标准化归一化和非线性归一化等方法将文本编辑距离进行归一化。

本实施例中，编辑距离子模型计算候选对码疾病名称与各标准疾病名称的文本编辑距离，并将归一化之后的文本编辑距离作为候选对码疾病名称与标准疾病名称间的相似度，以确保能够联合其余模糊匹配子模型计算得到的相似度生成第二对码结果。

步骤2043，根据各模糊匹配子模型计算得到的相似度，生成第二对码结果。

具体地，从模糊匹配子模型计算得到的相似度中，服务器可以选取最高相似度所对应的标准疾病名称及其疾病编码作为模糊匹配子模型的子对码结果。将各模糊匹配子模型的子对码结果中，出现次数最多的子对码结果作为第二对码结果。

在一个实施例中，各模糊匹配子模型预设有对应的权重。在得到各子对码结果后，根据各模糊匹配子模型的权重，计算各类子对码结果的权重，选取具有最高权重占比的子对码结果作为第二对码结果。举例说明，假设有4个模糊匹配子模型，其中两个模糊匹配子模型的子对码结果均为X，两个模糊匹配子模型的子对码结果均为Y；子对码结果为X的两个模糊匹配子模型权重均为0.2，子对码结果为Y的两个模糊匹配子模型权重均为0.3，则Y的权重占比(0.6)大于X的权重占比(0.4)，将Y作为第二对码结果。

在一个实施例中，根据各模糊匹配子模型计算得到的相似度，生成第二对码结果的步骤具体包括：对于每个候选对码疾病名称，从各模糊匹配子模型计算得到的相似度中，筛选最大相似度所对应的标准疾病名称和疾病编码进行HardVoting融合，得到第二对码结果；或者，根据各模糊匹配模型计算得到的相似度进行SoftVoting融合，得到第二对码结果。

其中，HardVoting融合是从各模糊匹配子模型计算得到的相似度中，分别选取最高相似度所对应的标准疾病名称及其疾病编码，按照少数服从多数的规则确定第二对码结果；SoftVoting融合是对各模糊匹配子模型输出的候选对码疾病名称与各标准疾病名称的相似度求平均值，选取具有最高平均相似度的标准疾病名称及其疾病编码作为第二对码结果。

在采用HardVoting融合时，对于每一个候选对码疾病名称，先取各模糊匹配子模型计算得到的具有最高相似度的标准疾病名称及其对应的疾病编码，得到若干组子对码结果，再将若干组子对码结果中，出现次数最多的标准疾病名称及其对应的疾病编码作为第二对码结果。

举例说明，词频匹配子模型的计算结果中，候选对码疾病名称与“周围神经病”相似度最高，为90％；N-Gram子模型为“周围神经病”，相似度为80％；编辑距离子模型为“周围神经病”，相似度为100％；余弦计算子模型为“周围神经炎”，相似度为85％。四组子对码结果中，“周围神经病”出现3次，“周围神经炎”出现1次，“周围神经病”的出现次数大于“周围神经炎”的出现次数，将“周围神经病”及其对应的疾病编码作为第二对码结果。

在采用SoftVoting融合时，对于每一个候选对码疾病名称，获取各模糊匹配子模型与全部标准疾病名称的相似度。当有四个模糊匹配子模型时，共获取4*26000个相似度。然后结合各模糊匹配子模型的结果，计算每个标准疾病名称与候选对码疾病名称相似度的加权平均值，将具有最高平均相似度的标准疾病名称及其疾病编码，作为第二对码结果。

举例说明(每个模糊匹配子模型仅列出两种标准疾病名称为例)：

词频匹配子模型：周围神经病-相似度99％；周围神经炎-相似度1％；

N-Gram子模型：周围神经病-相似度49％；周围神经炎-相似度51％；

编辑距离子模型：周围神经病-相似度40％；周围神经炎-相似度60％；

余弦计算子模型：周围神经病-相似度90％；周围神经炎-相似度10％；

当各模糊匹配子模型权重相同时，则有：

“周围神经病”相似度的加权平均值：(99％+49％+40％+90％)÷4＝69.5％；

“周围神经炎”相似度的加权平均值：(1％+51％+60％+10％)/2＝30.5％；

“周围神经病”相似度的加权平均值大于“周围神经炎”相似度的加权平均值，则将“周围神经病”及其对应的疾病编码作为第二对码结果。

本实施例中，依据各模糊匹配子模型计算得到的相似度进行HardVoting融合或SoftVoting融合，将各模糊匹配子模型的结果均考虑进来，从而生成第二对码结果，提高了生成第二对码结果的准确率。

本实施例中，将候选对码疾病名称输入模糊匹配模型中的每个模糊匹配子模型，每个模糊匹配子模型采用不同的方法计算候选对码疾病名称与各标准疾病名称的相似度，再结合各模糊匹配子模型计算得到的相似度生成第二对码结果，提高了候选对码疾病名称对码的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种疾病名称对码装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的疾病名称对码装置300包括：列表获取模块301、列表去重模块302、精确匹配模块303、模糊匹配模块304以及列表生成模块305，其中：

列表获取模块301，用于从电子病历中获取疾病名称列表。

列表去重模块302，用于对疾病名称列表中重复的疾病名称进行去重处理，得到去重后的疾病名称列表。

精确匹配模块303，用于将去重后的疾病名称列表输入到精确匹配模型中，依据标准疾病分类表进行对码，得到第一对码结果和候选对码疾病名称。

模糊匹配模块304，用于将得到的候选对码疾病名称输入到模糊匹配模型中，依据标准疾病分类表进行对码，得到第二对码结果。

列表生成模块305，用于根据第一对码结果和第二对码结果生成疾病名称对码列表。

在本实施例的一些可选的实现方式中，上述精确匹配模块303包括：名称输入子模块、名称查询子模块、第一生成子模块和名称标记子模块，其中：

名称输入子模块，用于将去重后的疾病名称列表中的各疾病名称，按照精确匹配模型中精确匹配子模型的排列顺序，输入至精确匹配子模型。

名称查询子模块，用于通过当前精确匹配子模型，在标准疾病分类表中查询与输入的疾病名称匹配的标准疾病名称。

第一生成子模块，用于当查询到匹配的标准疾病名称时，将查询到的标准疾病名称以及与标准疾病名称对应的疾病编码作为疾病名称的第一对码结果。

所述名称输入子模块还用于当当前精确匹配子模型未查询到匹配的标准疾病名称时，将疾病名称输入至下一个精确匹配子模型继续执行匹配。

名称标记子模块，用于若疾病名称未被各精确匹配子模型完成匹配，将疾病名称标记为候选对码疾病名称。

在本实施例的一些可选的实现方式中，上述名称输入子模块还用于：将去重后的疾病名称列表中的各疾病名称，按照精确匹配子模型中四个精确匹配子模型的排列顺序，输入至精确匹配子模型；四个精确匹配子模型包括完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型。

在本实施例的一些可选的实现方式中，上述模糊匹配模块304包括：输入子模块、计算子模块和第二生成子模块，其中：

输入子模块，用于将得到的候选对码疾病名称输入到模糊匹配模型中的各模糊匹配子模型。

计算子模块，用于基于各模糊匹配子模型，计算候选对码疾病名称与标准疾病分类表中各标准疾病名称的相似度。

第二生成子模块，用于根据各模糊匹配子模型计算得到的相似度，生成第二对码结果。

在本实施例的一些可选的实现方式中，上述输入子模块还用于：将得到的候选对码疾病名称输入到模糊匹配模型中的四个模糊匹配子模型，四个模糊匹配子模型包括词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型。

在本实施例的一些可选的实现方式中，当模糊匹配子模型为编辑距离子模型时，上述计算子模块包括：距离计算单元和距离归一单元，其中：

距离计算单元，用于计算所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的文本编辑距离；

距离归一单元，用于将各文本编辑距离进行归一化，并以归一化之后的各文本编辑距离作为所述候选对码疾病名称与所述各标准疾病名称的相似度。

在本实施例的一些可选的实现方式中，上述第二生成子模块包括：HardVoting单元或者SoftVoting单元，其中：

HardVoting单元，用于对于每个候选对码疾病名称，从各模糊匹配子模型计算得到的相似度中，筛选最大相似度所对应的标准疾病名称和疾病编码进行HardVoting融合，得到第二对码结果。

SoftVoting单元，用于根据各模糊匹配模型计算得到的相似度进行SoftVoting融合，得到第二对码结果。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如疾病名称对码方法的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行所述疾病名称对码方法的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述疾病名称对码方法的步骤。此处疾病名称对码方法的步骤可以是上述各个实施例的疾病名称对码方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有疾病名称对码程序，所述疾病名称对码程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的疾病名称对码方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

22页详细技术资料下载

疾病名称对码方法、装置、计算机设备及存储介质

相关技术

网友询问留言