一种医疗语料标注方法

文档序号:1465983 发布日期:2020-02-21 浏览:3次 >En<

阅读说明:本技术 一种医疗语料标注方法 (Medical corpus labeling method ) 是由 孙广阳 程岚 祝伟 于 2019-11-13 设计创作,主要内容包括:本发明提出了一种医疗语料标注方法,包括:注册账号,向用户分配任务;标注界面呈现原始语料,由用户根据原始语料查找到对应的选项进行单选;如果多个选项中没有标准结果,则在选项下输入需要和正规ICD9、ICD10两类编码字典相同;允许用户对选择的结果进行标记;如果语料标注为复合语料,则在拆分界面进行拆分,设置为拆分列表;如果语料标注为正常语料,则设置为正常标注列表,否则设置为丢弃列表;如果语料为不可识别语料,则标注为疑问语料;检查完毕后,确定无误提交任务;分享并导出检查结果。本发明可以将医疗语料规范化,所产生的数据可以为医疗数据的信息化提供便捷的方法,统一的流程,高效的进度。(The invention provides a medical corpus labeling method, which comprises the following steps: registering an account number and distributing tasks to a user; the marking interface presents the original corpus, and a user finds a corresponding option according to the original corpus to perform single selection; if the standard result does not exist in a plurality of options, the input requirement under the options is the same as the encoding dictionaries of the normal ICD9 and the ICD 10; allowing the user to mark the selected result; if the corpus is marked as a composite corpus, splitting the corpus on a splitting interface, and setting the corpus as a splitting list; if the corpus is marked as normal corpus, setting the corpus as a normal marking list, otherwise, setting the corpus as a discarding list; if the corpus is the unidentifiable corpus, marking the corpus as a query corpus; after the inspection is finished, determining to submit the task without errors; and sharing and exporting the checking result. The invention can standardize the medical linguistic data, and the generated data can provide a convenient method for informatization of the medical data, uniform flow and high-efficiency progress.)

一种医疗语料标注方法

技术领域

本发明涉及数据处理技术领域,特别涉及一种医疗语料标注方法。

背景技术

在当今医疗逐渐信息化的时代,想要将医疗信息纳入大数据中,就必须标准化起来。因为很多种病名因为太难记,不顺口,医生在录入患者信息时,会将病名简化或者口语化,导致信息的不规范,通用性很差,查询也不方便。病案编码员的工作就是将这些不规范的信息规范化起来,但是人工速度慢,任务量大,而且分类不明确,导致工作效率低。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此,本发明的目的在于提出一种医疗语料标注方法。

为了实现上述目的,本发明实施例提供一种医疗语料标注方法,包括如下步骤:步骤S1,注册账号,向用户分配任务,其中,分配的任务包括ICD9、ICD10两类,分配指定数量;用户登录到标注界面,选择标注ICD9或ICD10的任务;

步骤S2,标注界面呈现原始语料,由用户根据原始语料查找到对应的选项进行单选;

步骤S3,在标注过程中,如果多个选项中没有标准结果,则在选项下输入需要和正规ICD9、ICD10两类编码字典相同;允许用户对选择的结果进行标记,其中,标记状态包括:复合语料、正常语料、疑问语料;

步骤S4,如果语料标注为复合语料,则在拆分界面进行拆分,设置为拆分列表;如果语料标注为正常语料,则设置为正常标注列表,否则判断语料为无用语料,设置为丢弃列表;如果语料为不可识别语料,则标注为疑问语料;

步骤S5,当用户完成标注任务后,在检查界面对已标注过的内容进行检查,在检查界面查看正常标注列表、拆分列表、疑问列表、丢弃列表,在检查过程中进行重新选择和重新拆分;

步骤S6,检查完毕后,确定无误提交任务,提交的数据对所有数据进行匹配一次,将相同的语料进行自动标注;

步骤S7,将所述疑问列表和丢弃列表进行分享,导出检查结果。

进一步,将数据库中的每条语料,通过NLP算法得出多个最相似的编码形成新的列,将得到的结果作为数据源。

进一步,当检测到语料为复合语料,则进入拆分界面,对这条语料进行拆分,拆分后结果在ICD字典库通过NLP算法进行相似度匹配,查找相似的选项供用户选择,并将拆分后的语料存入数据库。

进一步,对于无用语料,进行丢弃,对于丢弃的语料不直接删除,仅在任务列表中删除,在检查界面确认后删除。

进一步,在标注过程中,向用户提供总任务量和剩余任务栏查看界面。

进一步,在标注过程中,如果用户退出登录,在下次登录时直接显示到当前标注的位置。

进一步,在标注过程中,如果该语料为无用语料,确定后标记为“丢弃”,其中,标记为丢弃的语料不被直接删除,在检查界面进一步检查;如果可以则回收利用重新标记,否则被删除。

根据本发明实施例的医疗语料标注方法,可以实现登录注册功能、用户任务分配功能、标注功能、检查功能、分享功能、提交功能、导出功能。首先将数据库中的每条语料,通过NLP算法得出10个最相似的编码形成新的列,得到的结果表作为数据源,将数据显示在Web端,以单选框、输入框及多种形式进行标注,标注过的正确结果,可以用来将剩余语料中的相同语料进行自动标注,提升标注效率,最终达到将语料中不标准的诊断名称规范化。本发明是可以将医疗语料规范化,所产生的数据可以为医疗数据的信息化提供便捷的方法,统一的流程,高效的进度。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明实施例的医疗语料标注方法的流程框图;

图2为根据本发明实施例的医疗语料标注方法的结构图;

图3为根据本发明实施例的医疗语料标注方法的流程图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

本发明提出一种医疗语料标注方法,该方法提供了医学语料可以在Web端通过单选进行标注及分类,能有效解决现有病案编码员工作量繁重且没有有效的工具、检查速度慢、工作任务重复、工作效率低的问题。本发明可以提供以下主要功能:登录注册功能、用户任务分配功能、标注功能、检查功能、导出功能。

如图1所示,本发明实施例的医疗语料标注方法,包括如下步骤:

步骤S1,注册账号,向用户分配任务,其中,分配的任务包括ICD9、ICD10两类,分配指定数量;用户登录到标注界面,选择标注ICD9或ICD10的任务。

在本步骤中,登录注册功能目的是可以根据用户所属领域的不同,为以后的任务分配做铺垫。并且,在用户任务分配功能,为不同的用户分配合适的语料任务,并应对新增的数据。

具体的,管理员注册账号;给用户分配任务,任务分为ICD9、ICD10两类,可以分配指定数量的任务给用户;用户登录到标注界面,并可以选择标注ICD9或ICD10的任务,如图2所示。

步骤S2,标注界面呈现原始语料,由用户根据原始语料查找到对应的选项进行单选。

具体的,标注界面会呈现原始语料,以及10个选项,用户可以根据原始语料找到对应的选项进行单选。将数据库中的每条语料,通过NLP算法得出多个最相似的编码形成新的列,将得到的结果作为数据源。用户可以在Web浏览器界面进行语料标注,每条语料均通过提前的NLP算法在ICD字典中进行相似度匹配,极大的减少了用户的查询负担。

此外,用户在Web浏览器界面通过单选框进行选择,点击标注按钮对当前语料进行标注,此方法脱离了传统的手工码字的标注方式。

步骤S3,在标注过程中,如果多个选项中没有标准结果,则在选项下输入需要和正规ICD9、ICD10两类编码字典相同;允许用户对选择的结果进行标记,其中,标记状态包括:复合语料、正常语料、疑问语料。

在标注过程中,用户通过10个与原始语料最相似的单选项进行选择,如果10个选项中没有标准的结果,可以在选项下通过自定义输入框进行输入,输入内容需要和正规的ICD9/ICD10编码字典相同,为提高用户体验,输入框有自动联想功能,用户可以轻松找到想要输入的编码。如果原始语料为复合语料(如AB类,可以分为A类、B类),可以到拆分界面进行拆分。在标注过程中,如果用户对自己选择的结果不太确定,可以选择:1、先选择,然后标记为“疑问选择”,等待后续处理。2、直接标记为“疑问”。如果该语料为无用语料,可以点击“丢弃”按钮进行丢弃。

步骤S4,如果语料标注为复合语料,则在拆分界面进行拆分,设置为拆分列表;如果语料标注为正常语料,则设置为正常标注列表,否则判断语料为无用语料,设置为丢弃列表;如果语料为不可识别语料,则标注为疑问语料。

参考图3,用户在语料标注过程中,如果遇到复合语料、疑问语料、无用语料,可以采用以下方式进行处理:

(1)复合语料

当检测到语料为复合语料,用户可以点击拆分按钮,进入拆分界面,对这条语料进行拆分,拆分后,系统会根据拆分出的结果在ICD字典库通过NLP算法进行相似度匹配,迅速找出相似的选项供用户选择,最后将拆分后的语料一起存入数据库。

例如:在标注过程中,如果该语料为复合语料,如,“手足癣”,应为“手癣”,和“足癣”。这种语料应该进行拆分,用户可以点击拆分按钮,进入拆分界面,拆分成对应的语料以及编码进行标注。

(2)疑问语料

如果遇到疑问语料,用户可以有两种解决方案:1、用户可以点击疑问按钮,该语料会存入疑问列表,暂时不用处理;2、用户如果对某个选项将信将疑,可以点击选项后,再点击“疑问标注”按钮。这些操作在最后的检查界面都会记录并分类,以便查询。

(3)无用语料

对于无用语料,用户可以点击丢弃按钮,进行丢弃,对于丢弃的语料不直接删除,仅在任务列表中删除,最后在检查界面确认后才会真正的删除。

即,在标注过程中,如果该语料为无用语料,在确定后,可以将其标记为“丢弃”,标记为丢弃的语料不会被直接删除,会在检查界面再进一步检查,如果可以回收利用则重新标记,否则会被删除。

在标注过程中,每标记一条语料,就会显示这条语料的当前状态,以便用户查看,并且向用户提供总任务量和剩余任务栏查看界面。

在标注过程中,如果用户退出登录,在下次登录时直接显示到当前标注的位置,以提高用户体验。

步骤S5,当用户完成标注任务后,在检查界面对已标注过的内容进行检查,在检查界面查看正常标注列表、拆分列表、疑问列表、丢弃列表,在检查过程中进行重新选择和重新拆分。

在本步骤的检查功能中,主要是对已标注过的语料进行检查、对“疑问”状态的语料进行处理,确保最终结果的准确性。

在检查过程中,疑问列表的语料如果重新进行标注,该语料会进入正常标注列表,丢弃列表的语料同上。

用户在标注过程中也可以进入检查界面进行检查,检查界面分为四个列表区供用户查看,分别是:标注列表、拆分列表、疑问列表、丢弃列表。

步骤S6,检查完毕后,确定无误提交任务,提交的数据对所有数据进行匹配一次,将相同的语料进行自动标注;

本步骤的提交功能,是在检查完标注任务后,点击提交任务按钮,后台会将这一批语料在剩余任务中进行匹配,自动完成标注。

当检查完毕后,确定无误,可以提交任务。提交的数据会对所有数据进行匹配一次,把相同的语料进行自动标注,减少任务量;在检查界面检查完毕后,可以点击提交任务按钮,提交的任务只是标注列表的内容,其他列表的不会被提交,提交的任务会对所有人的任务列表进行匹配,对相同的语料进行自动标注,防止用户重复工作;

需要说明的是,服务器、WEB客户端,服务器上连接有数据库,数据库内有用户登录注册信息、不同类别的ICD字典、不同类别的病案语料数据、用户标注后的结果数据、用户的操作记录;任一用户在登录后,对N个待标注的语料标注,标注完成后进行进一步检查,确认无误后可以提交任务,提交的任务数据将对后续的所有语料进行匹配,相同语料将会自动标注。

步骤S7,将疑问列表和丢弃列表进行分享,导出检查结果。

本步骤的分享功能,是在检查界面,将标注完成的列表进行分享,让其他用户参考或请求帮助。

本步骤的导出功能,检查界面的内容支持导出到excel、数据库等格式,可以实现导出至excel表格、数据库进行持久保存。

需要说明的是,本发明中生成的疑问列表和丢弃列表,可以分享给其他用户帮忙解决,以便快速完成任务。

根据本发明实施例的医疗语料标注方法,可以实现登录注册功能、用户任务分配功能、标注功能、检查功能、分享功能、提交功能、导出功能。首先将数据库中的每条语料,通过NLP算法得出10个最相似的编码形成新的列,得到的结果表作为数据源,将数据显示在Web端,以单选框、输入框及多种形式进行标注,标注过的正确结果,可以用来将剩余语料中的相同语料进行自动标注,提升标注效率,最终达到将语料中不标准的诊断名称规范化。本发明是可以将医疗语料规范化,所产生的数据可以为医疗数据的信息化提供便捷的方法,统一的流程,高效的进度。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:在线表格的数据处理方法、装置、终端及服务器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!