一种医疗文本生成方法、装置、设备及存储介质

文档序号:1938137 发布日期:2021-12-07 浏览:20次 >En<

阅读说明:本技术 一种医疗文本生成方法、装置、设备及存储介质 (Medical text generation method, device, equipment and storage medium ) 是由 章秀斌 陈效华 王晓鹏 石洪雷 王玉贞 朱冬 张富根 黄才华 王琪 张红恩 于 2021-09-07 设计创作,主要内容包括:本申请提供一种医疗文本生成方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:将接收到的语音数据转换成文本数据;基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选实体;根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体,待选实体的权重用于表征待选实体的重要程度;根据该文本中包括的标题,将至少一个目标实体嵌入基于语音数据调取的医疗模板中该标题的对应位置上,得到医疗文本。应用本申请实施例,可以提高生成结构化医疗成本的效率。(The application provides a medical text generation method, a medical text generation device, medical text generation equipment and a storage medium, and relates to the technical field of computers. The method comprises the following steps: converting the received voice data into text data; analyzing the text data based on a pre-constructed medical word bank to obtain a title and a plurality of entities to be selected included in the text data; screening at least one target entity from a plurality of entities to be selected according to the weight of each entity to be selected, wherein the weight of the entity to be selected is used for representing the importance degree of the entity to be selected; and according to the title included in the text, embedding at least one target entity into the corresponding position of the title in the medical template called based on the voice data to obtain the medical text. By applying the embodiment of the application, the efficiency of generating the structured medical cost can be improved.)

一种医疗文本生成方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种医疗文本生成方法、装置、设备及存储介质。

背景技术

电子病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录,其中,结构化电子病历由于其具有自动跟踪的特性,对医疗、预防、教学、科研、医院管理等都有重要的作用。

目前,医务人员通常在与患者交谈的过程中,基于电子病历编辑器软件,采用键盘输入的方式生成结构化电子病历,而由于结构化电子病历中文本信息的复杂性,这样需要耗费较长的时间才能得到结构化的医疗文本。

发明内容

本申请的目的在于,针对上述现有技术中的不足,提供一种医疗文本生成方法、装置、设备及存储介质,可以提高生成结构化医疗文本的效率。

为实现上述目的,本申请实施例采用的技术方案如下:

第一方面,本申请实施例提供了一种医疗文本生成方法,所述方法包括:

将接收到的语音数据转换成文本数据;

基于预先构建的医疗词库对所述文本数据进行解析处理,得到所述文本数据中包括的标题以及多个待选实体;

根据各所述待选实体的权重,从所述多个待选实体中筛选出至少一个目标实体,所述待选实体的权重用于表征所述待选实体的重要程度;

根据所述文本数据中包括的所述标题,将所述至少一个目标实体嵌入基于所述语音数据调取的医疗模板中所述标题的对应位置上,得到医疗文本。

可选地,所述基于预先构建的医疗词库对所述文本数据进行解析处理,得到所述文本数据中包括的标题以及多个待选实体,包括:

基于预先构建的医疗词库对所述文本数据进行修订,得到修订后的文本数据;

将所述修订后的文本数据与预先构建的标题库进行比对,得到所述文本数据中包括的标题;

将所述修订后的文本数据输入预先训练得到的实体分词模型中,得到所述文本数据中包括的多个待选实体。

可选地,所述语音数据包括:医生语音数据和患者语音数据;

所述基于预先构建的医疗词库对所述文本数据进行解析处理,得到所述文本数据中包括的标题以及多个待选实体,包括:

对所述文本数据进行语义解析,得到医生文本数据、所述医生文本数据中的标题、患者文本数据以及所述患者文本数据中的标题;

将所述医生文本数据和所述患者文本数据分别输入预先训练得到的实体分词模型中,得到所述文本数据中包括的多个待选实体。

可选地,所述根据各所述待选实体的权重,从所述多个待选实体中筛选出至少一个目标实体之前,所述方法还包括:

确定各所述实体关联的主体词;

根据所述医疗模板的类型、时间衰减因子、医生对各所述待选实体的使用行为次数、各所述待选实体在所述主体词出现的概率,确定各所述待选实体的权重。

可选地,所述根据所述文本数据中包括的所述标题,将所述至少一个目标实体嵌入基于所述语音数据调取的医疗模板中所述标题的对应位置上,得到医疗文本,包括:

基于所述文本数据中包括的所述标题,从所述医疗模块中查找出所述标题词关联的目标位置;

将所述目标实体嵌入至所述医疗模板中所述标题词关联的目标位置上,得到所述医疗文本。

可选地,所述方法还包括:

将医生输入的语音查询数据转换成文本查询数据;

从数据库中检索出与所述文本查询数据对应的结果数据,并将所述结果数据输出。

可选地,所述根据各所述待选实体的权重,从所述多个待选实体中筛选出至少一个目标实体之后,所述方法还包括:

根据各所述目标实体的实体类型以及预先定义的三元组中的各元素信息,确定各所述目标实体之间的关联性;

根据各所述目标实体之间的关联性,构建知识图谱。

第二方面,本申请实施例还提供了一种医疗文本生成装置,所述装置包括:

转换模块,用于将接收到的语音数据转换成文本数据;

处理模块,用于基于预先构建的医疗词库对所述文本数据进行解析处理,得到所述文本数据中包括的标题以及多个待选实体;

筛选模块,用于根据各所述待选实体的权重,从所述多个待选实体中筛选出至少一个目标实体,所述待选实体的权重用于表征所述待选实体的重要程度;

嵌入模块,用于根据所述文本数据中包括的所述标题,将所述至少一个目标实体嵌入基于所述语音数据调取的医疗模板中所述标题的对应位置上,得到医疗文本。

可选地,所述处理模块,具体用于基于预先构建的医疗词库对所述文本数据进行修订,得到修订后的文本数据;将所述修订后的文本数据与预先构建的标题库进行比对,得到所述文本数据中包括的标题;将所述修订后的文本数据输入预先训练得到的实体分词模型中,得到所述文本数据中包括的多个待选实体。

可选地,所述语音数据包括:医生语音数据和患者语音数据;

相应地,所述处理模块,还具体用于对所述文本数据进行语义解析,得到医生文本数据、所述医生文本数据中的标题、患者文本数据以及所述患者文本数据中的标题;将所述医生文本数据和所述患者文本数据分别输入预先训练得到的实体分词模型中,得到所述文本数据中包括的多个待选实体。

可选地,该装置还包括:确定模块;

所述确定模块,用于确定各所述实体关联的主体词;根据所述医疗模板的类型、时间衰减因子、医生对各所述待选实体的使用行为次数、各所述待选实体在所述主体词出现的概率,确定各所述待选实体的权重。

可选地,所述嵌入模块,具体用于基于所述文本数据中包括的所述标题,从所述医疗模块中查找出所述标题词关联的目标位置;将所述目标实体嵌入至所述医疗模板中所述标题词关联的目标位置上,得到所述医疗文本。

可选地,所述装置还包括:输出模块;

所述输出模块,用于将医生输入的语音查询数据转换成文本查询数据;从数据库中检索出与所述文本查询数据对应的结果数据,并将所述结果数据输出。

可选地,所述装置还包括:构建模块;

所述构建模块,用于根据各所述目标实体的实体类型以及预先定义的三元组中的各元素信息,确定各所述目标实体之间的关联性;根据各所述目标实体之间的关联性,构建知识图谱。

第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述第一方面的所述医疗文本生成方法的步骤。

第四方面,本申请实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面的所述医疗文本生成方法的步骤。

本申请的有益效果是:

本申请实施例提供一种医疗文本生成方法、装置、设备及存储介质,该方法包括:将接收到的语音数据转换成文本数据;基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选实体;根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体,待选实体的权重用于表征待选实体的重要程度;根据该文本中包括的标题,将至少一个目标实体嵌入基于语音数据调取的医疗模板中该标题的对应位置上,得到医疗文本。

采用本申请实施例提供的医疗文本生成方法,可直接通过语音转化技术将诊断过程中收集的语音数据转换为文本数据,并且还可以采用预先构建的医疗词库,得到该文本数据中所包括的标题以及多个待选实体,进而根据各待选实体的权重,得到目标实体,再将该文本数据中标题与医疗模板中的标题进行匹配,将该标题关联的目标实体嵌入至该医疗模板中所匹配标题的对应位置上,得到结构化的医疗文本。可以看出,这样不仅可以提高生成结构化医疗文本的效率,而且还可以解放医生的双手,使医生更加专注的了解患者的身体状态,进而提高生成的结构化医疗文本的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种医疗文本生成系统的场景示意图;

图2为本申请实施例提供的一种医疗文本生成方法的流程示意图;

图3为本申请实施例提供的另一种医疗文本生成方法的流程示意图;

图4为本申请实施例提供的又一种医疗文本生成方法的流程示意图;

图5为本申请实施例提供的再一种医疗文本生成方法的流程示意图;

图6为本申请实施例提供的另一种医疗文本生成方法的流程示意图;

图7为本申请实施例提供的一种医疗文本生成装置的结构示意图;

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在对本申请实施例进行详细解释之前,首先对本申请的应用场景予以介绍。该应用场景具体可以为基于语音输入生成结构化电子病历,即结构化的医疗文本的场景。图1为本申请实施例提供的一种医疗文本生成系统的场景示意图,如图1所示,该系统包括语音获取模块101以及数据处理模块102,语音获取模块101可包括语音采集设备,如麦克风、录音笔等具有语音收集功能的设备,还可包括语音转换模块。该语音转换模块可将语音采集设备采集到的语音数据转换为文本数据,并将该文本数据发送至数据处理模块102中,数据处理模块102可基于预先构建的医疗词库对该文本数据进行解析处理,并且还可通过预先建立的实体分词模型对该文本数据进行分词,得到多个实体,根据文本数据中的标题将实体嵌入至基于该语音数据调取的医疗模板上的对应位置处,进而得到结构化的医疗文本。

如下结合附图对本申请提到的医疗文本生成方法进行示例说明。图2为本申请实施例提供的一种医疗文本生成方法的流程示意图。如图2所示,该方法可包括:

S201、将接收到的语音数据转换成文本数据。

可选地,在医生与患者进行沟通的过程中,医生可通过“唤醒词”唤醒医疗文本生成系统支撑语音助手,该语音助手可将语音数据对应的文本数据显示在其界面上,并且还可与医生进行信息交互。医生可根据患者当前状态输出语音信息,从数据库中调取与该患者当前状态对应的医疗模块,如患者当期状态为入院状态,医生可输出如“入院记录”等类似语音信息,从数据库中可调取与“入院记录”语音数据对应的医疗模板,该医疗模板中可包括标题,如主诉、现病史、既往史等。可以理解的是,也可在医生与患者进行沟通后,将沟通过程中利用语音采集设备(如录音笔)采集的音频文件上传至医疗文本生成系统中,通过医疗文本生成系统对该音频文件中的语音数据进行处理,得到结构化的医疗文本,需要说明的是,本申请不对其进行限定。

具体的,可将接收到的语音数据输入预先训练得到的文本生成模型中,该文本生成模型对该语音数据进行识别后,可将该语音数据转化成文本数据。

S202、基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选实体。

其中,可预先根据医疗标准化的词汇以及所收集的实际医疗语料构建生成该医疗词库,具体的,可根据该医疗标准化的词汇构建生成静态医疗词库,可根据所收集的实际医疗语料构建生成动态医疗词库,并且可根据实际需求对该动态医疗词库进行更新,可以理解的是,该动态医疗词库中包括的实体是一些通用医疗词,即医生采用口语化表达的医疗词。并且还可根据实体的类别将该动态医疗词库划分成多个子动态医疗词库,子动态医疗词库如手术词库、部位词库、检查词库等。

将语音数据转换成的文本数据例如为“主诉右下腹疼痛不适一天”,可将该文本数据与该医疗词库中所包括的医疗词匹配,得到该文本数据中所包括的标题(如主诉),以及多个待选实体(如右下腹、疼痛、天)。

S203、根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体,待选实体的权重用于表征待选实体的重要程度。

其中,该文本数据中的每个待选实体都对应有权重,该权重的大小与该医生的用词习惯、该医生所在的科室等信息都具有关联性,假设一个标题下关联有80个待选实体,可根据各待选实体在该医生所在科室下的重要程度、与医生用语习惯的关联性等分别确定出这80个待选实体对应的权重,可以理解的是,待选实体对应的权重越大,代表着该待选实体在该标题下越重要,即越能反应患者的生理健康信息。在一种可实现的实施例中,可将权重大于预设权重的待选实体作为目标实体。

可以理解的是,每个科室、每个医生都具有自身特性,通过引入权重的概念,可以使筛选出的目标实体与医生的语义更加匹配,这样不仅可以提高生成结构化医疗文本的效率,而且还可以提高结构化医疗文本的质量,避免一些不必要信息(如医生口音)的影响。

S204、根据该文本数据中包括的标题,将至少一个目标实体嵌入基于语音数据调取的医疗模板中该标题的对应位置上,得到医疗文本。

其中,可根据上述描述可知,医生可根据患者当前状态输出对应的语音数据调取与患者当前状态匹配的医疗模板,如入院记录对应的医疗模板,该医疗模板中可包括标题,如主诉、现病史等。可将该文本数据中包括的标题与该医疗文本中所包括的标题进行对比,将该文本数据中该标题下的多个目标实体嵌入至该医疗模板中该标题对应的位置上。举例来说,假设该标题为主诉,则可将该文本数据中与该主诉关联的多个目标实体添加至该医疗模板中标题为主诉对应的位置上,进而可得到结构化的医疗文本,即可生成结构化的电子病历。

综上所述,本申请实施例提供的医疗文本生成方法中,可直接通过语音转化技术将诊断过程中收集的语音数据转换为文本数据,并且还可以采用预先构建的医疗词库,得到该文本数据中所包括的标题以及多个待选实体,进而根据各待选实体的权重,得到目标实体,再将该文本数据中标题与医疗模板中的标题进行匹配,将该标题关联的目标实体嵌入至该医疗模板中所匹配标题的对应位置上,得到结构化的医疗文本。可以看出,这样不仅可以提高生成结构化医疗文本的效率,而且还可以解放医生的双手,使医生更加专注的了解患者的身体状态,进而提高生成的结构化医疗文本的质量。

图3为本申请实施例提供的另一种医疗文本生成方法的流程示意图,如图3所示,可选地,上述基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选实体,包括:

S301、基于预先构建的医疗词库对该文本数据进行修订,得到修订后的文本数据。

其中,医疗词库中所包括的医疗词都是经过验证后的实体,即各医疗词的词义以及形态均正确,可首先根据该医疗词库中的医疗词对该文本数据进行修订,将该文本数据中转化错误的词修改为正确的医疗词,如由于有些医生存在口音的问题,通过语音转换后的文本数据中包括“右下服”词,而该医疗词库中包括的医疗词为“右下服”,那么可将该文本数据中的“右下服”词修改为“右下腹”,这样可以避免由于外界因素而导致的文本数据与患者的真实状况不匹配的现象。

S302、将该修订后的文本数据与预先构建的标题库进行比对,得到该文本数据中包括的标题。

其中,预先构建的标题库也可属于上述提到的医疗词库,也可是该医疗词库外的一个词库,本申请不对其进行限定。该标题库中包括的标题如主诉、现病史、既往史等。在一种可实现的实施例中,该文本数据相当于一句话,可将该修订后的文本数据与该标题库中的标题进行对比,将匹配度最大的标题作为该文本数据中所包含的标题。

在一种可实现的实施例中,当语音数据为音频文件时,首先根据医疗词库对语音数据转换成的文本数据进行修订,得到修订后的文本数据,并将该修订后的文本数据输入预先训练得到的断句模型中,该断句模型可对该修订后的文本数据进行断句,得到多个语句,然后将各语句与该标题库进行对比,得到各语句所包含得分标题。

S303、将该修订后的文本数据输入预先训练得到的实体分词模型中,得到该文本数据中包括的多个待选实体。

其中,可根据预先构建的训练样本训练初始实体分词模型,在满足训练条件后,得到实体分词模型,将该修订后的文本数据输入该实体分词模型中,经过该实体分词模型中的编码器以及解码器后可得到多个待选实体,且各待选实体对应有实体类别,如“右下腹”实体对应的实体类型为“部位”。

需要说明的是,该文本数据中还可包括体温,脉搏,呼吸,血压,体重,身高等具体数值,并且还可将将语音数据转换为一些必要的医学公式。

图4为本申请实施例提供的又一种医疗文本生成方法的流程示意图,如图4所示,可选地,该语音数据包括:医生语音数据和患者语音数据;上述基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选,包括:

S401、对文本数据进行语义解析,得到医生文本数据、该医生文本数据中的标题、患者文本数据以该患者文本数据中的标题。

S402、将该医生文本数据和该患者文本数据分别输入预先训练得到的实体分词模型中,得到该文本数据中包括的多个待选实体。

其中,在医生与患者进行交谈的过程中,一般情况下,医生都是以询问的角度去提出问题,患者回答医生提出的问题,这样收集的语音数据中既包括医生语音数据,又包括患者语音数据,可将该语音信息进行声纹识别或者语义解释后,得到医生文本数据,并且可根据该医生文本数据的语义得到该医生文本数据中的标题;也可得到患者文本数据,并且,可根据患者文本数据的语义得到患者文本数据中的标题。

分别将该医生文本数据以及该患者文本数据输入该实体分词模型中,该实体分词模型可对该医生文本数据进行分词处理,得到与医生关联的标题的多个待选实体,以及得到与患者关联的标题的多个待选实体。

图5为本申请实施例提供的再一种医疗文本生成方法的流程示意图,如图5所示,可选地,上述根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体之前,该方法还包括:

S501、确定各实体关联的主体。

S502、根据医疗模板的类型、时间衰减因子、医生对各待选实体的使用行为次数、各待选实体在主体词出现的概率,确定各待选实体的权重。

其中,这里提到主体词相当于患者身份某个部位的相关描述,如上述提到的“右上腹”,而“右上腹”出现的症状几乎都是确定的,不可能出现类似于“眩晕”这类症状,所以可首先确定出文本数据中所包括的主体词。

根据上述描述可知,在医生唤醒语音助手时,基于患者状态信息可调取出相对应的医疗模板,该医疗模板的类型与医生所处的科室相关,各实体可根据科室的不同具有不同的权重;由于通常情况下都是医生输出该语音数据,所以该医生以往对各待选实体的使用行为次数同样会影响各待选实体的权重,即各实体与医生具有不同的行为次数权重;各待选实体在主体词出现的概率也会影响各待选实体的权重,若与主体词关联的实体出现在该主体词的附近,那么代表着该实体的概率就较大,若与主体词没有关联的实体出现在该主体词的附近,那么代表着该实体的概率就越小;时间衰减因子,医生某些行为受时间影响不断减弱,行为时间距现在越远,该行为对医务人员当前来说的意义越小,即待选实体的权重就会越小。结合各实体对应的医疗模板的类型对应的权重、时间衰减因子、医生对各待选实体的使用行为次数权重以及各待选实体在主体词出现的概率,即做相乘处理,将相乘结果作为各待选实体的权重。其中,医疗模板的类型对应的权重与时间衰减因子的相乘结果可称为各实体对应的客观重要程度,医生对各待选实体的使用行为次数权重与各待选实体在主体词出现的概率的相乘结果可称为各实体对医生的重要程度。结合各实体对应的客观重要程度以及对医生的重要程度可得到各待选实体的权重。

可以看出,从多个维度确定各待选实体的权重,进而筛选出与患者真实身体状况更加匹配的目标实体,提高生成结构化医疗文本的效率。

图6为本申请实施例提供的另一种医疗文本生成方法的流程示意图,如图6所示,可选地,上述根据文本数据中包括的标题,将至少一个目标实体嵌入基于语音数据调取的医疗模板中标题的对应位置上,得到医疗文本,包括:

S601、基于文本数据中包括的标题,从医疗模块中查找出该标题词关联的目标位置。

S602、将该目标实体嵌入至该医疗模板中该标题词关联的目标位置上,得到该医疗文本。

其中,可以从文本数据中得到标题,该医疗模板中也包括标题,需要根据该文本数据中得到标题与该医疗模板中标题的匹配程度,将该文本数据中的目标实体嵌入至该医疗模板的对应位置上。具体的,以文本数据中包括的一个标题来说,该标题关联有多个目标实体,根据该标题查找该医疗模板中出现该标题的位置,将该位置作为目标位置。在该目标位置确定后,可直接将与该标题关联的多个目标实体按照先后顺序嵌入至该医疗模板中该标题词关联的目标位置上,进而得到该医疗文本。

可选地,该方法还可包括:将医生输入的语音查询数据转换成文本查询数据;从数据库中检索出与该文本查询数据对应的结果数据,并将该结果数据输出。

其中,医生还可与数据处理设备进行数据交互,具体的,可根据文本转换模型将该医生输入的语音查询数据转换成文本查询数据,该文本查询数据如可以为“该患者有没有过敏史”,那么可从与该患者关联的数据库中查询患者是否过敏过,还可以查询出该患者的过敏源。数据处理设备可将该患者是否过敏过的结果通过语音的方式播报给医生,并且,当患者有过敏史时,还可将过敏源一起播报给医生,这样可以使医生及时了解患者信息,可以快速的定位和智能的检索到与患者相关的健康信息,进而提高医疗文本生成的质量,且使生成的医疗文本更符合患者的实际身体健康状况。

可选地,上述根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体之后,该方法还可以包括:根据各目标实体的实体类型以及预先定义的三元组中的各元素信息,确定各目标实体之间的关联性;根据各目标实体之间的关联性,构建知识图谱。

其中,预先定义的三元组可包括(科室,chief_compilint,主诉)、(主诉,attribute,属性)、(疾病,symptom,症状)等,可以看出,各三元组中包括两个元素信息,如疾病、症状等,每个目标实体均有对应的实体类型,如疼痛对应的是症状,可根据三元组中各元素的关联性,将各目标实体之间也形成关联性,进而可根据目标实体之间的关联性构建出知识图谱,该知识图谱中的节点为目标实体,该知识图谱中的线为目标实体之间的对应关联。需要说明的是,该知识图谱可以是一种新建的知识图谱,也是一种对预先构建的知识图谱进行更新后的知识图谱。

图7为本申请实施例提供的一种医疗文本生成装置的结构示意图,如图7所示,该装置包括:

转换模块701,用于将接收到的语音数据转换成文本数据;

处理模块702,用于基于预先构建的医疗词库对该文本数据进行解析处理,得到该文本数据中包括的标题以及多个待选实体;

筛选模块703,用于根据各待选实体的权重,从多个待选实体中筛选出至少一个目标实体,待选实体的权重用于表征待选实体的重要程度;

嵌入模块704,用于根据该文本中包括的标题,将至少一个目标实体嵌入基于语音数据调取的医疗模板中该标题的对应位置上,得到医疗文本。

可选地,处理模块702,具体用于基于预先构建的医疗词库对文本数据进行修订,得到修订后的文本数据;将修订后的文本数据与预先构建的标题库进行比对,得到文本数据中包括的标题;将修订后的文本数据输入预先训练得到的实体分词模型中,得到文本数据中包括的多个待选实体。

可选地,该语音数据包括:医生语音数据和患者语音数据;

相应地,处理模块702,还具体用于对文本数据进行语义解析,得到医生文本数据、医生文本数据中的标题、患者文本数据以及患者文本数据中的标题;将医生文本数据和患者文本数据分别输入预先训练得到的实体分词模型中,得到文本数据中包括的多个待选实体。

可选地,该装置还包括:确定模块;该确定模块,用于确定各实体关联的主体词;根据医疗模板的类型、时间衰减因子、医生对各待选实体的使用行为次数、各待选实体在主体词出现的概率,确定各待选实体的权重。

可选地,嵌入模块704,具体用于基于文本数据中包括的标题,从医疗模块中查找出标题词关联的目标位置;将目标实体嵌入至医疗模板中标题词关联的目标位置上,得到医疗文本。

可选地,该装置还包括:输出模块;该输出模块,用于将医生输入的语音查询数据转换成文本查询数据;从数据库中检索出与文本查询数据对应的结果数据,并将结果数据输出。

可选地,该装置还包括:构建模块;该构建模块,用于根据各目标实体的实体类型以及预先定义的三元组中的各元素信息,确定各目标实体之间的关联性;根据各目标实体之间的关联性,构建知识图谱。

上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

图8为本申请实施例提供的一种电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器801、存储介质802和总线803,存储介质802存储有处理器801可执行的机器可读指令,当该电子设备运行时,处理器801与存储介质802之间通过总线803通信,处理器801执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于自然语言处理的非结构化交易信息识别方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!