将后处理生成的word数据转换成结构化数据的方法及系统
阅读说明:本技术 将后处理生成的word数据转换成结构化数据的方法及系统 (Method and system for converting word data generated by post-processing into structured data ) 是由 杨旗 谢辉辉 贾秀琴 岳新 张虽虽 于 2021-06-02 设计创作,主要内容包括:本发明提供了一种将后处理生成的word数据转换成结构化数据的方法,包括定时扫描后处理生成的word文件目录,将新word数据发送给解析模块;基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和病灶数据中的关键字,生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据;对每个病灶结构化数据进行标签化和编码化;当医生编辑结构化报告时,提取患者基本信息结构化数据、标签化和编码化的病灶结构化数据。本发明还公开了一种将后处理生成的word数据转换成结构化数据的系统。本发明能将影像后处理生成的word数据整合到结构化报告系统中,便于撰写报告及后期数据分析和科研教学。(The invention provides a method for converting word data generated by post-processing into structured data, which comprises the steps of scanning a word file directory generated by post-processing at regular time and sending new word data to an analysis module; analyzing the new word data into basic information of the patient and focus data in an XML format based on a preset analysis rule; extracting keywords in basic information and focus data of a patient in an XML format according to a preset configuration rule, generating data matched with a structured report format, and defining the data matched with the structured report format as structured data; labeling and coding each lesion structured data; when the doctor edits the structured report, the patient basic information structured data, the labeled and encoded lesion structured data are extracted. The invention also discloses a system for converting the word data generated by post-processing into the structured data. The invention can integrate word data generated by image post-processing into a structured report system, and is convenient for writing reports, later data analysis and scientific research and teaching.)
技术领域
本发明涉及医疗信息领域,更具体地,涉及一种将后处理生成的word数据转换成结构化数据的方法及系统。
背景技术
针对一些影像的后处理软件,可在该软件中对检查的医学影像进行自动或者手工测量分析,测量分析结果并生成测量值表格数据及关键图像,后处理软件可以将结果生成一个Word格式的文档。
但医疗机构使用该软件面临的问题:生成的Word格式报告,一般HIS/EMR系统不支持该格式数据直接发布到临床;生成的测量数据没有结构标签化,不便于后期做数据分析和科研。
发明内容
有鉴于此,本发明的主要目的在于提供一种将后处理生成的word数据转换成结构化数据的方法及系统,能够解决现有技术中存在的不能将后处理软件生成的处理结果直接发送到临床、生成的文档不利于后期的数据分析和科研教学的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本发明提供了一种将后处理生成的word数据转换成结构化数据的方法,包括基于预设的时间,定时扫描后处理软件生成的word文件目录,当有新word数据生成时,通过预设接口将新word数据发送给解析模块;基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,调用相关函数,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据;其中,结构化数据分为患者基本信息结构化数据和病灶结构化数据;对每个病灶结构化数据进行标签化和编码化;当医生编辑结构化报告时,自动提取患者基本信息结构化数据、标签化和编码化的病灶结构化数据。
优选地,该方法还包括:预设的解析规则是基于新word数据中每个table类型来设置。
优选地,该方法还包括:预设的配置规则是基于结构化报告类型来设置。
优选地,该方法还包括:对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储。
优选地,该方法还包括:判断解析后的新word数据是否解析成功,将解析成功的新word数据和解析失败的新word数据进行单独存储。
另一方面,本发明还提供了一种将后处理生成的word数据转换成结构化数据的系统,包括:扫描模块、解析模块、数据转换模块、设置模块和提取模块,其中,扫描模块,与解析模块相连,用于基于预设的时间,定时扫描后处理软件生成的word文件目录,当有新word数据生成时,通过预设接口将新word数据发送给解析模块;解析模块,分别与扫描模块和数据转换模块相连,用于基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;数据转换模块,分别与解析模块和设置模块相连,用于根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,调用相关函数,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据;其中,结构化数据分为患者基本信息结构化数据和病灶结构化数据;设置模块,分别与数据转换模块和提取模块相连,用于对每个病灶结构化数据进行标签化和编码化;提取模块,与设置模块相连,用于当医生编辑结构化报告时,自动提取患者基本信息结构化数据、标签化和编码化的病灶结构化数据。
优选地,该系统还包括:第一定义模块,与解析模块相连,用于基于新word数据中每个table类型设置预设的配置规则。
优选地,该系统还包括:第二定义模块,与数据转换模块相连,用于基于结构化报告类型设置预设的配置规则。
优选地,设置模块还包括存储单元,用于对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储。
优选地,解析模块还包括判断单元,用于判断解析后的新word数据是否解析成功,将解析成功的新word数据和解析失败的新word数据进行单独存储。
本发明的技术效果:
1.本发明的方法可以定时扫描医学影像后处理软件生成的word文件目录,当有新的word数据产生时,基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据,并对结构化数据设置标签和编码,医生在编辑结构化报告时,可以自动提取该影像后处理软件生成的测量值等数据;本发明的方法可以将影像后处理软件生成的word数据整合到结构化报告系统中,可以将测量数据直接发布到临床,由于转换后的数据已经设置标签和编码,便于后期的统计分析和临床科研的使用;
2.本发明还可以对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储,便于不同的第三方系统对数据的提取和使用,支持HIS/EMR系统将该后处理软件生成的数据发布的临床;
3.本发明还可以判断解析后的新word数据是否成功,显示解析成功和解析失败的目录,以便于管理员及时处理解析失败的数据。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法流程图;
图2示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中接收到后处理软件生成的word数据界面示意图;
图3示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中基于新word数据中每个table类型设置预设的解析规则界面示意图;
图4示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中配置规则界面示意图;
图5示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中根据预设的配置规则生成结构化数据界面示意图;
图6示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据界面示意图;
图7示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据(关键图像)一一填入到结构化报告界面示意图;
图8示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据(测量值)一一填入到结构化报告界面示意图;
图9示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统结构示意图;
图10示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中接收到后处理软件生成的word数据界面示意图;
图11示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中根据预设的配置规则生成结构化数据界面示意图;
图12示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据界面示意图;
图13示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据(关键图像)一一填入到结构化报告界面示意图;
图14示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据(测量值)一一填入到结构化报告界面示意图;
图15示出了根据本发明实施例三的将后处理生成的word数据转换成结构化数据的系统结构示意图;
图16示出了根据本发明实施例三的将后处理生成的word数据转换成结构化数据的系统中基于新word数据中每个table类型设置预设的解析规则界面示意图;
图17示出了根据本发明实施例四的将后处理生成的word数据转换成结构化数据的系统结构示意图;
图18示出了根据本发明实施例四的将后处理生成的word数据转换成结构化数据的系统中配置规则界面示意图;
图19示出了根据本发明实施例五的将后处理生成的word数据转换成结构化数据的系统结构示意图;
图20示出了根据本发明实施例六的将后处理生成的word数据转换成结构化数据的系统结构示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
实施例一
图1示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法流程图,如图1所示,该方法包括以下步骤:
本发明主要构建一种将医学影像处理软件生成的word文档数据整合到结构化报告系统中的方法,该方法主要对word文档数据进行分析解析、对转换后的结构化数据进行标签化、编码化,整合到结构化报告系统中,结构化报告系统可以完成报告的书写、发布,对标签化、编码化的数据,后期可用于统计分析和临床科研。
步骤S101,基于预设的时间,定时扫描后处理软件生成的word文件目录,当有新word数据生成时,通过预设接口将新word数据发送给解析模块;
其中,预设的时间可以依据医疗机构的需求,比如每分钟扫描一次。
后处理软件生成的word文档一般放在后处理系统的固定目录下,可以通过一个服务程序定时扫描该固定目录,查找是否有新word数据生成。
图2示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中接收到后处理软件生成的word数据界面示意图;如图2所示,在该word文档中显示有不同的表格,主要内容包括患者的基本信息、检查信息、测量表格数据和关键图像数据。
步骤S102,基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;
其中,预设的解析规则是基于新word数据中每个table类型来设置。
对于word文档中数据的读取,采用MS Office提供的COM+接口方案进行读取。
图3示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中基于新word数据中每个table类型设置预设的解析规则界面示意图;如图3所示,对不同的table类型来设置解析规则,比如对序列的描述、关键图像的描述等。
步骤S103,根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,调用相关函数(dll函数),基于关键字生成与结构化报告格式相匹配的数据(中间变量),将与结构化报告格式相匹配的数据定义为结构化数据;其中,结构化数据分为患者基本信息结构化数据和病灶结构化数据;
图4示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中配置规则界面示意图;如图4所示,配置规则的设置,从word文档数据与结构化报告每个控件的对应,对高分辨磁共振血管成像的分析报告,规则1,层面是否连续;规则2,管腔面积/管壁面积等等。
图5示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中根据预设的配置规则生成结构化数据界面示意图;如图5所示,与结构化报告格式相匹配的中间变量。
步骤S104,对每个病灶结构化数据进行标签化和编码化;
图6示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据界面示意图;如图6所示,对每个病灶病结构化数据设置编码,编码使用radlex编码。
步骤S105,当医生编辑结构化报告时,自动提取患者基本信息结构化数据、标签化和编码化的病灶结构化数据。
图7示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据(关键图像)一一填入到结构化报告界面示意图;图8示出了根据本发明实施例一的将后处理生成的word数据转换成结构化数据的方法中标签化和编码化的病灶结构化数据(测量值)一一填入到结构化报告界面示意图;如图7、图8所示,将后处理生成的数据与结构化报告的标签一一对应填写到报告中,包括病灶的测量值和关键图像。
其中,该方法还包括:预设的配置规则是基于结构化报告类型来设置。
根据结构化报告的类型,比如肺结节的报告。
其中,该方法还包括:对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储。
其中,患者基本信息结构化数据存储于RIS系统,标签化和编码化的病灶结构化数据存储到结构化报告系统中,以便后期单独调用。
其中,该方法还包括:判断解析后的新word数据是否解析成功,将解析成功的新word数据和解析失败的新word数据进行单独存储。
本发明实施例可以定时扫描医学影像后处理软件生成的word文件目录,当有新的word数据产生时,基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据,并对结构化数据设置标签和编码,医生在编辑结构化报告时,可以自动提取该影像后处理软件生成的测量值等数据;本发明的实施例可以将影像后处理软件生成的word数据整合到结构化报告系统中,可以将测量数据直接发布到临床,由于转换后的数据已经设置标签和编码,便于后期的统计分析和临床科研的使用;本发明的实施例还可以对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储,便于不同的第三方系统对数据的提取和使用,支持HIS/EMR系统将该后处理软件生成的数据发布的临床;本发明的实施例还可以判断解析后的新word数据是否成功,显示解析成功和解析失败的目录,以便于管理员及时处理解析失败的数据。
实施例二
图9示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统结构示意图,如图9所示,该系统包括:扫描模块10、解析模块20、数据转换模块30、设置模块40和提取模块50,其中,
扫描模块10,与解析模块20相连,用于于预设的时间,定时扫描后处理软件生成的word文件目录,当有新word数据生成时,通过预设接口将新word数据发送给解析模块20;
其中,预设的时间可以依据医疗机构的需求,比如每分钟扫描一次。
后处理软件生成的word文档一般放在后处理系统的固定目录下,可以通过一个服务程序定时扫描该固定目录,查找是否有新word数据生成。
图10示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中接收到后处理软件生成的word数据界面示意图;如图10所示,在该word文档中显示有不同的表格,主要内容包括患者的基本信息、检查信息、测量表格数据和关键图像数据。
解析模块20,分别与扫描模块10和数据转换模块30相连,用于基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;
对于word文档中数据的读取,采用MS Office提供的COM+接口方案进行读取。
数据转换模块30,分别与解析模块20和设置模块40相连,用于根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,调用相关函数(dll函数),基于关键字生成与结构化报告格式相匹配的数据(中间变量),将与结构化报告格式相匹配的数据定义为结构化数据;
其中,结构化数据分为患者基本信息结构化数据和病灶结构化数据;
图11示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中根据预设的配置规则生成结构化数据界面示意图;如图11所示,与结构化报告格式相匹配的中间变量。
设置模块40,分别与数据转换模块30和提取模块50相连,用于对每个病灶结构化数据进行标签化和编码化;
图12示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据界面示意图;如图12所示,对每个病灶病结构化数据设置编码,编码使用radlex编码。
提取模块50,与设置模块40相连,用于当医生编辑结构化报告时,自动提取患者基本信息结构化数据、标签化和编码化的病灶结构化数据。
图13示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据(关键图像)一一填入到结构化报告界面示意图;图14示出了根据本发明实施例二的将后处理生成的word数据转换成结构化数据的系统中标签化和编码化的病灶结构化数据(测量值)一一填入到结构化报告界面示意图;如图13、图14所示,将后处理生成的数据与结构化报告的标签一一对应填写到报告中,包括病灶的测量值和关键图像。
本发明实施例设置了扫描模块、解析模块、数据转换模块、设置模块和提取模块,可以定时扫描医学影像后处理软件生成的word文件目录,当有新的word数据产生时,基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据,并对结构化数据设置标签和编码,医生在编辑结构化报告时,可以自动提取该影像后处理软件生成的测量值等数据;本发明的实施例可以将影像后处理软件生成的word数据整合到结构化报告系统中,可以将测量数据直接发布到临床,由于转换后的数据已经设置标签和编码,便于后期的统计分析和临床科研的使用。
实施例三
图15示出了根据本发明实施例三的将后处理生成的word数据转换成结构化数据的系统结构示意图;如图15所示,该系统还包括:第一定义模块60,与解析模块20相连,用于基于新word数据中每个table类型设置预设的配置规则。
图16示出了根据本发明实施例三的将后处理生成的word数据转换成结构化数据的系统中基于新word数据中每个table类型设置预设的解析规则界面示意图;如图16所示,对不同的table类型来设置解析规则,比如对序列的描述、关键图像的描述等。
实施例四
图17示出了根据本发明实施例四的将后处理生成的word数据转换成结构化数据的系统结构示意图;如图17所示,该系统还包括:第二定义模块70,与数据转换模块30相连,用于基于结构化报告类型设置预设的配置规则。
根据结构化报告的类型,比如肺结节的报告。
图18示出了根据本发明实施例四的将后处理生成的word数据转换成结构化数据的系统中配置规则界面示意图;如图18所示,配置规则的设置,从word文档数据与结构化报告每个控件的对应,对高分辨磁共振血管成像的分析报告,规则1,层面是否连续;规则2,管腔面积/管壁面积等等。
实施例五
图19示出了根据本发明实施例五的将后处理生成的word数据转换成结构化数据的系统结构示意图;如图19所示,设置模块40还包括存储单元402,用于对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储。
其中,患者基本信息结构化数据存储于RIS系统,标签化和编码化的病灶结构化数据存储到结构化报告系统中,以便后期单独调用。
本发明实施例中的存储单元,可以对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储,便于不同的第三方系统对数据的提取和使用,支持HIS/EMR系统将该后处理软件生成的数据发布的临床。
实施例六
图20示出了根据本发明实施例六的将后处理生成的word数据转换成结构化数据的系统结构示意图,如图20所示,解析模块20还包括判断单元202,用于判断解析后的新word数据是否解析成功,将解析成功的新word数据和解析失败的新word数据进行单独存储。
本发明实施例中的判断单元,可以判断解析后的新word数据是否成功,显示解析成功和解析失败的目录,以便于管理员及时处理解析失败的数据。
从以上描述中,可以看出,本发明的上述实施例实现了如下技术效果:本发明可以定时扫描医学影像后处理软件生成的word文件目录,当有新的word数据产生时,基于预设的解析规则,将新word数据解析成XML格式的患者基本信息和XML格式的病灶数据;根据预设的配置规则,提取XML格式的患者基本信息和XML格式的病灶数据中的关键字,基于关键字生成与结构化报告格式相匹配的数据,将与结构化报告格式相匹配的数据定义为结构化数据,并对结构化数据设置标签和编码,医生在编辑结构化报告时,可以自动提取该影像后处理软件生成的测量值等数据;本发明的实施例可以将影像后处理软件生成的word数据整合到结构化报告系统中,可以将测量数据直接发布到临床,由于转换后的数据已经设置标签和编码,便于后期的统计分析和临床科研的使用;本发明的实施例还可以对患者基本信息结构化数据、标签化和编码化的病灶结构化数据进行单独存储,便于不同的第三方系统对数据的提取和使用,支持HIS/EMR系统将该后处理软件生成的数据发布的临床;本发明的实施例还可以判断解析后的新word数据是否成功,显示解析成功和解析失败的目录,以便于管理员及时处理解析失败的数据。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。