一种流行病学调查装置及方法

文档序号：154874 发布日期：2021-10-26 浏览：34次 >En<

阅读说明：本技术 一种流行病学调查装置及方法 (Epidemiology investigation device and method ) 是由赵韡袁靖刁晓林李众于 2021-08-26 设计创作，主要内容包括：本发明公开了一种流行病学调查装置及方法：问答模块,将患者输入的自然语言回答进行识别,输出结构化描述；还将从策略模块接收到的问题的结构化描述进行转换,输出患者能够理解的自然语言；特征提取模块,根据问答模块输出的患者回答的结构化描述以及策略模块输出的历史问题的结构化描述,对患者当前回答的结构化描述进行特征提取；主题识别模块,根据策略模块输出的历史问题的结构化描述,以及问答模块输出的患者回答的结构化描述,输出当前问答的所属主题；策略模块,根据特征提取模块所提取的患者当前回答的特征以及主题识别模块所识别的历次问答的所属主题,输出下一个问题目标。能够对下一个问题进行预测,得到详尽准确的流行病学调查结果。(The invention discloses an epidemiology investigation device and a method thereof: the question-answering module is used for identifying natural language answers input by the patient and outputting a structured description; the structured description of the question received from the policy module is also transformed, outputting natural language that the patient can understand; the characteristic extraction module is used for extracting the characteristics of the structural description currently answered by the patient according to the structural description of the patient answer output by the question-answering module and the structural description of the historical question output by the strategy module; the topic identification module outputs the topic to which the current question and answer belongs according to the structured description of the historical questions output by the strategy module and the structured description of the patient answers output by the question and answer module; and the strategy module outputs the next question target according to the features of the current answers of the patient extracted by the feature extraction module and the subject of the questions and answers of the previous times identified by the subject identification module. The next problem can be predicted to obtain detailed and accurate epidemiological investigation results.)

一种流行病学调查装置及方法

技术领域

本发明涉及医学调查技术领域，特别涉及一种流行病学调查装置及方法。

背景技术

流行病调查对于流行病传播的早期阻断非常重要，尽快确认病人发病前后的来龙去脉，探寻病人感染的来源、过程、分析可能扩展的范围，界定哪些密切接触者有潜在感染风险。在感染扩大的初期，需要大量人力进行流行病学调查, 这个过程即增加了医护人员风险，又不能保证最快速及时的获取信息，而通过调查表并不能针对具体情况进行具体分析，无法保障调查质量，不能获取到详尽准确的流行病学调查结果。

发明内容

本发明的目的在于提供一种流行病学调查装置及方法，能够针对每个调查对象的不同情况有针对性的提问，获取到详尽准确的流行病学调查结果。

为实现上述发明目的，本发明提供了一种流行病学调查装置，该装置包括：

问答模块，用于将患者输入的自然语言回答进行语音识别、语义解析以及标准化识别，输出结构化描述；还用于将从策略模块接收到的问题的结构化描述进行转换，输出患者能够理解的自然语言；

特征提取模块，用于根据问答模块输出的患者回答的结构化描述以及策略模块输出的历史问题的结构化描述，对患者当前回答的结构化描述进行特征提取；

主题识别模块，用于根据策略模块输出的历史问题的结构化描述，以及问答模块输出的患者回答的结构化描述，输出当前问答的所属主题；

策略模块，用于根据特征提取模块所提取的患者当前回答的特征以及主题识别模块所识别的历次问答的所属主题，输出下一个问题目标。

为实现上述发明目的，本发明还提供了一种流行病学调查方法，该方法包括：

将患者输入的自然语言回答进行语音识别、语义解析以及标准化识别，输出结构化描述；

根据患者回答的结构化描述以及历史问题的结构化描述，对患者当前回答的结构化描述进行特征提取；

根据历史问题的结构化描述以及患者回答的结构化描述，输出当前问答的所属主题；

根据患者当前回答的特征以及历次问答的所属主题，输出下一个问题目标。

综上所述，本发明提出一种流行病学调查装置及方法。通过本发明的方案，通过多轮问答逐步提问，获取到病人的症状，基本情况，活动轨迹，明确如何感染，并列出密切接触者、确认是否有可能将病毒传染给他人。针对接触者，通过症状、接触情况的提问评估其感染风险并给出处理意见。与现有技术相比，本发明的方案能够自动进行精准的问题预测，形成准确详尽的问答记录，确保调查质量。

附图说明

图1为本发明流行病学调查装置的结构示意图。

图2为本发明流行病学调查方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明的核心思想是：根据患者当前回答的特征以及历次问答的所属主题，输出下一个问题目标。通过多轮问答逐步提问，获取到详尽准确的流行病学调查结果。

图1为本发明流行病学调查装置的结构示意图，包括以下模块：

问答模块101，用于将患者输入的自然语言回答进行语音识别、语义解析以及标准化识别，输出结构化描述；还用于将从策略模块接收到的问题的结构化描述进行转换，输出患者能够理解的自然语言；

其中，问答模块101用于自然语言和结构化描述相互转化。

特征提取模块102，用于根据问答模块输出的患者回答的结构化描述以及策略模块输出的历史问题的结构化描述，对患者当前回答的结构化描述进行特征提取；

其中，特征提取模块102包括：

诊断单元1021，用于根据历史问答，输出为当前诊断结果；

具体地，诊断单元1021，用于调查未确认的患者，评估其感染风险，并给出处理意见。例如在家隔离，无风险，需到医院检查，及注意事项等。通过问答获取到的症状和行程、估算其感染风险。模型为分类模型，输入为问答模块的答案理解结果，输出为诊断结果，诊断结果例如：新冠疑似病例，概率80%；或者感染风险低, 概率90%。

诊断单元1021为融合模型，其基本结构如下：

先通过分类模型得到诊断结果情况，再通过规则及知识图谱检索其处理意见。

分类模型如下：

模型选型：word2vec + LR，bert及其变种，决策树等分类模型。

输入：问答症状、检查及结果输入表达为one-hot模式或其他向量形式，one-hot模式一种将词汇表达为向量的方式，具体的向量长度为词表总长n，向量中n-1个元素为0，该词汇所对应的位置的元素值为1。行程通过感染源分析单元1024的匹配结果输入。

输出：诊断结果及其概率

数据集：数据集主要从获取到的病历样本中构建，以确诊病历为正样本，以确认未患病样本为负样本。采用10%的样本为测试集，90%的样本为训练集。

训练过程：将训练集中的样本的输入分批依次输入模型，将模型输出结果与训练集对应的输出标签相比较，通过交叉熵代价函数计算损失，用梯度下降法更新模型参数，经过迭代使得损失函数逐渐收敛，完成模型的训练过程。并在测试集中测试实际的模型效果。

处理意见是针对诊断结果给出的具体建议：

其结构形式为知识图谱或者规则构建的字典。

输入：诊断结果及其概率。

计算方式：根据诊断结果及其概率，检索知识图谱或规则字典获取处理意见及注意事项。

输出：处理意见及注意事项。

活动轨迹分析单元1022，用于根据历史问答，输出为近期活动时间及地点的路径列表；

具体地，活动轨迹分析单元1022，从问答结果中构建病人活动轨迹，通过活动轨迹圈出风险区和疑似接触者，并依据策略准备接触者的流行病学调查。输入为问答模块答案理解的结果，输出为，近期活动时间及地点的路径列表。可通过数据库精确匹配查找进行处理，用于分析风险区域和筛查疑似接触者。

活动轨迹分析单元1022：

输入：语义理解识别到的病人的活动时间、路径、交通方式等。

计算方式：将病人的活动时间、路径、交通方式表达为时间序列结构。

1.计算时间及路径的联通性，判定是否有缺失或待确认部分，并与策略模块结合，通过对话获取待补充或待确认信息。

2.通过刻画高风险的场地及交通方式等信息，例如学校、医院、火车、出租等。根据高风险场地信息，通过对话策略确认其时间，接触人群，是否有防护（戴口罩）等。计算方式为依据政策构建的风险场地库，并赋予权重。其中学校、医院名称、火车车次等是通过NER系统结合场地数据库结合的系统，NER结果来自语义理解的输出。

3.根据病人的活动信息的时间序列结构及高风险地区识别，刻画出详细的活动轨迹图。

4.根据活动轨迹图，调用数据库匹配同时间段出现在与病人同位置的人群，获取疑似接触者信息，并根据感染病情、疾病传染性、疾病严重性、场地权重给出响应策略，例如进行警告、流调、检测、隔离等。计算方式为依据管理中心的政策实时调整的规则系统。

情绪识别单元1023，用于根据历史问答，输出为当前患者情绪表达；

具体地，情绪识别单元1023，用于识别患者的意愿及情绪，并进行针对性的反馈及修正提问策略。例如，如果患者表述隐含不确定，则启发式追问帮助患者回忆；如患者不愿意参与流行病学调查，则采取说服策略阐述必要性；如患者紧张担心，则给与必要的安慰及医疗知识信息缓解患者情绪。输入为问答模块答案理解的结果，输出为患者情绪：紧张，放心，担忧，疑虑，不确信的表达等。

情绪识别单元1023通过情感分析方法识别情绪及意愿，具体方法如下：

通过构建情感词库识别情感类型，模型采用贝叶斯网络。通过情感词的情感权重计算最终的情感值。情感值表达为情感向量，典型的为向量长度等于情感维度，向量中的每一个值范围【0，1】，表达该情感值的大小，其和为1。

其与问答模块的交互如下：

不确信的表达：确认信息或引导说明原因。

紧张、担忧：对患者感觉担忧的部分进行解释说明。通常为医疗上的疑问，比如症状严重不严重，引用知识回答信息，缓解病人的焦虑。

疑虑：对患者表达疑虑的部分进行解释说明。比如来电话的目的，对推荐的建议表示疑虑，方法通过设定的话术，解答病人的疑问。

该情绪需结合对话过程的上下文输出策略。

感染源分析单元1024，用于根据历史问答，输出为当前疑似感染源。

具体地，感染源分析单元1024，通过问答分析患者的疑似感染源，并上报。输入为患者问答模块答案理解的结果。输出为疑似感染源，通过感染源数据库及查找匹配方法从文本中识别疑似感染源。

感染源分析单元1024在判定患者疑似感染的情况下，通过对话为后续感染源分析提供必要的信息。

1.输入：语义理解的结果及活动轨迹。

2.输出：疑似感染源。

3.启动条件：如诊断模块的诊断结果为疑似病例或已确认为疑似病例。

4.计算方式：将活动轨迹与数据库中的风险区域进行匹配，并计算感染源。

5.数据库中的风险区域可以为上级单位的规定及病例情况统计，得到风险地点，并区分为轻中重不同级别。将活动轨迹中出现的地点与风险地点按距离进行匹配，将匹配上的点列入感染源。

主题识别模块103，用于根据策略模块输出的历史问题的结构化描述，以及问答模块输出的患者回答的结构化描述，输出当前问答的所属主题；

该模块具体用于识别与患者交流过程中主题的变化，例如，问：发烧多少度；回答：38度，那我是否需要隔离患者提出了一个新的问题需要回复，该模块需要识别主题并将结果输出给策略模块104。

策略模块104，用于根据特征提取模块所提取的患者当前回答的特征以及主题识别模块所识别的历次问答的所属主题，输出下一个问题目标。

其中，策略模块104是本发明的关键组成，所述策略模块104具体用于，

将流行病学调查者的问答记录作为神经网络模型的训练集中的样本；

根据样本的训练值和真实值更新网络权值参数，得到训练后的神经网络模型；

将患者当前回答的特征以及历次问答的所属主题输入到神经网络模型，得到下一个问题目标；

其中，所述神经网络模型为含槽位信息及主题信息的分类模型。

槽位信息：每个主题下待获取的信息点，每个信息点对应一个待提出的问题。

主题信息：本次对话的历史主题序列，记录了本次对话过程。

分类模型：患者当前回答的特征以及输入为历次主题，输出为下一主题下的某一个待获取的信息点，即下一个问题。例如: 问最近有什么症状么答最近头疼、恶心。此时主题分类识别为症状。

追问识别：输入为患者当前回答的特征及输入主题，输出为输入特征的相关性信息。问是否发烧答是的低烧。此时为对话策略为上一轮的追问，输入为特征为头疼、恶心，主题为症状，输出为低烧。

槽位识别：输入为患者当前回答的特征及输入主题，输出为识别到的槽位信息，例如：问发烧严重么多少度了答现在39度。此时槽位信息识别为发烧：39度。

最终输出以上处理得到的下一个问题的结构化描述。

该模块判断是否已获取有效信息，是否需要切换下一主题。如果继续同一主题，则输出同主题的下一个问题；如果切换下一主题，则输出下一主题的下一个问题。每个主题下有多轮问题，例如症状情况主题：有什么不舒服的么最近一次体温多少度什么时候检测的是否有咳嗽、黄痰、呕吐、腹泻等都属于症状情况主题。

具体的，包括以下几个过程：（其中向量是深度学习计算的基本变量形式）

1.槽位信息：识别信息点后表达为值向量；

2.主题信息：识别后表达为one-hot向量；

3.主题队列：表达为one-hot向量构成的2维向量；

4.槽位识别：输入为语义理解解析的结构化结果；

5.槽位识别方式：通过匹配表或者模型将结构化结果映射至槽位表上，如果该项上已经有值，则进行补充或覆盖；

6.分类模型选择：crf， lstm， attention，gru等模型及其组合或变体；

7.分类模型输入：当前的槽位信息及主题队列；

8.分类模型输出：下一个主题的某个信息点，表示为向量；

9.分类模型训练过程：将训练集中的样本的输入分批依次输入模型，将模型输出结果与训练集对应的输出标签相比较，通过交叉熵代价函数计算损失，用梯度下降法更新模型参数，经过迭代使得损失函数逐渐收敛，完成模型的训练过程。并在测试集中测试实际的模型效果；

10.追问策略：采用知识图谱识别关联，并选择追问概率最大的边进行追问，如无满足条件的边链接，则跳过追问；

11.追问模型选择：图网络算法，知识图谱检索；

12.追问模型输出：下一个主题的某个信息点，表示为向量；

13.以知识图谱检索为例，追问时，先在知识图谱查找到当前识别到的实体，再获取实体的边及边链接的节点。其中边是有权重的，权重通过在海量医疗数据中统计得到，反应了节点之间的关系程度。按权重进行排序，取最大权重的边进行追问；

14.其他特征的参与再各自特征里有提到处理策略；

15.最终问题得结构化描述包括：主题、代提问信息点、对话状态；

16.对话状态：包括，追问、顺承、切换、异常、结束等状态，会影响到问答模块101对话话术得选择。

本发明装置还包括调查报告生成模块105，采用文本生成算法将问答模块输出的患者回答结构化描述以及策略模块输出的问题的结构化描述，转换为标准的流行病学调查结果记录，所述调查报告生成模块所采用的模型为基于结构化描述的记录生成模型。

需要说明的是，其中的问答模块、特征提取模块中的诊断单元、活动轨迹分析单元、情绪识别单元、感染源分析单元、以及主题识别模块，都是经过训练模型得到的输出结果。还需要说明的是，本发明所述问答包括问题和回答。

基于相同的发明构思，本发明还提出了一种流行病学调查方法。图2为本发明流行病学调查方法的流程示意图，该方法包括：

步骤21、将患者输入的自然语言回答进行语音识别、语义解析以及标准化识别，输出结构化描述；

步骤22、根据患者回答的结构化描述以及历史问题的结构化描述，对患者当前回答的结构化描述进行特征提取；

步骤23、根据历史问题的结构化描述以及患者回答的结构化描述，输出当前问答的所属主题；

步骤24、根据患者当前回答的特征以及历次问答的所属主题，输出下一个问题目标。

本步骤具体为：

将流行病学调查者的问答记录作为神经网络模型的训练集中的样本；

根据样本的训练值和真实值更新网络权值参数，得到训练后的神经网络模型；

将患者当前回答的特征以及历次问答的所属主题输入到神经网络模型，得到下一个问题目标；

在一个实施例中，通过本发明的流行病学调查方法，形成问答记录以及每对问答记录所属主题，如表1所示。

表1

综上，本发明的方案通过策略模块进行针对性、启发性的追问，帮助患者回忆起去过哪、见到谁，通过特征提取模块，情感分析识别病人情绪及意愿，给与必要的情绪反馈，并说服患者理解流行病学调查的必要性，并利用知识图谱识别患者提到的商场，地址，路线等信息，自动圈出风险区及患者出现时间，并寻找接触者进行进下一步的流行病学调查。从而能够获取到详尽准确的流行病学调查结果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于ETL数据处理的老年疾病数据管理系统

一种流行病学调查装置及方法

相关技术

网友询问留言