基于自然语言处理的物品应用分析方法及系统

文档序号:1170278 发布日期:2020-09-18 浏览:12次 >En<

阅读说明:本技术 基于自然语言处理的物品应用分析方法及系统 (Article application analysis method and system based on natural language processing ) 是由 崔亿萍 于 2020-06-09 设计创作,主要内容包括:本发明涉及数据处理技术领域,具体提供了一种基于自然语言处理的物品应用分析方法及系统,旨在解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题。为此目的,根据本发明一个实施例的方法,首先对交流数据中的每句对话信息进行对话序号以及唯一标识符设置;然后对每句对话信息进行数据清洗,随后根据对话序号与唯一标识符将数据清洗后的对话信息重新组合还原成交流数据;最后根据神经网络分类模型对还原后的交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。通过上述步骤,能够从关于物品的交流数据中准确且快速地识别出当前物品的推荐类别,进而得出物品的应用状态。(The invention relates to the technical field of data processing, in particular to an article application analysis method and system based on natural language processing, and aims to solve the technical problem of accurately and efficiently carrying out article application analysis on massive and complicated user communication data to determine the application state of a target article. For this purpose, according to the method of an embodiment of the present invention, firstly, a session serial number and a unique identifier are set for each sentence of session information in the communication data; then, cleaning data of each sentence of dialogue information, and recombining and restoring the dialogue information after the data cleaning into the dialogue data according to the dialogue serial number and the unique identifier; and finally, carrying out target article recommendation type identification on the restored alternating current data according to a neural network classification model, and outputting the application state of the target article according to an identification result. Through the steps, the recommended category of the current article can be accurately and quickly identified from the communication data about the article, and the application state of the article is further obtained.)

基于自然语言处理的物品应用分析方法及系统

技术领域

本发明涉及数据处理技术领域,具体涉及一种基于自然语言处理的物品应用分析方法及系统。

背景技术

目前传统的物品如药品应用分析主要是根据物品供应量的变化趋势来分析当前物品的应用状态,然而除了物品供应量等数据,物品相关用户之间关于物品的交流数据也是物品应用分析的重要因素。通过分析用户的交流数据,能够准确了解用户对某个物品的应用态度(例如:推荐或不推荐),进而了解当前物品的应用状态。但是针对海量繁杂的用户交流数据,如果采用人工分析的方式对每个用户交流数据中的每个对话信息进行逐一分析判断用户对某个物品的应用态度,不仅费时费力,效率低下,还极易降低物品应用分析的准确性。

相应地,本领域需要一种新的物品应用分析方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题的基于自然语言处理的物品应用分析方法及系统。

第一方面,提供一种基于自然语言处理的物品应用分析方法,该方法包括:

获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;

根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;

对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;

根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。

在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述获取每个交流数据的特征信息,具体包括:

获取每个交流数据的来源信息;

判断是否存在具有相同来源信息的交流数据;

若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;

若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;

并且/或者,

所述对每个交流数据中的对话信息进行数据清洗,具体包括:

清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;

获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。

在上述基于自然语言处理的物品应用分析方法的一个技术方案中,当所述物品是药品时,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:

获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;

获取所述第一目标对话信息的交流对象标识符;

若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;

若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;

并且/或者,

所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:

获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;

基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;

根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。

在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;

所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;

所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;

所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;

所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。

在上述基于自然语言处理的物品应用分析方法的一个技术方案中,还包括:

所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:

Tfidf(w)=tf(d,w)×idf(w)

其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;

若所述第w个词语是目标物品的相关词语,则

Figure BDA0002531054250000041

若所述第w个词语不是目标物品的相关词语,则所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。

第二方面,提供一种基于自然语言处理的物品应用分析系统,该系统包括:

交流数据获取装置,其被配置成获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;

第一数据处理装置,其被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;

第二数据处理装置,其被配置成对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;

物品应用分析装置,其被配置成根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。

在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述第一数据处理装置包括特征信息获取模块,和/或所述第二数据处理模块包括数据清洗模块;

所述特征信息获取模块被配置成执行以下操作:

获取每个交流数据的来源信息;

判断是否存在具有相同来源信息的交流数据;

若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;

若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;

所述数据清洗模块被配置成执行以下操作:

清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;

获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。

在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述物品应用分析装置包括第一物品应用分析模块和/或第二物品应用分析模块;

所述第一物品应用分析模块被配置成当物品是药品时执行以下操作:

获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;

获取所述第一目标对话信息的交流对象标识符;

若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;

若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;

所述第二物品应用分析模块被配置成执行以下操作:

获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;

基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;

根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。

在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;

所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;

所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;

所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;

所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。

在上述基于自然语言处理的物品应用分析系统的一个技术方案中,还包括:

所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:

Tfidf(w)=tf(d,w)×idf(w)

其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;

若所述第w个词语是目标物品的相关词语,则 若所述第w个词语不是目标物品的相关词语,则

Figure BDA0002531054250000073

所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。

本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:

在实施本发明的技术方案中,可以基于自然语言处理(Natural LanguageProcessing,NLP)技术对海量繁杂的用户交流数据进行精准地物品应用状态分析。具体而言,根据本发明一个实施例的基于自然语言处理的物品应用分析方法,首先对预先获取到的交流数据中的每句对话信息进行对话序号以及唯一标识符设置,对话序号能够表示不同对话信息之间的交流顺序,唯一标识符能够表示当前对话信息是否属于同一个交流数据。然后,对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,根据对话序号对这些具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数。换言之,根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。最后,根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。例如:若识别出目标物品的推荐类别是“推荐”,则可以输出目标物品的应用状态是“被推荐使用”;若识别出目标物品的推荐类别是“不推荐”,则可以输出目标物品的应用状态是“不被推荐使用”。通过上述步骤,本发明实施例能够从用户关于物品的交流数据中准确且快速地识别出当前物品的推荐类别(例如:推荐或不推荐),进而准确得出当前物品的应用状态。

附图说明

下面参照附图来描述本发明的

具体实施方式

,附图中:

图1是根据本发明的一个实施例的基于自然语言处理的物品应用分析方法的主要步骤示意图;

图2是根据本发明的一个实施例的基于自然语言处理的物品应用分析系统的主要结构框图;

附图标记列表:

11:交流数据获取装置;12:第一数据处理装置;13:第二数据处理装置;14:物品应用分析装置。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在本发明的描述中,“装置”、“处理器”可以包括硬件、软件或者两者的组合。一个装置可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

现有技术中传统的物品应用分析方法主要是根据物品供应量的变化趋势来分析当前物品的应用状态,并不涉及根据物品相关用户之间关于物品的交流数据来分析物品应用状态的内容。此外,针对海量繁杂的用户交流数据,如果采用人工分析的方式对每个用户交流数据中的每个对话信息进行逐一分析判断用户对某个物品的应用态度,不仅费时费力,效率低下,还极易降低物品应用分析的准确性。

在本发明实施例中可以基于自然语言处理(Natural Language Processing,NLP)技术对海量繁杂的用户交流数据进行精准地物品应用状态分析。具体而言,根据本发明一个实施例的基于自然语言处理的物品应用分析方法,首先对预先获取到的交流数据(包含目标物品的交流对象的交流数据,例如包含某个药品的医患交流数据)中的每句对话信息进行对话序号以及唯一标识符设置,对话序号能够表示不同对话信息之间的交流顺序,唯一标识符能够表示当前对话信息是否属于同一个交流数据。然后,对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,根据对话序号对这些具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数。换言之,根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。最后,根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。例如:若识别出目标物品的推荐类别是“推荐”,则可以输出目标物品的应用状态是“被推荐使用”;若识别出目标物品的推荐类别是“不推荐”,则可以输出目标物品的应用状态是“不被推荐使用”。通过上述步骤,本发明实施例能够从用户关于物品的交流数据中准确且快速地识别出当前物品的推荐类别(例如:推荐或不推荐),进而准确得出当前物品的应用状态。

在一个应用场景的例子中,终端上登录安装了根据本发明一个实施例的基于自然语言处理的物品应用分析方法构建的APP,用户通过终端登录该APP,开启药品应用分析处理的页面。用户可以根据自身对搜索医患交流数据尤其是某个药品的医患交流数据的需求,选择对应的菜单/按钮等控件或者输入需要搜索的关键词等,进入对应的被选择的菜单/按钮等控件的页面或者进一步搜索的页面。针对该页面上提示的各种药品名称或者录入需要分析的药品名称,根据用户交互选择或输入的信息,通过本发明一个实施例的物品应用分析方法,对目标药品相关的医患交流数据进行分析处理,包括交流数据中的每句对话信息进行对话序号以及唯一标识符设置、根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据、根据预设的神经网络分类模型对还原后的交流数据进行目标药品推荐类别识别,以获得目标药品的推荐类别,并以对应的方式输出显示在APP的输出结果页面上,作为搜索分析的结果提供给用户。

参阅附图1,图1是根据本发明的一个实施例的基于自然语言处理的物品应用分析方法的主要步骤流程示意图。如图1所示,本发明实施例中基于自然语言处理的物品应用分析方法可以包括以下步骤:

步骤S101:获取与目标物品相关的交流对象的交流数据。

交流对象的交流数据指的是,不同交流对象进行互动时由每个交流对象各自对应的对话信息组成的交互数据,该交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息。

一个例子:交流数据是从预设的诊疗平台上采集到的医生与患者之间关于麝香保心丸的一段交流数据,具体内容如下:

医生:可以服用麝香保心丸。

患者:已经服用三个月症状依然没有减轻。

医生:可将麝香保心丸替换成通心络。

其中,上述交流数据中的交流对象标识包括医生和患者,医生对应有两个对话信息,患者对应有一个对话信息。

步骤S102:生成在每个交流数据中每句对话信息各自对应的对话序号,以及分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。对话序号指的是能够表示每句对话信息在其所属的交流数据中的交流顺序的信息。唯一标识符指的是能够表示每句对话信息具体属于哪一个交流数据的信息。

1、对话序号

在本实施例中可以按照以下步骤生成对话序号:获取交流数据中每句对话信息各自对应的交流顺序,根据每句对话信息各自对应的交流顺序,生成在每个交流数据中每句对话信息各自对应的对话序号。

一个实施方式中,如果交流数据包含有每句对话信息的发表时间,则将该发表时间的先后顺序作为对话信息的交流顺序。对话信息的发表时间可以是由交流数据的提供方(例如:医患交流数据的提供方可以是诊疗平台)在采集到交流对象输入对话信息时随该对话信息同时存储的时间信息。一个例子:交流数据是从预设的诊疗平台上采集到的医生与患者之间关于麝香保心丸的一段交流数据,具体内容如下:

医生(2020-06-01/14:00):可以服用麝香保心丸。

患者(2020-06-01/14:02):已经服用三个月症状没有减轻。

医生(2020-06-01/14:05):可将麝香保心丸替换成通心络。

其中,上述交流数据中的“2020-06-01/14:00”等信息就是每句对话信息的发表时间。

一个实施方式中,如果交流数据的提供方(例如:医患交流数据的提供方可以是诊疗平台)是以交流对象之间的先后交流顺序显示/存储每个交流对象各自对应的对话信息,则可以按照交流对象之间的先后交流顺序对一段交流数据中的对话信息进行逐个采集,进而将每句对话信息各自对应的信息采集顺序作为每句对话信息各自对应的交流顺序。

2、唯一标识符

在本实施例中可以按照以下步骤生成唯一标识符:获取每个交流数据的特征信息并根据特征信息分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。交流数据的特征信息指的是,能够清楚表明当前交流数据具体是哪一个的交流数据的信息。

在一个实施方式中,可以根据交流数据的来源信息获取其特征信息。交流数据的来源信息指的是,能够清楚表明当前交流数据是从哪里采集到的,也即当前交流数据是在哪里提供的。一个例子:交流数据的来源信息可以是交流数据的网络链接,根据该网络链接可以在互联网平台上直接访问到交流数据。

具体而言,可以按照以下步骤获取交流数据的特征信息:

步骤11:获取当前包含目标物品的每个交流数据的来源信息。

步骤12:判断是否存在具有相同来源信息的交流数据。若存在具有相同来源信息的交流数据,则转至步骤13;若不存在具有相同来源信息的交流数据,则转至步骤14。

步骤13:获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息。在本实施方式中,如果交流数据是医生与患者关于某个药品的交流数据,那么交流对象的对象特征包括但不限于:医生的姓名、医生工作的医院和科室等。

一个例子:如果根据一个网络链接L可以在互联网平台上直接访问到两段不同的交流数据a和b,那么可以分别获取这两段交流数据中的对象特征如对象特征A和对象特征B,然后对网络链接L与对象特征A进行信息组合并将组合结果L+A作为交流数据a的特征信息,对网络链接L与对象特征B进行信息组合并将组合结果L+B作为交流数据b的特征信息。

步骤14:直接将来源信息作为交流数据的特征信息。

通过基于交流数据的来源信息进行信息设置的方式,设置交流数据中每句对话信息的唯一标识符,不仅有利于在对海量的交流数据进行同步分析时准确区分每句对话信息,还能够在后续数据处理如数据清洗过程中当发生数据缺失/错乱等问题时根据来源信息快速访问/重新获取交流数据提供方中原始的对话信息。

步骤S103:对每句对话信息进行数据清洗,随后获取具有相同唯一标识符的对话信息,根据对话序号对所述对话信息进行排序并根据排序结果生成待处理交流数据,即根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。该待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号。

由于交流数据的提供方往往会在交流数据中夹带一些广告、图片等与交流对象的交流内容无关的杂乱信息,因而需要对采集到的交流数据进行数据清洗,去除这些杂乱信息。此外,可以通过数据清洗去除交流数据中的重复内容,以此提高交流数据的分析处理速度。

进一步,如果交流数据是医生与患者之间关于某个药品的交流数据,由于通常是由医生来表达对药品的应用态度(例如:推荐或不推荐),因此在根据目标药品相关的对话信息进行药品推荐类别识别时要先确定当前对话信息的交流对象标识是医生还是患者,如果是医生则可以直接根据该对话信息进行药品推荐类别识别;如果是患者且当前对话信息是疑问句(患者提出疑问),则可以根据对话序号获取排列在当前对话信息之后的且交流对象标识是医生的对话信息,该对话信息就是医生针对当前患者的提问做出的回答信息,最后对该对话信息进行药品推荐类别识别。一个实施方式中,可以通过识别对话信息中的标点符号来判断对话信息是疑问句还是陈述句。而为了便于对标点符号进行文本分析,可以将对话信息中的标点符号均转换成文字信息。一个例子:将标点符号“,”转换成文字信息“逗号”。

在一个实施方式中,可以按照以下步骤对每句对话信息进行数据清洗:

清除对话信息中与交流对象的交流内容无关的杂乱信息如广告、图片等,对清除杂乱信息后的对话信息进行去重处理,以过滤对话信息中相同的信息,或者交流数据中相同的对话信息等内容。并且,在进行去重处理后,可以根据实际的处理结果调整交流数据中对话信息的对话序号。一个例子:若删除了一个重复的对话信息,则需要对对话序号排列在当前被删除的对话信息之后的其他对话信息进行序号调整,以使交流数据中对话信息的对话序号具备连续性。

获取对话信息中的标点符号,将标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。

步骤S104:根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。预设的神经网络分类模型是基于交流数据样本并利用机器学习算法构建的神经网络模型,交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号。具体而言,在本实施例中可以按照以下步骤进行目标物品推荐类别识别:

步骤21:获取预设训练集中的交流数据样本。

交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号。其中,数据清洗方法与前述步骤S103中所述的数据清洗方法相同,为了描述简洁,在此不再赘述。物品推荐类别信息包括物品标签以及物品的推荐类别。一个例子:物品推荐类别信息中的物品标签是通心络,物品的推荐类别是不推荐。

步骤22:基于交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练。

步骤23:根据模型训练后的神经网络分类模型对待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。

要说明的是,上述步骤21-步骤23是一个完整的神经网络分类模型的训练与使用过程。在一些实施方式中,如果神经网络分类模型已经训练完成,可以在步骤S103之后忽略步骤21-22,转而直接执行步骤23。一个实施方式中,在神经网络分类模型的训练过程中,可以采用机器学习技术领域中常规的防过拟合算法如Dropout算法对神经网络分类模型进行防过拟合控制,防止发生过拟合问题(模型在训练数据上的预测准确率较高,但是在测试数据上的预测准确率较低)。

进一步,在一个实施方式中,如果物品是药品,则可以按照以下步骤进行目标药品推荐类别识别:

步骤31:获取待处理交流数据中包含目标药品的对话信息并将对话信息作为第一目标对话信息。

步骤32:获取第一目标对话信息的交流对象标识符。若交流对象标识符是医生,则转至步骤33;若交流对象标识符是患者,则转至步骤34。

步骤33:根据预设的神经网络分类模型对第一目标对话信息进行目标药品推荐类别识别。其中,预设的神经网络分类模型是经前述步骤21-22训练完成的模型。

步骤34:选取包含问号的第一目标对话信息作为第二目标对话信息(选取句型是疑问句的第一目标对话信息作为第二目标对话信息,即患者的提问信息),获取在待处理交流数据中对话序号排列在第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息(医生的回答信息),根据预设的神经网络分类模型对获取到的对话信息(医生的回答信息)进行目标药品推荐类别识别。其中,预设的神经网络分类模型是经前述步骤21-22训练完成的模型。

在一个实施方式中,预设的神经网络分类模型可以包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层。

1、BRNN模型层

BRNN模型层指的是,基于双向循环神经网络(Bidirectional Recurrent NeuralNetworks,BRNN)构建的神经网络分类模型中的一个网络层。BRNN模型层可以被配置成获取对话信息的分词处理结果,根据分词处理结果获取对话信息中每个词语各自对应的词向量、根据对话信息中标点符号的文字信息获取标点符号的符号向量,以及根据对话信息的交流对象标识获取交流对象标识符的对象向量。

一个实施方式中,可以利用自然语言处理技术领域中常规的分词工具进行对话信息分词处理,例如:分词工具HanLP(Han Language Processing)。

一个实施方式中,BRNN模型层可以被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式(1)所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:

Tfidf(w)=tf(d,w)×idf(w) (1)

公式(1)中各参数含义是:

Tfidf(w)是第w个词语的权重,tf(d,w)是第w个词语在第个交流数据中的词频,idf(w)是第w个词语的逆文本频率指数。若第w个词语是目标物品的相关词语,则若第w个词语不是目标物品的相关词语,则

Figure BDA0002531054250000152

N是交流数据的总数,N(w)是包含有第w个词语的交流数据的数量,k是预设的加权系数。

目标物品的相关词语包括目标物品本身及其别称对应的词语。一个例子:目标物品是复方丹参,而复方丹参的别称包括丹参片、丹参胶囊等,则复方丹参的相关词语包括:复方丹参、丹参片、丹参胶囊。进一步,在利用分词工具对交流数据中的对话信息进行分词处理时,获取以当前目标物品和/或其别称为核心截取的短语,那么在该短语中除了当前目标物品及其别称以外的其他词语也是目标物品的相关词语。一个例子:对话信息包括如下内容:可服用通心络胶囊来治疗,此药主要成分为人参、水蛭、全蝎、檀香、土鳖虫、蜈蚣等,对脑梗塞具有改善作用,可以停服复方丹参。在上述对话信息中目标物品是通心络胶囊,对上述对话信息进行分词处理后得到以通心络胶囊为核心截取的短语是“可服用通心络胶囊来治疗”,则该短语中的词语“可服用”、“治疗”均是通心络胶囊的相关词语。

2、BIGRU模型层

BIGRU模型层指的是,基于双向门限循环神经网络(Bis Gated Recurrent Unit,BIGRU)构建的神经网络分类模型中的一个网络层。BIGRU模型层可以被配置成根据BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取对话信息的特征向量。在本实施例中可以通过对词向量、符号向量以及对象向量进行池化操作,将池化操作得到的向量作为特征向量。在本实施例中可以采用机器学习技术领域中常规的池化方法对上述向量进行池化操作。一个例子:可以采用均值池化方法(mean-pooling)对上述向量进行池化操作。

3、分类函数层

分类函数层指的是,基于机器学习技术领域中常规的分类函数构建的神经网络分类模型中的一个网络层。分类函数层可以被配置成根据对话信息的特征向量,预测对话信息对应的每个推荐类别的概率。一个例子:分类函数层是基于Softmax函数构建的网络层。

4、推荐类别输出层

推荐类别输出层可以被配置成获取并输出最大概率对应的推荐类别,即将最大概率对应的推荐类别作为当前物品的最终推荐类别,根据该推荐类别能够直观且清楚地了解当前物品的应用状态(例如:被推荐使用或不被推荐使用)。

基于BRNN+BIGRU架构的神经网络分类模型,能够关联目标物品在对话信息中的前后文字信息,以及当前对话信息在交流数据中的前后对话信息,从而更加准确地识别出当前目标物品的推荐类别。一个例子:对话信息包括如下内容:医生(2020-06-01/14:00):可以服用麝香保心丸。患者(2020-06-01/14:02):已经服用三个月症状没有减轻。医生(2020-06-01/14:05):可将麝香保心丸替换成通心络。在上述对话信息中目标物品是麝香保心丸,基于上述神经网络分类模型对上述对话信息进行麝香保心丸的推荐类别识别后,可以得到麝香保心丸的推荐类别是不推荐。

需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。

参阅附图2,图2是根据本发明的一个实施例的基于自然语言处理的物品应用分析系统的主要结构框图。如图2所示,本发明实施例中基于自然语言处理的物品应用分析系统主要包括交流数据获取装置、第一数据处理装置、第二数据处理装置和物品应用分析装置。在一些实施方式中,交流数据获取装置、第一数据处理装置、第二数据处理装置和物品应用分析装置中的一个或多个可以合并在一起成为一个装置。在一些实施方式中,交流数据获取装置可以其被配置成获取与目标物品相关的交流对象的交流数据,交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息。第一数据处理装置可以被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据特征信息分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。第二数据处理装置可以被配置成对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;待处理交流数据包括根据对话序号排列的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号。物品应用分析装置可以被配置成根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。在一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S104所述。

在一个实施方式中,第一数据处理装置可以包括特征信息获取模块,和/或第二数据处理模块可以包括数据清洗模块。

特征信息获取模块可以被配置成执行以下操作:

获取每个交流数据的来源信息;判断是否存在具有相同来源信息的交流数据;若不存在具有相同来源信息的交流数据,则直接将所述信息作为交流数据的特征信息;若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。

数据清洗模块可以被配置成执行以下操作:

清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理以及字段规整化处理;获取对话信息中的标点符号,将标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。

在一个实施方式中,物品应用分析装置可以包括第一物品应用分析模块和/或第二物品应用分析模块。

第一物品应用分析模块可以被配置成当物品是药品时执行以下操作:获取待处理交流数据中包含目标药品的对话信息并将对话信息作为第一目标对话信息;获取第一目标对话信息的交流对象标识符;若交流对象标识符是医生,则根据预设的神经网络分类模型对第一目标对话信息进行目标药品推荐类别识别;若交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。

第二物品应用分析模块被配置成执行以下操作:获取预设训练集中的交流数据样本,交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;基于交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;根据模型训练后的神经网络分类模型对待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。

在一个实施方式中,预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层。

BRNN模型层可以被配置成获取对话信息的分词处理结果,根据分词处理结果获取对话信息中每个词语各自对应的词向量、根据对话信息中标点符号的文字信息获取标点符号的符号向量,以及根据对话信息的交流对象标识获取交流对象标识符的对象向量。BIGRU模型层可以被配置成根据BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取对话信息的特征向量。分类函数层可以被配置成根据对话信息的特征向量,预测对话信息对应的每个推荐类别的概率。推荐类别输出层可以被配置成获取并输出最大概率对应的推荐类别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。

在一个实施方式中,BRNN模型层可以被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据公式(1)所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。

上述基于自然语言处理的物品应用分析系统以用于执行图1所示的基于自然语言处理的物品应用分析方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,基于自然语言处理的物品应用分析系统的具体工作过程及有关说明,可以参考基于自然语言处理的物品应用分析方法的实施例所描述的内容,此处不再赘述。

进一步,本发明还提供了一种存储装置。在该存储装置实施例中存储装置可以被配置成存储执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序,该程序可以由处理器加载并运行以实现上述基于自然语言处理的物品应用分析方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中存储是非暂时性的计算机可读存储介质。

进一步,本发明还提供了一种控制装置。在该控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备,可选的,本发明实施例中控制装置是服务器。

本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个装置的数量仅仅是示意性的。

本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:地址识别方法、装置、设备与计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!