一种药品知识图谱表示学习方法

文档序号：1923668 发布日期：2021-12-03 浏览：17次 >En<

阅读说明：本技术 一种药品知识图谱表示学习方法 (Medicine knowledge graph representation learning method ) 是由刘细涓杨晨于 2021-09-15 设计创作，主要内容包括：本发明公开了一种药品知识图谱表示学习方法,其包括：获取药品相关信息生成药物知识图谱；利用平衡因子将药物知识图谱中实体的文本描述信息与知识图谱中和关系结构化信息融合,引入包含因子学习药物知识图谱中药品包含化学成分的关系表达,引入惩罚因子学习药物知识图谱中药品负面相互作用关系与化学成分负面相互作用关系表达,建立相似系数提取具有相似化学成分的药品信息,定义衡量不同类型关系和实体对之间相互关联的多类型得分函数。本发明具有能学习表示药品知识图谱中基本的药品信息文本与结构特征,还可以学习表示隐含的药品相似信息与药品相互作用信息的优点。(The invention discloses a medicine knowledge graph representation learning method, which comprises the following steps: acquiring relevant information of a medicine to generate a medicine knowledge map; text description information of entities in the medicine knowledge graph is fused with knowledge graph neutralization relation structured information by using balance factors, the factor-containing learning medicine knowledge graph is introduced to learn the relation expression of chemical components contained in medicines, the penalty factor is introduced to learn the medicine negative interaction relation and the chemical component negative interaction relation expression in the medicine knowledge graph, the similarity coefficient is established to extract the medicine information with similar chemical components, and the multi-type score function for measuring the correlation between different types of relations and entity pairs is defined. The invention has the advantages of learning and representing basic medicine information text and structural characteristics in the medicine knowledge graph and learning and representing the interaction information of the implicit medicine similar information and the medicine.)

一种药品知识图谱表示学习方法

技术领域

本发明涉及知识图谱以及深度学习技术领域，尤其涉及一种药品知识图谱表示学习方法。

背景技术

知识图谱的本质是一个由节点和边组成的有向图，通常人们会用网络的形式来组织知识图谱中的知识，网络中的每个节点代表实体(人名、地名、机构名、概念等)，每条边代表实体间的关系。因此，大部分知识一般都可以用三元组(h，r，t)来表示，h，t分别表示头实体和尾实体，r表示头尾实体间的关系。大规模知识图谱可以被广泛用于许多实际任务，但其正确性和完整性不能保证，且面临着严重的数据稀疏和计算效率的问题。通过研究知识图谱补全方法来找出缺失或错误的关系来提升知识图谱的整体质量，能够改善或创造有趣的下游应用。

近年来，以深度学习为代表的表示学习异军突起，在语音识别、图像分析及自然语言处理等众多领域广受关注。虽然知识表示学习实现了对实体和关系的分布式表示，显著提升了计算效率，有效缓解数据稀疏问题并且可以实现异质信息的融合。但是现有知识表示学习模型有些过于简单不能很好地表示知识图谱中的实体及其之间的关系，有些过于复杂不能将其应用到大规模知识图谱中。

现有技术如公告号为CN108197290B的中国发明专利公开了一种融合实体和关系描述的知识图谱表示学习方法，该专利包括一种知识图谱表示学习方法为:通过基于神经网络的端到端模型对实体和关系联合抽取，设置一个平衡因子来平衡结构化信息和文本描述信息，并根据预测对象的不同定义不同的得分函数；然后利用损失函数把实体向量和关系向量关联起来，并优化该损失函数，当达到优化目标时，就可以学得知识图谱及文本描述信息中每个实体的向量和关系的向量。

医药行业是一个特殊的行业，数据错误和缺失都会造成很大的健康隐患，据统计数据显示，我国每年有250万人因为错误用药而损害健康，其中死亡的有20万人，是全国交通事故死亡人数的两倍，药品知识图谱的准确性特别重要。药物相互作用是指病人同时或在一定时间内由于先后服用两种或两种以上药物后所产生的复合效应，可使药效加强或副作用减轻，也可使药效减弱或出现不应有的毒副作用。作用加强包括疗效提高和毒性增加，作用减弱包括疗效降低和毒性减少。因此，临床上在进行联合用药时，应注意利用各种药物的特性，充分发挥联合用药中各个药物的药理作用，以达到最好的疗效和最少的药品不良反应，从而提高用药安全。

发明内容

本发明的目的在于针对现有技术提供可以表示基本的药品信息文本与结构特征，还可以表示隐含的药品相似信息与药品负面相互作用信息的药品知识图谱表示方法。其包括：从网络中或基于文字识别从药品说明书、医学文献和/或药品书籍中识别获取药品相关信息，根据所述的药品相关信息生成药物知识图谱，所述生成的药品知识图谱至少包含药品与药品负面相互作用关系，化学成分与化学成分负面相互作用关系和药品包含化学成分关系。

基于端到端神经网络对药物知识图谱中实体和关系的文本描述信息进行联合抽取，利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化结合，引入包含因子学习药物知识图谱中药品包含化学成分的关系表达，引入惩罚因子学习药物知识图谱中药品负面相互作用关系与化学成分负面相互作用关系表达，建立抽取相似系数提取具有相似化学成分的药品信息，基于TransF模型根据不同的预测实体与关系定义衡量关系和实体对之间相互关联的多类型得分函数：

当预测的是负面相互作用关系时，负面作用得分函数f_k(h,r,t)定义为：

f_k(h,r,t)＝k‖((μ·h_s+(1-μ)·h_d+μ·t_s+(1-μ)·t_d)^Tr+(r-μ·t_s+(1-μ)·t_d)^T(μ·h_s+(1-μ)·h_d))‖_L2

当预测的药品包含化学成分关系时，包含关系得分函数f_j(h,r,t)定义为：

f_j(h,r,t)＝j‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2

当预测的不是负面相互作用关系和药品包含化学成分关系时，通用得分函数f(h,r,t)定义为：

f(h,r,t)＝‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2

其中，μ是平衡因子,取值范围为[0,1]，k是惩罚因子，j是包含因子，j与k都是正数，h是头实体向量，t是尾实体向量，r是头实体和尾实体之间的关系向量，h_s是是头实体的结构化向量，t_s是尾实体的结构化向量，h_d是头实体的文本描述向量，t_d是尾实体的文本描述向量，T表示转置矩阵，L2是L2范式。

为了提取具有相似化学成分的药品信息，建立基于相似系数的衡量具有相似化学成分的药品实体关系的相似成分得分函数：

SIMI(h,t)表示药品实体h与t之间的化学成分相似系数，可以通过联合药品实体所有包含的化学成分用现有的文本相似度算法计算。

基于多类型得分函数建立实体与关系的损失函数：

其中γ为设定的边界值，(h,r,t)表示正例三元组，(h′,r′,t′)表示负例三元组，S_k(h,r,t)表示药品知识图谱中具有负面相互作用关系的所有正例三元组集合，S_k’(h,r,t)表示随机生成的不具有负面相互作用关系的负例三元组集合，S_j(h,r,t)表示药品知识图谱中药品包含化学成分关系的所有正例三元组集合，S_j’(h,r,t)表示随机生成的不表示药品包含化学成分关系的负例三元组集合，S(h,r,t)表示药品知识图谱中不是负面相互作用关系和药品包含化学成分关系的所有正例三元组集合，(h′,r,t′)表示头实体与尾实体被随即替换生成的通用负例三元组，S’(h,r,t)表示通用负例三元组集合，(h,t)表示不约束关系的正例二元组，(h′,t′)表示头实体与尾实体被随即替换生成的通用负例二元组，S_s(h,t)表示相似系数SIMI(h,t)大于设定边界值的正例二元组集合，S_s′(h,t)表示通用负例二元组集合。

最小化损失函数以学习融合结构化信息，文本信息与药品相似性与相互作用信息的实体和关系的低维向量表示，在训练时使用随机梯度下降法算法(SGD)优化。

对知识图谱进行表示学习不仅将可以多维复杂的知识图谱降维到低维空间内，缩小存储空间，提高计算效率，而且在处理下游的应用需求时结合整个知识图谱的全部信息进行考虑，因为每一个实体表示都是与整个知识图谱交互的结果。本发明所构建的药物知识图谱不仅包含药物的相关信息，并且考虑到了药物由于化学成分具有相似性与药物相互作用的情况，根据不同的实体类型构建不同的得分函数，当预测的是负面相互作用关系时，考虑到药品或者化学成分之间负面相互作用关系对于服药效果可能产生负面甚至致命的影响，得分函数鼓励具有相互作用的实体向量距离相远，通过引入惩罚因子进一步地表示药品或化学成分相互作用的负面关系；当预测药品包含化学成分关系时通过引入包含因子强调包含关系；通过引入化学成分相似系数进一步地提取潜在地药物相似关系。本发明基于融合结构化信息，文本信息与药品相似性与相互作用信息的多类型得分函数来学习药品知识图谱的向量表示，所生成的药品知识图谱不但可以表示基本的药品信息文本与结构特征，还可以表示隐含的药品相似信息与药品相互作用信息，为所有下游的基于知识图谱的应用方法都提供了具有更丰富信息的，更符合实际用药需求的药物知识图谱表示方法。

生成的药物知识图谱的实体类型包括但不限于药物通用名称、药物商品名称、药物描述、药物化学成分、药物治疗疾病、药物治疗疾病描述、批准文号、剂型、规格、给药方式、给药时间、注意事项、药物治疗症状实体、药物适用人群实体、药品类别、相互作用实体、药品配伍实体。

本发明的药品知识图谱表示学习方法可以结合通用的知识图谱相关技术应用于所有基于药品知识图谱的下游应用中，包括但不限于关系预测，三元组分类，实体类型分类，关系抽取，智能问答与推荐系统。对药品知识图谱进行表示学习后可以将庞大的多维复杂的药品知识图谱降维到低维空间内，缩小存储空间，当处理下游的应用需求时，本发明的药品知识图谱表示学习方法不但可以表示基本的药品信息文本与结构特征，还可以表示隐含的药品相似信息与药品相互作用信息，结合整个药品知识图谱。在进行实际的基于药品知识图谱的下游应用时可以直接通过本发明的药品知识图谱表示学习方法获得药品知识图谱的低维度向量表示，通过向量表示结合现有的通用知识图谱技术完成下游应用。

由于本发明采用了获取药品相关信息生成药物知识图谱；基于端到端神经网络对药物知识图谱中实体和关系的文本描述信息进行联合抽取，利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合，引入包含因子学习药物知识图谱中药品包含化学成分的关系表达，引入惩罚因子学习药物知识图谱中药品负面相互作用关系与化学成分负面相互作用关系表达，建立相似系数提取具有相似化学成分的药品信息，基于TransF模型根据不同的预测实体与关系定义衡量关系和实体对之间相互关联的多类型得分函数；最小化损失函数以学习融合结构化信息，文本信息与药品相似性与相互作用信息的实体和关系的低维向量表示，在训练时使用随机梯度下降法算法优化。因而本发明具有能表示基本的药品信息文本与结构特征，还可以表示隐含的药品相似信息与药品相互作用信息，为所有下游的基于知识图谱的应用方法都提供了具有更丰富信息的，更符合实际用药需求的药品知识图谱表示方法的优点。

附图说明

图1为本发明一种药品知识图谱表示方法流程图；

图2为本发明实施例方法时序图；

图3为本发明实施例相关指标比较示意图。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

实施例1：

本实施例的参照图1到图3，实施例的一种药品知识图谱表示方法，包括，从网络中或基于文字识别从药品说明书、医学文献和/或药品书籍中识别获取药品相关信息，根据所述的药品相关信息生成药物知识图谱，所述生成的药品知识图谱至少包含药品与药品负面相互作用关系，化学成分与化学成分负面相互作用关系和药品包含化学成分关系。

基于端到端神经网络对药物知识图谱中实体和关系的文本描述信息进行联合抽取，利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合，引入包含因子学习药物知识图谱中药品包含化学成分的关系表达，引入惩罚因子学习药物知识图谱中药品负面相互作用关系与化学成分负面相互作用关系表达，建立抽取相似系数提取具有相似化学成分的药品信息，基于TransF模型根据不同的预测实体与关系类型定义衡量关系和实体对之间相互关联的多类型得分函数：

当预测的是负面相互作用关系时，负面作用得分函数f_k(h,r,t)定义为：

f_k(h,r,t)＝k‖((μ·h_s+(1-μ)·h_d+μ·t_s+(1-μ)·t_d)^Tr+(r-μ·t_s+(1-μ)·t_d)^T(μ·h_s+(1-μ)·h_d))‖_L2

当预测的药品包含化学成分关系时，包含关系得分函数f_j(h,r,t)定义为：

f_j(h,r,t)＝j‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2

当预测的不是负面相互作用关系和药品包含化学成分关系时，通用得分函数f(h,r,t)定义为：

f(h,r,t)＝‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2

为了提取具有相似化学成分的药品信息，建立基于相似系数的衡量具有相似化学成分的药品实体关系的相似成分得分函数：

SIMI(h,t)表示药品实体h与t之间的化学成分相似系数，可以通过联合药品实体所有包含的化学成分用现有的文本相似度算法计算。

基于多类型得分函数建立实体与关系的损失函数：

TransF模型中F代表flexible(灵活性)，采用了“灵活性翻译”的思想来进一步解决1-n、n-1、n-n这样的复杂关系表示的问题。具体说，就是用“h+r≈αt”代替比较hard的“h+r≈t”，即只要保证“h+r”的方向与t的方向相同即判定三元组(h,r,t)成立。本发明提出的多类型损失函数基于TransF模型，利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化，引入包含因子构建包含得分函数，学习药物知识图谱中药品包含化学成分的关系表达，引入惩罚因子构建负面作用得分函数，基于“h+t≈r”的思想激励了具有负面相互作用关系的药品实体与化学成分实体方向相反，在损失函数中正样本得分高，负样本得分低，因为正交向量点积为0，正样本的h+r应当与t平行，也即不正交，本发明提出药品知识图谱表示方法能生成对于通用关系满足传统知识图谱表示方法“h+r≈t”的要求，而对于药品负面相互作用关系与化学成分负面相互作用关系的三元组则以“h+t≈r”的形式表示，这样的表示方法更符合实际下游应用中对于药品知识图谱的需要，图3是本实施例与常用的传统知识图谱表示方法在三元组分类上的结果对比图，对于通用关系，即不是负面相互作用关系和药品包含化学成分关系时，本发明的准确率与TransF相接近，而对于负面相互作用关系与包含类似化学成分的药品关系时本发明的结果显著高于所有传统知识图谱表示方法。

实施例2：

本实施例在实施例1的基础上进一步阐述技术方案。

整个药品知识图谱表示学习的过程如下：

S10，从网络中或基于文字识别从药品说明书、医学文献和/或药品书籍中识别获取药品相关信息，根据所述的药品相关信息生成药物知识图谱，所述生成的药品知识图谱至少包含药品与药品负面相互作用关系，化学成分与化学成分负面相互作用关系和药品包含化学成分关系，实体类型包括但不限于药物通用名称、药物商品名称、药物描述、药物化学成分、药物治疗疾病、药物治疗疾病描述、批准文号、剂型、规格、给药方式、给药时间、注意事项、药物治疗症状实体、药物适用人群实体、药品类别、相互作用实体、药品配伍实体；

S20，基于端到端神经网络对药物知识图谱中实体和关系的文本描述信息进行联合抽取，引入平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息融合，基于TransF模型根据不同的预测实体与关系定义衡量关系和实体对之间相互关联的得分函数，μ是平衡因子,取值范围为[0,1]，k是惩罚因子，j是包含因子，j与k都是正数，h是头实体向量，t是尾实体向量，r是头实体和尾实体之间的关系向量，h_s是是头实体的结构化向量，t_s是尾实体的结构化向量，h_d是头实体的文本描述向量，t_d是尾实体的文本描述向量，T表示转置矩阵，L2是L2范式；

S21，当预测的不是负面相互作用关系和药品包含化学成分关系时，通用得分函数f(h,r,t)定义为：

f(h,r,t)＝‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2；

S22，引入惩罚因子学习药物知识图谱中药品负面相互作用关系与化学成分负面相互作用关系表达，当预测的是负面相互作用关系时，负面作用得分函数f_k(h,r,t)定义为：f_k(h,r,t)＝k‖((μ·h_s+(1-μ)·h_d+μ·t_s+(1-μ)·t_d)^Tr+(r-μ·t_s+(1-μ)·t_d)^T(μ·h_s+(1-μ)·h_d))‖_L2；

S23，引入包含因子学习药物知识图谱中药品包含化学成分的关系表达，当预测的药品包含化学成分关系时，得分函数f_j(h,r,t)定义为：

f_j(h,r,t)＝j‖((μ·h_s+(1-μ)·h_d+r)^T(μ·t_s+(1-μ)·t_d)+(μ·t_s+(1-μ)·t_d-r)^T(μ·h_s+(1-μ)·h_d))‖_L2；

S24，为了提取具有相似化学成分的药品信息，建立相似系数SIMI(h,t)提取具有相似化学成分的药品信息，SIMI(h,t)表示药品实体h与t之间的化学成分相似系数，可以通过联合药品实体所有包含的化学成分用现有的文本相似度算法计算；

S25，建立基于相似系数的衡量具有相似化学成分的药品实体关系的得分函数：

S30，基于文本信息与药品相似性与相互作用信息的多类型得分函数建立实体与关系的损失函数：

S31，最小化损失函数以学习融合结构化信息，文本信息与药品相似性与相互作用信息的实体和关系的低维向量表示，在训练时使用随机梯度下降法算法(SGD)优化。

虽然结合优选实施例对本发明进行了描述，但本发明并不受此描述限制。本领域技术人员可以在不脱离本发明的精神和范围的情况下对此处所列的对象进行各种修改和替换。本发明的保护范围应当以所要求保护的权利要求的限定为准。

13页详细技术资料下载

一种药品知识图谱表示学习方法

相关技术

网友询问留言