一种三角图与知识图谱的融合方法

文档序号:1963790 发布日期:2021-12-14 浏览:12次 >En<

阅读说明:本技术 一种三角图与知识图谱的融合方法 (Method for fusing triangular graph and knowledge graph ) 是由 胡志臣 许小龙 胡祥奔 唐柏轩 于 2021-08-23 设计创作,主要内容包括:本发明公开了一种三角图与知识图谱的融合方法,属于知识图谱的技术领域。其包括步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,提供了适用于砂岩三角图分析数值工作的方法。(The invention discloses a method for fusing a triangular graph and a knowledge graph, and belongs to the technical field of knowledge graphs. Which comprises the following steps of 1: converting the sedimentology PDFA file containing the triangular graph into a gray level image by using a Markov graph method; step 2: reconstructing a sandstone triangle, acquiring bottom edge data according to the triangle, and calculating the edge value of each triangle graph; and step 3: analyzing the relationship between each sandstone entity and the sandstone entity in the sedimentology, removing the name of the synonymous sandstone entity, and constructing a sandstone knowledge graph in the field of the sedimentology; and 4, step 4: demarcating internal components of the sandstone, calculating critical values among sandstone entities, and determining content range values of the components in the sandstone; and 5: the method is suitable for analyzing numerical values of the sandstone trigonometric graphs.)

一种三角图与知识图谱的融合方法

技术领域

本发明涉及知识图谱的技术领域,特别涉及一种三角图与知识图谱的融合方法。

背景技术

知识图谱是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,知识图谱逐渐渗透到各行各业用于文本数据挖掘和信息存储。当前,大量的企业和组织将与日俱增的数据信息完全或者部分通过知识图谱,推理出有价值的核心热点,以降低检索时间并提高分析信息能力。

沉积学领域中对文本中三角图数据分析量的不断增加,特别是在大数据时代,三角图数据分析需要学习掌握多种分类类别和繁杂的命名种类,大大加大了探索研究的难度。为了应对与日俱增的分析需求,沉积学领域需要领域专家需要学习分析相关对照手册。当前沉积学领域普遍依赖人工查询定点,人工查询定点会消耗大量时间,影响数据时效性,制约了信息化产业的动态发展。

随着三角图在沉积学砂岩领域的广泛应用,文本三角图产生热点的数据日益增长,将会对三角图内数据分析带来挑战。为了应对沉积学领域节约时间开销的迫切需求,在知识图谱处理支撑三角图数据中,如何实现面向沉积学文本三角图定位分析是工业界和学术界关注的热点。

发明内容

本发明针对沉积学砂岩领域文本中三角图对应砂岩种类和本体关系无法直接产生关联这个空缺,提供沉积学砂岩领域文献中三角图与知识图谱的融合方法,适用于砂岩三角图分析数值工作。

为实现上述目的,本发明采用以下技术方案:

本发明一种三角图与知识图谱的融合方法,

步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;

步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;

步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;

步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;

步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱。

进一步地,步骤一中,所述马尔可夫图方法将含有三角图的沉积学PDFA文件的每一页全部转化为图片格式的文档,其马尔可夫链的状态转移矩阵P表示为{Pi,j|0≤i≤255,0≤j≤255},其中Pi,j是PDFA字节流中字节值i到字节值j的转换概率,计算方法如式所示:

式中,Wi,j是PDFA字节流中从字节值i到字节值j的转换次数,为了显示为灰度位图图像,状态转换矩阵P被缩放为I:

I=255/max(p)P;

式中,所有PDFA文件的马尔可夫图的图像大小相同,图像的像素为256×256,max(p)表示为PDFA字节流中字节值i到字节值j的转换的最大概率。

进一步地,步骤2中,所述重构砂岩三角图的具体内容为:

在PDFA文件中,三角图成等边三角形呈现,其会出现在文件随机的位置,在计算机中,将PDFA文件的横坐标定义为X,纵坐标定义为Y,其X=0表示文件最左边,Y=0表示文件最上边,将三角图左下角点标定义为(x0,y0),其中x0代表三角图左下角点横坐标,y0代表三角图左下角点纵坐标,(x2,y2)代表三角图右下角点坐标,其中x2代表三角图右下角点横坐标,y2代表三角图右下角点纵坐标,计算三角图顶点坐标(x1,y1)为:

x1=(x2-x0)/2;

式中x2-x0代表三角图底边长度。

进一步地,步骤3中,所述知识图谱包括本体词典列表和实体关系词典列表,

整合沉积学砂岩领域所有教科书文本,获取教课书中所有砂岩实体、属性、框架的本体词典列表,同时整合各砂岩实体、属性和框架之间的关系,并获得实体关系词典列表;所述本体词典列表数据集SST={sst1,sst2,...,sstN},其中,sst1表示第一个种类的本体词典列表,sst2表示第二个种类的本体词典列表,sstN表示第N个种类的本体词典列表,同时遍历所有本体名去除相同本体名,确保本体的唯一性;SSTR={sstr1,2,,sstr1,3,...,sstrM,N},其中sstr1,2表示sst1和sst2存在本体关系,sstr1,3表示sst1和sst3存在本体关系,sstrM,N表示sstM和sstN存在本体关系;

所述实体关系词典列表的种类记录的是一个多属性元组,SSTR中种类表示为sr=(Garzanti,Dott,Gilbert,Pettijohn,Crook,Dapples,Folk,Mcbride,Van_Andel,Wackes,Arenite,Firstproperties,Secondproperties,Thirdproperties,Forthproperties,Dataproperty),其中Garzanti代表本体关系中Garzanti对砂岩种类分类的定义,Dott代表本体关系中Dott对砂岩种类分类的定义,Gilbert代表本体关系中Gilbert对砂岩种类分类的定义,Pettijohn代表本体关系中Pettijohn对砂岩种类分类的定义,Crook代表本体关系中Crook对砂岩种类分类的定义,Dapples代表本体关系中Dapples对砂岩种类分类的定义,Folk代表本体关系中Folk对砂岩种类分类的定义,Mcbride代表本体关系中Mcbride对砂岩种类分类的定义,Van_Andel代表本体关系中Van_Andel对砂岩种类分类的定义,Wackes代表本体关系中对砂岩种类下含量的分类定义,Arenite代表本体关系中对砂岩种类下含量的分类定义,Firstproperties,Secondproperties,Thirdproperties,Forthproperties代表本体关系中对层级属性的定义,Dataproperty代表本体关系中对各部分数量属性定义。

进一步地,步骤5中,所述构建三角图与知识图谱的链接关系具体步骤如下:

步骤5.1:将三角图的等边三角形的每条边都定义为0%到100%的刻度尺,将三角图左下角点到右下角点定义为长石F的含量,其范围为0%到100%,将顶点到左下角点定义为石英Q的含量,其范围为0%到100%,将顶点到右下角点定义为岩屑L的含量,其范围为0%到100%;步骤5.2:计算三角形内任意一点所占比重P,及所对应数值V;

设顶点为P1,左下角点为P0,右下角为P2,对应数值为V1,V0,V2

算出石英边值V′1:V′1=(1-T2)*V0+T2*V1

岩屑边值V′2:V′2=(1-T1)*V2+T1*V0

长石边值V′3:V′3=1-V′1-V′2

进一步地,步骤5中,所述石英边值计算方法的具体步骤如下:

首先做出平行于右侧三角形边的平行线,穿过三角图内一点,相交于左侧三角形边为一点,坐标定义为P′1,对应值为V′1,相交于底侧三角形边为一点,坐标定义为P′2,对应值为V′2,设定线段P′1至P占总线段P1至P2的比例T1,如公式:

T1=P′1-P/P1-P2

式中,P′1-P为点P′1至P的向量,P1-P2为P1至P2的向量;

另外设定线段P′1至P0占总线段P1至P0的比例T2,如公式:

T2=P′1-P0/P1-P0

式中,P′1-P0为点P′1至P0的向量,P1-P0为P1至P0的向量;

同理由于相似三角形对应边成比例的关系,P′2至P0的比例系数也为T2,类似的,向量P′2至P′1相对与向量P2至P1的比例系数同样也为T2

根据向量定理可知:

P′1-P0=(P′1-P0)+(P′1-P)

式中,P′1-P0为点P′1至P0的向量,P′1-P0为P′1至P0的向量,P′1-P为P′1至P的向量,首尾两向量和为首到尾相连的第三向量,根据比例值可以换算为:

T2*(P1-P0)=(P-P0)+T1*(P2-P1)

顶点为P1,左下角点为P0,右下角为P2,根据权利要求3,分别对应坐标点(x1,y1),(x0,y0),(x2,y2),公式可以进一步细化成:

式中,x1-x0代表P1所对应的点(x1,y1)中x1减去P0所对应的点(x0,y0),是数值相减,并不是x1到x0的向量,同理x2-x1,代表P2所对应的点(x2,y2)中x2减去P1所对应的点(x1,y1),是数值相减,并不是x2到x1的向量,可以利用(x1,y1),(x0,y0),(x2,y2),求出对应T1,T2值;

因此,最终可以算出石英边值V′1

V′1=(1-T2)*V0+T2*V1

有益效果

1、本发明通过设计基于砂岩分类种类和知识图谱的文本挖掘方法,在沉积学砂岩领域构建了完整的砂岩知识图谱分类,实现了文本三角图数据动态萃取;

2、沉积学文本中对三角图进行分析、定位,能够分析出三角图内各点对应的长石、石英、岩屑的准确数值;

3、链接三角图和知识图谱两大领域特征,可以通过三角图分析对应砂岩,并在知识图谱中分析找出对应知识元,并展开对应相关的特征;

4、完成实时对应系统工具,能够实时分析文本中三角图,减少沉积学领域专家对应查找的时间消耗,调高了识别关键信息的准确度。

附图说明

图1是本发明一种三角图与知识图谱的融合方法的流程图;

图2是图1中砂岩三角图的展示图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提出的沉积学砂岩领域文献中的一种三角图与知识图谱的融合方法,其流程如图1所示:

步骤1:利用图像可视化技术将含有三角图的沉积学PDFA文件转换为灰度图像。

图像可视化技术采用马尔可夫图方法将含有三角图的沉积学PDFA文件的每一页全部转化为图片格式的文档。其马尔可夫链的状态空间是一个字节的可能值集,表示为:S={0,1,...,255}。将含有三角图的沉积学PDFA文件下载,PDFA文件代表PAF文件中标准文件,不加密,不以整体图片形式呈现,其中将PDFA文件作为字节流文件,其字节流表示为256个状态的马尔可夫链的状态转换矩阵。马尔可夫链的状态转移矩阵P表示为{Pi,j|0≤i≤255,0≤j≤255},其中Pi,j是PDFA字节流中字节值i到字节值j的转换概率,计算方法如式所示:

式中,Wi,j是PDFA字节流中从字节值i到字节值j的转换次数。为了显示为灰度位图图像,状态转换矩阵P被缩放为I:

I=255/max(p)P;

式中,所有PDFA文件的马尔可夫图的图像大小相同,图像的像素为256×256。max(p)表示为PDFA字节流中字节值i到字节值j的转换的最大概率。

步骤2:重构各三角图,根据三角图获取底边数据,计算每个三角图图形边缘值。

三角图是沉积学砂岩领域中研究砂岩各部分含量的直观表现,如图2所示。在PDFA文件中,三角图成等边三角形呈现,其会出现在文件随机的位置。在计算机中,将PDFA文件的横坐标定义为X,纵坐标定义为Y,其X=0表示文件最左边,Y=0表示文件最上边,将三角图左下角点标定义为(x0,y0),其中x0代表三角图左下角点横坐标,y0代表三角图左下角点纵坐标。(x2,y2)代表三角图右下角点坐标,中x2代表三角图右下角点横坐标,y2代表三角图右下角点纵坐标。计算三角图顶点坐标(x1,y1)为:

x1=(x2-x0)/2;

式中x2-x0代表三角图底边长度。

步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱。

整合沉积学砂岩领域所有教科书文本,获取教课书中所有砂岩实体,属性,框架的本体词典列表。同时整合各砂岩实体,属性和框架之间的关系,并整合成实体关系词典列表。本体词典列表数据集SST={sst1,sst2,...,sstN},其中,sst1表示第一个种类的本体词典列表,sst2表示第二个种类的本体词典列表,sstN表示第N个种类的本体词典列表,同时遍历所有本体名去除相同本体名,确保本体的唯一性;SSTR={sstr1,2,,sstr1,3,...,sstrM,N},其中sstr1,2表示sst1和sst2存在本体关系,sstr1,3表示sst1和sst3存在本体关系,sstrM,N表示sstM和sstN存在本体关系;

实体关系词典列表的种类记录是一个多属性元组,SSTR中种类表示为sr=(Garzanti,Dott,Gilbert,Pettijohn,Crook,Dapples,Folk,Mcbride,Van_Andel,Wackes,Arenite,Firstproperties,Secondproperties,Thirdproperties,Forthproperties,Dataproperty),其中Garzanti代表本体关系中Garzanti对砂岩种类分类的定义,Dott代表本体关系中Dott对砂岩种类分类的定义,Gilbert代表本体关系中Gilbert对砂岩种类分类的定义,Pettijohn代表本体关系中Pettijohn对砂岩种类分类的定义,Crook代表本体关系中Crook对砂岩种类分类的定义,Dapples代表本体关系中Dapples对砂岩种类分类的定义,Folk代表本体关系中Folk对砂岩种类分类的定义,Mcbride代表本体关系中Mcbride对砂岩种类分类的定义,Van_Andel代表本体关系中Van_Andel对砂岩种类分类的定义,Wackes代表本体关系中对砂岩种类下含量的分类定义,Arenite代表本体关系中对砂岩种类下含量的分类定义,Firstproperties,Secondproperties,Thirdproperties,Forthproperties代表本体关系中对层级属性的定义,Dataproperty代表本体关系中对各部分数量属性定义。

步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值。

计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值,其中F代表砂岩含量的长石含量,Q表砂岩含量的石英含量,L表砂岩含量的岩屑含量。为了区分各种沉积学砂岩中各FQL占比为此本专利做出了详细的统计,例如对砂岩中77种石头中Garzanti,Pettijohn和Folk分类进行举例

Quartzose sandstone=F<10%and L<10%;

式中F<10%代表长石含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成F<10%条件时候也需要达成L<10%,岩屑含量小于整体的10%的条件:

Feldspathic sandstone=Q<10%and L<10%

式中Q<10%代表石英含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成Q<10%条件时候也需要达成L<10%,岩屑含量小于整体的10%的条件:

Lithic sandstone=Q<10%and F<10%

式中Q<10%代表石英含量小于整体的10%,设整体含量为100%,and代表并列存在的意思,当达成Q<10%条件时候也需要达成F<10%,长石含量小于整体的10%的条件,同理砂岩分类如下:

Feldspatho-quartzo-lithic sandstone=L>Q>F>10%

Litho-quartzose sandstone=F<10%and Q>L>10%

Quartzo-lithic-feldspatho sandstone=F>L>Q>10%

Lithic-quartzo-feldspatho sandstone=F>Q>L>10%

Quartzo-feldspathic sandstone=L<10%and F>Q>10%

Feldspatho-quartzose sandstone=L<10%and Q>F>10%

Lithic-feldspatho-quartzo sandstone=Q>F>L>10%

Quartzo-feldspatho-lithic sandstone=L>F>Q>10%

Feldspatho-lithic-quartzo sandstone=Q>L>F>10%

Feldspatho-lithic sandstone=Q<10%and L>F>10%

Quartzo-lithic sandstone=F<10and L>Q>10

Quartzose sandstone=Q>95%

Feldspathic sandstone=F>25%and F>3*L

Lithic sandstone=L>25%and L>3*F

Subarkose=5%<F<25%and F>L

Sublitharenite=5%<L<25%and L>F

Litho-feldspathic sandstone=Q<75%and 1%<F/L<3%

Feldspatho-lithic sandstone=Q<75%and 1/3<F/L<1

Quartz arenite=L<5%and F<5%

Lithic sandstone=F<L and L>25%

Subarkose=5%<F<25%and F>L

Sublitharenite=5%<L<25%and F<L

Feldspathic sandstone=F>25%and F>L

Feldspathic wackes=Q<95%and F>L

Lithic wackes=Q<95%and F<L

Quartz wackes=Q>95%

步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱。

利用步骤2和步骤4构建链接关系,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,将三角图的等边三角形的每条边都定义为0%到100%的刻度尺,将三角图左下角点到右下角点定义为长石F的含量,其范围为0%到100%,将顶点到左下角点定义为石英Q的含量,其范围为0%到100%,将顶点到右下角点定义为岩屑L的含量,其范围为0%到100%,计算三角形内任意一点P,所占比重,P所对应数值为V,因此设顶点为P1,左下角点为P0,右下角为P2,对应数值为V1,V0,V2,举例计算石英边值计算方法(顶点至左下角),首先做出平行于右侧三角形边的平行线,穿过三角图内一点,相交于左侧三角形边为一点,坐标定义为P′1,对应值为V′1,相交于底侧三角形边为一点,坐标定义为P′2,对应值为V′2,设定线段P′1至P占总线段P1至P2的比例T1,如公式:

T1=P′′-P/P1-P2

式中,P′1-P为点P′1至P的向量,P1-P2为P1至P2的向量。

另外设定线段P′1至P0占总线段P1至P0的比例T2,如公式:

T2=P′1-P0/P1-P0

式中,P′1-P0为点P′1至P0的向量,P1-P0为P1至P0的向量。

同理由于相似三角形对应边成比例的关系,P′2至P0的比例系数也为T2,类似的,向量P′2至P′1相对与向量P2至P1的比例系数同样也为T2

根据向量定理可知:

P′1-P0=(P′1-P0)+(P′1-P)

式中,P′1-P0为点P′1至P0的向量,P′1-P0为P′1至P0的向量,P′1-P为P′1至P的向量,首尾两向量和为首到尾相连的第三向量,根据比例值可以换算为:

T2*(P1-P0)=(P-P0)+T1*(P2-P1)

顶点为P1,左下角点为P0,右下角为P2,,分别对应坐标点(x1,y1),(x0,y0),(x2,y2),公式可以进一步细化成:

式中,x1-x0代表P1所对应的点(x1,y1)中x1减去P0所对应的点(x0,y0),是数值相减,并不是x1到x0的向量,同理x2-x1,代表P2所对应的点(x2,y2)中x2减去P1所对应的点(x1,y1),是数值相减,并不是x2到x1的向量。可以利用(x1,y1),(x0,y0),(x2,y2),求出对应T1,T2值。

因此,最终可以算出石英边值,V′1对应石英边值:

V′1=(1-T2)*V0+T2*V1

同理,可以求出三角图内一点,对应的岩屑,长石的边值,

岩屑边值V′2:V′2=(1-T1)*V2+T1*V0

长石边值V′3:V′3=1-V′1-V′2

最后通过砂岩图谱三角图展示出来。

实施例,本实施例选择沉积学文献砂岩数据作为输入数据集进行实验,并选择Python作为仿真平台。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:问答推荐方法及其装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!