基于知识图谱的面向工业特征向量改进分析方法
阅读说明:本技术 基于知识图谱的面向工业特征向量改进分析方法 (Knowledge graph-based industrial feature vector-oriented improved analysis method ) 是由 罗红宇 吴家宏 于 2021-08-12 设计创作,主要内容包括:本发明涉及一种基于知识图谱的面向工业特征向量改进分析方法,该方法包括:获取待分析的工业数据,工业数据包括第一特征向量和数据属性,数据属性包括所属企业类别,工业数据所属类别;从知识图谱中确定满足数据属性的子图;根据子图对第一特征向量进行改进,对改进后的第一特征向量进行分析;其中知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量,实现了快速的信息分析。(The invention relates to a knowledge graph-based industrial feature vector-oriented improved analysis method, which comprises the following steps: acquiring industrial data to be analyzed, wherein the industrial data comprises a first feature vector and data attributes, and the data attributes comprise enterprise categories to which the industrial data belong and categories to which the industrial data belong; determining subgraphs satisfying data attributes from the knowledge graph; improving the first characteristic vector according to the subgraph, and analyzing the improved first characteristic vector; the knowledge graph comprises a first-level point, a second-level point and a third-level point, wherein the first-level point corresponds to an enterprise category, the second-level point corresponds to a product category, the third-level point corresponds to an enterprise, the attribute of the third-level point is a second feature vector of the product category corresponding to the second-level point of the corresponding enterprise, the attribute of the second-level point is determined according to the attribute of the third-level point connected with the second-level point, and the attribute of the second-level point comprises a weight and a third feature vector, so that rapid information analysis is realized.)
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于知识图谱的面向工业特征向量改进分析方法。
背景技术
随着工业现代化的发展以及市场的完善,生产性的工业企业呈现数量激增,且更新率较快。相应的,工业数据也呈现爆炸式增长。在剧增的工业数据中,如何快速的进行信息分析成为亟待解决的问题。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种基于知识图谱的面向工业特征向量改进分析方法。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于知识图谱的面向工业特征向量改进分析方法,所述方法包括:
S101,获取待分析的工业数据,所述工业数据包括第一特征向量和数据属性,所述数据属性包括所属企业类别,工业数据所属类别;
S102,从知识图谱中确定满足所述数据属性的子图;
S103,根据所述子图对所述第一特征向量进行改进,对改进后的第一特征向量进行分析;
其中知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量。
可选地,所述S102之前,还包括:
S201,获取各企业的属性,所述属性包括企业类别、产品类别、每类产品的第二特征向量;
S202,根据企业类别将企业进行分类,每一分类对应知识图谱中的一个一级点,各一级点之间连接一条边;
S204,根据产品类别将每一分类中的企业进行再次分类,再次分的每一类对应知识图谱中的一个二级点,各二级点与其所属第一分类对应的一级点之间连接一条边;
S205,每个再次分类中的企业均对应知识图谱中一个三级点,在各三级点与其所属再次分类对应的二级点之间连接一条边,各三级点的属性为所对应企业所属二级点对应产品类别的第二特征向量;
S206,根据二级点连接的三级点属性,确定各二级点的属性。
可选地,所述二级点的属性包括权重和第三特征向量;
所述S206具体包括:
对于任一二级点,
S301,确定所述任一二级点连接的所有三级点的属性;
S302,抽取每个S301中各三级点属性中的特征值,形成第一特征集;
S303,确定所有第一特征集的并集和交集;
S304,将所述任一二级点的权重确定为交集中元素数量/并集中数量;
S305,针对并集中的每个元素,确定包含该元素的第一特征集数量,将该数量作为该元素对应的特征值;
S306,将每个元素对应的特征以及对应的特征值形成第三特征向量。
可选地,所述S102具体包括:
S102-1,在知识图谱中,根据各一级点所对应的企业类别与所述企业类别之间的关系,确定目标一级点;
S102-2,根据目标一级点连接的各二级点所对应的产品类别与所述工业数据所属类别之间的关系,确定目标二级点;
S102-3,将目标二级点、与所述目标二级点连接的一级点形成的图,确定为满足所述数据属性的子图。
可选地,所述S102-1具体包括:
查询预先设置的企业类别之间的包含度列表,确定各一级点对应的企业类别与所述企业类别之间的包含度I1;
将I1大于预设第一阈值的一级点确定为目标一级点。
可选地,所述S102-2具体包括:
查询预先设置的产品类别之间的包含度列表,确定与目标一级点连接的各二级点与所述工业数据所属类别之间的包含度I2;
确定与目标一级点连接的各二级点的第一值=与目标一级点连接的各二级点的I2*与其连接的一级点的I1;
将I2大于预设第二阈值的二级点确定为目标二级点;
确定I2大于预设第二阈值的二级点的第一值的最小值min;
对于I2不大于预设第二阈值的二级点,若其第一值不小于min,则将其也确定为目标二级点。
可选地,所述S103具体包括:
S103-1,获取子图中所有二级点的属性;
S103-2,将子图中各二级点的三级特征向量中的特征,形成相应的第二特征集A1;
S103-3,将第一特征向量中的特征,形成第三特征集A2;
S103-4,根据各A1对A2进行优化,得到优化后的特征集A2’;
S103-5,将A2’形成向量,该向量作为改进后的第一特征向量;
S103-6,对改进后的第一特征向量进行分析。
可选地,所述S103-4具体包括:
确定第一集合=所有A1以及A2之间的交集;
确定第二集合=A2-第一集合;
将第一集合中的元素均作为A2’中的元素;
根据各A1与第二集合之间的关系,从第二集合选择元素作为A2’中的元素。
可选地,所述根据各A1与第二集合之间的关系,从第二集合选择元素作为A2’中的元素,包括:
依次选择第二集合中的一个元素,将包含选择的元素的A1作为第三集合;在第三集合对应的第三特征向量中,确定选择的元素对应的特征值;将第三集合对应二级点的权重,确定为选择的元素对应的权重;
根据各选择的元素在各第三集合中对应的特征值和权重,选择作为A2’中的元素。
可选地,所述根据各选择的元素在各第三集合中对应的特征值和权重,选择作为A2’中的元素具体包括:
对于任一选择的元素e,确定各第三集合的第七值=各第三集合中e的特征值*e的权重;确定e的第八值=所有第七值的均值*第三集合数量/A1的数量;
将所有元素的第八值的最大值/(子图中各一级点的度的最大值*0.6)。
(三)有益效果
本发明的基于知识图谱的面向工业特征向量改进分析方法,包括:获取待分析的工业数据,工业数据包括第一特征向量和数据属性,数据属性包括所属企业类别,工业数据所属类别;从知识图谱中确定满足数据属性的子图;根据子图对第一特征向量进行改进,对改进后的第一特征向量进行分析;其中知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量,实现了快速的信息分析。
附图说明
图1为本发明一实施例提供的一种基于知识图谱的面向工业特征向量改进分析方法的流程示意图;
图2为本发明一实施例提供的知识图谱的结构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
随着工业现代化的发展以及市场的完善,生产性的工业企业呈现数量激增,且更新率较快。相应的,工业数据也呈现爆炸式增长。在剧增的工业数据中,如何快速的进行信息分析成为亟待解决的问题。
基于此,本发明提供一种基于知识图谱的面向工业特征向量改进分析方法,该方法包括:获取待分析的工业数据,工业数据包括第一特征向量和数据属性,数据属性包括所属企业类别,工业数据所属类别;从知识图谱中确定满足数据属性的子图;根据子图对第一特征向量进行改进,对改进后的第一特征向量进行分析;其中知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量,实现了快速的信息分析。
参见图1,本实施例提供的基于知识图谱的面向工业特征向量改进分析方法实现流程如下:
S101,获取待分析的工业数据。
其中,工业数据包括第一特征向量和数据属性,数据属性包括所属企业类别(如工业、运输、服务业等),工业数据所属类别(如螺栓、螺母等)。
其中特征向量的内容根据工业数据的不同也不同,根据实际情况确定即可。
S102,从知识图谱中确定满足数据属性的子图。
其中,知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量。
也就是说,在执行S102之前会构建一个知识图谱,该知识图谱的构建过程如下:
S201,获取各企业的属性。
其中,属性包括企业类别(如工业、运输、服务业等)、产品类别(如螺栓、螺母等)、每类产品的第二特征向量。
S202,根据企业类别将企业进行分类,每一分类对应知识图谱中的一个一级点,各一级点之间连接一条边。
如图2所示,将企业按工业、运输、服务业等企业类别进行分类,工业对应图2中的一级点P1,运输对应图2中的一级点P2,服务对应图2中的一级点P3。且P1、P2、P3之间均连接一条边。
S204,根据产品类别将每一分类中的企业进行再次分类,再次分的每一类对应知识图谱中的一个二级点,各二级点与其所属第一分类对应的一级点之间连接一条边。
如图2所示,将工业中的企业按螺栓、螺母等产品类别进行分类,对应知识图谱中的二级点p11、p12、p13,p11、p12、p13与其所属第一分类对应的一级点P1之间连接一条边。
S205,每个再次分类中的企业均对应知识图谱中一个三级点,在各三级点与其所属再次分类对应的二级点之间连接一条边,各三级点的属性为所对应企业所属二级点对应产品类别的第二特征向量。
例如,图2中的三级点p121和p121均对应一个企业。且该两个企业的企业类别为P1对应的类别,该两个企业生产的产品类别为p12。
需要说明的是,存在一个企业生产多种类别产品的情况,也就是说,三级点中可能存在分布于不同一级点和/或二级点下的多个三级点均对应一个企业的情况。也就是说,一个企业在知识图谱中不一定只对应一个三级点,可能对应多个三级点。
S206,根据二级点连接的三级点属性,确定各二级点的属性。
其中,二级点的属性包括权重和第三特征向量。
对于任一二级点,其属性(包括权重和第三特征向量)的确定方法为:
S301,确定任一二级点连接的所有三级点的属性。
S302,抽取每个S301中各三级点属性中的特征值,形成第一特征集。
S303,确定所有第一特征集的并集和交集。
S304,将任一二级点的权重确定为交集中元素数量/并集中数量。
S305,针对并集中的每个元素,确定包含该元素的第一特征集数量,将该数量作为该元素对应的特征值。
S306,将每个元素对应的特征以及对应的特征值形成第三特征向量。
基于上述知识图谱,本步骤的实现过程为:
S102-1,在知识图谱中,根据各一级点所对应的企业类别与企业类别之间的关系,确定目标一级点。
具体的,查询预先设置的企业类别之间的包含度列表,确定各一级点对应的企业类别与企业类别之间的包含度I1。将I1大于预设第一阈值的一级点确定为目标一级点。
企业类别之间具有包含关系(例如,工业包括制造业),包含度是根据包含关系预先设置的。
若不存在目标一级点,则此种情况无需通过知识图谱对特征向量改进。即不再执行本流程,直接按现有方法对该特征向量进行分析即可。
S102-2,根据目标一级点连接的各二级点所对应的产品类别与工业数据所属类别之间的关系,确定目标二级点。
具体的,
1、查询预先设置的产品类别之间的包含度列表,确定与目标一级点连接的各二级点与工业数据所属类别之间的包含度I2。
产品类别之间也具有包含关系,产品类别之间的包含度是也根据包含关系预先设置的。
2、确定与目标一级点连接的各二级点的第一值=与目标一级点连接的各二级点的I2*与其连接的一级点的I1。
3、将I2大于预设第二阈值的二级点确定为目标二级点。
4、确定I2大于预设第二阈值的二级点的第一值的最小值min。
5、对于I2不大于预设第二阈值的二级点,若其第一值不小于min,则将其也确定为目标二级点。
若不存在目标二级点,则此种情况无需通过知识图谱对特征向量改进。即不再执行本流程,直接按现有方法对该特征向量进行分析即可。
S102-3,将目标二级点、与目标二级点连接的一级点形成的图,确定为满足数据属性的子图。
也就是说,子图是知识图谱中的一个子图。
S103,根据子图对第一特征向量进行改进,对改进后的第一特征向量进行分析。
具体的,根据子图对第一特征向量进行改进的过程如下:
S103-1,获取子图中所有二级点的属性。
S103-2,将子图中各二级点的三级特征向量中的特征,形成相应的第二特征集A1。
S103-3,将第一特征向量中的特征,形成第三特征集A2。
S103-4,根据各A1对A2进行优化,得到优化后的特征集A2’。
例如:
1)确定第一集合=所有A1以及A2之间的交集。
2)确定第二集合=A2-第一集合。
3)将第一集合中的元素均作为A2’中的元素。
4)根据各A1与第二集合之间的关系,从第二集合选择元素作为A2’中的元素。
具体的,依次选择第二集合中的一个元素,将包含选择的元素的A1作为第三集合。在第三集合对应的第三特征向量中,确定选择的元素对应的特征值。将第三集合对应二级点的权重,确定为选择的元素对应的权重。根据各选择的元素在各第三集合中对应的特征值和权重,选择作为A2’中的元素。
其中,根据各选择的元素在各第三集合中对应的特征值和权重,选择作为A2’中的元素具体包括:
对于任一选择的元素e,确定各第三集合的第七值=各第三集合中e的特征值*e的权重。确定e的第八值=所有第七值的均值*第三集合数量/A1的数量。
将所有元素的第八值的最大值/(子图中各一级点的度的最大值*0.6)。
S103-5,将A2’形成向量,该向量作为改进后的第一特征向量。
S103-6,对改进后的第一特征向量进行分析。
本实施例的基于知识图谱的面向工业特征向量改进分析方法,通过知识图谱对各企业的特征向量进行分析,通过知识图谱中的二级点属性对生产同一产品类别中的企业的特征向量进行总结,再基于知识图谱中与待分析的工业数据所对应的产品类别的特征向量对待分析的工业数据的特征向量进行改进,实现了特征向量的精简,使得改进后的特征向量具有维度小且与产品类别相关度更高的特点,基于改进后的特征向量进行分析,不仅可以提升分析速度,还可以提升分析的准确性。
一种基于知识图谱的面向工业特征向量改进分析方法,该方法包括:获取待分析的工业数据,工业数据包括第一特征向量和数据属性,数据属性包括所属企业类别,工业数据所属类别;从知识图谱中确定满足数据属性的子图;根据子图对第一特征向量进行改进,对改进后的第一特征向量进行分析;其中知识图谱中包括一级点、二级点和三级点,其中一级点与企业类别对应,二级点与产品类别对应,三级点与企业对应,三级点的属性为其对应企业所属二级点对应产品类别的第二特征向量,二级点的属性根据与其连接的三级点属性确定,二级点的属性包括权重和第三特征向量,实现了快速的信息分析。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:基于微博舆情的城市间关系测度系统、方法、设备