产业链识别方法及系统

文档序号:1963795 发布日期:2021-12-14 浏览:16次 >En<

阅读说明:本技术 产业链识别方法及系统 (Industry chain identification method and system ) 是由 刘颖 邓飞飏 吴倩倩 聂宇达 兰舒 黄儒宁 于 2021-09-15 设计创作,主要内容包括:本发明提供一种产业链识别方法及系统,通过获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息;基于经营性交易流水数据和关键信息构建资金图谱;基于资金图谱,利用关联挖掘算法挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集;将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示。在本方案中,利用交易流水数据构建资金图谱,并利用关联挖掘算法挖掘资金图谱中满足支持度阈值的行业序列,将得到的产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间以及提高通用性。(The invention provides an industrial chain identification method and system, which are characterized in that transaction flow data are acquired and preprocessed to obtain business transaction flow data and key information for constructing a fund map; constructing a fund map based on the operational transaction flow data and the key information; based on the fund map, utilizing an association mining algorithm to mine an industry sequence meeting a support degree threshold value in the fund map to obtain an industry frequent sequence set; and taking the k industry sequences with the highest industry association degree as chain forming sequences to obtain and display an industry chain map. In the scheme, the fund map is constructed by using transaction flow data, the industry sequences meeting the support degree threshold value in the fund map are mined by using an association mining algorithm, the obtained k industry sequences with the highest industry association degree are used as chain forming sequences, and the industry chain map is obtained and displayed, so that the association degree between industries can be identified, the integrity and the sufficiency of identification are improved, the identification time is reduced, and the universality is improved.)

产业链识别方法及系统

技术领域

本发明涉及交易数据处理技术领域,尤其涉及一种产业链识别方法及系统。

背景技术

产业链是一个相对宏观的概念,描述产业部门间的技术经济关联。产业链中存在着大量的上下游关系和价值交换。为了了解产业部门间的技术经济关联,通常通过行业研报、媒体资讯、企业走访等方式,勾勒行业间关联,形成产业链条。

但是,这种产业链识别方式多依靠人力和调研,存在较强的主观判断,导致对于产业链的识别不够完整和充分,且调研梳理产业链也会花费较长的时间,难以及时获取产业变革数据。此外,通过行业研究构建的产业链,缺乏行业强弱关系的量化,对于行业与行业之间的关联密切程度无法识别。不同机构用于构建产业链的行业细分标准不同,所构建的产业链的行业体系也不同,落实到具体应用层面,不同的行业体系无法完全对应到国标行业划分上,通用性差。

由此可知,采用现有的产业链识别方法进行产业链识别,存在识别不完整、不充分,时间长,无法识别行业之间的关联程度以及通用性差的问题。

发明内容

有鉴于此,本发明实施例提供一种产业链识别方法及系统,以解决现有的产业链识别方法存在的识别不完整、不充分,时间长,无法识别行业之间的关联程度以及通用性差的问题。

为实现上述目的,本发明实施例提供如下技术方案:

本发明实施例第一方面公开了一种产业链识别方法,所述方法包括:

获取交易流水数据,对所述交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,所述关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别;

基于所述经营性交易流水数据和所述关键信息构建资金图谱;

基于所述资金图谱,利用关联挖掘算法PrefixSpan挖掘所述资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,所述行业序列具有产业关联度,所述产业关联度为所述行业序列在产业链上的权重;

将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,k为正整数。

可选的,所述获取交易流水数据,对所述交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,包括:

获取交易流水数据,对所述交易流水数据进行分词处理,得到分词结果;

基于所述分词结果,确定所述分词结果中表征用途的词语;

获取不同类型的所述交易流水数据中表征用途的词语,得到表征用途的词语集合;

基于所述分词结果中表征用途的词语和所述表征用途的词语集合,得到经营性交易流水数据和构建资金图谱的关键信息。

可选的,所述基于所述经营性交易流水数据和所述关键信息构建资金图谱,包括:

获取所述经营性交易流水数据中参与交易的企业和资金流出关系;

以所述企业为节点,以所述资金流出关系为关系边,以交易笔数和金额为所述关系边的属性,构建有向的资金图谱。

可选的,所述基于所述资金图谱,利用关联挖掘算法PrefixSpan挖掘所述资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,包括:

根据所述资金图谱,确定产业链核和行业序列;

以所述资金图谱上每一所述节点为根节点,在所述资金图谱中进行全路径搜索,获取预设周期内,所述根节点在预设资金中转次数以内发生的资金单向流动关系边,得到行业路径;

将所述行业路径上的每一手实际资金流量的最小值作为所述行业路径上的权值,并根据所述行业路径上的权值,得到所述行业路径上的最小边权重;

将所述行业路径上的最小边权重作为所述行业序列的权重倍数,得到具有产业关联度的行业序列;

基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在所述具有产业关联度的行业序列中挖掘所述资金图谱中满足所述支持度阈值的行业序列,得到频繁行业序列;

若所述频繁行业序列符合产业链图谱展示需求,输出所有符合所述产业链图谱展示需求的所述频繁行业序列,得到行业频繁序列集;

若所述频繁行业序列不符合产业链图谱展示需求,重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在所述具有产业关联度的行业序列中挖掘所述资金图谱中满足所述支持度阈值的行业序列,直至所述频繁行业序列符合产业链图谱展示需求。

可选的,所述基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在所述具有产业关联度的行业序列中挖掘所述资金图谱中满足所述支持度阈值的行业序列,得到频繁行业序列,包括:

根据所述行业序列的权重倍数,利用关联挖掘算法PrefixSpan对所述具有产业关联度的行业序列进行排序,并确定所述具有产业关联度的行业序列中的前缀序列和后缀序列,每一所述具有产业关联度的行业序列包含多个项集,每一所述项集包含1个或多个元素;

基于递归算法将所述后缀序列转换为所述前缀序列,直至所述具有产业关联度的行业序列不满足支持度阈值,得到频繁行业序列。

可选的,所述将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,包括:

获取所述行业频繁序列集中产业关联度最高的k个行业序列,将所述产业关联度最高的k个行业序列作为成链序列;

根据所述频繁行业序列集中各个所述频繁行业序列的产业关联度对所述频繁行业序列进行倒排序,得到倒排序结果;

以所述成链序列为产业链图谱的主干,根据所述倒排序结果,依次将所述频繁行业序列添加至所述产业链图谱中,得到所述产业链图谱并展示。

本发明实施例第二方面公开了一种产业链识别系统,所述系统包括:

预处理模块,用于获取交易流水数据,对所述交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,所述关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别;

构建模块,用于基于所述经营性交易流水数据和所述关键信息构建资金图谱;

挖掘模块,用于基于所述资金图谱,利用关联挖掘算法PrefixSpan挖掘所述资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,所述行业序列具有产业关联度,所述产业关联度为所述行业序列在产业链上的权重;

得到模块,用于将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,k为正整数。

可选的,所述预处理模块包括:

分词处理单元,用于获取交易流水数据,对所述交易流水数据进行分词处理,得到分词结果;

确定单元,用于基于所述分词结果,确定所述分词结果中表征用途的词语;

获取单元,用于获取不同类型的所述交易流水数据中表征用途的词语,得到表征用途的词语集合;

得到单元,用于基于所述分词结果中表征用途的词语和所述表征用途的词语集合,得到经营性交易流水数据和构建资金图谱的关键信息。

可选的,所述构建模块包括:

获取单元,用于获取所述经营性交易流水数据中参与交易的企业和资金流出关系;

构建单元,用于以所述企业为节点,以所述资金流出关系为关系边,以交易笔数和金额为所述关系边的属性,构建有向的资金图谱。

可选的,所述挖掘模块包括:

确定单元,用于根据所述资金图谱,确定产业链核和行业序列;

搜索与获取单元,用于以所述资金图谱上每一所述节点为根节点,在所述资金图谱中进行全路径搜索,获取预设周期内,所述根节点在预设资金中转次数以内发生的资金单向流动关系边,得到行业路径;

得到单元,用于将所述行业路径上的每一手实际资金流量的最小值作为所述行业路径上的权值,并根据所述行业路径上的权值,得到所述行业路径上的最小边权重;将所述行业路径上的最小边权重作为所述行业序列的权重倍数,得到具有产业关联度的行业序列;

挖掘单元,用于基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在所述具有产业关联度的行业序列中挖掘所述资金图谱中满足所述支持度阈值的行业序列,得到频繁行业序列;

第一挖掘处理单元,用于若所述频繁行业序列符合产业链图谱展示需求,输出所有符合所述产业链图谱展示需求的所述频繁行业序列,得到行业频繁序列集;

第二挖掘处理单元,用于若所述频繁行业序列不符合产业链图谱展示需求,重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在所述具有产业关联度的行业序列中挖掘所述资金图谱中满足所述支持度阈值的行业序列,直至所述频繁行业序列符合产业链图谱展示需求。

基于上述本发明实施例提供的一种产业链识别方法及系统,所述方法包括:获取交易流水数据,对所述交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,所述关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别;基于所述经营性交易流水数据和所述关键信息构建资金图谱;基于所述资金图谱,利用关联挖掘算法PrefixSpan挖掘所述资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,所述行业序列具有产业关联度,所述产业关联度为所述行业序列在产业链上的权重;将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示。在本方案中,利用交易流水数据构建资金图谱,并利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,将得到的产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种产业链识别方法的流程示意图;

图2为本发明实施例提供的一种进行预处理的流程示意图;

图3为本发明实施例提供的一种构建资金图谱的流程示意图;

图4为本发明实施例提供的一种构建资金图谱的应用场景图;

图5为本发明实施例提供的一种挖掘资金图谱中满足支持度阈值的行业序列的流程示意图;

图6为本发明实施例提供的一种构造频繁行业序列的流程示意图;

图7为本发明实施例提供的一种得到产业链图谱的流程示意图;

图8为本发明实施例提供的一种产业链识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

为了便于理解本发明的技术方案,对本发明中出现的技术术语进行说明:

链核:产业链中的核心行业。

产业链:产业链是产业经济学的概念,是各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态。

PrefixSpan(Prefix-Projected Pattern Growth,前缀投影的模式挖掘)算法:可以挖掘出满足最小支持度的频繁序列。

支持度:指几个关联数据在数据集中出现的次数占总数据集的比重。

由背景技术可知,采用现有的产业链识别方法进行产业链识别,存在识别不完整、不充分,时间长,无法识别行业之间的关联程度以及通用性差的问题。

因此,本发明实施例提供一种产业链识别方法及系统,在本方案中,利用交易流水数据构建资金图谱,并利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,将得到的产业关联度最高的行业序列作为成链序列,得到产业链图谱并展示,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

如图1所示,为本发明实施例提供的一种产业链识别方法的流程示意图,该方法主要包括以下步骤:

步骤S101:获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息。

在步骤S101中,关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别。

其中,参与交易的企业所属行业类别使用《国民经济行业分类》。

在具体实现步骤S101的过程中,企业与企业之间进行资金交易时,会产生大量的交易流水数据,获取这些交易流水数据并进行整合,以及进行预处理,得到经营性交易流水数据和参与交易的企业、交易方向和参与交易的企业所属行业类别等构建资金图谱的关键信息。

步骤S102:基于经营性交易流水数据和关键信息构建资金图谱。

在具体实现步骤S102的过程中,基于经营性交易流水数据和参与交易的企业、交易方向和参与交易的企业所属行业类别等关键信息构建资金图谱。

步骤S103:基于资金图谱,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集。

在步骤S103中,行业序列具有产业关联度,产业关联度为行业序列在产业链上的权重。

支持度阈值可以设定为0.001,也可以设定为0.002,本发明不作限定。

在具体实现步骤S103的过程中,根据资金图谱,确定需要挖掘的目标产业,并根据目标产业确定目标产业的产业链核和行业序列,以及设定支持度阈值,基于设定的支持度阈值,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足设定的支持度阈值的行业序列,得到行业频繁序列集。

步骤S104:将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示。

其中,k为正整数。

在步骤S104中,可以使用NetworkX展示产业链图谱。

在具体实现步骤S104的过程中,获取上述得到的行业频繁序列集中产业关联度最高的k个行业序列,得到产业关联度最高的k个行业序列,并将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并输入到NetworkX进行展示。

例如,获取上述得到的行业频繁序列集中产业关联度前100个行业序列,得到产业关联度前100个行业序列,并将产业关联度前100个行业序列作为成链序列,得到产业链图谱并输入到NetworkX进行展示。

基于本发明实施例提供的一种产业链识别方法,通过获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别;基于经营性交易流水数据和关键信息构建资金图谱;基于资金图谱,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,行业序列具有产业关联度,产业关联度为行业序列在产业链上的权重;将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示。在本方案中,利用交易流水数据构建资金图谱,并利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,将得到的产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

基于上述本发明实施例提供的一种产业链识别方法,执行步骤S101获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息的过程。如图2所示,为本发明实施例提供的一种进行预处理的流程示意图,主要包括以下步骤:

步骤S201:获取交易流水数据,对交易流水数据进行分词处理,得到分词结果。

在步骤S201中,可以运用Jieba分词对交易流水数据进行分词处理,也可以运用其他的分词工具对交易流水数据进行分词处理,如SnowNLP和THULAC等,本发明不作限定。

需要说明的是,Jieba分词是一个Ptyhon中文词组件,可以对中文文本进行分词、词性标注和关键词抽取等操作,并且支持自定义词典。

在具体实现步骤S201的过程中,企业与企业之间进行资金交易时,会产生大量的交易流水数据,获取这些交易流水数据,运用Jieba分词解析交易流水数据中的交易目的和交易备注等交易信息,对交易流水数据中非结构化字段进行分词处理,将非结构化数据转换为结构化数据,得到分词结果。

步骤S202:基于分词结果,确定分词结果中表征用途的词语。

在具体实现步骤S202的过程中,基于分词结果,确定分词结果中表征用途的词语,并基于表征用途的词语构建资金用途规则库,运用资金用途规则库识别和判断交易目的以及交易对手。

步骤S203:获取不同类型的交易流水数据中表征用途的词语,得到表征用途的词语集合。

在步骤S203中,交易流水数据的类型包括经营性交易流水数据,筹资交易流水数据,投资流水数据和账务调整交易流水数据,但不局限于此。

在具体实现步骤S203的过程中,将不同类型的交易流水数据中表征用途的词语存在一个集合中,获取这些表征用途的词语,得到表征用途的词语集合,

步骤S204:基于分词结果中表征用途的词语和表征用途的词语集合,得到经营性交易流水数据和构建资金图谱的关键信息。

在具体实现步骤S204的过程中,基于分词结果中表征用途的词语以及表征用途的词语集合,得到经营性交易流水数据、筹资交易流水数据、投资交易流水数据、账务调整交易流水数据和构建资金图谱的关键信息,并根据资金交易网络识别产业间的供求关系,将经营性交易流水数据作为构建资金图谱的数据基础,因为筹资交易流水数据,投资流水数据反映企业投融资活动而非实际经营活动,会干扰产业链识别的准确性。

基于本发明实施例提供的一种产业链识别方法,通过对交易流水数据进行分词处理,并利用得到的分词结果区分交易流水数据的类型,进而确定交易流水数据的类型,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

基于上述本发明实施例提供的一种产业链识别方法,执行步骤S102基于经营性交易流水数据和关键信息构建资金图谱的过程。如图3所示,为本发明实施例提供的一种构建资金图谱的流程示意图,主要包括以下步骤:

步骤S301:获取经营性交易流水数据中参与交易的企业和资金流出关系。

在具体实现步骤S301的过程中,从得到的经营性交易流水数据中获取参与交易的企业,以及企业间进行资金交易时的资金流出关系。

步骤S302:以企业为节点,以资金流出关系为关系边,以交易笔数和金额为关系边的属性,构建有向的资金图谱。

需要说明的是,资金图谱是有方向性的。例如,有两个企业A和B,这两个企业间的每一笔交易是带着A->B或B->A这样的方向的,可根据实际数据情况确定两个企业间是否双向。

资金图谱包含可获取的所有行业的资金支付信息。

在具体实现步骤S302的过程中,将参与交易的企业作为资金图谱的节点,将资金流出关系作为资金图谱的关系边,以及将企业间进行资金交易时产生的交易笔数和金额作为资金图谱的关系边的属性,构建有向的资金图谱。

例如,如图4所示,为本发明实施例提供的一种构建资金图谱的应用场景图。

在图4中,A、B、C、D和E为资金图谱的节点,即为参与交易的企业,箭头表示资金图谱的关系边,即为参与交易的企业之间的资金流出关系,如:A->B表示企业A和企业B进行资金交易时的资金流出关系,具体为资金从企业A流到企业B,箭头上面标注有“(笔数,金额)”,表示资金图谱的关系边的属性,因此,基于上述内容,可以构建有向的资金图谱。

基于本发明实施例提供的一种产业链识别方法,通过构建资金图谱的节点、关系边以及关系边的属性,进而形成有向的资金图谱,为后续识别行业之间的关联程度提供保障,避免单笔交易进行权重计算时出现精确度低的情况,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

基于上述本发明实施例提供的一种产业链识别方法,执行步骤S103基于资金图谱,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集的过程。如图5所示,为本发明实施例提供的一种挖掘资金图谱中满足支持度阈值的行业序列的流程示意图,主要包括以下步骤:

步骤S501:根据资金图谱,确定产业链核和行业序列。

在具体实现步骤S501的过程中,根据资金图谱,确定需要挖掘的目标产业,并根据目标产业确定目标产业的产业链核和行业序列。

步骤S502:以资金图谱上每一节点为根节点,在资金图谱中进行全路径搜索,获取预设周期内,根节点在预设资金中转次数以内发生的资金单向流动关系边,得到行业路径。

在步骤S502中,预设周期为观察期,可以为一年,也可以为半年,本发明不作限定。

资金中转次数指的是资金经过多少次中转,即预定手数。

资金中转次数可以为1-N手,也可以为2-N手,本发明不作限定。

在具体实现步骤S502的过程中,以资金图谱上每一节点为根节点,设定周期,在资金图谱中进行全局的全路径搜索,获取设定的周期内,根节点在预设资金中转次数以内发生的资金单向流动关系边,得到行业路径。

例如,如图4所示,以节点B为根节点,预设周期为一年,预设资金中转次数为2手,在资金图谱中进行全局的全路径搜索,获取一年内,根节点在2手以内发生的资金单向流动关系边,得到资金单向流动关系边BD和DE,根据资金单向流动关系边得到行业路径。

步骤S503:将行业路径上的每一手实际资金流量的最小值作为行业路径上的权值,并根据行业路径上的权值,得到行业路径上的最小边权重。

在步骤S503中,资金流量=笔数*金额,即为图4的关系边的属性。

在具体实现步骤S503的过程中,获取行业路径上的每一手实际资金流量,将每一手实际资金流量进行比较,得到最小的一手实际资金流量,即得到一手实际资金流量的最小值,将行业路径上的每一手实际资金流量的最小值作为行业路径上的权值,并根据行业路径上的权值,将行业路径上的每一手实际资金流量与每一手实际资金流量的最小值进行除法运算,得到行业路径上的最小边权重。

步骤S504:将行业路径上的最小边权重作为行业序列的权重倍数,得到具有产业关联度的行业序列。

在具体实现步骤S504的过程中,将得到的行业路径上的最小边权重作为行业序列的权重倍数,得到具有产业关联度的行业序列。

步骤S505:基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列,得到频繁行业序列。

在具体实现步骤S505的过程中,预先设定支持度阈值,基于设定的支持度阈值,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足设定的支持度阈值的行业序列,得到频繁行业序列。

步骤S506:判断频繁行业序列是否符合产业链图谱展示需求,若是,执行步骤S507,若否,执行步骤S508。

在具体实现步骤S506的过程中,判断频繁行业序列是否符合产业链图谱展示需求,若是,说明不需要再次进行频繁行业序列的挖掘,执行步骤S507,若否,说明需要再次进行频繁行业序列的挖掘,执行步骤S508。

步骤S507:输出所有符合产业链图谱展示需求的频繁行业序列,得到行业频繁序列集。

在具体实现步骤S507的过程中,确定得到的频繁行业序列符合产业链图谱展示需求,并获取符合产业链图谱展示需求的频繁行业序列,将所有符合产业链图谱展示需求的频繁行业序列进行输出,得到行业频繁序列集。

步骤S508:重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列,直至频繁行业序列符合产业链图谱展示需求。

在具体实现步骤S508的过程中,确定挖掘到的频繁行业序列不符合产业链图谱展示需求,重新设定新的支持度阈值,基于设定的新的支持度阈值,重新利用关联挖掘算法PrefixSpan挖掘资金图谱中满足设定的新的支持度阈值的行业序列,得到频繁行业序列。

若此时得到的频繁行业序列符合产业链图谱展示需求,则进行下一步操作。

若此时得到的频繁行业序列不符合产业链图谱展示需求,继续执行重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列这一操作,直至得到的频繁行业序列符合产业链图谱展示需求。

例如,当前得到的频繁行业序列为<d><db><dc><dcb>,确定该频繁行业序列<d><db><dc><dcb>符合产业链图谱展示需求,则将该频繁行业序列<d><db><dc><dcb>进行输出,得到行业频繁序列集。

又例如,当前得到的频繁行业序列为<b><bc><bd><bdc>,确定该频繁行业序列<b><bc><bd><bdc>不符合产业链图谱展示需求,则继续执行重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列这一操作,直至得到的频繁行业序列符合产业链图谱展示需求。

基于本发明实施例提供的一种产业链识别方法,通过根据上述构建的资金图谱,并基于设定的支持度阈值,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,为后续得到产业链图谱作准备,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

基于上述本发明实施例提供的一种产业链识别方法,执行步骤S505基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列,得到频繁行业序列的过程。如图6所示,为本发明实施例提供的一种构造频繁行业序列的流程示意图,主要包括以下步骤:

步骤S601:根据行业序列的权重倍数,利用关联挖掘算法PrefixSpan对具有产业关联度的行业序列进行排序,并确定具有产业关联度的行业序列中的前缀序列和后缀序列。

在步骤S601中,每一具有产业关联度的行业序列包含多个项集,每一项集包含1个或多个元素。

在具体实现步骤S601的过程中,根据前述得到的行业序列的权重倍数,利用关联挖掘算法PrefixSpan对具有产业关联度的行业序列进行排序,得到排序结果,并根据排序结果确定具有产业关联度的行业序列中的前缀序列和后缀序列。

步骤S602:基于递归算法将后缀序列转换为前缀序列,直至具有产业关联度的行业序列不满足支持度阈值,得到频繁行业序列。

在具体实现步骤S602的过程中,将后缀序列转换为前缀序列,在转换过程中,从后缀序列中提取一个第一项集,并将第一项集添加至前缀序列,从左至右扫描前缀序列,确定第一项集中的元素在前缀序列中对应的第二项集,更改第二项集,并根据转换过程中的转换规则,利用递归算法继续进行递归处理,直至具有产业关联度的行业序列不满足支持度阈值,得到频繁行业序列。

基于本发明实施例提供的一种产业链识别方法,通过确定具有产业关联度的行业序列中的前缀序列和后缀序列,并将后缀序列转换为前缀序列,得到频繁行业序列,为后续得到产业链图谱作准备,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

基于上述本发明实施例提供的一种产业链识别方法,执行步骤S104将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示的过程。如图7所示,为本发明实施例提供的一种得到产业链图谱的流程示意图,主要包括以下步骤:

步骤S701:获取行业频繁序列集中产业关联度最高的k个行业序列,将产业关联度最高的k个行业序列作为成链序列。

在具体实现步骤S701的过程中,获取上述得到的行业频繁序列集中产业关联度最高的k个行业序列,得到产业关联度最高的k个行业序列,并将产业关联度最高的k个行业序列作为成链序列。

步骤S702:根据频繁行业序列集中各个频繁行业序列的产业关联度对频繁行业序列进行倒排序,得到倒排序结果。

在具体实现步骤S702的过程中,选定要进入产业链图谱展示的频繁行业序列,根据频繁行业序列集中各个频繁行业序列的产业关联度对频繁行业序列进行倒排序,得到倒排序结果。

步骤S703:以成链序列为产业链图谱的主干,根据倒排序结果,依次将频繁行业序列添加至产业链图谱中,得到产业链图谱并展示。

在步骤S703中,可以使用NetworkX展示产业链图谱。

在具体实现步骤S703的过程中,以成链序列为产业链图谱的主干,根据倒排序结果,先依次将产业关联度高的频繁行业序列添加至产业链图谱中,形成长链,再依次将产业关联度低的频繁行业序列添加至产业链图谱中,形成短链,并判断新加入的短链是否包含在长链中,若是,减少长链的支持度阈值,更新短链的支持度阈值,得到产业链图谱并输入到NetworkX进行展示。

需要说明的是,例如,在设定的支持度阈值下,有两个行业序列A和B,<A,B>是频繁的,<B,A>也是频繁的,在展示产业链图谱的构建函数中设置相应参数,以支持根据资金流量大小决定上下游方向。

基于本发明实施例提供的一种产业链识别方法,通过以产业关联度最高的k个行业序列作为成链序列,避免产业链中处理“环型”链路,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

与上述本发明实施例示出的一种产业链识别方法相对应,本发明实施例还对应提供了一种产业链识别系统,如图8所示,该产业链识别系统包括:预处理模块81、构建模块82、挖掘模块83和得到模块84。

预处理模块81,用于获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别。

构建模块82,用于基于经营性交易流水数据和关键信息构建资金图谱。

挖掘模块83,用于基于资金图谱,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,行业序列具有产业关联度,产业关联度为行业序列在产业链上的权重。

得到模块84,用于将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,k为正整数。

需要说明的是,上述本发明实施例公开的产业链识别系统中的各个模块或各个单元具体的原理和执行过程,与上述本发明实施产业链识别方法相同,可参见上述本发明实施例公开的产业链识别方法中相应的部分,这里不再进行赘述。

基于本发明实施例提供的一种产业链识别系统,通过获取交易流水数据,对交易流水数据进行预处理,得到经营性交易流水数据和构建资金图谱的关键信息,关键信息至少包含参与交易的企业、交易方向和参与交易的企业所属行业类别;基于经营性交易流水数据和关键信息构建资金图谱;基于资金图谱,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,行业序列具有产业关联度,产业关联度为行业序列在产业链上的权重;将产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示。在本方案中,利用交易流水数据构建资金图谱,并利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,将得到的产业关联度最高的k个行业序列作为成链序列,得到产业链图谱并展示,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

可选的,基于上述图8示出的预处理模块81,所述预处理模块81还包括:分词处理单元、确定单元、获取单元和得到单元。

分词处理单元,用于获取交易流水数据,对交易流水数据进行分词处理,得到分词结果。

确定单元,用于基于分词结果,确定分词结果中表征用途的词语。

获取单元,用于获取不同类型的交易流水数据中表征用途的词语,得到表征用途的词语集合。

得到单元,用于基于分词结果中表征用途的词语和表征用途的词语集合,得到经营性交易流水数据和构建资金图谱的关键信息。

基于本发明实施例提供的一种产业链识别系统,通过对交易流水数据进行分词处理,并利用得到的分词结果区分交易流水数据的类型,进而确定交易流水数据的类型,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

可选的,基于上述图8示出的构建模块82,所述构建模块82还包括:获取单元和构建单元。

获取单元,用于获取经营性交易流水数据中参与交易的企业和资金流出关系。

构建单元,用于以企业为节点,以资金流出关系为关系边,以交易笔数和金额为关系边的属性,构建有向的资金图谱。

基于本发明实施例提供的一种产业链识别系统,通过构建资金图谱的节点、关系边以及关系边的属性,进而形成有向的资金图谱,为后续识别行业之间的关联程度提供保障,避免单笔交易进行权重计算时出现精确度低的情况,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

可选的,基于上述图8示出的挖掘模块83,所述挖掘模块83还包括:确定单元、搜索与获取单元、得到单元、挖掘单元、第一挖掘处理单元和第二挖掘处理单元。

确定单元,用于根据资金图谱,确定产业链核和行业序列。

搜索与获取单元,用于以资金图谱上每一节点为根节点,在资金图谱中进行全路径搜索,获取预设周期内,根节点在预设资金中转次数以内发生的资金单向流动关系边,得到行业路径。

得到单元,用于将行业路径上的每一手实际资金流量的最小值作为行业路径上的权值,并根据行业路径上的权值,得到行业路径上的最小边权重;将行业路径上的最小边权重作为行业序列的权重倍数,得到具有产业关联度的行业序列。

挖掘单元,用于基于预先设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列,得到频繁行业序列。

第一挖掘处理单元,用于若频繁行业序列符合产业链图谱展示需求,输出所有符合产业链图谱展示需求的频繁行业序列,得到行业频繁序列集。

第二挖掘处理单元,用于若频繁行业序列不符合产业链图谱展示需求,重新基于设定的支持度阈值和关联挖掘算法PrefixSpan,在具有产业关联度的行业序列中挖掘资金图谱中满足支持度阈值的行业序列,直至频繁行业序列符合产业链图谱展示需求。

基于本发明实施例提供的一种产业链识别系统,通过根据上述构建的资金图谱,并基于设定的支持度阈值,利用关联挖掘算法PrefixSpan挖掘资金图谱中满足支持度阈值的行业序列,得到行业频繁序列集,为后续得到产业链图谱作准备,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

可选的,基于上述图8示出的挖掘模块83,所述挖掘单元具体用于:

根据行业序列的权重倍数,利用关联挖掘算法PrefixSpan对具有产业关联度的行业序列进行排序,并确定具有产业关联度的行业序列中的前缀序列和后缀序列,每一具有产业关联度的行业序列包含多个项集,每一项集包含1个或多个元素;基于递归算法将后缀序列转换为前缀序列,直至具有产业关联度的行业序列不满足支持度阈值,得到频繁行业序列。

基于本发明实施例提供的一种产业链识别系统,通过确定具有产业关联度的行业序列中的前缀序列和后缀序列,并将后缀序列转换为前缀序列,得到频繁行业序列,为后续得到产业链图谱作准备,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

可选的,基于上述图8示出的得到模块84,所述得到模块84具体用于:

获取行业频繁序列集中产业关联度最高的k个行业序列,将产业关联度最高的k个行业序列作为成链序列;根据频繁行业序列集中各个频繁行业序列的产业关联度对频繁行业序列进行倒排序,得到倒排序结果;以成链序列为产业链图谱的主干,根据倒排序结果,依次将频繁行业序列添加至产业链图谱中,得到产业链图谱并展示。

基于本发明实施例提供的一种产业链识别系统,通过以产业关联度最高的k个行业序列作为成链序列,避免产业链中出现“环型”链路,从而能够识别行业之间的关联程度,提高识别的完整性和充分性,减少识别时间,以及提高通用性。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种知识图谱数据融合方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!