一种面向xbrl领域本体的语义基元提取方法

文档序号:1087412 发布日期:2020-10-20 浏览:7次 >En<

阅读说明:本技术 一种面向xbrl领域本体的语义基元提取方法 (Semantic element extraction method for XBRL field ontology ) 是由 潘定 叶迪 梁倬骞 于 2020-07-14 设计创作,主要内容包括:发明公开了一种面向XBRL领域本体的语义基元提取方法,具体步骤为:步骤1、通过会计词典中提取、整理会计术语的定义文本;步骤2、对文本进行切词、去停用词和去重处理;步骤3、构建会计术语有向网络图;步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据,该面向XBRL领域本体的语义基元提取方法,解决了目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性的问题。(The invention discloses a semantic element extraction method for an XBRL field ontology, which comprises the following specific steps: step 1, extracting and sorting a definition text of an accounting term from an accounting dictionary; step 2, performing word segmentation, word stop removal and duplicate removal on the text; step 3, constructing an accounting term directed network graph; and 4, after a network graph is constructed based on an accounting dictionary, the PageRank value of each node is calculated by utilizing MATLAB R2016a and is used as a basis for semantic element extraction, and the semantic element extraction method oriented to the XBRL field ontology solves the problem that the semantic element extraction difficulty is attempted to be solved based on the currently popular machine learning algorithm, although labor and time costs are effectively reduced, the extracted terms have a large amount of noise, the field characteristics are not outstanding, and the validity of the extracted terms cannot be verified.)

一种面向XBRL领域本体的语义基元提取方法

技术领域

发明涉及XBRL领域本体技术领域,具体为一种面向XBRL领域本体的语义基元提取方法。

背景技术

领域本体是对特定领域中共享概念模型的规范说明,通过对概念及其关系的表示反映了该领域的知识结构,有助于增强人机交互作用及机器间的信息交换,面向财务报告领域时,XBRL领域本体就是基于共享、形式化原则下的财务报告术语体系和相关实例的集合,因此也被称为形式本体。通过XBRL 领域本体可以自动生成所需的分类标准,同时支持对财务数据的推理校验,因此对XBRL领域本体的研究是十分有意义的,但就目前来说,财务报告领域还没有构建出系统、完善的本体,且基于本体论的财务报告研究多集中在理论过程的讨论和简单验证上,并未系统完成对本体构建的具体实现。主要原因在于XBRL领域还没有一种专业的概念体系指导标记的运用,并且XBRL财务报告中概念的语义性较弱,影响了其制作和数据共享。

当前XBRL领域缺少标准化的知识描述,因此在解决计算机对XBRL财务信息可读性方面遇到了困难,阻碍了XBRL的使用广度和发展前景,目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性。

发明内容

针对现有技术的不足,发明提供了一种面向XBRL领域本体的语义基元提取方法,解决了目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性的问题。

为实现以上目的,发明通过以下技术方案予以实现:一种面向XBRL领域本体的语义基元提取方法,具体步骤为:

步骤1、通过会计词典中提取、整理会计术语的定义文本;

步骤2、对文本进行切词、去停用词和去重处理;

步骤3、构建会计术语有向网络图;

步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据;

步骤5、基于同义词林的语义基元进行合并。

优选的,所述步骤1中本文手动提取、整理了会计术语的定义文本,并汇总于Excel中。

优选的,步骤2具体为利用Python自带的jieba包进行切词,将会计词典中的4会计术语导入自定义词典,接着建立停用词表,并对每个术语的定义文本中的词语进行去重处理。

优选的,步骤3中具体构造思路是以词汇及切词后的定义文本为节点,词汇和定义文本间有一条有向边,具体是词汇指向若干个定义文本词汇,并且一词汇A的定义文本中出现另一个词汇B,那么A、B之间就存在一条有向边,具体是A指向B的一条有向边。

优选的,所述步骤4中语义基元存在于环路中PageRank值最大的点和非环路中的叶子节点。

优选的,所述步骤5中对提取出的语义基元存在着定义相近形式不同的词汇予以合并。

优选的,Excel用于会计词典的结构化整理。

有益效果

发明提供了一种面向XBRL领域本体的语义基元提取方法。具备以下有益效果:

该面向XBRL领域本体的语义基元提取方法,通过语义基元基于同义词林予以合并,较大程度的保证了语义基元的表达效率,实现以最小的语义基元规模表示最大的领域知识范围,解决了目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性的问题。

附图说明

图1为本发明面向XBRL领域本体的语义基元提取方法的流程图。

具体实施方式

下面将结合发明实施例中的附图,对发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于发明保护的范围。

请参阅图1,发明提供一种技术方案:一种面向XBRL领域本体的语义基元提取方法,具体步骤为:

步骤1、通过会计词典中提取、整理会计术语的定义文本;

步骤2、对文本进行切词、去停用词和去重处理;

步骤3、构建会计术语有向网络图。

步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据。

步骤5、基于同义词林的语义基元进行合并。

进一步地,步骤1中本文手动提取、整理了会计术语的定义文本,并汇总于Excel中。

进一步地,步骤2具体为利用Python自带的jieba包进行切词,将会计词典中的4会计术语导入自定义词典,接着建立停用词表,并对每个术语的定义文本中的词语进行去重处理。

进一步地,步骤3中具体构造思路是以词汇及切词后的定义文本为节点,词汇和定义文本间有一条有向边,具体是词汇指向若干个定义文本词汇,并且一词汇A的定义文本中出现另一个词汇B,那么A、B之间就存在一条有向边,具体是A指向B的一条有向边。

进一步地,步骤4中语义基元存在于环路中PageRank值最大的点和非环路中的叶子节点。

进一步地,步骤5中对提取出的语义基元存在着定义相近形式不同的词汇予以合并。

进一步地,Excel用于会计词典的结构化整理。

一种面向XBRL领域本体的语义基元提取方法,具体步骤为:步骤1、通过会计词典中提取、整理会计术语的定义文本,步骤1中本文手动提取、整理了会计术语的定义文本,并汇总于Excel中,Excel用于会计词典的结构化整理;

本发明中步骤2、对文本进行切词、去停用词和去重处理,步骤2具体为利用Python自带的jieba包进行切词,将会计词典中的4会计术语导入自定义词典,接着建立停用词表,并对每个术语的定义文本中的词语进行去重处理;

本发明中步骤3、构建会计术语有向网络图;步骤3中具体构造思路是以词汇及切词后的定义文本为节点,词汇和定义文本间有一条有向边,具体是词汇指向若干个定义文本词汇,并且一词汇A的定义文本中出现另一个词汇B,那么A、B之间就存在一条有向边,具体是A指向B的一条有向边;

本发明中步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据,步骤4中语义基元存在于环路中PageRank值最大的点和非环路中的叶子节点;

本发明中步骤5、基于同义词林的语义基元进行合并,步骤5中对提取出的语义基元存在着定义相近形式不同的词汇予以合并。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,发明的范围由所附权利要求及其等同物限定。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:离线语义解析方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!