基于本体的工程数据关键字检索方法

文档序号:1816117 发布日期:2021-11-09 浏览:16次 >En<

阅读说明:本技术 基于本体的工程数据关键字检索方法 (Project data keyword retrieval method based on ontology ) 是由 刘木强 张徵 杨卫东 于 2021-08-09 设计创作,主要内容包括:本发明提供一种基于本体的工程数据关键字检索方法,其特征在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据术语表,对工程数据术语表进行倒排索引生成倒排索引表;步骤S2,将工程数据中的若干类文档处理为XML快照并进行倒排索引构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用户查询的关键字,通过执行引擎采用倒排索引表将关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照,构建排序模型,由排序模型基于快照统计表的数据计算相关度得分;步骤S5,对相关度得分进行排序,找到每个XML快照对应的若干类文档,作为查询结果集返回给用户。(The invention provides an ontology-based project data keyword retrieval method, which is characterized by comprising the following steps of: step S1, introducing a domain ontology of the engineering data and an engineering data glossary, and performing reverse indexing on the engineering data glossary to generate a reverse index table; step S2, processing a plurality of documents in the engineering data into XML snapshots and performing inverted index to construct snapshot statistical tables; step S3, based on the matching rules of keywords and ontology concepts, matching keywords queried by a user to proper concepts in an ontology by an execution engine through an inverted index table, and searching associated concepts based on the ontology to obtain a concept expansion set; step S4, obtaining XML snapshots related to the concept expansion set based on the inverted index table, constructing a sequencing model, and calculating a relevancy score based on data of a snapshot statistical table by the sequencing model; and step S5, sequencing the relevancy scores, finding a plurality of documents corresponding to each XML snapshot, and returning the documents to the user as a query result set.)

基于本体的工程数据关键字检索方法

技术领域

本发明属于数据检索技术领域,涉及一种基于本体的工程数据关 键字检索方法。

背景技术

企业工程数据广泛存在于当今的各种生产制造行业。它的种类很 多,例如对于飞行制造领域,工程数据包含了航材零部件参数、几何 造型数据、飞行训练数据、维修检查数据、各种图文档及表格等。据 统计,仅仅一个飞机引擎,就有近万份设计文档[1]。对这些大量而复 杂异构的数据的管理和控制是亟待解决的重要问题,因而衍生出了产 品数据管理(PDM)等相关的产品和技术。

在工程数据的管理中,因为海量文档的存在,查询成为最重要的 一个环节。传统的工程数据查询处理,用户的查询请求通常以关键词 的形式出现。然而,传统的信息检索领域的关键字处理技术通常利用 简单的基于词根的匹配法则,计算关键词和文档索引词集合之间的相 似度。对于工程数据,这会带来几个问题:(1)大量的工程数据并非 形如网页的纯文本文档,存在很多由计算机辅助设计(CAD)、辅助 制造(CAM)带来的pdf、office表格等类型的文档;(2)工程数据 领域具有自己独特的专业术语,这些术语和日常用词区别较大,传统 的信息检索方法完全忽略这些关键字术语间蕴含的语义。例如,关键 字“spring pivot shaft”在工程数据领域表达的是完整的“弹簧回转轴”这 一物件,传统检索方法对每个词单独处理,且极可能造成单词的语义 混淆。(3)经验表明,传统的工程数据检索方法效果差,给工程设计 人员造成的时间损失非常巨大。

具体来说,传统的工程数据检索领域存在的一些检索方法概括起 来,主要可以分为两类:一类是沿用传统的网页关键字检索技术[3][4], 这种技术本质上是一种基于统计学的算法。这种方法无法理解用户的 查询意图,经常出现与用户查询请求相关的文档由于语义混淆或用词 不同而无法被检索出来的情况;另一类是采用自然语言分析工具 [5][6],构建字串样板,运用机器学习的方法,从工程数据中分析各个 句子的组成成分,从而将各个语言成分归纳到各个领域知识上。这种 做法的弊端在于,目前自然语言分析工具只能处理很有限主题的句子 分析,而工程数据覆盖的数据主题非常多,因此机器学习不足以应对 该领域下大量文档的句法解析。

上述参考文献为:

[1]Marsh,J.R.,1997,"The Capture and Utilization of Experience inEngineering Design,"PhD Thesis,Cambridge University,UK.

[2]McMahon C.A.,Lowe,A.,Culley,S.J.,Corderoy,M.,Crossland,R., Shah,T.,and Stewart,D.,2004,"Waypoint:An Integrated Search and Retrieval Systemfor Engineering Documents,"J.Comput.and Info.Sci. in Eng.,4(4),pp.329-338.

[3]Salton G,1991,"Developments in automatic text retrieval",Science,vol.253,pp.974--980.

[4]Lin,J.and Demner-Fushman,D.,2006,"The Role of Knowledge inConceptual Retrieval:A Study in the Domain of Clinical Medicine,"ACM SIGIR2006.

[5]Carlson,Andrew and Betteridge,Justin and Wang,2010,"Coupled semi-supervised learning for information extraction,"Proc.of the third ACMinternational conference on Web search and data mining,pp.101- 110.

[6]Hobbs,J.R.,Appelt,D.E.,Bear,J.,Israel,D.,Kameyama,M., Stickel,M.,and Tyson,M.,1996,"FASTUS:A Cascaded Finite-state Transducer for ExtractingInformation from Natural-Language Text," Finite-Stat Devices for NaturalLanguage Processing,Cambridge,MA: MIT Press.

发明内容

为解决上述问题,提供一种以工程数据本体为基础的能够检索各 种异构的工程数据文档,并且较大程度上消除了语义模糊和歧义,本 发明采用了如下技术方案:

本发明提供了一种基于本体的工程数据关键字检索方法,其特征 在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据 术语表,并对工程数据术语表进行倒排索引生成倒排索引表,领域本 体包括多个概念;步骤S2,对工程数据中的若干类文档进行工具处 理,提取文本信息并建立XML快照,对XML快照进行倒排索引并 构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用 户提出的关键字查询命令,通过执行引擎采用倒排索引表将关键字匹 配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集; 步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照,构建 排序模型,并由排序模型基于快照统计表的数据计算与概念拓展集相 关的XML快照的相关度得分;步骤S5,对相关度得分进行排序,找 到每个XML快照对应的若干类文档,作为查询结果集返回给用户, 其中,排序模型基于语义匹配的基础以及匹配规则构建,领域本体为 相关领域中公认的概念集,工程数据术语表为领域本体的每一个概念 所包含的行业术语的集合。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,领域本体基于RDF Schema图以及扩展RDF 的OWL本体描述语言来完成,领域本体包括相关领域词汇的基本术 语、关系以及就与基本术语和关系构成的规则定义,领域本体基于概 念、属性以及值描述。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,XML快照为对若干类文档处理后得到一个 标注了语义的XML文件,XML快照的建立过程为:将若干类文档转 化为文本流,并对文本流进行分词,去除掉停用词;将分词与倒排索 引表中的术语词进行匹配,若匹配成功,则标注为对应概念的XML 标签。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,查询的关键字与本体概念的匹配程度为:

式中,Q={k1,...,kn}为关键字查询,领域本体中所有的概念集合为 C={c1,...,cm},ci为概念集合中的一个概念,cscore为一个关键字查询Q的 全体关键字与一个概念ci的匹配程度。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,匹配规则为计算一个关键字同一个概念之间 的匹配程度,包括单关键字的概念匹配规则以及多关键字的概念匹配 规则,单关键字的概念匹配规则为:基于词干分析器将单关键字过滤 为原形词,选择ci的术语集中和单关键字最相近的术语,进行匹配: 当t和w完全匹配,定义匹配系数δ(w,ci)=1,若只有部分匹配,则 δ(w,ci)=|t∩w|/|t|,式中,w为单关键字,t为选择ci的术语集中和单关 键字最相近的术语,对于单关键字w,记至少和它部分匹配,即δ不 为0的概念集合为则有:

式中,cmatch(w,c)为单关键字w匹配概念集合c的相似度,且单关键字 w匹配概念为0≤cmatch(w,c)≤1;多关键字的概念匹配规则为:基于单关 键字的概念匹配规则,对查询Q={k1,...,kn}的每个关键字进行处理后,得 到每个关键字kj匹配领域本体的概念集的一个相似度向量:

V(kj,Q)=(s1,...,sm)

式中,m是领域本体的概念集的个数,即有sx=cmatch′(kj,cx,Q),式中, cmatch′(kj,ci,Q)为多关键字查询Q时关键字kj∈Q匹配概念ci的相似度,sx为关键字kj∈Q匹配概念cx的相似度。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,相关度得分为与概念拓展集相关的XML快 照的相关度得分,基于快照统计表的数据进行计算,相关度得分的计 算公式如下:

idf(w,s)=lg(|S|/docs(w,S)) (2)

式中,s为XML快照,S为XML快照的集合,size(s)为XML快照 包含的所有词汇数,tagged_concept(w)表示在XML快照中w被标注的概 念,λ为大于1的常数,docs(w,S)表示S中出现w的快照个数,count(c,s) 表示概念c在s中的出现次数,score(Q,s)表示对于查询Q,将XML快 照s与Q的相关度得分。

本发明提供的基于本体的工程数据关键字检索方法,还可以具有 这样的技术特征,其中,概念拓展集基于匹配概念拓展算法得到,匹 配概念拓展算法从直接匹配的概念集出发,基于本体RDF图搜索概 念集的中间概念,生成一个代价最小的连接所有直接匹配概念的概念 拓展集。

发明作用与效果

根据本发明的基于本体的工程数据关键字检索方法,该方法首先 引入工程数据领域本体和工程数据术语表生成了倒排索引表,使得用 户关键字具有了语义概念属性,同时将工程数据的不同类型的异构文 档提取为XML快照并建立了快照统计表,从而各类型的工程数据文 档能够在本发明的检索方法下统一处理。本发明中,考虑用户查询的 关键词组之间的语义关联,采用关键字和本体概念的匹配规则消除了 用户提出的关键字自身的语义混淆的缺点,基于该匹配规则对用户提 出的关键字查询命令通过基于本体RDF图的匹配概念拓展算法,将 用户意图查询的概念进行进一步拓展,最终由基于排序模型对查询到的概念和关键字的相关度得分进行计算并排序,得以确定最终查询结 果。本发明的基于本体的工程数据关键字检索方法解决了语义混淆的 缺点,对用户意图查询的概念进一步拓展使得匹配检索得到的结果相 较于传统检索方法的更为精准,在工程数据检索的领域具有很大意义。

附图说明

图1是本发明实施例中的基于本体的工程数据关键字检索方法流程 图;

图2是本发明实施例中的飞机制造领域的本体RDF示意图;

图3是本发明实施例中的工程数据文档实例片段示意图;

图4是本发明实施例中对工程数据文档实例片段提取的XML快照 片段图;

图5是本发明实施例中数据集1cmatch和cmatch′执行时间对比示意图;

图6是本发明实施例中对数据集1进行匹配概念拓展的生成结果 图;

图7是本发明实施例中对数据集2基于本发明的检索方法和基于完 全使用关键字匹配的传统检索方法得到的DCG比值结果图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于 明白了解,以下结合实施例及附图对本发明的基于本体的工程数据关 键字检索方法作具体阐述。

<实施例>

本实施例的基于本体的工程数据关键字检索方法基于一台双核 E5300,2.6GHz,4GB内存的台式电脑完成,该台电脑的操作系统为 windows 7,使用Java和Protégé 4.2.0解析OWL数据,使用Lucene 2.0.0建立倒排索引,Lukeall 0.9.2查询倒排索引。

图1是本发明实施例的基于本体的工程数据关键字检索方法流 程图。

如图1所示,基于本体的工程数据关键字检索方法包括以下步 骤:

步骤S1,引入工程数据的领域本体和工程数据术语表,并对工 程数据术语表进行倒排索引生成倒排索引表,领域本体包括多个概念。

本实施例中,领域本体为相关领域中公认的概念集,工程数据术 语表为该领域本体的每一个概念所包含的行业术语的集合。具体地:

领域本体包括相关领域词汇的基本术语、关系以及基于这些基本 术语和关系构成的规则定义,该领域本体基于RDF Schema图以及扩 展RDF的OWL本体描述语言来完成,基于概念、属性以及值来描 述,RDF Schema图是一个三元组的集合,每个三元组代表一个主题 和客体之间关系的描述,包括主题、客体以及属性。

工程数据术语表用于将查询关键字映射到某些概念上。

本实施例中,使用Protégé工具建立、更新和操作领域本体,该 领域本体建立后,基于工程数据术语表对映射到概念的每个术语进行 倒排索引,生成倒排索引表。

步骤S2,对工程数据中的若干类文档进行工具处理,提取文本 信息并建立XML快照,对XML快照进行倒排索引并构建快照统计 表。

本实施例中,XML快照为对工程数据中的若干类文档处理后得 到一个标注了语义的XML文件。具体地:

XML快照的建立过程为:

首先,将若干类文档转化为文本流,并对文本流进行分词,去除 掉停用词;

然后,将分词与倒排索引表中的术语词进行匹配,若匹配成功, 则标注为对应概念的XML标签,标签的名称由从根到其对应概念上 的路径节点名称合成,若匹配失败,则标注为<unmatched>标签。

图3是本发明实施例中的工程数据文档实例片段示意图。

图4是本发明实施例中对工程数据文档实例片段提取的XML快 照片段图。

如图3以及图4所示,本实施例中,文档种类为一个pdf类型的 工程数据文档,采用PDF2TXTConverter转化为文本流。

对于XML快照中可以匹配到多个概念的词,需要确定其在原文 中表示的概念,主要采用两种方法:

第一种是根据上下文中已经确定匹配的词所标注的概念,自动标 注这种一词多义词在原文中表达的概念,使它和上下文被标注的其他 概念在语义上更紧凑;

第二种是由文档的维护人员手工进行标注。

本实施例中,使用第二种辅助第一种的方法。根据实验表明,这 种词在工程数据中并不是非常多,占10%左右。

生成一个XML快照后,对每一个XML快照基于倒排索引对其 中的信息进行统计并生成快照统计表,该快照统计表用于将来排序模 型计算查询结果。

步骤S3,基于关键字和本体概念的匹配规则,对用户提出的关 键字查询命令,通过执行引擎采用倒排索引表将关键字匹配到本体中 合适的概念上,基于本体搜索关联概念得到概念拓展集。

本实施例中,查询的关键字与本体概念的匹配程度为:

式中,Q={k1,...,kn}为关键字查询,领域本体中所有的概念集合为 C={c1,...,cm},ci为概念集合中的一个概念,cscore为一个关键字查询Q的 全体关键字与一个概念ci的匹配程度。

匹配规则为计算一个关键字同一个概念之间的匹配程度,包括单 关键字的概念匹配规则以及多关键字的概念匹配规则。具体地:

单关键字的概念匹配规则为:

基于词干分析器将单关键字过滤为原形词,选择ci的术语集中和 单关键字最相近的术语进行匹配:

当t和w完全匹配,定义匹配系数δ(w,ci)=1;

若只有部分匹配,则δ(w,ci)=|t∩w|/|t|,

式中,w为单关键字,t为选择ci的术语集中和单关键字最相近的 术语。

对于单关键字w,记至少和它部分匹配,即δ不为0的概念集合 为则有:

式中,cmatch(w,c)为单关键字w匹配概念集合c的相似度,且单关 键字w匹配概念为0≤cmatch(w,c)≤1。

实施例中,关键字“rotates”只和图2所示中的概念Rotate中的术 语“rotate”完全匹配,和概念Schedule中的术语“overnight rotate”部分 匹配,则有:

δ("rotates",Rotate)=1,

δ("rotates",Schedule)=0.5,

cmatch("rotates",Rotate)=1/1.5=0.67,

cmatch("rotates",Schedule)=0.5/1.5=0.33。

当用户给出提出一组多关键字查询时,通常情况下这些关键字之 间有语义上的关联,因此基于单关键字的概念匹配规则,多关键字的 概念匹配规则为:

对查询Q={k1,...,kn}的每个关键字进行处理后,得到每个关键字kj匹 配领域本体的概念集的一个相似度向量:

V(kj,Q)=(s1,...,sm)

式中,m是领域本体的概念集的个数,即有sx=cmatch′(kj,cx,Q),式 中,cmatch′(kj,ci,Q)为多关键字查询Q时关键字kj∈Q匹配概念ci的相似 度,sx为关键字kj∈Q匹配概念cx的相似度。

本实施例中,多关键字的概念匹配规则基于多关键字概念匹配算 法得到。

在表示本体的RDF图上(如图2所示),如果两个概念的语义较 相关,则它们之间的距离理应很近,而cscore反映全体关键字组和概念 集的相似度,因此采用多关键字概念匹配算法用cscore去修正每个关键 字kj和概念集的相似度。

对于cmatch(kj,ci),考虑图G,如果存在距离概念ci结点dmax以内的概 念结点cneb(cneb可以等于ci),其他关键字ko能匹配cneb,则kj匹配ci的相似 度因为ko而加强了,也即cmatch′(kj,ci,Q)应该比单关键字下的cmatch(kj,ci)增 强,增加的幅度由下述算法给出,是影响参数。

上述图G,是图2中去掉Root结点和它连接的边后得到的图。

以下是实现多关键字概念匹配算法的源代码:

输入:本体RDF图G,Q,kj和cmatch

输出:对于kj,cmatch′(kj,ci,Q)值

以下代码计算kj对于每个概念经过更新后的cmatch′值

以下代码是对每个cmatch′值进行归一化处理:

本实施例中,匹配的概念集由关键字基于直接映射得到,而当用 户输入查询“thing which rotates in the engine”,通过上述排序模型,包 含概念Rotate和到概念Engine的快照拥有较大的匹配程度scorec(Q,s), 但是,用户通过这个查询,最终想获取的概念可能是Shaft,如图2所 示,从本体RDF图上可以看出,概念Shaft是连接查询直接匹配的两 个概念Rotate和Engine的中间概念。

因此,对于匹配概念还需进行拓展,而匹配概念的拓展是通过用 户输入的关键字查询命令,进一步推断出用户想要查询的结果的语义 概念。

本实施例中,基于匹配概念拓展算法得到的概念拓展集,对语义 进行适度拓展。具体地:

匹配概念拓展算法本质为图搜索算法,基于多关键字概念匹配规 则和排序模型,该算法从直接匹配的概念集出发,从本体RDF图上 搜索直接匹配的概念的中间概念,生成一个代价最小的连接所有直接 匹配概念的概念拓展集。

匹配概念拓展算法的原理是建立并维护一系列的游标,在该算法 的开始时,一些游标从各个直接匹配的概念出发,向相邻节点广度搜 索。

游标的ic属性表示这个游标已经遍历的概念集合,pos属性表示 游标当前走到的位置。

如果一个游标走到的位置已经有另一个游标走过,则合并两个游 标(保证一个位置至多只有一个游标);

如果已经存在某一游标的ic属性包含了所有直接匹配的概念集, 则算法结束,该游标的ic属性除去直接匹配集后剩下的概念即为中间 拓展集。

以下是匹配概念拓展算法的源代码:

输入:本体RDF图G,Q匹配的直接概念集{c1,...,ck}

输出: 概念拓展集

步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照, 构建排序模型,并由排序模型基于快照统计表的数据计算与概念拓展 集相关的XML快照的相关度得分。

本实施例中,排序模型基于语义匹配的基础以及匹配规则构建, 相关度得分为与概念拓展集相关的XML快照的相关度得分,基于快 照统计表的数据信息计算。具体地:

相关度得分的计算公式如下:

idf(w,s)=lg(|S|/docs(w,S)) (2)

式中,s为XML快照,S为XML快照的集合,size(s)为XML快 照包含的所有词汇数,tagged_concept(w)表示在XML快照中w被标注的 概念,λ为大于1的常数,docs(w,S)表示S中出现w的快照个数,count(c,s)表示概念c在s中的出现次数,score(Q,s)表示对于查询Q,将 XML快照s与Q的相关度得分。

步骤S5,对相关度得分进行排序,找到每个XML快照对应的若 干类文档,作为查询结果集返回给用户。

本实施例中,使用两套数据集,数据集1是DBPedia,自带多个 领域的从wikipeida抽取的本体数据,大约有1830000本体实体,本 实施例中,将这些本体实体的名称作为它们所对应概念的“术语”,数 据集1并非工程数据集,本实施例基于数据集1测试算法的性能;数 据集2基于一个小范围的飞机工程数据领域本体模型,从国内飞行制 造企业收集的200多份工程文档建立的数据集,主要验证本实施例中 基于本体的工程数据关键字检索方法在工程数据上的有效性。

图5是本发明实施例中对数据集1cmatch和cmatch′执行时间对比图。

本实施例中,统计对于20组不同关键字个数进行查询,cmatch(三 角形折线)和cmatch′(方形折线,多关键字概念匹配算法)的平均计算 时间。

如图5所示,对于相同关键字数目的查询,cmatch′的计算时间要 比cmatch多,因为计算cmatch利用了倒排索引,可以很快得到每个关键 字匹配的概念数目等信息,而cmatch′则要在RDF图上进行一个距离阈 值以内的匹配概念周边的搜索。另外,当关键字数目增加的时候, cmatch′耗时增长也更明显,这是由于当关键字增加时,需要进行周边 搜索的匹配概念数目也相应增加了。

图6是本发明实施例中对数据集1进行匹配概念拓展算法所生 成的结果示意图。

本实施例中,统计对于20组不同的直接匹配概念个数,匹配概 念拓展算法生成的拓展概念平均个数(三角形折线,左y轴)和相应 的生成时间(方形折线,右y轴)。

如图6所示,直接匹配的概念越多,相应生成的拓展概念并没有 大幅度的增长,这是合理的,因为和拓展概念个数最相关的因素是直 接匹配概念之间的聚集程度(相互语义距离强弱),而生成时间有大 幅度的增加是因为算法二初始的游标个数和算法运行过程中创建的 游标数目会因为直接匹配概念个数的增加而增加。

基于数据集2,对本实施例中的检索方法在具体工程数据上的应 用效果进行检测,使用DCG评价指标来衡量搜索首页提供的前10个 结果总体的质量,DCG比值越大效果越好。

DCG评价指标定义如下:

式中,i是该查询结果在搜索首页的位置排名,reli是该结果的评 分,因此,一个高质量的结果排在首页末尾和首页靠前位置,对DCG 有不同的影响,若查询结果不足10个,不足的位置的评分均计0。

图7是本发明实施例中对数据集2基于本发明的检索方法和基 于完全使用关键字匹配的传统检索方法得到的DCG比值结果图。

本实施例中,设计20组典型的查询,让3个用户对结果进行打 分并取均值,统计本实施例的基于本体的工程数据关键字检索方法和 完全使用关键字匹配的传统检索方法之间的DCG的比值。

如图7所示,当一个查询的关键字个数较少时,查询结果集较 大,完全使用关键字匹配的传统检索方法将非语义匹配的查询结果排 前的概率较大;当一个查询的关键字个数较多的时候,完全使用关键 字匹配的传统检索方法只能找到非常有限的结果,查全率受到很大影 响,而本发明实施例的基于本体的工程数据关键字检索方法都能对这 两种情况做出有效改善。

实施例作用与效果

根据本实施例提供的基于本体的工程数据关键字检索方法,该方 法首先引入工程数据领域本体和工程数据术语表生成了倒排索引表, 使得用户关键字具有了语义概念属性,同时将工程数据的不同类型的 异构文档提取为XML快照并建立了快照统计表,从而各类型的工程 数据文档能够在本发明的检索方法下统一处理。

实施例中,考虑用户查询的关键词组之间的语义关联,采用关键 字和本体概念的匹配规则消除了用户提出的关键字自身的语义混淆 的缺点。

实施例中,为了提高用户查询的关键字与本体概念的匹配度,基 于关键字和本体概念的匹配规则对用户查询的关键字通过基于本体 RDF图的匹配概念拓展算法,将用户意图查询的概念进行进一步进 行概念拓展生成概念拓展集,最终由基于排序模型对查询到的概念拓 展集和快照统计表之间匹配的概念相关度得分进行计算并排序,得以 确定最终查询结果。

本实施例的基于本体的工程数据关键字检索方法解决了语义混 淆的缺点,对用户意图查询的概念进一步拓展使得匹配检索得到的结 果相较于传统检索方法的更为精准,在工程数据检索的领域具有很大 意义。

上述实施例仅用于举例说明本发明的具体实施方式,而本发明不 限于上述实施例的描述范围。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:业务流程数据的格式转换方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!