一种快速覆盖的案例库维护方法

文档序号：1953937 发布日期：2021-12-10 浏览：17次 >En<

阅读说明：本技术 一种快速覆盖的案例库维护方法 (Quick-covering case base maintenance method ) 是由李建洋吴宏森吴辉于 2021-09-07 设计创作，主要内容包括：本发明公开了一种快速覆盖的案例库维护方法,步骤是：先从CBR应用系统中获取案例库信息并进行空间扩维投射；然后按照相似度对案例库空间进行划分、获得覆盖领域与子分类；再构建三层前馈神经网络、实现对最相似案例的快速召回。本发明采用易于构造、易于理解的三层前馈神经网络,与领域覆盖算法有效地降低神经网络的算法复杂度,确保CBR系统的运行能力和效率。(The invention discloses a method for maintaining a case base in a quick coverage mode, which comprises the following steps: firstly, acquiring case base information from a CBR application system and carrying out space dimension expansion projection; then, dividing the case library space according to the similarity to obtain a coverage field and a sub-classification; and then, a three-layer feedforward neural network is constructed to realize the quick recall of the most similar case. The invention adopts the three-layer feedforward neural network which is easy to construct and understand, effectively reduces the algorithm complexity of the neural network with the field coverage algorithm, and ensures the operation capability and efficiency of the CBR system.)

一种快速覆盖的案例库维护方法

技术领域

本发明属于基于案例推理(Case-Based Reasoning，CBR)的案例库维护方法(casebase maintenance，CBM)，尤其涉及对大规模的、不可约简案例库的性能维护。

背景技术

CBR来源于人类认知的类比推理方法，案例是一段带有上下文信息的知识，案例库是CBR的系统中的主要知识库；其学习功能即是不断往案例库中增加新的案例，案例库中的每个案例都有可能通过改编用于解决未来的问题。一般来说案例库越大、知识越丰富，越能体现出系统的智能水平。

作为一种重要的机器学习方法，案例库是CBR推理系统的核心知识库，但是难以维护，一个主要因素是案例库大，并且是非结构化或半结构化的，甚至用自然语言来表达的。因此CBR系统需要保持和管理一组数量较大的案例，时间和空间的复杂性都是必须仔细考虑，否则可能出现“案例库越大，系统性能越弱”的情况，由此引发了“沼泽问题”——CBR系统的能力与效率问题。

因此，CBR应用系统必须有独立的案例库维护功能。目前国际上学术界与工业应用领域对其的主要方法是限制案例库的规模，常用的解决办法是制定某些规则，搜寻、删除“低效”甚至“无用”的案例。诸如本领域顶级国际学术及应用开发会议ICCBR(International Conference on Case-Based Reasoning，与欧洲应用为主的EWCBR合并，每年一次)，领军人物Leake,D.,&Schack,B.于2015年Flexible Feature Deletion:Compacting Case Bases by Selectively Compressing Case Contents、2018年的Exploration vs.Exploitation in Case-Base Maintenance:Leveraging Competence-Based Deletion with Ghost Cases、以及其他一些应用与研究，都是如此来解决沼泽问题。

然而，在一些电子商务在线销售、交互式CBR、分布式CBR应用领域，特别是故障诊断、联机决策等应用中，案例库很容易达到成千上万的规模，且每一个案例都代表一个不可缺失的宝贵经验、都是不可约简的，非常需要实现对庞大的、不可约简的案例库维护，以保障系统可靠地运行。

发明内容

本发明的目的是为了解决现有技术存在的问题和不足，提供一种快速覆盖的案例库的维护方法，尤其适用于对不可约简案例库的维护。

本发明通过采用易于构造、易于理解的多层前馈神经网络，以及领域覆盖算法有效地降低了神经网络的算法复杂度，解决了因案例库规模增长而导致的时间与效率的难题，确保在不可削减案例库环境下，CBR系统的高效运转。

为了达到上述目的，本发明提供如下技术方案予以实现：

一种快速覆盖的案例库维护方法，包括以下步骤：

S1.从CBR应用系统中获取案例库信息并进行空间扩维投射；

S2.按照相似度对案例库空间进行划分、获得覆盖领域与子分类；

S3.构建三层前馈神经网络、实现对最相似案例的快速召回。

进一步优选地，步骤S1所述的从CBR应用系统中获取案例库信息并进行空间扩维投射的具体内容和步骤包括：

步骤S11.从案例库系统中获得案例库属性维数、数量、类别信息(分别记作n、m、r)；

步骤S12.对n维输入样本向量空间增加一维进行扩维，输入样本集K＝{x¹,x²,...,x^m}按其类别划分为r个子集，即K＝{K¹,K²,...,K^r}；

步骤S13.使输入样本变换成长度相等的超球面变换；对n+1维空间中的有界集合D作T的超球面S变换，按照变换公式T：D→Sⁿ，对有其中|x|为x的长度，R≥max{|x||x∈D}；

步骤S14.实施空间投射，使输入样本都投影到半径为R的超球面上Sⁿ。

进一步优选地，步骤S2所述的按照相似度对案例库空间进行划分、获得覆盖领域与子分类的具体内容和步骤包括：

步骤S21.构造第j类输入样本K^j的某个球形覆盖领域C(k)的方法是：计算所有样本的中心点，任取K^j中尚未被覆盖的点aⁱ，然后找出与其最近的那个样本点aⁱ∈K^j，从该点开始覆盖；

步骤S22.求以aⁱ为中心的领域C(aⁱ)，令C(aⁱ)∩K^j＝D(i)，i＝1,2,...，D₀＝Φ；

步骤S23.若D_i-1是D_i的真子集，则求D_i的重心b；

步骤S24.求aⁱ的平移点a，令aⁱ⁺¹＝a，并求对应的领域C(aⁱ⁺¹)，得到D_i+1；若D_i是D_i+1的真子集，则求D_i+1的重心b：令aⁱ⁺¹＝b，i++，返回继续求以aⁱ为中心的领域C(aⁱ)；

步骤S25.这样求得覆盖C(k)后，将其所覆盖的点删除，统一记作C_ij以表示求得K^j的第i个覆盖；继续求另一个覆盖，从而获得j类所有样本覆盖领域{C_1j,C_2j,...,C_kj}；

步骤S26.重复上述步骤、求输入样本所有类别的球形覆盖领域；最终获得一批覆盖{{C₁₁,C₂₁,...,C_p1},{C₁₂,C₂₂,...,C_q2},...,{C_1r,C_2r,...,C_kr}}，分别对应于r个主类及其多个领域子分类。

进一步地，步骤S2所述的按照相似度对案例库空间进行划分、获得覆盖领域与子分类还包括对拒识样本的处理，其方法是：将拒识样本独立、单列为一个领域覆盖；或者对拒识样本之间散列较大的，扩大领域半径；或者对拒识样本按照经验概率，分别划分到最邻近的覆盖中。

通过以上步骤获得的覆盖领域内的样本、可以证明具有如下技术特征：

1)处于同一覆盖领域内的样本具有相同的大类标记，同一覆盖领域内样本具有很强的相似度；

2)同一大类标记的样本，如果差异较大，不会处在同一覆盖领域内，会发散形成多个不同的覆盖领域；

3)相似的样本，如果类别不同，也不可能聚集在同一覆盖领域。

进一步优选地，步骤S3所述的将获得的覆盖领域、构建三层前馈神经网络的具体内容和步骤包括：

步骤S31.第一层(输入层):取p个神经元A¹,A²,…A^p,Aⁱ为对应覆盖C(i)的神经元，权与阈值为W(1)＝(a¹)，θ(1)＝(θ₁)；

步骤S32.第二层(隐层):取同第一层同样个数神经元B¹,B²,…,B^p

步骤S33.第三层(输出层):取r个神经元C¹,C²,…C^r,r为样本类别数；

本发明与现有维护方法相比，其具有的显著优点和有益效果如下：

1.可以直接对大规模的、不可约简案例库的维护；

2.对案例库的分类划分采取多个领域子类方式，便于案例的快速召回；

3.采取易于理解的MP神经网络球形领域表示、易于理解，避免神经网络黑盒问题；

4.对拒识样本可以单独处理，避免分类算法训练的过度泛化；

5.由于对案例库的分类训练耗时小，可以实现案例库的动态属性调整与分类更新，满足案例召回的时限、实现案例库的动态维护。

附图说明

图1为本发明实施例所述的快速覆盖的案例库维护的步骤流程图。

图2为本发明实施例所述的快速覆盖的案例库维护的系统功能图。

图3为本发明实施例所述的快速覆盖的案例库维护时所形成的超空间覆盖领域示意图(局部)：三类样本分布在6个不同的覆盖领域，每个覆盖领域中的样本均为最相似的案例。

图4为本发明实施例所述的快速覆盖的案例库维护的三层前馈神经网络示意图，将所获得的覆盖领域作为输入、构建三层前馈神经网络，实现对最相似案例的快速召回。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在CBR应用系统中，CBM系统维护效果涉及训练与测试(召回)两部分。第一是直接用于案例库维护的时间(后台时间)；第二是案例召回时间，这是系统运行时用户需要等待CBR问题求解的实际时间，直接反映系统运行效率(前台时间)。针对不可约简案例库学习中很容易达到成千上万的规模、导致系统运行的时间与效率的难题，采用易于构造、易于理解的三层前馈神经网络，与领域覆盖算法有效地降低神经网络的算法复杂度，确保CBR系统的运行能力和效率。

本申请实施例提供了一种快速覆盖的案例库维护方法，以下实例均采用普通的个人笔记本电脑，Intel Core i7-7500U 2.7G MHz，8G RAM，数据采用UCI机器学习的公共数据集；训练数据集作为案例库，测试集模拟作为待匹配召回的新案例；5遍交叉验证的数据分析(随机选择的训练集与测试集之比4:1)。

实施例一：

图1为本发明实施例所述的应用于快速覆盖的案例库维护方法的步骤流程图。示例数据分别来自UCI机器学习数据集“waveform”5000实例*21维*3类

如图1所示，本发明实施例提供了的一种快速覆盖的案例库的维护方法，包括以下步骤：

步骤S1.从CBR应用系统中获取案例库信息并进行空间扩维投射；具体内容和步骤是：

步骤S11.从案例库系统中获得案例库属性维数21、数量4000、类别信息3；

步骤S12.对21维输入样本向量空间增加一维进行扩维；

步骤S13.使输入样本变换成长度相等的超球面变换；对n+1维空间中的有界集合D作T的球面变换，按照变换公式T：D→Sⁿ，对有其中|x|为x的长度，R≥max{|x||x∈D}；

步骤S14.实施空间投射，使4000个案例输入样本都投影到一个超球面上。

步骤S2.按照相似度对案例库空间进行划分、获得覆盖领域与子分类；

如图2为本发明实施例所述的快速覆盖的案例库维护的系统功能图，对4000个投射到高维空间的案例进行空间划分。对拒识样本单列为一个覆盖领域，总共获得了74个覆盖领域(即74个最相似的样本簇、子类，3个大类)；形成如图3中所示的领域覆盖示意图(局部片段)，三类样本分布在6个不同的覆盖领域。每个覆盖领域中的样本均为最相似的案例，平均每个子类约68个实例，耗时0.105s(秒)。

步骤S3.构建三层前馈神经网络、实现对最相似案例的快速召回；

如图4为本发明实施例所述的快速覆盖的案例库维护的三层前馈神经网络示意图，将所获得的74个覆盖领域作为输入、构建三层前馈神经网络，实现对最相似案例的快速召回；实现对1000个测试案例的召回平均耗时0.013ms(毫秒)，准确率77.52％。

实现了对案例库的层次划分结构，完整保留了所有的案例，维护直接耗时0.105s(秒)，使案例召回更加准确、快速，实现了不可约简案例库的维护。

实施例二：

图1为本发明实施例所述的应用于快速覆盖的案例库维护方法的步骤流程图。示例数据分别来自UCI机器学习数据集“letter”20000实例*16维*26类。

如图1所示，本发明实施例提供了的一种快速覆盖的案例库的维护方法，包括以下步骤：

步骤S1.从CBR应用系统中获取案例库信息并进行空间扩维投射；具体内容和步骤是：

步骤S11.从案例库系统中获得案例库属性维数16、数量16000、类别信息26；

步骤S12.对16维输入样本向量空间增加一维进行扩维；

步骤S14.实施空间投射，使16000个案例输入样本都投影到一个超球面上。

步骤S2.按照相似度对案例库空间进行划分、获得覆盖领域与子分类；

如图2为本发明实施例所述的快速覆盖的案例库维护的系统功能图，对16000个投射到高维空间的案例进行空间划分。对拒识样本之间散列较大的，扩大领域半径10％，总共获得了2107个覆盖领域(即2107个最相似的样本簇、子类，26个大类)。形成如图3中所示的领域覆盖示意图(局部片段)，每个覆盖领域中的样本均为最相似的案例，平均每个子类约8个实例，耗时2.092s(秒)。

步骤S3.构建三层前馈神经网络、实现对最相似案例的快速召回；

如图4为本发明实施例所述的快速覆盖的案例库维护的三层前馈神经网络示意图，将所获得的2107个覆盖领域作为输入、构建三层前馈神经网络，实现对最相似案例的快速召回；实现对4000个测试案例的召回平均耗时0.021ms(毫秒)，准确率86.51％。

实现了对案例库的层次划分结构，完整保留了所有的案例，维护直接耗时2.092s(秒)，使案例召回更加准确、快速，实现了不可约简案例库的维护。

实施例三：

图1为本发明实施例所述的应用于快速覆盖的案例库维护的步骤流程图。示例数据分别来自UCI机器学习数据集“forest cover type”581012实例*55维*7类，实验测试大规模案例库的动态维护。

如图1所示，本发明实施例提供了的一种快速覆盖的案例库的维护方法，包括以下步骤：

步骤S1.从CBR应用系统中获取案例库信息并进行空间扩维投射；具体内容和步骤是：

步骤S11.从案例库系统中获得案例库属性维数55、类别信息7，数量分别为10000、50000、100000；

步骤S12.对55维输入样本向量空间增加一维进行扩维；

步骤S14.实施空间投射，分别使10000、50000、100000个案例输入样本都投影到一个超球面上。

步骤S2.按照相似度对案例库空间进行划分、获得覆盖领域与子分类；如图2为本发明实施例所述的快速覆盖的案例库维护的系统功能图；对拒识样本按照经验概率，分别划分到最邻近的覆盖中，形成如图3中所示的领域覆盖示意图(局部片段)：

对10000个投射到高维空间的案例进行空间划分，平均获得了2468个覆盖领域(即2468个最相似的样本簇、子类)，耗时5.357s(秒)。

对50000个投射到高维空间的案例进行空间划分，平均获得了6843个覆盖领域(即6843个最相似的样本簇、子类)，耗时25.174s(秒)。

对100000个投射到高维空间的案例进行空间划分，平均获得了7651个覆盖领域(即7651个最相似的样本簇、子类)，耗时38.187s(秒)。

步骤S3.构建三层前馈神经网络、实现对最相似案例的快速召回；

实现对三组测试案例的召回平均耗时0.121ms-2.49ms，准确率62.43％-83.25％。

现有绝大多数的案例库维护、直接用于案例库维护的时间，因耗时太大，只能在后台处理、无法对案例库维护动态调整。从步骤S2可以看出，在实验最高100000案例库的情况下，维护直接耗时才38.187s；因此可以实现案例库的动态维护，案例库的维护是快速高效的。

11页详细技术资料下载

一种快速覆盖的案例库维护方法

相关技术

网友询问留言