一种多标记的文本类数据特征选择方法及装置

文档序号：1242907 发布日期：2020-08-18 浏览：14次 >En<

阅读说明：本技术 一种多标记的文本类数据特征选择方法及装置 (Multi-label text data feature selection method and device ) 是由孙林王天翔李文凤李梦梦于 2020-04-03 设计创作，主要内容包括：本发明涉及一种多标记的文本类数据特征选择方法及装置,属于文本数据处理技术领域。本发明首先考虑文本数据集中标记与标记之间的二阶相关性,将标记进行分组,使其可以更好的适用于多标记数据集,根据特征在每个标记组计算出的得分确定各特征的最终得分,并从中选取得分较高的设定个数的特征,构成特征集合；然后基于得到的特征集合,根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度,得到多标记邻域决策系统,利用改进的邻域粗糙集的依赖度计算重要度,对得到的特征集合进行筛选,从而实现对多标记文本数据的特征选择。相较于原始的针对全体属性的邻域粗糙集特征选择方法,本发明的时间复杂度更低,最优特征子集更准确。(The invention relates to a multi-label text data feature selection method and device, and belongs to the technical field of text data processing. The method comprises the steps of firstly, considering second-order correlation between marks in a text data set, grouping the marks to be better suitable for a multi-mark data set, determining the final score of each feature according to the score calculated by each mark group according to the features, and selecting the set number of features with higher scores from the final scores to form a feature set; and then determining the neighborhood granularity of each sample according to the classification interval of each sample to the mark in the text data set based on the obtained feature set to obtain a multi-mark neighborhood decision system, calculating the importance degree by utilizing the dependence degree of the improved neighborhood rough set, and screening the obtained feature set, thereby realizing the feature selection of the multi-mark text data. Compared with the original neighborhood rough set feature selection method aiming at the overall attributes, the time complexity is lower, and the optimal feature subset is more accurate.)

技术领域

本发明涉及一种多标记的文本类数据特征选择方法及装置，属于文本数据处理技术领域。

背景技术

多标记学习是模式识别、机器学习、数据挖掘及数据分析等领域的一个研究热点。在多标记学习中，每个实例不仅由一组特征向量描述，而且还对应着多个决策属性。现实生活中也有许多问题属于多标记学习的范畴，例如：一部电影可以同时属于多个类别，如“动作”，“科幻”和“战争”；一篇文档可能同时具有多个主题，如“医学”，“科技”和“人工智能”；一幅图像可能同时标注多个语义，如“街道”，“汽车”和“行人”。使用单标签分类方法难以对该类问题进行准确的分类，因此，近年来学者们越来越重视多标记学习。

在研究多标记分类的过程中面临着许多难题：一方面，每个实例可能同时具有多个类别标记，并且这些标记之间也有着一定的关联；另一方面，在多标记数据中，数据的维度通常偏高，而这可能会造成维数灾难，严重影响分类器的分类性能。因此，在数据预处理中，降维技术至关重要。特征提取和特征选择是特征降维的主要手段，前者通过转换或映射的方法将原有的高维特征转换到一个新的低维空间；后者根据一定的评价准则，从原始特征空间中选取一组最优的特征子集。特征选择主要有三种方法来处理多标记数据：过滤法、包裹法和嵌入式法。过滤法依赖于训练数据的一般特性，并将特征选择过程用作预处理步骤，具有较低的计算成本和较好得到泛化能力；包裹法使用基础模型进行多轮训练，在每一轮训练之后，移除多个权重系数的特征，然后基于新特征集合执行下一轮训练，该方法计算上的代价较昂贵；嵌入式法将特征选择过程集成到训练过程中，来减少用于重新分类不同子集的总时间。

由Fisher判别分析(Fisher Discriminate Analysis,FDA)演化的Fisher Score方法是比较常见的有监督学习下的特征选择方法。2002年，Guyou等提出了一种和Fisher判别分析很相似的F-score特征选择公式；随后，Chen等提出了基于二分类问题的F-score得到表达式；2010年，Salih等首次对F-Score进行改进，使得改进后的F-Score可以应用到多分类的问题中；2011年，Gu等考虑了特征之间的相关性、冗余性，进一步完善了F-Score,并且提出了广义的Fisher Score；2012年，谢娟英等考虑到特征之间的量纲问题，对多分类Fisher Score进行的改进；2013年，Tao等从类别间的重叠性和特征的一致性上进行考虑，在传统公式上加上了权重系数。然而，传统的Fisher Score通常只能针对单标记数据集进行计算。

特征选择是多标签学习中必不可少的预处理环节。多标签学习通常用于处理许多复杂的任务。在各种特征选择方法中，粗糙集作为一种具体的粒度计算模型，引起了很多关注，并且由于以下优点：仅使用数据集中包含的属性，没有任何其他信息及在有限的信息集合的约束下发现数据依赖性和减少特征的数量的能力。张和李提出了一种基于粗糙集的分形端点检测多标记算法，以保持较好的性能，并能处理比语音具有更高的不规则性的噪声；徐等提出了一种在特征选择任务中将多标签特征选择任务转化为多个二进制单标签特征选择任务主要策略，称为问题转换，但它切断了标签之间的关系，很容易产生不平衡的数据。传统的粗糙集模型只能处理离散数据，对于含有真实值或噪声数据的数据，通常采用离散预处理，这可能导致分类精度不高。为了克服这一缺陷，许多研究者对传统的粗糙集理论进行了补充和改进，例如Li等研究了一种基于邻域粗糙集和区分矩阵的特征约简方法；Zhang等基于不同类型的属性提出了不同的模糊关系，以测量样本之间的相似性，提出了一些鲁棒的模糊粗糙集(FRS)模型来增强经典FRS的鲁棒性；Wang等构造局部邻域粗糙集来处理标记数据。上述改进方式在重要度计算中，判断的条件过于严格，对于重要程度相近的特征往往不能更进一步的判别，致最终的选择的特征不够准确。

发明内容

本发明的目的是提供一种多标记的文本类数据特征选择方法及装置，以解决目前的多标记文本类数据的特征选择方法准确性低、算法复杂的问题。

本发明为解决上述技术问题而提供一种多标记的文本类数据特征选择方法，该选择方法包括以下步骤：

1)获取含有多种标记的文本数据集；

2)根据文本数据集中标记与标记之间的二阶相关性，将标记划分成正相关、负相关和不相关三类标记组；

3)针对标记组所处类别计算特征在各标记组中的得分，根据特征在每个标记组计算出的得分确定各特征的最终得分，并从中选取得分较高的设定个数的特征，构成特征集合；

4)根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度，得到多标记邻域粗糙集；

5)根据邻域粒度和所述特征集合构建多标记邻域决策系统，在所述多标记邻域决策系统下，确定属于集合X_j,j＝1,2,…M的集合数和属于集合的集合数，并以此确定多标记邻域粗糙集的依赖度，其中M为决策集中决策属性的数目，X_j与为样本集在第j个标记下的划分，分别表示命中第j个标记的样本集合和未命中第j个标记的样本集合；

6)根据多标记邻域粗糙集的依赖度计算多标记邻域决策系统中条件属性相对于决策属性的重要度，根据该重要度进行条件属性的筛选，实现对文本数据的特征选择。

本发明还提供了一种多标记的文本类数据特征选择装置，该装置包括处理器和存储器，所述处理器执行由所述存储器存储的计算机程序，以实现本发明的多标记的文本类数据特征选择方法。

本发明首先考虑文本数据集中标记与标记之间的二阶相关性，将标记进行分组，针对标记组所处类别计算特征在各标记组中的得分，对Fisher-Score方法进行了改进，使其可以更好的适用于多标记数据集，根据特征在每个标记组计算出的得分确定各特征的最终得分，并从中选取得分较高的设定个数的特征，构成特征集合；然后基于得到的特征集合，根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度，得到多标记邻域粗糙集，利用该邻域粗糙集的依赖度计算重要度，以此对得到的特征集合进行再次筛选，从而实现对多标记文本数据的特征选择。相较于原始的针对全体属性的邻域粗糙集特征选择算法的时间复杂度更低，而且更准确地搜索最优特征子集。

进一步地，为了更好适用于多标记文本数据集，每个特征得分的计算公式为：

C＝{f₁,f₂,…,f_m}表示特征全集，L＝{l₁,l₂,…,l_t}表示标记全集，n_k表示第k类样本的个数，f_j,i表示第i个特征在第j个样本中的值，μ_k表示样本中第i个特征f_i的平均值，表示样本中第i个特征f_i在第k类中的平均值，c表示类别总数，R_g(l_a,l_b)表示标记l_a与标记l_b的相关性权重。

进一步地，为了避免噪音数据干扰，所述的样本对标记的分类间隔为：

其中，margin^l(x)为样本x对于标记l_i的分类间隔，NM^l(x)为升序排列好的每个异类样本距离，NH^l(x)为升序排列好的每个同类样本距离，|NH^l(x)|为同类样本数目，|NM^l(x)|为异类样本数目，NM^l(x_i)和NH^l(x_i)分别表示在类别标记l下，与样本第i近的异类样本和与样本第i近的同类样本，Δ(x,NM^l(x_i))和Δ(x,NH^l(x_i))分别表示样本点x到NM^l(x_i)和NH^l(x_i)的距离。

进一步地，为了更准确的划分邻域粗糙集，所述邻域粒度的计算公式为：

其中为样本x对于标记l_i的分类间隔，M为标记的个数，m^l(x)为样本的邻域粒度。

进一步地，所述的多标记邻域决策系统为MDNS＝＜U,C∪D,δ＞，U＝{x₁,x₂,…,x_n}表示文本数据样本集合，B＝{f₁,f₂,…,f_N}为描述文本数据的特征子集，C为描述文本数据的特征集合，N≤|C|，L＝{l₁,l₂,…,l_M}为对应的标记集合，D＝{l₁,l₂,…,l_m}是分类决策属性集，

进一步地，为了有效降低重要属性被忽视的风险，多标记邻域粗糙集依赖度的计算公式为：

ρ_B(D)为权重系数，|H(δ_B(x_i))|表示在特征集B下属于集合X_j,j＝1,2,…M集合数，|M(δ_B(x_i))|表示在特征集B下属于集合集合数，|U|为训练集拥有的样本个数，|L|为标记集拥有的标记个数，N_BD为多标记邻域粗糙集的下近似，δ_B(x_i)为第i个样本在特征子集B下的邻域半径内的样本集合，D^j表示具有类别标记l_j的样本集合，D_i表示样本x_i所具有的标记集合，U＝{x₁,x₂,…,x_n}表示样本集合，B＝{f₁,f₂,…,f_N}描述特征子集。

进一步地，重要度的计算公式为：

其中sig(a,B,D)为条件属性a∈C-B相对于决策属性D的重要度，为决策属性D对条件属性B∪a的依赖度，为决策属性D对条件属性B的依赖度表示。

附图说明

图1是本发明实施例样本的分类间隔示意图；

图2是本发明多标记的文本类数据特征选择方法的流程图；

图3-a是实验例中Business数据集下本发明与现有方法的指标AP比较示意图；

图3-b是实验例中Business数据集下本发明与现有方法的指标CV比较示意图；

图3-c是实验例中Business数据集下本发明与现有方法的指标HL比较示意图；

图3-d是实验例中Business数据集下本发明与现有方法的指标RL比较示意图；

图3-e是实验例中Business数据集下本发明与现有方法的指标MicF1比较示意图；

图4-a是实验例中Computer数据集下本发明与现有方法的指标AP比较示意图；

图4-b是实验例中Computer数据集下本发明与现有方法的指标CV比较示意图；

图4-c是实验例中Computer数据集下本发明与现有方法的指标HL比较示意图；

图4-d是实验例中Computer数据集下本发明与现有方法的指标RL比较示意图；

图4-e是实验例中Computer数据集下本发明与现有方法的指标MicF1比较示意图；

图5是本发明多标记的文本类数据特征选择装置的结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。

方法实施例

在介绍本发明的具体手段之前，先对本发明涉及到一些知识、Fisher-Score算法和邻域粗糙集算法进行介绍。

1)互信息的相关概念

设A,B是两个事件，且P(A)>0，在事件A发生的条件下事件B发生的条件概率为：

对于一个离散型随机变量X＝{x₁,x₂,…,x_n}，则随机变量X的信息熵可以表示为：

式中，P(x_i)为发生事件x_i的概率；n为可能发生的事件(状态)的总数。显然，对于完全确定的变量X，H(X)＝0；对于随机变量X，有H(X)>0(非负性)，且H(X)的值随状态数n的增加而增大(递增性)，即随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度也越大，当随机分布为均匀分布时，熵最大。

对于两个不同的离散型随机变量X＝{x₁,x₂,…,x_n}和Y＝{y₁,y₂,…,y_m}，则可定义随机变量X和随机变量Y的联合熵为：

其中，P(x_i,y_j)为x_i和y_j的联合概率，即事件x_i和y_j同时发生的概率。

对于两个不同的离散型随机变量X＝{x₁,x₂,…,x_n}和Y＝{y₁,y₂,…,y_m}，则可定义随机变量X对于随机变量Y的条件熵为：

其中，P(y_j)为单独发生事件y_j的概率，p(x_i|y_j)为在发生事件y_j的条件下事件x_i发生的条件概率。显然，当X和Y完全独立时，有H(X|Y)＝H(X)；而当X和Y完全相关时，有H(X|Y)＝0；对于一般相关变量，有H(X|Y)>0。同理我们也可以定义随机变量Y对于随机变量X的条件熵为：

对于整个变量X，由于变量Y的发生及二者间的相关性，使其不确定性减少的熵值称为互信息，定义如下：

I(X,Y)＝H(X)-H(X|Y) (6)

其中，H(X)为随机变量X的信息熵，H(X|Y)为随机变量X对于随机变量Y的条件熵。可以证明，互信息具有非负性,即I(X,Y)≥0，同时还具有互易性，即：

I(X,Y)＝H(X)-H(X|Y)＝H(Y)-H(Y|X)＝I(Y,X) (7)

随机变量X和随机变量Y的联合熵为：

式中，H(X)和H(Y)分别表示随机变量X和随机变量Y的信息熵，H(X,Y)表示随机变量X和随机变量Y的联合熵。

互信息的缺陷是没有归一化，为了比较不同变量之间的相互依赖程度，可以用广义相关函数来进行归一化

其中0≤R_g(X,Y)≤1，可以看出，当随机变量X和随机变量Y完全相关时，有I(X,Y)＝H(X)＝H(Y)，R_g(X,Y)＝1；当X和Y完全独立时，I(X,Y)＝0，R_g＝0，R_g的取值越大，则说明随机变量X和随机变量Y的相关性越强。

互信息衡量的是某个特征和类别之间的统计独立关系，则针对特征f和类别l_i的互信息公式可以定义为

其中，P(f,l_i)表示训练集中既包含特征f又属于类别l_i的概率，P(f)表示训练集中包含特征f的概率，P(l_i)表示训练集中类别属于l_i的概率，P(f|l_i)表示在类别l_i中包含特征f的概率。从公式(10)中可以看出，当P(f|l_i)>P(f)，MI(f,l_i)>0时，说明此时特征f和类别l_i是正相关的，同时MI(f,l_i)的值越大说明特征f和类别l_i的正相关性越强；相反，当P(f|l_i)<P(f)，MI(f,l_i)<0时，说明此时特征f和类别l_i是负相关的，同时MI(f,l_i)的值越小说明特征f和类别l_i的负相关性越强。

2)Fisher-Score算法

Fisher-Score是一种有效的针对样本特征进行评判的标准，传统的Fisher-Score源自Fisher线性判别法，其本质是选取类内差异小，类间差异大的特征。

给定特征集{f₁,f₂,…,f_m}上取自c(c≥2)个类别的训练样本x_j∈R^m，j＝1，2，…，N，定义训练样本第i个特征f_i的类间散度S_b(f_i)和第k类样本在第i个特征f_i下的类内散度为：

式中，n_k为第k类样本的数目，为第k类样本在第i个特征下的均值，μ_i为全体样本在第i个特征下的均值，为第k类样本中第j个样本在第i个特征f_i下的取值。于是，可以得到训练样本第i个特征f_i的Fisher Score为：

可以看出，式(13)中第i个特征f_i下类间散度S_b(f_i)越大，c个类别的类内散度之和越小，则FS(f_i)的值越大，说明特征f_i的辨识力越强，该特征重要度越大。

3)邻域粗糙集算法

设U表示样本空间，x是给定的样本，则样本x的分类间隔表示为：

margin(x)＝Δ(x-NM(x))-Δ(x-NH(x)) (14)

其中，NH(x)表示在样本空间U中与样本x距离最近的同类样本，称为x的NearestHit(NH)。而NM(x)表示在样本空间U中与样本x最近的异类样本，称为x的Nearest Miss(NM)。Δ(x-NM(x))和Δ(x-NH(x))则分别表示样本点x到NM(x)和NH(x)的距离(见图1所示)。

假设U是样本空间，对于x可能隶属于标记集合L＝{l₁,l₂,…,l_t}之中，给定则样本x在标记l下的分类间隔定义为：

m^l(x)＝Δ(x,NM^l(x))-Δ(x,NH^l(x)) (15)

其中，NH^l(x)表示在类别标记l下，样本空间U中与x最近的同类根本；NM^l(x)表示在类别标记l下，与样本最近的异类样本。Δ(x-NH^l(x))和Δ(x-NM^l(x))分别表示样本点x到NH^l(x)和NM^l(x)的距离。

假设样本空间为U，标记集合L＝{l₁,l₂,…,l_t}，对于给定当样本x在标记l下的分类间隔m^l(x)≥0，则x的邻域为：

δ(x)＝{y|Δ(x,y)≤m^l(x),y∈U} (16)

当m^l(x)≤0时，令m^l(x)＝0。

假设DS＝<U,Δ>是非空度量空间，x∈U,δ≥0称点集为x的δ邻域，表示为：

δ(x)＝{y|Δ(x,y)≤δ,y∈U}. (17)

考虑所有样本的集合U＝{x₁,x₂,…,x_n},A＝{a₁,a₂,…,a_N}是描述样本的条件属性集，D＝{l₁,l₂,…,l_m}是分类决策属性集，给定<U,A,D>，如果A生成一组邻域关系，则称<U,A,D>为邻域决策系统。

给定实数空间上的非空有限集合Ω及其上的邻域关系N，即二元组NS＝<U,N>，{X₁,X₂,…,X_n}为若干个等价类，则X在邻域近似空间NS＝<U,N>中的上近似和下近似分别为：

X的近似边界为：

对于单标记学习，邻域粗糙集的下近似通过借用邻域的概念来体现属性集对样本进行分类的能力。在多标记学习中，下近似的定义也是类似的。下面给出多标记邻域粗糙集模型的相关概念及性质。

在多标记邻域决策系统MNDS＝<U,C,D,f,Δ,δ>中，标记集合L＝{l₁,l₂,…,l_m}，D_j表示具有类别标记l_j的集合，Dⁱ表示样本x_i所具有的的标记集合，给定多标记邻域粗糙集的近似空间定义为：

X的近似边界为

在多标记邻域决策系统MNDS＝<U,C∪D>,中， N_B D称为属性B所给的知识水平下多标记分类的正域，记为POS_B(D)。由此，多标记分类的依赖度可表示为：

在多标记邻域决策系统中MNDS＝<U,C∪D>，当0≤r_B(D)≤1.于是有：

1)当r_B(D)＝1时，D对B是强依赖的。

2)当0<r_B(D)<1时，D对B是弱依赖的。

3)当r_B(D)＝0时，D对B是完全不依赖的。

依赖度的定义反映了决策属性对条件属性的重要度，不仅可以考察结果分类属性对条件属性的依赖程度，而且可以有效的发现对分类起决定性作用的关键属性。于是，条件属性a∈C-B在条件属性B上相对于决策属性集D的重要度可表示为：

sig(a,B,D)＝γ_B∪{a}(D)-γ_B(D). (25)

从属性重要度的定义可知，当sig(a,B,D)＝0，属性a是多余的。并且存在两种情况：一类是属性a与当前分类任务无关，另一种是属性a所包含的分类任务已经包含于其他属性中了，此时也称属性是冗余的。

本发明在上述技术的基础上，首先结合互信息理论依据结合二阶标记相关性对Fisher-Score方法进行了改进，使其可以更好的适用于多标记数据集；之后根据MLFisher-Score(改进后的Fisher-Score)方法对每个特征进行得分计算，并将计算结果降序排列，得到一个特征序列；再选取一些经过MLFisher-Score方法计算得到的特征序列中得分更高的属性；最后在这些属性下，根据文本数据集中各样本对于标记的分类间隔改进的邻域粗糙集，使用改进后的邻域粗糙集中属性依赖度以及重要度计算公式进行特征选择，实现对多标记文本的特征选择，该方法的实现流程如图2所示，具体过程如下。

1.获取多标记文本数据。

2.根据获取的文本数据集中标记与标记之间的二阶相关性，将标记划分成正相关、负相关和不相关三类标记组。

多标记数据的标记集合均为二值分布，即存在或者不存在。为了更好的辨认两个标记之间的关系是正相关、负相关或者不相关，本发明在公式(10)的基础上，按照公式(26)计算两个标记之间的相关性，

对于给定的一个多标记数据集MNDS＝＜X,C∪L＞，X＝{x₁,x₂,…,x_n}表示样本全集，C＝{f₁,f₂,…,f_m}表示属性全集，L＝{l₁,l₂,…l_t}表示标记全集，则标记l_i和标记l_j的相关性为：

其中，P(l_j)为在标记l_j下，标记命中的概率，P(l_j|l_i)表示在标记l_i命中的前提下，标记l_j命中的概率。同理，可得标记和标记的相关性：

公式(26)和公式(27)分别计算了标记l_i和标记l_j的相关性和标记和标记的相关性，通过这两个式子，我定义了一个新的标记与标记之间相关性的计算方式，即

其中，MI(l_i|l_j)为标记l_i与l_j的相关性；为标记和标记的相关性，和表示未命中标记l_i和l_j。

通过分析整个标记集合，发现大部分的多标记数据集中的标记集合是稀疏矩阵，即未命中的标签个数要远大于命中的标签个数，显然，由于这个原因，两个标记同时命中时的知识重要度也是远大于两个标记同时未命中的。为了解决这种情况的，针对公式(28)做出了相应的改进，如下：

式中，θ为重要度参数，计算方式如下

其中，表示标记集中所有标记命中的个数，表示的是第i个样本的第j个标记，nt表示样本总数乘标记总数，显然有0≤θ≤1，且矩阵越稀疏，θ的值越小，此时标记同时命中的相关性权重越大。通过公式(29)计算出了标记与标记之间的正负相关性，如果ρ_ij的结果大于0，则说明标记l_i与标记l_j是正相关的；如果ρ_ij的结果小于0，则说明标记l_i与标记l_j是负相关的；如果ρ_ij的结果等于0，则说明标记l_i与标记l_j是不相关的。但是，显然当ρ_ij的值很接近0时，显然，两个标记之间的无关性要远远超过那一点的相关性，所以我们首先对ρ_ij的取值进行归一化，使得ρ_ij的取值全部映射在[-1,1]这个区间内，然后规定，当|ρ_ij|≤0.2时，说明标记l_i与标记l_j是不相关的；当-1≤ρ_ij＜-0.2时，说明标记l_i与标记l_j是负相关的；当0.2＜ρ_ij≤1时，说明标记l_i与标记l_j是正相关的。

若将两个标记看成一个集体，则所有的标记组情况有以下四种：(1){标记1命中，标记2命中}，(2){标记1命中，标记2未命中}，(3){标记1未命中，标记2命中}，(4){标记1未命中，标记2未命中}，为了方便描述，将这四种情况分别记为{1,1},{1,0},{0,1}和{0,0}，{1,0}与{0,1}这两种情况为同一个类别，此时应考虑哪些特征可以更好的区分这个类别与{1,1}，{0,0}这三种情况；其次，针对负相关的标记组，将{1,1}与{0,0}这两种情况看成同一个类别，考虑哪些特征可以更好的区分这个类别与{1,0}，{0,1}这三种情况；最后，针对不相关的标记组，不忽略任何一组情况，考虑哪些特征可以更好的区分{1,1},{1,0},{0,1}与{0,0}。

如果两个标记之间有明显的相关性，例如文本分类中有两个类别“金融”和“经济”，显然这两个类别之间有很强的正相关性，即这两个标记往往同时出现或者同时不出现，此时以这两种情况为主，其他情况为辅进行划分，也就是说这两个类别同时出现与同时不出现可以分别看成两个对立的主题，而其他情况也不能完全忽略，可能会有某些其他标记或者某些关键特征所决定，所以此时考虑{{1,0},{0,1}},{1,1}和{0,0}这三种情况，负相关性时和无相关性时同理。

3.针对标记组所处类别计算特征在各标记组中的得分，根据特征在每个标记组计算出的得分确定各特征的最终得分，并从中选取得分较高的设定个数的特征，构成特征集合。

若一个特征是具有鉴别力的，那么该特征与同一类别样本之间的方差应该尽量小，而与不同类别样本之间的方差应该尽量大，这样才有利于分类、预测等后续运算的进行。但由于标组之间的强弱相关性不同，显然在相关性更强特征组下使用Fisher-Score方法进行特征选择，其结果会更符合条件。原始的fisher-score计算公式仅能考虑单标记的数据，而文本类数据大多属于多标记的范畴，根据所有标记之间的二阶相关性，即，某个标记与另一个标记的相关性，是正相关还是负相关还是无关，也就是说某一个标记的产生与否会对另一个标记的产生与否提供更多的信息。但是由于数据量过大，所以标记之间的相关性很难通过某几个固定的值确定，故而根据公式(29)的计算结果，分析标记与标记之间的相关性强弱，即根据公式(29)计算的值不同，标记之间的强弱相关性也会不同，之后，根据强弱相关性的不同，针对该组标记进行分析时所知识信息的权重也不同，即相关性越强的标记组所提供的知识的权重越大，对特征的得分贡献也越大。

对于定一个多标记数据集MNDS＝＜X,C∪L＞，X＝{x₁,x₂,…,x_n}表示样本全集，C＝{f₁,f₂,…,f_m}表示特征全集，L＝{l₁,l₂,…,l_t}表示标记全集。对于所组成标记组中，每个特征的得分情况如下：

其中，n_k表示第k类样本的个数，f_j,i表示第i个特征在第j个样本里的值，μ_k表示样本中第i个特征f_i的平均值，表示样本中第i个特征f_i在第k类中的平均值，c表示类别总数，根据相关程度的不同，c的取值也不同，当l_a与l_b正相关或者负相关时，c的值为3，当l_i与l_j不相关时，c的值为4，R_g(l_a,l_b)(公式(9))表示标记l_a与标记l_b的相关性权重。从公式中可以看出了，当标记l_a与标记l_b的相关性越强，则该次计算的特征得分也越高，即针对相关性更强的标记组计算出来的得分的重要性越大。

对每个标记组中计算出来的特征得分进行加权平均，最后降序排列，就得到了对该多标记数据集进行预处理之后的特征序列，该特征序列也叫特征集合。

4.根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度，得到多标记邻域粗糙集。

在原始的边界域计算方式中，由于只考虑了目标样本与最近同类样本和最近异类样本之间的距离，这样计算对于噪音非常敏感。在针对文本类数据集进行分析时，使用原始的粒度计算公式容易受到噪音数据的干扰，通过欧氏距离考虑部分样本而不是全部样本，可以有效避免噪音数据的干扰，与此同时，当分析的样本为噪音样本时，使用改进的粒度计算公式，也可以更准确的将该噪音样本舍去，避免了目标样本是噪音或者与噪音样本距离较近时计算结果会出现很大偏差这一问题。

对于给定多标记邻域决策系统MDNS＝＜U,C∪D,δ＞而言，U＝{x₁,x₂,…,x_n}表示样本集合，B＝{f₁,f₂,…,f_N}描述特征子集，N≤|C|，L＝{l₁,l₂,…,l_M}为对应的标记集合，目标样本x对于标记l_i的分类间隔为：

其中，NM^l(x)为升序排列好的每个异类样本距离，NH^l(x)为升序排列好的每个同类样本距离，|NH^l(x)|为同类样本数目，|NM^l(x)|为异类样本数目，NM^l(x_i)和NH^l(x_i)分别表示在类别标记l下，与样本第i近的异类样本和与样本第i近的同类样本。Δ(x,NM^l(x_i))和Δ(x,NH^l(x_i))分别表示样本点x到NM^l(x_i)和NH^l(x_i)的距离。若计算结果margin^l(x)的结果小于0，则该样本大概率为噪音，此时令该样本的margin^l(x)＝0，则每个样本在所有标记下的邻域半径定义如下。

可以看出，公式(34)即为每个样本的邻域粒度。此时，已经计算出了每个样本的邻域粒度，据新的邻域粒度，多标记邻域粗糙集上下近似计算公式为：

其中，δ_B(x_i)为在通过公式(34)计算出来第i个样本在特征子集B下的邻域半径内的样本集合。

5.根据邻域粒度和所述特征集合构建多标记邻域决策系统，在所述多标记邻域决策系统下，确定属于集合X_j,j＝1,2,…M的集合数和属于集合的集合数，并以此确定多标记邻域粗糙集的依赖度。

在使用原始的多标记邻域粗糙集进行特征选择的时候，发现原始的多标记邻域粗糙集方式在计算依赖度的时候，它的划分效果往往差强人意；此外传统的多标记邻域粗糙集特征选择算法只考虑了拥有哪些特性的样本大概率拥有哪些标记，而忽略了拥有哪些特性的样本，大概率不会拥有哪些标记这种情况。因此为了解决这些问题，本发明对原始邻域粗糙集的依赖度函数进行了改进。

对样本进行如下划分：U＝{x₁,x₂,…,x_n}表示样本集合，L＝{l₁,l₂,…,l_M}为对应的标记集合，则有：

其中，X_j与为样本集在第j个标记下的划分，分别表示命中第j个标记的样本集合和未命中第j个标记的样本集合。

给定多标记邻域决策系统MDNS＝＜U,C∪D,δ＞，U＝{x₁,x₂,…,x_n}表示样本集合，B＝{f₁,f₂,…,f_N}描述特征子集，N≤|C|，L＝{l₁,l₂,…,l_M}为对应的标记集合，针对采用如上方式划分好的两个集合X＝{X₁,X₂,…,X_M}与则有如下定义：

按划分好的两个集合X＝{X₁,X₂,…,X_M}与决策属性D对条件属性子集的依赖度可以表示为：

1)当γ_B(D)＝1时，D对B是强依赖的；

2)当0＜γ_B(D)＜1时，D对B是依赖的；

3)当γ_B(D)＝0时，D对B是全不依赖的。

文本类数据集往往有数据规模大纬度高等特点，使用原始的依赖度计算公式，通常在约简子集中一个新加入的维度或者特征对于整个粒度的确定显得有些杯水车薪，即邻域内样本的变化不会很大，所以上下近似样本集中的样本数目随着一个特征的加入变化也不会很大，因此导致了一个问题，那就是无法准确判断出某几个特征的相对重要度，而这批特征中的某个特征很可能包含至关重要的信息，但却因为该原因导致这个关键特征被忽略掉，从而从根本上降低特征子集的质量；而本发明采用改进的依赖度计算方式，公式(42)，可以有效扩大映射范围，有效的降低重要属性被忽视的风险。

在多标记邻域决策系统中，上述依赖度的定义反映了决策属性对条件属性的重要程度，它不仅可以考查结果分类属性对条件属性的依赖程度，而且有助于发现对分类起决定作用的关键属性，从而达到特征选择和发现最小特征子集的目的。

6.根据多标记邻域粗糙集的依赖度计算多标记邻域决策系统中条件属性相对于决策属性的重要度，根据该重要度进行条件属性的筛选，实现对文本数据的特征选择。

在多标记邻域决策系统MNDS＝＜U,C∪D,δ＞，若γ_B(D)≠γ_B-a(D)，则称a在B中相对决策属性D是必要的，否则不是必要的。

在多标记邻域决策系统MNDS＝＜U,C∪D,δ＞中，若：

(1)γ_B(D)＝γ_C(D)

(2)

则称B是C的一个属性约简，即如果在当前特征子集B下计算出来的依赖度等于在特征全集C下计算出来的依赖度，则终止，此时的特征子集B就是最终的选择出的特征集；式中，γ_B(D)表示决策属性D对条件属性B的依赖度，在邻域粗糙集依赖度计算方式公式(42)基础上，对于任意的属性子集条件属性a∈C-B相对于决策属性D的重要度的计算公式为：

从属性依赖的角度来看，属性的重要性可以提供一种有效的特征选择方法，如果sig(a,B,D)＝0，则说明属性a是冗余属性或者不相关属性，即属性a与当前的分类任务无关或者属性a所包含的分类信息已被包含在其他属性中。因此，可根据重要度的大小，对特征集合中的各属性进行筛选，去除冗余属性或者不相关的属性。

装置实施例

本实施例提出的装置，如图5所示，包括处理器、存储器，存储器中存储有可在处理器上运行的计算机程序，所述处理器在执行计算机程序时实现上述方法实施例的方法。

也就是说，以上方法实施例中的方法应理解可由计算机程序指令实现多标记文本数据特征选择方法的流程。可提供这些计算机程序指令到处理器，使得通过处理器执行这些指令产生用于实现上述方法流程所指定的功能。

本实施例所指的处理器是指微处理器MCU或可编程逻辑器件FPGA等的处理装置；

本实施例所指的存储器包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。例如：利用电能方式存储信息的各式存储器，RAM、ROM等；利用磁能方式存储信息的的各式存储器，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的各式存储器，CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

通过上述存储器、处理器以及计算机程序构成的装置，在计算机中由处理器执行相应的程序指令来实现，处理器可以搭载各种操作系统，如windows操作系统、linux系统、android、iOS系统等。

作为其他实施方式，装置还可以包括显示器，显示器用于将诊断结果展示出来，以供工作人员参考。

为全面评价本发明提出，下面建立了通过测试数据集，对本发明开展实验，判断其有效性，并与现有的其他算法在各个指标上进行比较。

本实验选择了两个多标签文本类数据集，数据集的具体描述如表1所示。数据集可以下载http：//mulan.sourceforge.net/datasets.html。为了评估本发明提出算法的有效性，与四个现有多标记特征选择算法进行了比较：MDFS,MDFS-O(manifold regularizeddiscriminativefeature selection),MSSL(multi-label feature selection viafeature manifold learning and sparsity regularization),GLOCAL(multi-labellearning with global and label correlation)。

这些实验基于具有3.00GHz处理器和8.00GB内存空间的Windows 10，在MATLAB2016b平台上运行。实验评估使用多标签分类模型的ML-KNN，其中平滑参数设置为1，邻域粒度k设置为10(参数设置)，为了减小误差，将训练集拆分为10份，采用十次交叉验证取均值的方式计算。

表1

第一部分选取特征个数(N)以及Average Precision(AP)，Coverage(CV)，HammingLoss(HL)，Ranking Loss(RL)，Micro-averaging(MicF1)这五种评价指标来分析和度量实验结果。

令测试集为根据预测函数f_l(x)可定义排序函数为rank_f(x,l)∈{1,2,…,l}。

N：降维之后所选择的特征数。

Average Precision(AP)：用于考察所有样本的预测标记排序中，排在隶属于该样本标记前面的标记仍属于该样本标记的概率的平均，定义为：

其中，R_i＝{l|Y_il＝+1}表示与样本x_i相关的标记构成的集合，R_i＝{l|Y_il＝-1}表示与样本x_i不相关的标记构成的集合。

Coverage(CV)：用于度量平均每个样本需要查找多少步才能遍历所有与该样本相关的标记，定义如下：

Hamming Loss(HL)：用来度量样本在单个类别标记上的误分类的情况，定义为：

其中表示异或操作。

Ranking Loss(RL)：用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均，定义为：

Micro-averaging(MicF1)：各个混淆矩阵对应元素平均的平均值，定义为：

其中micp_ij和micr_ij分别表示微观查准率和微观召回率。

以上5种评价指标中，指标AP和MicF1的取值越大，表示分类的性能越优；指标CV、HL和RL的取值越小，表示分类性能越优，最优值为0。

图3-a、3-b、3-c、3-d、3-e针对本发明与四个其他多标记特征选择算法在文本类数据集Business下的各评价指标比较图，图4-a、4-b、4-c、4-d、4-e针对本发明与四个其他多标记特征选择算法在文本类数据集Computer下进行的比较，评价的指标有averageprecision、coverage、hamming loss、ranking loss与micro-F1。在这些图片中，仅考虑前100个特征下的各项指标，并且以10为间隔做出折线图。

实验的第一部分，图3-a、3-b、3-c、3-d、3-e分别是指标average precision(AP),coverage(CV),hamming loss(HL),ranking loss(RL)和Micro-F1(mic)在数据集Business下的比较结果。从图中可以看出来，本发明在五个指标下的表现均优于其他四个算法，当选择的特征较多时，本发明在hamming loss(HL)指标下的表现情况较差。之后图4-a、4-b、4-c、4-d、4-e分别是指标average precision(AP),coverage(CV),hamming loss(HL),ranking loss(RL)和Micro-F1(mic)在数据集Computer下的比较结果，从图中可以看出来，本发明在特征数小于70的情况下，五个指标表现情况与MDFS差不多，并且优于其他三个算法；但在特征数大于70的情况下，本发明的五个指标表现均优于其他四个算法。

为了对实验结果做进一步的分析，表2-表6分别给出本发明与现有四种算法在指标RL、指标HL、指标CV、指标AP和指标mic下的具体数值。

表2

表3

表4

表5

表6

表2-6中加粗体现的数据是该行的最优值，显而易见，从表中可以清晰的看出来，本发明相比较其他四个多标记特征选择算法，各指标的表现都是最优的。

实验结果进一步表明本发明对于文本类数据集，能够选出规模较小且分类能力较强的特征子集，相对于常规的多标记特征选择算法具有一定的优势。

26页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种新材料行业基于标识和语义的信息管理方法

一种多标记的文本类数据特征选择方法及装置

相关技术

网友询问留言