一种烟叶感官质量预测方法

文档序号：1905633 发布日期：2021-11-30 浏览：17次 >En<

阅读说明：本技术 一种烟叶感官质量预测方法 (Tobacco leaf sensory quality prediction method ) 是由孟珍周园春翟擎辰王学志宋秋成沈志宏于 2021-08-10 设计创作，主要内容包括：本发明公开了一种烟叶感官质量预测方法,其步骤包括：1)设定所集成弱分类器的数目K、损失函数以及所要分的类别数目R；2)基于样本数据集对集成学习中的各弱分类器进行训练并更新弱分类器的权重和烟草样本的权重；其中训练第k个弱分类器时,第k个弱分类器对输入数据x-(i)的输出为G-(k)(x-(i)),计算对应的损失函数值e-(k)；然后将第k个弱分类器的权重a-(k)更新为然后通过权重a-(k)更新样本x-(i)的权重,再利用更新后的样本数据集训练第k+1个弱分类器；3)基于各弱分类器的权重对所有弱分类器进行集成,得到强分类器；4)将待识别烟草数据的特征输入所述强分类器,得到对应的类别。(The invention discloses a method for predicting sensory quality of tobacco leaves, which comprises the following steps: 1) setting the number K of the integrated weak classifiers, a loss function and the number R of classes to be classified; 2) training each weak classifier in ensemble learning based on the sample data set and updating the weight of the weak classifier and the weight of the tobacco sample; wherein when training the kth weak classifier, the kth weak classifier pairs the input data x i Has an output of G k (x i ) Calculating the corresponding loss function value e k (ii) a Then the weight a of the k weak classifier k Is updated to Then by the weight a k Updating sample x i Training the (k + 1) th weak classifier by using the updated sample data set; 3) integrating all weak classifiers based on the weights of the weak classifiers to obtain a strong classifier(ii) a 4) And inputting the characteristics of the tobacco data to be identified into the strong classifier to obtain the corresponding category.)

一种烟叶感官质量预测方法

技术领域

本发明属于计算机应用技术领域，涉及数据挖掘领域中数据分类预测问题，尤其涉及到基于集成学习任务的烟叶感官质量分类预测方法。

背景技术

稳定的烟叶感官质量是烟草产品在工业生产中质量稳定的前提条件。在卷烟的生产过程中，不同种类的卷烟所涉及的烟草配方是不同的。其中有的烟草产品所用原料更是能涉及20至30种烟叶。由于在工业生产中，烟草原料的来源的稳定性会受到多种因素的影响(运输方式、存储方式、烟叶产量、生长环境变化)，故如何使烟叶质量稳定是烟草工业生产中的难点问题之一。通常而言，为了使所生产的卷烟质量稳定，需要使用一定的配方维护方法。而如何设计配方维护方法的规则及评价指标，是一个十分复杂的问题。

在传统的烟草生产配方维护中，通常是通过大量的经验积累人工进行信息的采集与分析，对卷烟生产的原料进行定性的判断，从而一定程度上提升卷烟生产配方的稳定性。但是通过此种方法进行配方维护效率十分低下，并且该方法在实施过程中对人力、物力、财力的消耗都有巨大的消耗，与目前烟草工业生产中“快速化生产、持续化生产”的目标背道而驰。

为了挖掘烟叶中的这些理化特性与烟叶的感官质量之间的关系，烟草行业已经对此研究了数十年之久，并且这些研究目前依然是烟草科学中主要的研究方向。尤其在机器学习的算法引入之后，对烟草质量回归分析方面的研究更是愈来愈多。但是大多数现有的研究所引入的方法主要集中在简单的机器学习算法或者数理统计方法上。虽然这些方法可以对烟叶感官质量评级进行定性的分析，但是当要做定量的计算与分类时，这些方法则难以得出明确的结论与数值。而这些问题的根本原因还是在于烟叶感官质量数据通常分布稀疏，并且传统的机器学习方法对于稀疏的数据集适应性较差。

因此，在烟叶感官质量预测的问题中。工业数据集的稀疏性与烟叶数据特征的选择一直是烟叶感官质量预测的核心问题。如何克服数据集的稀疏性的问题以及选择出代表性强的特征，是烟叶感官质量预测算法精度的关键所在。

发明内容

本发明的目的是提供种基于集成学习的烟叶感官质量分类预测的方法，将预测任务转化成一个多决策树构造过程进行解决，并利用机器学习与集成学习结合的方式对预测模型进行训练，对烟叶样本的感官质量进行分类预测。

为了方便说明，首先引入如下概念：

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

集成学习(Ensemble Learning,EL)：集成学习，其实就是学习器的集成，通过构建并结合多个学习器来完成学习任务。一般结构是：先产生一组“个体学习器”，再用某种策略将它们结合起来。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。

通常在分类任务中，采用支持向量机或者决策树算法对数据集合是有一定的分类能力的。但是为了增加分类任务的结果精确度。引入集成学习算法框架，对多个决策树算法进行集成后得到强分类器，以增加样本的分类精度。

本发明数据源基于中国烟草总公司郑州烟草研究院的2004年至2017年湖南、云南、湖北、安徽、福建等22个省208个县区5 314个烤烟烟叶样品数据，通过总植物碱、还原糖、钾、含梗率这四项特征作为输入与烟叶感官质量综合评分建立分类关系，原始数据集中总植物碱、还原糖、钾、含梗率及烟叶感官质量评分均通过人工方式进行测量。本发明具体采用如下技术方案：

一种基于数据挖掘的烟叶感官质量预测方法，其特征在于:

a.融合样本理化信息与离散化感官质量信息对产地烟叶样本进行关联；理化信息即为总植物碱、还原糖、钾、含梗率。感官质量信息即为烟叶感官质量综合评分；通过构造训练模型，使每个样本的通过其理化信息得到感官质量信息；分到同一类别的烟叶产地的样本在感官质量上有更近的关系。

b.将分类预测任务转化为一个多决策树构造过程进行解决；

c.利用监督学习与集成学习结合的方式训练样本分类预测模型；

该方法主要包括以下步骤：

(1)对所使用数据集的样本的质量分数通过等频离散的方式进行处理，即使离散化后的每个类别中的样本数目相同。将其分为“优”、“良”、“中”、“差”四个类别，并作为每个样本的质量分数分类标签y_i。对每一个样本附以权重，样本权重值初始化为相同的值，即样本数目的倒数

(2)设定所集成弱分类器的数目及损失函数，第k个弱分类器对输入数据x的输出为G_k(x)，得到误差损失函数为其中e_k为损失函数值，y_i为离散化后的质量分数即样本分类标签，w_ik为样本权重，I(G_k(x_i)≠y_i)为模型输出与样本标签不相同时的差值；

(3)基于样本数据集对集成学习中的各弱分类器进行训练，其中弱分类选用的是决策树算法进行构造；即所有弱分类器全部基于cart决策树算法训练；

(4)设R为所要分的类别数目，由损失函数可得弱分类器的系数为：通过弱分类器的系数更新样本的权重，其中通过第k个弱分类器的系数a_k将样本x_i的权重更新为其中Z_k为规范化因子：

(5)更新后的样本权重作为下一个训练的弱分类器(即第k+1个弱分类器)的输入，重复步骤(3)—(4)，实现对整个集成学习中的所有弱分类器完整训练。

(6)基于得到的所有弱分类器的权重，利用投票机制对所有弱分类器进行集成，将加以权重的投票结果作为强分类器的最终输出

(7)在应用中，将需要进行识别的烟草数据集作为上述训练后的强分类器模型的输入数据，以总植物碱、还原糖、钾、含梗率这四个属性进行计算，分别得到待识别样本所属分类的输出。进而完成对每个样本的烟叶感官质量的预测。

本发明的有益效果是：

(1)充分发扬集成学习中投票策略的优势，让模型可以避免单分类器学习能力欠佳的问题并得到最优的决策，提升分类结果的精度。

(2)在集成学习的过程中对模型加入了正则化处理，有效避免了模型训练过程中可能出现的过拟合问题。

(3)融合目标的理化特征和产地信息进行数据关联，增强实际工业应用中配方度量的应用价值。

(4)将监督学习与集成学习进行结合，解决传统方法准确率不高的问题，提高研究价值。

附图说明

图1为基于集成学习的感官质量分类预测算法结构图。

图2为决策树算法流程图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

基于集成学习的烟叶感官质量分类方法主要包括以下步骤：

(1)对所使用的样本数据集通过等频离散的方式，将样本的质量分数数值由低至高进行离散。并对每一个样本附以权重，样本权重值初始化为相同的值，即样本数目的倒数

(2)设定所集成弱分类器的数目及损失函数，其中弱分类器数目按照数据量大小进行设定，通常以2的幂次进行增加，损失函数可设定为样本标签与样本输入后实际输出的均方误差，设弱分类器输出为G_k(x)，得到误差损失函数为

(3)基于样本数据集对第k个弱分类器进行训练(按迭代顺序进行训练，从第一个开始)，其中弱分类器采用CART决策树基于GINI指数对决策树进行分类构造，如图2所示，CART决策树算法构造即训练具体步骤参见论文“Classification and regressiontrees”。

(4)通过比较弱分类器的输出结果(即样本的预测结果)与样本集的标签的差异得到损失函数，通过损失函数对样本的权重进行迭代更新，进而对分类器的权重进行更新，即设R为所要分的类别数目，由损失函数可得弱分类器迭代后的系数为：通过弱分类器的系数更新样本的权重分布：其中Z_k为规范化因子：

(5)由上述公式更新后的样本权重作为下一个弱分类器训练模型的输入权重，重复步骤(3)—(4)，按顺序实现对整个模型中的所有弱分类器的完整训练，整体迭代框架可以参考附图1。

(6)基于得到的所有弱分类器的权重，利用投票机制对所有弱分类器进行集成，将加以权重的投票结果作为强分类器即分类模型的最终输出

(7)将需要进行识别的烟草数据集作为强分类器模型的输入数据，以总植物碱、还原糖、钾、含梗率这四个属性进行计算，分别得到待识别样本所属分类的输出。进而完成对每个样本的烟叶感官质量的预测。

7页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：联邦学习审计装置、系统及方法

一种烟叶感官质量预测方法

相关技术

网友询问留言