预测浓香型白酒窖泥窖龄的方法

文档序号:1876944 发布日期:2021-11-23 浏览:28次 >En<

阅读说明:本技术 预测浓香型白酒窖泥窖龄的方法 (Method for predicting age of pit mud of Luzhou-flavor liquor pit ) 是由 许正宏 柴丽娟 梅军兰 张晓娟 陆震鸣 史劲松 王松涛 沈才洪 于 2021-08-26 设计创作,主要内容包括:本发明涉及酿酒技术领域,具体涉及一种预测浓香型白酒窖泥窖龄的方法,实现了窖泥窖龄快速准确地预测。本发明预测浓香型白酒窖泥窖龄的方法,包括:对窖泥细菌微生物群落进行检测,在检测过程中,首先对窖泥样本数据进行收集,随后对收集的样本数据进行扩增子数据的处理,处理后得到OTU表格,通过随机森林回归在OTU表格中筛选建模变量,根据建模变量建立预测模型,通过预测模型预测窖泥窖龄。本发明适用于白酒窖泥窖龄的预测。(The invention relates to the technical field of wine making, in particular to a method for predicting the pit age of pit mud of Luzhou-flavor liquor, which realizes the rapid and accurate prediction of the pit age of the pit mud. The invention discloses a method for predicting the pit age of pit mud of Luzhou-flavor liquor, which comprises the following steps of: the method comprises the steps of detecting a cellar mud bacterial microbial community, collecting cellar mud sample data firstly in the detection process, then conducting amplification subdata processing on the collected sample data to obtain an OTU table after processing, screening modeling variables in the OTU table through random forest regression, establishing a prediction model according to the modeling variables, and predicting the age of a cellar mud cellar through the prediction model. The method is suitable for predicting the age of the white spirit cellar mud.)

预测浓香型白酒窖泥窖龄的方法

技术领域

本发明涉及酿酒技术领域,具体涉及一种预测浓香型白酒窖泥窖龄的方法。

背景技术

泥窖生香酿酒是浓香型白酒的独特工艺,泥窖池内网罗了来自原料、大曲、窖泥和环境的微生物,形成了高度复杂多样的酿造微生物集群,它们的通力协作造就了浓香型白酒浓郁醇厚的独特风格特点。数百年来,酿酒先辈们通过生产实践发现栖息于窖泥中的微生物在浓香型白酒典型风味形成中至关重要,并总结出“老窖酿酒,格外生香”,“窖龄老,酒才好”的规律。通过现代生物技术进一步研究发现,窖泥在经过多年不间断的白酒酿造后逐渐形成以梭菌和产甲烷菌为优势菌群的良好微生态系统。因而,窖池的连续不间断使用时间与窖泥品质有紧密的联系,建立基于微生物群落的判别方法是最直接的窖泥窖龄鉴定手段。

在窖泥窖龄鉴别技术研究领域,目前尚无适用的国家标准,研究人员提出的主要鉴别技术包括:沈才洪等人(ZL201110076641.1)提出,将漫反射近红外光谱法与主成分分析方法结合,建立特征投影图并构建数据库,通过对比空间分布判断待测窖泥的窖龄。唐清兰等人(ZL201710917155.5)提出,基于窖泥主导微生物群落的代谢指纹图谱聚类分析,通过窖泥窖龄自动化鉴别系统实现自动化鉴别,能鉴别窖泥质量及成熟度。以上方法为窖泥窖龄鉴别提供了不同的鉴别方案,但需要专业的大型仪器设备,且并不是参考微生物这一最关键核心的特征进行鉴定。

白酒窖泥的微生物群落构成十分复杂,关键的判定信息在数以千计的物种中经常被淹没。因此,重要建模变量的筛选存在较大研究空间。如何发展简单、快速的窖泥窖龄鉴别技术是目前有关窖泥品质鉴定的需求。

发明内容

本发明的目的是提供一种预测浓香型白酒窖泥窖龄的方法,实现了窖泥窖龄快速准确地预测。

本发明采取如下技术方案实现上述目的,预测浓香型白酒窖泥窖龄的方法,包括:

步骤1、对窖泥细菌微生物群落进行检测,在检测过程中,首先对窖泥样本数据进行收集,随后对收集的样本数据进行扩增子数据的处理,处理后得到OTU表格;

步骤2、通过随机森林回归在OTU表格中筛选建模变量;

步骤3、根据建模变量建立预测模型;

步骤4、通过预测模型预测窖泥窖龄。

进一步的是,步骤1中,所述窖泥样本数据包括窖泥样本16S rRNA数据。

进一步的是,所述对窖泥样本16S rRNA数据收集的具体方法包括:

步骤101、以不同窖龄的窖泥样本为待测样品,对窖泥中基因组进行提取,得到混菌基因组样本;

步骤102、对混菌基因组样本进行16S rRNA测序;

步骤103、从NCBI、DDBJ、ENA以及CNGB数据库搜集浓香型白酒窖泥细菌16S rRNA扩增子测序数据,并根据信息全面性、数据完整性进行筛选。

进一步的是,步骤1中,所述对收集的样本数据进行扩增子数据的处理获取OTU表格的具体方法包括:

步骤a、将未拼接的双端数据进行拼接后与无需拼接的数据进行合并,然后进行质控;

步骤b、将质控后的fasta格式数据进行有参聚类,得到初步的OTU表格,再通过SILVA数据库进行序列对应物种名称的注释添加;

步骤c、统计样本间OTU丰度差异后进行不同方式的OTU剔除,然后将丰度最低样本的OTU数量作为抽平标准进行抽平,最后按照OTU在样本中出现频率不低于设置百分比进行筛选,得到最终的OTU表格。

进一步的是,步骤2中,通过随机森林回归在OTU表格中筛选建模变量的具体方法包括:

步骤201、将OTU表格中的相应数据作为测试样本,对测试样本的窖泥窖龄按年龄段进行分组;

步骤201、将分组后的测试样本按照设置比例划分为测试集与训练集;

步骤202、通过训练集对随机森林判别模型进行训练,得到初步判别模型与初步分组的错误率E1;

步骤203、通过测试集对初步判别模型进行测试优化,得到最终判别模型与最终分组的错误率E2;

步骤204、将最终分组的错误率E2与初步分组的错误率E1进行比较,若E2≤E1,则根据最终判别模型得到所有测试样本对窖泥窖龄分组贡献度,否则回到步骤201重新分组;

步骤205、按照贡献度由高到低的顺序进行排序,对排序后的样本使用十折交叉验证法,再结合简约性原则,根据交叉验证曲线对样本OTU进行取舍,筛选出建模变量。

进一步的是,步骤3中,根据建模变量建立预测模型的具体方法包括:

步骤301、将筛选出的建模变量作为建模特征集,对建模特征集的窖泥窖龄按年龄段进行分组;

步骤302、将分组后的建模特征集按照设置比例划分为测试集与训练集;

步骤303、通过训练集对随机森林预测模型进行训练,得到初步预测模型以及初步分组的错误率E3;

步骤304、通过测试集对初步预测模型进行测试优化,得到最终预测模型与最终分组的错误率E4;

步骤305、将最终分组的错误率E4与初步分组的错误率E3进行比较,若E4≤E3,则根据最终预测模型预测窖泥窖龄,否则回到步骤301重新分组。

进一步的是,建模的特征菌属包括氨基杆菌属、嗜蛋白菌属、产己酸菌属、埃希氏菌属、无胆甾原体属、芽孢杆菌属、醋菌属、互营单胞菌属、紫单胞菌属、梭菌属、喜热菌属、Fastidiosipila菌属以及粪球菌属。

本发明将通过解析不同窖龄窖泥的微生物群落特征,采用机器学习的算法从大数据中挖掘特征变量,建立快速高效、准确性高的窖龄预测模型,操作方便,适用于大规模样品的处理和筛选;利用随机森林判别、十折交叉验证筛选出重要变量进行有效的特征建模,实现了特征空间维度的压缩,有效可靠地提高了建模质量,在建模过程中还将错误率进行了对比,有效地提高了模型的准确性。

附图说明

图1是本发明预测浓香型白酒窖泥窖龄的方法流程图。

图2是十折交叉验证法得到的验证曲线图。

图3是筛选特征建模后的准确率示意图。

具体实施方式

本发明预测浓香型白酒窖泥窖龄的方法,包括:

步骤1、对窖泥细菌微生物群落进行检测,在检测过程中,首先对窖泥样本数据进行收集,随后对收集的样本数据进行扩增子数据的处理,处理后得到OTU表格;

步骤2、通过随机森林回归在OTU表格中筛选建模变量;

步骤3、根据建模变量建立预测模型;

步骤4、通过预测模型预测窖泥窖龄。

步骤1中,所述窖泥样本数据包括窖泥样本16S rRNA数据。

所述对窖泥样本16S rRNA数据收集的具体方法包括:

步骤101、以不同窖龄的窖泥样本为待测样品,对窖泥中基因组进行提取,得到混菌基因组样本;

步骤102、对混菌基因组样本进行16S rRNA测序;

步骤103、从NCBI、DDBJ、ENA以及CNGB数据库搜集浓香型白酒窖泥细菌16S rRNA扩增子测序数据,并根据信息全面性、数据完整性进行筛选。

步骤1中,所述对收集的样本数据进行扩增子数据的处理获取OTU表格的具体方法包括:

步骤a、将未拼接的双端数据进行拼接后与无需拼接的数据进行合并,然后进行质控;

步骤b、将质控后的fasta格式数据进行有参聚类,得到初步的OTU表格,再通过SILVA数据库进行序列对应物种名称的注释添加;

步骤c、统计样本间OTU丰度差异后进行不同方式的OTU剔除,然后将丰度最低样本的OTU数量作为抽平标准进行抽平,最后按照OTU(Operational Taxonomic Units)在样本中出现频率不低于设置百分比进行筛选,得到最终的OTU表格。

步骤2中,通过随机森林回归在OTU表格中筛选建模变量的具体方法包括:

步骤201、将OTU表格中的相应数据作为测试样本,对测试样本的窖泥窖龄按年龄段进行分组;

步骤201、将分组后的测试样本按照设置比例划分为测试集与训练集;

步骤202、通过训练集对随机森林判别模型进行训练,得到初步判别模型与初步分组的错误率E1;

步骤203、通过测试集对初步判别模型进行测试优化,得到最终判别模型与最终分组的错误率E2;

步骤204、将最终分组的错误率E2与初步分组的错误率E1进行比较,若E2≤E1,则根据最终判别模型得到所有测试样本对窖泥窖龄分组贡献度,否则回到步骤201重新分组;

步骤205、按照贡献度由高到低的顺序进行排序,对排序后的样本使用十折交叉验证法,再结合简约性原则,根据交叉验证曲线,对样本OTU进行取舍,筛选出建模变量。

其中,交叉验证曲线如图2所示,横坐标为样本OTU数量,纵坐标为交叉验证错误率。

步骤3中,根据建模变量建立预测模型的具体方法包括:

步骤301、将筛选出的建模变量作为建模特征集,对建模特征集的窖泥窖龄按年龄段进行分组;

步骤302、将分组后的建模特征集按照设置比例划分为测试集与训练集;

步骤303、通过训练集对随机森林预测模型进行训练,得到初步预测模型以及初步分组的错误率E3;

步骤304、通过测试集对初步预测模型进行测试优化,得到最终预测模型与最终分组的错误率E4;

步骤305、将最终分组的错误率E4与初步分组的错误率E3进行比较,若E4≤E3,则根据最终预测模型预测窖泥窖龄,否则回到步骤301重新分组。

建模的特征菌属包括氨基杆菌属(Aminobacterium)、嗜蛋白菌属(Proteiniphilum)、产己酸菌属(Caproiciproducens)、埃希氏菌属(Escherichia)、无胆甾原体属(Acholeplasma)、芽孢杆菌属(Bacillus)、醋菌属(Oxobacter)、互营单胞菌属(Syntrophomonas)、紫单胞菌属(Petrimonas)、梭菌属(Clostridium)、喜热菌属(Caloramator)、Fastidiosipila、粪球菌属(Coprococcus),最终优化模型预测的准确率可达90.78%。

本发明预测浓香型白酒窖泥窖龄的一种实施例方法流程图如图1,包括:

步骤S1、窖泥细菌微生物群落的检测,在检测过程中,首先进行窖泥样本16S rRNA基因测序数据的收集,随后进行高通量测序数据的处理;

步骤S2、通过随机森林回归在OTU中筛选出建模重要变量;

步骤S3、将建模重要变量作为判别模型的变量进行预测模型的建立;

步骤S4、通过预测模型预测窖泥窖龄。

具体实施例如下:

A、样本的收集:将从酒厂采集回的窖泥样本进行年份标注并提取基因组进行16SrRNA测序;从NCBI、DDBJ、ENA和CNGB等数据库搜集浓香型白酒窖泥细菌16S rRNA扩增子测序数据,汇总样本信息并进行数据集的筛选。本次共收集到测序数据:1年窖泥样本13个、4年窖泥样本8个、6年窖泥样本75个、8年窖泥样本8个、10年窖泥样本10个、20年窖泥样本1个、30年窖泥样本15个、四十年窖泥样本20个、五十年窖泥样本72个、100年窖泥样本38个、300年窖泥样本8个、400年窖泥样本4个。将这些窖泥样本分为三个年龄段,分别为YG(1-8年)104个;AG(10-50年)118个;AD(100-400年)50个,共计272个样本;

B、样本16S rRNA扩增子数据处理:使用Vsearch程序通过将不同测序区间的数据与含有不同物种16S全长的数据库中的数据进行比对,然后通过比对结果将比对出相同物种或OTU的序列聚类,生成含有不同数据集样本的OTU表,然后将OTU中匹配到的16S全长序列的物种分类注释补充到OTU表中;

C、样本OTU的筛选:将步骤B得到的OTU表首先按样品数据测序量过滤,选择counts大于10000的样品;然后按OTU丰度过滤,选择相对丰度均值大于十万分之一的OTU;再将OTU表按照最小样本序列数进行抽平;最后按照OTU在所有样本中出现概率大于80%进行筛选,得到最终OTU表。

D、以7:3的比例将步骤C中得到的最终OTU表数据集划分为测试集和训练集;

E、在测试集上,采用随机森林判别算法,构建初步分组模型,得到每一个OTU对窖泥窖龄分组的贡献度,按照由高到低的顺序排序;

F、采用十折交叉验证方法,根据表2所示交叉验证结果,按照简约性原则选择重要程度前30的OTU作为筛选后的重要特征变量,将其作为建模特征进行优化模型的构建,应用到测试集中进行预测,得到优化后的准确率从之前的88.48%上升到了90.78%,如表3所示。验证集准确率表现如图3所示,横坐标为窖泥样本窖龄分组,纵坐标为对应的准确率,例如,一份AD窖泥样本经过模型预测,有60%被认定为AD窖泥样本,20%多被认定为AG窖泥样本,不足20%被认定为YG窖泥样本;一份YG窖泥样本经过模型预测,90%多被认定YG窖泥样本,其他不足10%被认定为AG以及AD窖泥样本。

经本发明方法筛选后,最有效的前30个建模特征OTU为表1所示。

表1随机森林筛选方法筛选出的前30个建模特征OTU

表2按照7:3划分测试集和训练集后,对训练集进行十折交叉验证的结果

编号 OTU数量 错误率
1 1 0.414747
2 2 0.289401
3 3 0.235023
4 4 0.211982
5 6 0.173272
6 9 0.134562
7 14 0.129954
8 21 0.118894
9 31 0.117972
10 47 0.118894

表3测试集按照十折交叉验证筛选建模变量后准确率对比

综上所述,本发明通过预测模型实现了窖泥窖龄快速准确地预测。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于常规水化学矿井异常导水构造探测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!