基于特征选择与迁移学习的语音抑郁状态识别方法

文档序号:154804 发布日期:2021-10-26 浏览:31次 >En<

阅读说明:本技术 基于特征选择与迁移学习的语音抑郁状态识别方法 (Voice depression state identification method based on feature selection and transfer learning ) 是由 赵张 王守岩 汪静莹 刘伟 于 2021-07-15 设计创作,主要内容包括:本发明提供一种基于特征选择与迁移学习的语音抑郁状态识别方法,针对基于语音进行建模时特征维度较高、特征分布受被试除抑郁水平外的个体差异影响两个问题,提出融合Lasso和迁移学习方法CORAL的语音抑郁状态识别方法。其优势在于1.Lasso过滤特征中的冗余信息,保留有效特征,在提升模型效率的基础上进一步提升识别精度;2.迁移学习方法CORAL在不泄漏抑郁标签信息的前提下,拉近训练集与测试集的特征分布,减小特征分布受抑郁水平外其他因素的影响。两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。(The invention provides a speech depression state recognition method based on feature selection and transfer learning, and provides a speech depression state recognition method fusing a Lasso method and a transfer learning method CORAL, aiming at the two problems that feature dimensionality is high and feature distribution is influenced by individual differences tested except for depression level when modeling is carried out based on speech. The method has the advantages that 1, redundant information in the Lasso filtering characteristics is obtained, effective characteristics are reserved, and the identification precision is further improved on the basis of improving the model efficiency; 2. under the premise of not leaking depression label information, the migration learning method CORAL draws the feature distribution of the training set and the test set closer, and reduces the influence of other factors except the depression level on the feature distribution. The combination of the two methods can further improve the accuracy and stability of depression screening.)

基于特征选择与迁移学习的语音抑郁状态识别方法

技术领域

本发明属于语音信号处理领域,具体涉及一种基于特征选择与迁移学习的语音抑郁状态识别方法。

背景技术

抑郁症是一种在世界范围内典型且常见的精神性疾病,覆盖各个年龄阶段,现行的抑郁症临床诊断方法依赖医生的临床经验和患者填写的相关量表,整个过程耗时较长,诊断流程效率低下。语音作为情绪一种重要的外部表现,因其使用限制少、设备成本低、无接触、采集方式无创且便捷等独特的优势,成为研究人员实现自动化抑郁识别方法的重点方向。

目前针对抑郁识别没有明确的有理论背景支撑的特异性特征,特征设计层面为尽可能提取语音中抑郁相关的信息,一般会使用高维度的、多个领域的特征,并比较不同特征组合的分类结果。但使用的特征数量过多,模型过于复杂,会导致识别结果的时间过长,降低诊断效率。

另一方面人说话是一个非常复杂的过程,目前已经有诸多研究探索抑郁患者的大脑结构与功能和正常人之间的差异,除抑郁症外,对语音造成影响的潜在因素还有很多,主要包括:性别、年龄、情绪状态、言语方式和学历工作背景等。这些因素都会进一步拉大不同被试语音信号的特征分布差异,增加模型识别的难度。

此外,在语音信号相关的机器学习中,进行训练集和测试集划分时通常会假设测试集和训练集的数据是独立同分布的,然而被试语音信号的特征分布不仅会受到抑郁水平的影响,还会受到被试个体性差异如年龄、性别、职业等其他因素的影响,导致这一假设条件得不到满足,降低模型的性能。

发明内容

为解决上述问题,提供一种基于特征选择与迁移学习的语音抑郁状态识别方法,本发明采用了如下技术方案:

本发明提供了一种基于特征选择与迁移学习的语音抑郁状态识别方法,其特征在于,包括:步骤S1,使用录音设备采集语音,获得语音样本;步骤S2,对语音样本进行预处理;步骤S3,提取语音样本中的语音特征,语音特征至少包括色度特征;步骤S4,计算语音特征的统计量,将统计量作为特征集;步骤S5,使用Lasso模型对特征集进行特征选择,得到有效特征集;步骤S6,基于有效特征集,使用CORAL方法进行迁移学习,得到迁移后的训练集特征;步骤S7,基于训练集特征,对语音样本进行分类,并输出分类结果。

本发明提供的基于特征选择与迁移学习的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,语音特征还包括声学特征、频域特征、停顿特征和梅尔频率倒谱系数。

本发明提供的基于特征选择与迁移学习的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,统计量包括最大值、最小值、极差、均值、中位数、线性回归的截距项、线性回归的自变量系数、线性回归的R2、标准差、偏度、峰度以及变异系数。

本发明提供的基于特征选择与迁移学习的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,分类使用的分类器模型为XGBoost。

本发明提供的基于特征选择与迁移学习的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,预处理包括噪音片断的移除,静音片断的移除,高通滤波以及降采样。

本发明提供了一种基于特征选择与迁移学习的语音抑郁状态识别装置,其特征在于,包括:语音采集部,用于采集所述语音样本;预处理部,用于对所述语音样本进行预处理;特征提取部,用于提取所述语音样本的所述语音特征;特征处理部,用于对所述语音特征进行处理,得到所述有效特征集;迁移学习部,用于对所述有效特征集进行迁移学习,得到迁移后的所述训练集特征;分类部,用于对所述语音样本进行分类。

发明作用与效果

根据本发明的基于特征选择与迁移学习的语音抑郁状态识别方法,对采集的语音样本进行预处理后,提取语音特征并计算其12种统计量作为特征集,并进一步对该特征集进行特征选择与迁移学习,得到训练集特征用于语音样本的分类。其中,由于使用了Lasso模型来进行特征选择,过滤了特征中的冗余信息,保留了有效特征,因此该方法基于更少的特征,更低的模型复杂度达到更优的识别精度,解决了基于语音进行建模时特征维度较高的技术问题,同时也提升了模型效率。

另一方面,由于使用了基于特征的无监督迁移学习方法CORAL来进行迁移学习,可以在不泄露抑郁标签信息的前提下,通过对齐二阶协方差矩阵,拉近训练集与测试集的特征分布,减小特征分布受抑郁水平外其它因素的影响,因此解决了基于语音进行建模时特征分布受被试抑郁水平外的个体差异影响的技术问题。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

附图说明

图1是本发明实施例的基于特征选择与迁移学习的语音抑制状态识别方法流程图;

图2是本发明实施例的基于特征选择与迁移学习的语音抑制状态识别装置示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于特征选择与迁移学习的语音抑郁状态识别方法作具体阐述。

<实施例1>

图1是本发明实施例的基于特征选择与迁移学习的语音抑制状态识别方法流程图。

如图1所示,本发明实施例的基于特征选择与迁移学习的语音抑制状态识别方法包括如下步骤:

步骤S1,语音信息采集,使用录音设备采集语音,设计不同言语任务类型的问题,被试根据屏幕上的提示进行回答,使用录音设备采集被试完整的说话过程,并将其记录为wav文件,该文件即为语音样本。

步骤S2,语音信号预处理,对采集到的语音样本进行预处理,人工筛查排除明显的噪音片段,如咳嗽、东西掉落的声音,并进行高通滤波、降采样、静音片段检测和移除。

本实施例1中,采用截止频率为137.8Hz的二阶巴特沃斯滤波器进行高通滤波,降低低频噪音对人声有效信息的干扰;用工具包librosa将语音信号统一采样到16000hz;采用工具包Pyaudioanalysis进行有声片段和静音片段的检测并去除非语音的无声片段。短时傅里叶变换:窗长0.1s,滑动步长0.05s,选用hamming窗,NFFT=1024。

步骤S3,语音特征提取,提取语音样本中的语音特征,包括声学特征、频域特征、停顿特征、梅尔频率倒谱系数和色度特征,见表1。

表1语音特征汇总表

如表1所示,声学特征包括基频、能量和过零率相关特征,共6个。能量特征包括声强和声强包络,过零率相关特征包括过零率、过零幅度即两个过零点间信号的最大幅值和过零间隔即两个过零点间的时间间隔。

频域特征共5个,分别是频谱中心、谱熵、频谱延展度、频谱滚降点、和频谱通量。

梅尔频率倒谱系数共13个,是语音信号处理中常用的特征。

色度特征共12个,是色度图谱和色度向量的统称,代表单位时间内12个音级中的能量,不同八度的同一音级能量累加,色度特征在音乐领域有广泛的应用,本发明将其引入抑郁识别领域。

停顿特征共3个,包括停顿次数、停顿时间占比和平均停顿时长率比。

步骤S4,计算特征统计量:计算语音特征的12个统计量,将这些统计量作为特征集。12个统计量包括:最大值、最小值、极差、均值、中位数、线性回归的截距项(时间作为自变量)、线性回归的自变量系数(时间作为自变量)、线性回归的R2(时间作为自变量)、标准差、偏度峰度以及变异系数

步骤S5,特征选择:使用Lasso模型对特征集进行特征选择,将非显著性变量的系数进行压缩,得到有效特征集。

Lasso基于惩罚函数对特征变量进行选择,通过对系数的压缩进行有效特征的提取,一般线性回归模型Y=Xβ+ε,响应变量Y=(y1,y2,…,yn)T,自变量X=(X(1),X(2),…,X(m)),其中X(i)是n×1阶向量,回归系数β=(β12,…,βm)T。基于普通最小二乘估计,以加入惩罚函数的方式压缩回归系数,部分系数会被压缩至0,将系数被压缩至0的特征舍弃,剩下的特征为保留的有效特征,Lasso估计式为:

本发明是分类任务所以采用的是Lasso-Logistic回归,在Logistic回归模型参数固定的基础上比较不同的λ参数,根据最优的准确率确定超参数。惩罚系数λ通过多轮实验交叉验证调整参数来确定,尝试了λ=1,λ=0.1,λ=0.01,λ=0.005,λ=0.001,λ=0.0005,λ=0.0001,λ=0.00005,最终设置惩罚系数λ为0.005。

步骤S6,迁移学习,基于有效特征集,使用域自适应方法CORAL进行迁移学习,通过对齐二阶协方差矩阵,拉近测试集和训练集间的特征分布,得到迁移后的训练集特征。

本发明为降低因抑郁水平外其他个体因素导致的训练集、测试集之间的特征分布差异,在不泄漏抑郁标签信息的前提下,引入一种基于特征的无监督迁移学习方法:域自适应方法Correlation Alignment(CORAL),通过对齐二阶协方差矩阵,拉近训练集与测试集的特征分布。向目标域的协方差矩阵添加白噪声信息后再进行线性变换,CORAL需要计算的只有两块:(1)源域特征和目标域特征的协方差矩阵;(2)对添加白噪声后的矩阵进行线性变换。迁移算法的具体步骤如表2所示。

表2 CORAL算法步骤

步骤S7,分类,基于训练集特征,使用XGBoost分类器模型对语音样本进行分类,并输出语音样本的分类结果。

XGBoost是一种基于Boosting框架的提升树模型,通过将多个CART决策树集成为一个强分类器来降低模型的识别误差和方差。XGBoost基于梯度下降树设定函数每次进行学习用于你和上一次预测的残差,并根据样本计算每个节点得到的分数,所有分数的和作为该样本的分类结果,将第t次迭代时要进行训练的模型设为ft(x),则:

即模型在t次迭代后对第i个样本的分类结果,xi代表第i个样本,代表第t-1棵树的预测结果,ft代表第t棵树。设定目标函数为:

OBJ(t)即迭代t次的目标函数值,为第i个样本的训练误差;是t棵树的模型复杂度之和,在目标函数中作为正则项。模型复杂度Ω由决策树节点总数T决定,决策树节点的权重系数写作:

式中为权重系数的L2范数;γ是切分叶节点的系数,用于控制节点总数;λ是正则项系数。

通过训练,基于上述目标函数评估何时终止训练。实现时采用贪婪算法遍历所有特征作为划分点,若分裂后的OBJ比分裂前大则继续分裂,若权重系数或深度超过阈值则停止分裂,避免模型过拟合。

训练完成后,即可使用该模型来对语音样本进行分类预测,判断语音样本属于抑郁被试,或者属于正常被试。并最终输出分类的结果。

本实施例还提供了三种语音抑郁状态分类结果的评价指标:Accuracy,F1分数以及AUC值。这三种评价指标的具体定义如下:

F1分数是召回率和精确率的调和平均值,取值范围[0,1]。

AUC值为受试者工作特征曲线(receiver operating characteristic curve,ROC)与坐标轴围成的面积,ROC曲线的横坐标是纵坐标是曲线处于y=x上方,取值范围[0.5,1]。

其中,TP,FP,FN,TN的定义如表3所示。

表3语音抑郁状态分类结果混淆矩阵

抑郁被试的音频 正常被试的音频
判断属于抑郁被试的音频 True Positive(TP) False Positive(FP)
判断属于正常被试的音频 False Negative(FN) True Negative(TN)

上述三种评价指标的值都与分类性能正相关,值越大代表分类的结果越好。

因此,通过上述的基于特征选择与迁移学习的语音抑郁状态识别方法,实现了对被试语音片段的抑郁状态识别,得到了语音片段的分类结果,并得到了该分类结果的评价。

<实施例2>

如上所述,实施例1提供了一种基于特征选择与迁移学习的语音抑郁状态识别方法,主要包括步骤S1~步骤S6。在实际应用时,可以将实施例1的方法的各个步骤配置成对应的计算机模块,即语音采集部、预处理部、特征提取部、特征处理部、迁移学习部、分类部,这些部形成一种对语音抑郁状态进行分类识别的装置,由此,还能够提供一种基于特征选择与迁移学习的语音抑郁状态识别装置。

图2是本发明实施例的基于特征选择与迁移学习的语音抑郁状态识别装置示意图。

如图2所示,基于特征选择与迁移学习的语音抑郁状态识别装置(以下简称语音抑制状态识别装置)100包括语音采集部11,预处理部12,特征提取部13,特征处理部14,迁移学习部15,分类部16。该语音抑郁状态识别装置100用于对目标语音片段进行识别并得到识别结果,即该语音片段属于抑郁被试,或属于正常被试。

其中,语音采集部11用于采集被试的语音片段,得到语音样本,采用步骤S1的语音采集方法。

预处理部12用于对语音样本进行预处理,采用步骤S2的预处理方法。

特征提取部13用于提取语音样本中的语音特征,采用步骤S3的语音特征提取方法。

特征处理部14用于处理提取到的语音特征,得到有效特征集,采用步骤S4~S5的特征处理方法。

迁移学习部15用于进行迁移学习,得到迁移后的训练集特征,采用步骤S6的迁移学习方法。

分类部16用于对语音片段进行分类并输出结果,采用步骤S7的分类方法。

上述各个部的执行过程与基于特征选择与迁移学习的语音抑制状态识别方法中的对应步骤中描述的过程一致,在此不再赘述。

实施例作用与效果

根据本实施例提供的基于特征选择与迁移学习的语音抑郁状态识别方法,对采集的语音样本进行预处理后,提取语音特征并计算其12种统计量作为特征集,并进一步对该特征集进行特征选择与迁移学习,得到训练集特征用于语音样本的分类。其中,由于使用了Lasso模型来进行特征选择,过滤了特征中的冗余信息,保留了有效特征,因此该方法基于更少的特征,更低的模型复杂度达到更优的识别精度,解决了基于语音进行建模时特征维度较高的技术问题,同时也提升了模型效率。

另一方面,本实施例中,由于使用了基于特征的无监督迁移学习方法CORAL来进行迁移学习,可以在不泄露抑郁标签信息的前提下,通过对齐二阶协方差矩阵,拉近训练集与测试集的特征分布,减小特征分布受抑郁水平外其它因素的影响,因此解决了基于语音进行建模时特征分布受被试抑郁水平外的个体差异影响的技术问题。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

例如,实施例中,Lasso模型的惩罚系数λ设置为0.005,本发明中,还可以将惩罚系数λ调整为其他合适的值,也能实现本发明的技术效果。

实施例中,分类使用的分类器模型为XGBoost,本发明中,还可以使用其他分类器模型来进行分类,例如使用LightGBM,也能实现本发明的技术效果。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:模型训练、置信度确定方法及装置、电子设备、存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!