一种用于监测躁狂发作的语音特征提取方法
阅读说明:本技术 一种用于监测躁狂发作的语音特征提取方法 (Voice feature extraction method for monitoring manic episodes ) 是由 崔东红 杜礼钊 林奥 于 2019-03-07 设计创作,主要内容包括:本发明公开了一种用于监测躁狂发作的语音特征提取方法,属于语音处理技术领域。它包括以下步骤:(1)使用谱熵法对语音信号进行端点检测;(2)使用倒谱法进行语音信号基音pitch提取;(3)使用平均能量进行有音段识别;(4)监测躁狂发作结果。能够通过对语音信号的特征提取,得到语音信号中基音“pitch”和停顿时间“PT”,根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系,以及情绪、健谈与躁狂症状的内在联系,与正常状态的pitch和PT进行比较,作为判断躁狂是否发作的两项监测指标。(The invention discloses a voice feature extraction method for monitoring manic episodes, and belongs to the technical field of voice processing. It comprises the following steps: (1) carrying out endpoint detection on the voice signal by using a spectral entropy method; (2) extracting pitch of the voice signal by using a cepstrum method; (3) using the average energy to identify the voiced segments; (4) manic episode results were monitored. The pitch 'and the pause time' PT 'in the voice signal can be obtained through feature extraction of the voice signal, and the pitch' and the pause time 'PT' can be compared with the pitch 'and the PT in a normal state to serve as two monitoring indexes for judging whether mania occurs according to the relation that the pitch' and the PT can reflect whether people are in 'mood surge' and 'conversation', and the internal relation between mood and conversation and mania symptoms.)
技术领域
本发明涉及一种用于监测躁狂发作的语音特征提取方法,属于语音处理技术领域。
背景技术
双相情感障碍是一种以躁狂症和抑郁症发作为特征的复杂情绪障碍。根据世界卫生组织的世界心理健康调查,全球超过1%的人口患有双相情感障碍,其对患者的生活影响居第二位。双相情感障碍患者的死亡率和***率都比一般人群高得多:其中***率甚至高出20倍。与双相情感障碍的另一极——抑郁发作相比,躁狂患者疾病发作时往往不计后果,更容易做一些冒险的事情:例如随意投资、鲁莽驾驶等。这些冲动的行为轻则导致不良的家庭、社会关系,重则可能引起各种事故甚至对他人生命直接造成威胁。躁狂患者发作时的极大破坏性使其成为公共卫生的健康和安全中的一个重点问题。然而,因为其发病机制不明确且缺乏生物标志物,躁狂症(双相情感障碍)的诊断准确性、治疗效果和预后都不尽人意。因此,基于其高发、难诊断、难治愈易复发的特点及目前的研究现状,检测躁狂发作的客观指标是迫切需要的。然而,当前试图寻找发现或预测躁狂症状发作的研究相对来说很少。主要方法是通过问卷分析,或者和患者及其直系亲属访谈。这两种方法都是必须依靠采访者或者访谈者的先验知识进行主观判断的方法,无法脱离专业人员的系统理论和实践所得的知识,更不能实现实时分析,这就意味着这些方法即便在临床和研究上有一定的意义,但是在具体应用中是不可行的。而在此两种方法之外,还有一种方法值得尝试——躁狂患者的语音分析。
语音信号是与情绪波动相关的主要客观生物标志物之一,而情绪的波动正是双相情感障碍的主要特征。根据国际疾病分类标准(International Classification ofDiseases),在双相情感障碍的所有症状中,最基本的就是情绪的变化或影响,通常是抑郁(伴有或不伴有焦虑)或兴奋。因此,语音信号处理(SSP)是一种有效、客观的诊断躁狂症状的方法。
基于SSP的研究多采用机器学***均重复率决定”。这里的PT指的是整个对话中所有停顿部分(没有语音信号或者说语音信号近乎为0)的时间的比例。因此,当病人更健谈时,PT应该比正常时小。
相比于正常状态,躁狂状态的患者应该有更大的pitch和PT。因此,本技术方案主要是提取语音信号中基音“pitch”和停顿时间“PT”,并与正常状态做比较,达到监测躁狂症发作的目的。
发明内容
本发明所要解决的技术问题在于:提供一种用于监测躁狂发作的语音特征提取方法,它解决了基于语音特征提取来监测躁狂发作的问题。
本发明所要解决的技术问题采取以下技术方案来实现:
一种用于监测躁狂发作的语音特征提取方法,它包括以下步骤:
(1)使用谱熵法对语音信号进行端点检测
设语音信号时域波形为x(i),加窗分帧处理后得到的第n帧语音信号为xn(m),其傅里叶变换(FFT)表示为xn(k),其中下标n表示为第n帧,而k表示为第k条谱线,该语音帧在频域中的短时能量为:
公式(1)中,N为FFT的长度,只取正频率部分;
而对于某一谱线k的能量谱为
则每个频率分量的归一化谱概率密度函数定义为:
该语音帧的短时谱熵定义为:
设置判别门限值,将语音中的各帧的谱熵值与门限值进行比较,即可得到端点信息;
(2)使用倒谱法进行语音信号基音pitch提取
pitch是语音信号中最基本的指标之一,基于语音x(i)是由声门脉冲激励u(i)经声道响应v(i)滤波而来的原理,有:
x(i)=u(i)+v(i) (4)
分别对x(i)、u(i)和v(i)进行倒谱变换,可得:
在倒谱中和相对分离,可以在倒谱中分离出然后再恢复出u(i),进而求得pitch,在计算出倒谱后,在倒频率中寻找倒谱函数最大值,其对应的样本点数就是当前帧语音信号的pitch;
(3)使用平均能量进行有音段识别
储存的语音信号为振幅随时间变化的函数,对所有样本点进行求能量之后求和,再除以数据样本数,即可得到平均能量,再将此平均能量与试验测试标记出的有音段和无音段的平均能量进行比较,大于阈值的记为有音段,否则为无音段,PT等于无音段时间与该段对话总时间之比;
(4)监测躁狂发作结果
将提取的语音信号中基音pitch,与正常状态的基音pitch对比,画出随时间变化图,当两者明显分离时,作为躁狂发作的一个指标,当停顿时间PT小于正常状态PT设定值,则作为躁狂发作的另一个指标。而对于停顿时间,以及正常状态PT设定值,则必须统计所有人的数据并进行T检验。
本发明的有益效果是:能够通过对语音信号的特征提取,得到语音信号中基音“pitch”和停顿时间“PT”,根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系,以及情绪、健谈与躁狂症状的内在联系,与正常状态的pitch和PT进行比较,作为判断躁狂是否发作的两项监测指标。
附图说明
图1为本发明实施例1躁狂状态和正常状态的pitch值随时间变化图;
图2为本发明实施例2躁狂状态和正常状态的pitch值随时间变化图;
图3为本发明实施例3躁狂状态和正常状态的pitch值随时间变化图。
具体实施方式
为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面进一步阐述本发明。
一种用于监测躁狂发作的语音特征提取方法,它包括以下步骤:
(1)使用谱熵法对语音信号进行端点检测
设语音信号时域波形为x(i),加窗分帧处理后得到的第n帧语音信号为xn(m),其傅里叶变换(FFT)表示为xn(k),其中下标n表示为第n帧,而k表示为第k条谱线,该语音帧在频域中的短时能量为:
公式(1)中,N为FFT的长度,只取正频率部分;
而对于某一谱线k的能量谱为则每个频率分量的归一化谱概率密度函数定义为:
该语音帧的短时谱熵定义为:
设置判别门限值,将语音中的各帧的谱熵值与门限值进行比较,即可得到端点信息;
(2)使用倒谱法进行语音信号基音pitch提取
pitch是语音信号中最基本的指标之一,基于语音x(i)是由声门脉冲激励u(i)经声道响应v(i)滤波而来的原理,有:
x(i)=u(i)+v(i) (4)
分别对x(i)、u(i)和v(i)进行倒谱变换,可得:
在倒谱中
和相对分离,可以在倒谱中分离出然后再恢复出u(i),进而求得pitch,在计算出倒谱后,在倒频率中寻找倒谱函数最大值,其对应的样本点数就是当前帧语音信号的pitch;(3)使用平均能量进行有音段识别
储存的语音信号为振幅随时间变化的函数,对所有样本点进行求能量之后求和,再除以数据样本数,即可得到平均能量,再将此平均能量与试验测试标记出的有音段和无音段的平均能量进行比较,大于阈值的记为有音段,否则为无音段,PT等于无音段时间与该段对话总时间之比;
(4)监测躁狂发作结果
将提取的语音信号中基音pitch,与正常状态的基音pitch对比,画出随时间变化图,当两者明显分离时,作为躁狂发作的一个指标,当停顿时间PT小于正常状态PT设定值,则作为躁狂发作的另一个指标。而对于停顿时间,以及正常状态PT设定值,则必须统计所有人的数据并进行T检验。
如图1-图3所示,实施例1-3的图中上方为躁狂状态的pitch值,下方为正常状态的pitch值,从图中能够看到躁狂状态的pitch值与正常状态的pitch值出现明显分离现象,能够作为判断躁狂是否发作的一个指标。
可以发现pitch能够将患者的躁狂状态和正常状态区分开。值得注意的是,语音信号必须要有足够的长度才能够检测到这个特点,躁狂状态和正常状态的pitch在一开始可能处于相同或者相似的水平,但随着时间的增加其差异逐渐表现出来,pitch就能够检测出此差异。
下表为两种状态下停顿时间对比及相应的P值:
状态
正常
躁狂
P值
停顿/总长
0.4987±0.1161
0.3638±0.0966
0.00028685
在上表中,患者在躁狂状态下的停顿时间所占比例为0.3638(0.0966),明显低于正常状态下的0.4987(0.1161)。P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。P值越小,表明结果越显著。
本技术方案能够通过对语音信号的特征提取,得到语音信号中基音“pitch”和停顿时间“PT”,根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系,以及情绪、健谈与躁狂症状的内在联系,与正常状态的pitch和PT进行比较,作为判断躁狂是否发作的两项监测指标。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:基于磁悬浮的声音播放装置