一种基于语音识别的言语功能自动评估系统和方法

文档序号：96701 发布日期：2021-10-12 浏览：32次 >En<

阅读说明：本技术 一种基于语音识别的言语功能自动评估系统和方法 (Speech function automatic evaluation system and method based on voice recognition ) 是由莫贵明苏荣锋王岚燕楠于 2020-04-03 设计创作，主要内容包括：本发明公开了一种基于语音识别的言语功能自动评估系统和方法。该系统包括语音端点检测模块、语音识别模块和评估模块,所述语音识别模块分别与所述语音端点检测模块和所述评估模块具有通信连接,其中所述语音端点检测模块被配置为从连续语音流中检测出语音信号的起点和终点,以提取待评估的语音段；所述语音识别模块被配置为基于经训练的声学模型,对待评估语音段进行特征提取,并输入至深度神经网络模型,以识别出对应的词序列；所述评估模块被配置针对所识别出的词序列,结合呼吸功能的评价指标、发声功能的评价指标和构音功能的评价指标来评估言语功能。本发明能够更全面和准确地评估言语功能,尤其适用于儿童的言语功能分析。(The invention discloses a speech function automatic evaluation system and method based on voice recognition. The system comprises a voice endpoint detection module, a voice recognition module and an evaluation module, wherein the voice recognition module is respectively in communication connection with the voice endpoint detection module and the evaluation module, and the voice endpoint detection module is configured to detect a starting point and an end point of a voice signal from a continuous voice stream so as to extract a voice section to be evaluated; the voice recognition module is configured to perform feature extraction on a voice segment to be evaluated based on the trained acoustic model, and input the voice segment to the deep neural network model to recognize a corresponding word sequence; the evaluation module is configured to evaluate a speech function in combination with an evaluation index of a respiratory function, an evaluation index of a vocal function, and an evaluation index of an articulatory function for the recognized word sequence. The method can evaluate the speech function more comprehensively and accurately, and is particularly suitable for the speech function analysis of children.)

技术领域

本发明涉及信息

技术领域

，更具体地，涉及一种基于语音识别的言语功能自动评估系统和方法。

背景技术

言语障碍主要有四类：构音障碍、口吃、发声障碍和听力障碍，其临床表现为呼吸、发声、共鸣、构音和语音功能的异常。言语障碍在我国儿童群体中的发病率较高，已有研究表明，我国培智学校的在校生主要为中重度智力障碍，其中，70％以上患有言语障碍，而构音障碍的比例大约占据75％到80％。在对沈阳市2316名儿童调查中发现，言语障碍发生率为4.01％，其中，功能性构音障碍儿童占比最高，为51.08％。此外，有研究表明，72.3％到89.2％的言语障碍儿童在经过适当的治疗和干预后取得了较大程度的改善，部分甚至能够完全康复。因此，对言语功能进行全面评估至关重要，这将为发现潜在的言语障碍症状提供可能。

以往的儿童言语功能评估一般由具有相关语言文化背景的专业言语治疗师采用听的方法，通过制定一些量表进行主观上的评估，非常依赖言语治疗师的经验和知识。目前中国专业言语治疗师严重缺乏，低龄患者对专业人员的需求存在巨大缺口。在这一背景下，希望依靠语音识别(automatic speech recognition，ASR)和语音信号处理技术实现适用于学前儿童的、可靠、便捷的言语功能自动评估。

在过去的二十年中，诸多学者基于ASR研究语音的自动评估，如计算机辅助发音训练(Computer aided pronunciation training，CAPT)系统和计算机辅助语言教学系统(Computerassisted language learning，CALL)等。在语音自动评估系统中会使用不同的方法进行特征提取，例如基于信号处理、韵律分析和自然语言处理。所提取的特征继而输入到统计模型中自动判别得到测试者的口语能力得分。ASR模块在自动语音评估系统中发挥着重要的作用，从ASR的输出和韵律分析结果中可提取出一组被广泛应用于语音自动评估系统的特征，这些特征可用于对流利度、发音、音调、语法、词汇使用等方面的评估。

几十年以来，ASR技术得到了长足发展，也经历了很多变革。同样的，基于ASR的语音自动评估技术也随之变化。早期，高斯混合-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)一直是搭建语音识别声学模型的最优框架。在此框架基础上，有学者提出了GOP(Goodness of Pronunciation)算法，用以对发音作自动评估。随着人工智能的快速发展，深度神经网络(Deepneural network，DNN)被成功应用到众多领域，ASR系统的传统声学模型GMM-HMM也逐渐被DNN-HMM取代。与此同时，语音自动评估技术也得到了相应发展。然而，目前研究大多针对计算机辅助语言教学系统的非本地说话人的语音评估任务，且说话人年龄在10岁以上，鲜有针对3-6岁学前儿童言语功能自动评估的研究。

经统计分析，现有的言语功能评估技术主要存在以下问题：

1)、目前研究大多针对计算机辅助语言教学系统的非本地说话人的语音评估任务，说话人年龄在10岁以上，这影响了对于3-6岁学前儿童言语障碍评估的准确性。

2)、目前的语音自动评估系统主要针对成人第二语言学习的发音评估，评价标准比较单一，很难全面反映言语功能状况，特别是对于学前儿童而言，应该提供更全面的综合评估方案，以分析学龄前儿童的言语功能发育状况。

3)、目前的言语功能评估比较固定，无法随被试者的评估状况做相应调整。而言语障碍患者的治疗是一个持续的循环往复的过程，需要对患者做长期的干预和评估。基于此，应该使得每次的评估内容可以针对上次的评估结果做相应调整。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于语音识别的言语功能自动评估系统和方法，结合深度语音识别技术及语音信号处理技术，提供全面言语功能评估的技术方案，尤其能够提高儿童语言功能的评估准确性。

根据本发明的第一方面，提供一种基于语音识别的言语功能自动评估系统。该系统包括语音端点检测模块、语音识别模块和评估模块，所述语音识别模块分别与所述语音端点检测模块和所述评估模块具有通信连接，其中：所述语音端点检测模块被配置为从连续语音流中检测出语音信号的起点和终点，以提取出待评估的语音段；所述语音识别模块被配置为基于经训练的声学模型，对待评估语音段进行特征提取，并输入至深度神经网络模型，以识别出对应的词序列；所述评估模块被配置针对所识别出的词序列以呼吸功能的评价指标、发声功能的评价指标和构音功能的评价指标来评估言语功能。

根据本发明的第二方面，提供一种基于语音识别的言语功能自动评估方法。该方法包括：从连续语音流中检测出语音信号的起点和终点，以提取出待评估的语音段；基于经训练的声学模型，对待评估语音段进行特征提取，并输入至深度神经网络模型，以识别出对应的词序列；针对所识别出的词序列以呼吸功能的评价指标、发声功能的评价指标和构音功能的评价指标来评估言语功能。

与现有技术相比，本发明的优点在于，基于儿童与成人在语音和认知能力上存在的较大差异，根据学前儿童语音数据构建了专门的语音识别系统，同时针对儿童的构音语音评估，提出了更科学的评估语料；从言语生理系统出发，分别对儿童做呼吸功能评估、发声功能评估以及构音功能等进行评估，从而更加全面和准确地掌握儿童的言语功能状况；此外，每次构音语音功能评估的内容可以依据历史评估结果做自适应调整，使评估内容更灵活和有针对性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于语音识别的言语功能自动评估系统的示意图；

图2是根据本发明一个实施例的双门限端点检测方法的流程图；

图3是根据本发明一个实施例的语音识别框架；

图4是根据本发明一个实施例的GMM-HMM模型训练流程图；

图5本根据发明一个实施例的DNN-HMM模型训练流程图；

图6是根据本发明一个实施例的DNN网络结构示意图；

图7是根据本发明一个实施例的言语生理系统示意图；

图8是根据本发明一个实施例的自相关法基音频率检测方法的流程图；

图9是根据本发明一个实施例的构音语音功能评估框图；

图10是根据本发明一个实施例的自适应调整评估语料流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

经研究分析，儿童的嗓音特征与成人明显不同，儿童具有更短的声道，且声道发育具有很高的个体间差异，这导致了儿童语音具有较大的共振峰位置和频谱分布差异。此外，由于学前儿童未接收过系统的言语学习和发音训练，对词汇和句子构造方式的选择与成人有较大差异，导致发音不规范。基于此，本发明提供尤其适用于学前儿童的言语功能自动评估的技术方案，其基于语音识别和语音信号处理技术，对儿童的呼吸功能、发声功能、构音功能进行可靠、便捷、低成本的综合评估，能够使家长实时、全面地了解儿童的言语状况，在临床前或早期临床阶段发现潜在的言语障碍症状，从而为患儿创造及时确诊的机会，以便采取有效的策略进行干预和康复治疗。

根据本发明的一个实施例，所提供的基于语言识别的言语功能自动评估系统包括端点检测模块、语音识别模块和评估模块，其中端点检测模块用于对输入语音做端点检测(例如采用双门限法)，以排除静音段噪声的干扰，提高言语功能评估的鲁棒性，同时也有助于评估模块计算持续音长；语音识别模块用于使用儿童语音数据训练声学模型，并基于已训练好的声学模型，对待评估语音做特征提取并输入深度神经网络，在输出层得到每一帧语音的音素对数后验概率；评估模块用于从呼吸功能、发声功能和构音功能等多角度全面地对言语功能进行分析评估。

在一个应用实例中，本发明的总体技术方案参见图1所示，首先，用户通过客户端与评估系统交互。在评估过程中，用户语音被上传到服务器的Mysql数据库,并写入状态。自动评估模块则通过一个监测线程，判断是否有待评估语音上传，若根据状态判断有待评估语音，则对该语音做自动评估。自动评估模块包括端点检测模块、语音识别模块和评估模块。评估结束后，将评估得分写回Mysql数据库，并改写状态。此外，客户端也通过监听线程根据状态判断评估是否已完成，若评估已完成，则获取评估结果并返回客户端。在下文中，将重点介绍端点检测模块、语音识别模块和评估模块，对于客户端及Mysql数据库不再赘述。

一、关于端点检测模块

端点检测模块用于执行语音端点检测(Voice Activity Detection，VAD)，端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点和结束点，即从连续的语音流中检测出有效的语音段。在本系统中，使用语音端点检测的作用有：本系统的评估模块包含持续音长评估，需要计算语音段时长；用于去除多余的非有声信号，提高处理语音的速度；减少因非有声信号进入后端分析系统而产生的干扰。

在一个实施例中，使用双门限法，例如结合短时能量和短时过零率来实现语音端点检测，短时能量公式表示为：

式中，N表示分帧窗内取的样点数，x(i)表示第i个样本点的幅度值，enery表示一帧语音的能量和。

短时平均过零率公式表示为：

式中，sgn[]是符号函数：

w(n)是窗函数，例如用矩形窗，表示为：

参见图2所示，采用双门限法确定有效语音段的过程包括：按帧计算短时能力和短时过零率；定位浊音，例如设置较高的能量门限Mh，确定出端点A1和A2；扩展搜索，例如设置较低的能量门限Ml并由端点A1和A2向两侧扩展，以确定端点B1和B2；扩展搜索，例如，设置过零率门限并由B1和B2向两侧扩展，确定最终端点C1和C2。其中所涉及的门限可根据噪声干扰情况和需要的处理速度、精度等设置为合适的值。

本发明采用短时能量和短时过零率相结合的方法，利用短时能量和短时过零率两个门限来确定语音信号的起点和终点，能够有效去除冗余信息，提高语音识别的效果。本领域技术人员也可利用其它现有技术检测语音信号的时长。

二、关于语音识别模块

语音识别模块的框架参见图3所示，给定声学观察序列X＝X₁X₂…X_n,语音识别过程就是寻找其对应的词序列的过程

因为P(X)是声学观察序列的分布概率，通常可假设为定值，因此以上公式可写为：

其中，P(X|W)表示给定词序列W条件下声学观察序列的概率，可对应ASR系统中的声学模型。P(W)是声学观察序列X对应文本的先验概率，可对应于ASR系统的语言模型。在本发明中，只使用语音识别系统的声学模型部分，例如基于Kaldi深度学习平台训练，神经网络框架使用前馈神经网络。

在图3中，语音识别框架包括前端处理、声学模型、语言模型和发音字典和解码器。前端处理单元用于提取能表征语音信息的声学特征，声学模型是对音素的声学建模，可获得给定音素状态条件下的观察概率；解码器是在基于声学模型输出的音素观察概率，在发音词典和语言模型的知识源组成的搜索空间中，获得语音对应的词序列。

以下将分别介绍训练数据、声学特征、模型训练过程和模型参数等。

1)、训练数据

本发明实施例的语音识别系统基于48小时的3-5岁学前儿童语音训练数据，录音环境为安静的室内环境，男女比例均衡，儿童地域分布以北方为主，音频为短句，内容包括日常用语、儿童歌谣、故事书、命令交互式句子等。

2)、声学特征

本发明实施例使用的原始声学特征为感知线性预测特征(PLP)和基频特征(Pitch)的拼接,对语音信号按25ms帧长和10ms帧移分帧后提取13维的感知线性预测特征和3维的基频特征，在这16维的特征基础上做倒谱均值规整(CMN)、线性判别分析(LDA)、最大似然线性变换(MLLT)、受限最大似然回归(fMLLR)，得到40维的特征。最后，为考虑时序信号上下文的相关性，最终使用连续11帧拼接的440维特征作为最终的声学模型输入特征。

3)、训练流程

在一个实施例中，声学模型采用深度神经网络-隐马尔可夫混合系统(DNN-HMM)实现，隐马尔可夫模型对语音信号的时序属性建模，深度神经网络用于对语音信号的观察概率建模。深度神经网络模型不需要对声学特征所服从的分布进行假设，且可以采用连续的拼接帧特征更好的利用上下文的信息。

声学模型的训练过程包括：首先训练GMM-HMM模型，以获得帧对齐的训练数据；然后训练DNN-HMM模型。

参见图4所示的GMM-HMM模型训练流程，GMM-HMM模型训练例如基于期望最大化算法(Expectation Maximization，EM)。具体地，从单音素模型开始，对118个单音素建模，得到单音素模型。然后，为了将协同发音现象融入建模中，考虑上下文相关的建模单元,做三音素模型训练。根据相关统计量和问题集构建决策树，对三音素做状态绑定，并基于训练数据对绑定后的三音素训练，得到三音素模型。接下来，对三音素模型做一些调整。线性判别分析(LDA)是一种有监督的降维技术，核心思想为使得投影后的类内方差最小，类间方差最大。最大似然线性变换是在最大似然准则下使用一个线性变换对参数特征矢量进行解相关，使得在新的空间中，模型与训练集匹配的似然度更高。最后，为了补偿实际数据与已经训练好的三音素模型中声学条件不匹配的问题，执行说话人自适应训练，例如对每个说话人进行变换矩阵估计，然后构造变换后的特征，再迭代训练得到新的声学模型参数。

DNN-HMM模型的训练流程参见图5所示，首先基于训练好的GMM-HMM模型对训练集语音数据做强制对齐，获得帧级别对齐的有监督数据。然后，执行深度置信网络预训练(Deep Bel ief Network，DBN)，获得较好的初始化模型。最后，使用对齐的有监督数据，在初始化模型的基础上基于例如交叉熵准则和反向传播算法训练得到最终的DNN声学模型。

4)、训练参数

例如，GMM-HMM模型的总高斯数为39995，绑定后的三音素状态数为3392。DNN-HMM声学模型训练的学习率为0.008，输入层节点数为440，隐层数为5层，隐层节点数为2048，输出层节点数为3392。深度神经网络结构参见图6所示。

在本发明实施例中，考虑儿童语音与成人语音存在差异的因素，基于学前儿童语音数据构建专门的声学模型，以实现准确的言语功能评估。

三、关于评估模块

言语的产生是通过三个系统的协调运动来实现的，它们是呼吸系统、发声系统和构音系统，参见图7所示。贮存在肺、气管与支气管内的气体有规律地随呼气运动排出，形成气流；当气流到达声门处时，被转变成一系列脉冲信号(声门波)；然后通过声道的共鸣作用，形成具有适当形态的声波，最终由嘴和鼻发出言语信号(声波)。鉴于上述特征，本发明实施例的评估模块通过综合评估呼吸功能、发声功能和构音功能来分析言语功能。

1)、呼吸功能评估

呼吸系统是言语的动力来源和基础。在言语过程中，需要瞬时吸入大量的气体并维持平稳的呼气，用较小的气流来维持足够的声门下压。本发明对于呼吸功能的评估主要通过测量儿童的持续音长。持续音长指的是一个人在深呼吸后，持续发单韵母/a/的最长时间，是衡量言语呼吸能力的最佳指标之一。持续音长受性别、年龄、健康状况、身高、体重、肺活量以及呼吸方式等因素的影响。任何一种呼吸系统的疾病、发声系统的疾病或者呼吸系统与发声系统的不协调，均可能导致持续音长的缩短。同一年龄和性别的儿童的持续音长分布如下表1。

表1：中国学前儿童持续音长参考标准

测试环境噪声控制在40dB以下，口和麦克风的距离为10cm左右，总录音时长为10s，音频在做评估前已实现端点检测，在得到语音段时长t后，依据对应年龄和性别的参考标准，持续音长得分可由以下分段函数计算得到：

若持续音长t＜m-σ,则可能存在下面几种异常：

呼吸方式异常(如胸式呼吸)；

呼吸功能减弱(如肺活量下降)；

嗓音功能异常(如声门闭合控制能力减弱)；

呼吸和发声运动不协调(如吸气时发音)；

2)、发声功能评估

发声障碍是指响度、音调、音质等方面的异常。响度异常主要是呼吸气流量、声带阻力、声带振动形态和声门下压等因素共同作用的结果。音调异常主要受声带的长度、质量、张力和声门下压等因素的影响。音质异常一般由声带的功能性异常或器质性病变引起。本发明主要考察对响度和音调的评估。

(1)响度评估

响度评估的实质是评估说话者言语的强度，即声强。声强是声音的客观物理强弱，它是指一定面积上消耗的功率的大小，其单位是W/cm²，决定于发音体振动的振幅，振幅越大，声强越强，常用双传声器法和离散点法测量。而响度是声强的听觉心理感知量，它是指一定强度的声波作用于人耳后，大脑对该声音强度的主观感受。由于响度和强度关系密切，习惯上人们将声强的评估称为响度的评估。在本发明中，对于响度的客观评估是通过计算用户音频的分贝值。用户音频为16bit量化精度，每个采样点的振幅值在0～65535范围。音频分贝值计算公式如下：

L_p＝10log₁₀(P_rms)²dB

＝20log₁₀(P_rms)dB (8)

其中L_p为音频分贝值，P_rms为当前采样点的振幅值。在声强评估中，提示用户持续发音节/ba/，并取端点检测后音频的中间1/3采样点计算分贝值，最后求均值作为最终结果。

经统计分析，正常儿童在与麦克风间距固定的安静环境下录音音频的分贝符合均值为72.5dB，标准差为7.5dB的高斯分布，响度得分范围是0-10分，按如下公式计算：

若测得L_p≥80dB，说明患者存在响度偏高的可能性，若L_p≤65dB，则说明患者存在响度偏低的可能性。

(2)音调评估

音调评估的实质是评估言语的基频。基频是一个物理量，它指的是声带每秒振动的次数，单位是赫兹(Hz)。而音调是基频的听觉心理感知量，是个体对声音高低的主观感觉。在自然音区范围内，声带振动的速率越大，音调则越高；声带振动的速率越小，音调则越低。音调是反映发声功能的一个关键因素，音调不同，嗓音也各不相同。同年龄和性别的儿童，其言语基频大致符合高斯分布，如下表2。

表2：中国学前儿童平均言语基频参考标准(单位：赫兹)

在本发明中，可使用现有的基于三电平中心削波的短时自相关法检测用户发音/ba/的基音频率，算法流程参见图8所示。

在计算得到基频pitch后，依据中国儿童平均言语基频参考标准，音调评估得分范围是0-10分，按如下公式计算：

其中m和σ分别为对应年龄和性别的儿童基频分布的均值和标准差。若测得pitch≤m-2σ，说明患者存在音调偏低的可能性。若pitch≥m-2σ，说明患者存在音调偏高的可能性。

3)、构音功能评估

言语的产生是通过呼吸系统、发声系统和构音系统的协调运动来实现的。构音系统是由口腔、鼻腔、咽腔及其附属器官所组成，其中最主要的构音器官是下颌、唇、舌、软腭。它们各自的灵活运动以及协调运动是产生清晰、有意义言语的必要条件。

构音障碍是指由于构音器官的运动异常或协调运动障碍而导致在发出有意义言语的过程中出现的构音不清和声韵调异常等现象，从而影响言语的可懂度，是导致言语清晰度下降的主要原因。在本发明中，构音功能评估包括构音运动功能评估和构音语音功能评估。

(1)构音运动功能评估

构音运动中，下颌、唇和舌是最重要的构音器官，三者的运动是否正常，是影响构音清晰度的关键要素。在本发明中，使用口腔轮替运动速率来评估构音运动功能。口腔轮替运动速率是指每4秒钟能发出最多特定音节的总数。口腔轮替运动速率反映了舌的运动状态、口部肌群的协同水平，它是衡量言语清晰度的重要指标。在本文，选择/pataka/作为特定的发音音节。它是由三个音节组成，发音时主要考察唇、舌以及下颌的交替运动灵活度。中国学前儿童口腔轮替运动速率的参考标准如下表3所示。

表3：中国学前儿童口腔轮替运动速率参考标准(次/4秒)

测试时，首先要求被试深吸气，一口气在10秒钟内尽可能快地连续发指定音节，音调与响度适中，各个音节必须完整。然后，对被试语音做端点检测和语音识别，统计音节/pataka/频次并除以4，得到口腔轮替运动速率s，最后，使用以下下分段函数计算口腔轮替速率得分：

其中m和σ分别为中国儿童对应年龄和性别的口腔轮替运动速率均值和标准差。若口腔轮替运动速率s＜m-σ,则说明下颌、舌、唇以及软腭的交替运动灵活度差。

(2)构音语音功能评估

构音语音功能评估的目的主要在于检查患者的声母、韵母以及声调等构音音位习得情况。通常，构音语音功能评估需要一份评估语料，编制原则是将声母、韵母和声调等音位进行组合。在言语系统中，将发音时主要用力的部位称为发音部位，包括双唇、唇齿、舌尖前、舌尖中、舌尖后、舌面和舌根7个部位。为了全面评估学前儿童的构音语音功能，并考虑到学前儿童的认知能力，在本发明中科学地选择评估语料，使得语料音节覆盖汉语拼音的所有声韵母，以综合评估所有的发音部位，反映被试儿童的各个音位习得能力以及构音清晰程度。评估语料包括40个词语和40个短语句子，如下表4和表5。

表4：评估词语

表5：评估句子

构音语音功能评估如下图9所示，首先，在评估时被试儿童按提示朗读自动选择的标准文本，生成被试语音并提取声学特征，与标准文本一起输入到声学模型做强制对齐，得到每一帧对应的标签。然后，将特征输入声学模型，使用前馈算法计算得到输出层的后验概率，结合对齐结果计算每个音素发音的GOP得分。最后，设置合适的GOP阈值，判断每个音素发音是否正确并做音素统计。后续依据以上的统计数据，实现三部分内容，分别是：计算构音清晰度、给出易读错声母临床含义、自适应调整评估语料。

(1)GOP算法

GOP算法是一种针对音素级发音质量的评估算法，定义为当前帧声学模型输出的标准音素对数后验概率与最大对数后验概率比值，如下式所示：

其中，Q是音素集，p是当前帧对应的标准音素，LPP是对数音素后验概率，定义如下：

其中o_t是输入特征，t_s和t_e分别为音频p对应开始帧和末尾帧,s则是当前音素p对应的绑定状态，即声学模型神经网络输出层对应的标签。

(2)构音清晰度

在这里，我们使用构音清晰度来评估学前儿童的构音语音功能，即计算被试正确发出的音素所占的百分比。构音清晰度得分按如下公式计算：

其中，C为被试语音中正确发音音素数量，N为词语或句子的总音素数量。如下表6，若被试儿童构音清晰度得分score＜m-σ，则说明存在构音障碍。

表6：正常儿童整体构音清晰度参考标准

(3)易读错声母临床含义

如下表7，依据普通话声母构音表，给出音素统计数据中前n个易读错声母对应的临床含义，包括发音部位及发音方式，使得被试儿童存在的构音问题更清晰。

表7：普通话声母构音表

综上，本发明构建专门针对学前儿童的言语功能自动评估系统，对言语产生的三大系统进行评估，分别是呼吸功能、发声功能和构音功能。针对呼吸功能，对被试儿童做持续音长评估；针对发声功能，做响度评估和音调评估；针对构音功能，主要考察两个方面，一是构音运动功能评估，通过评估口腔轮替运动速率来实现；二是构音语音功能评估，通过评估构音清晰度来实现。以上针对构音系统的两项评估均基于语音识别。

(4)自适应调整评估语料

对于言语障碍患者的治疗是一个持续的循环往复的过程，需要对患者做长期的干预和评估。基于此考虑，希望每次的评估内容可以针对上次的评估结果做相应调整。在本发明中，通过计算本次评估每个声母的发音错误率比值来更新下次评估每个声母对应语料的出现概率，并结合指定概率的随机生成数算法来实现评估语料的自适应调整，流程参见图10所示。

首先，根据评估语料构建一张声母和对应语料的映射表，每个声母对应一个包含该声母的单词或句子的列表。第一次评估时，每个声母对应语料被选中的概率相等。在下一次评估中，每个声母对应语料被选择的概率权重w_i按如下公式更新：

其中，分子e_i是被试儿童在本次评估中第i个声母的发音错误率，分母是所有声母的发音错误率总和。概率权重更新以后，下一次评估则使用指定概率的随机生成数算法，从这23个声母对应的列表中选择不重复的n个词语或句子作为评估语料。通过这种方式，针对评估中儿童发音较差的部分音素，可以在下次评估时提高该部分音素对应语料的占比。

为进一步验证本发明的效果，将所提供的基于语音识别的言语功能自动评估系统已在儿童康复中心测试，对学前儿童做言语功能自动评估，并把系统自动评估结果与由专家评估的结果做相关性分析，实验证明，本发明可作为评估学前儿童言语功能的客观评价工具。

综上所述，本发明提供的基于语音识别的言语功能自动评估系统至少实现以下技术效果：

1)、针对3-6岁学前儿童的言语功能自动评估系统

目前已有的言语自动评估系统主要针对成人第二语言学习，没有针对3-6岁学前儿童的中文言语功能自动评估系统。且中国专业言语治疗师的严重缺乏，使得研究一个针对学前儿童的可靠便捷的言语功能自动评估系统的需求迫在眉睫。本发明基于儿童语音数据构建了专门的ASR系统，且综合考虑了学前儿童的认知能力及词语对应音素的发音部位，提出了更有针对性的评估语料。

2)、对儿童言语功能做更全面的自动评估

目前已有方案的评价标准比较单一，很难全面反映被试的言语功能状况。本发明从言语生理的三大系统出发，对被试儿童做了呼吸功能评估、发声功能评估以及构音功能评估，可以更加全面和准确地掌握儿童的言语功能状况。

3)、自适应调整构音功能评估语料

对于言语障碍患者的治疗是一个持续的循环往复的过程，需要对患者做长期的干预和评估。本发明中实现了本次构音功能评估语料可针对上次的评估结果做相应调整，使得评估内容更有针对性。

4)、提出了构音运动功能的自动评估

以往针对构音运动评估的评估，是专业言语治疗师通过声学分析对构音器官的运动能力和各器官相互之间的协调运动能力进行定量测量，无法满足实时性要求，本发明中，基于语音识别技术计算口腔轮替运动速率实现了对构音运动功能的自动评估。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：机器人、语音数据处理方法、装置以及存储介质

一种基于语音识别的言语功能自动评估系统和方法

相关技术

网友询问留言