一种口语发音评测方法、装置、设备及存储介质
阅读说明:本技术 一种口语发音评测方法、装置、设备及存储介质 (Method, device and equipment for evaluating spoken language pronunciation and storage medium ) 是由 徐晓烁 康跃腾 林炳怀 于 2021-02-03 设计创作,主要内容包括:本申请实施例公开了一种人工智能领域的口语发音评测方法、装置、设备及存储介质,其中该方法包括:获取待评测的目标音频;对目标音频进行声学特征提取处理得到目标声学特征序列;通过声学特征识别模型,根据目标声学特征序列确定声学似然概率向量,声学特征识别模型是以二音素状态为建模单元的模型;基于声学似然概率向量和目标文本,确定目标文本中目标音素的后验概率;根据目标音素的后验概率确定目标发音评测结果。该方法能够提升口语发音评测的准确度。(The embodiment of the application discloses a method, a device, equipment and a storage medium for evaluating spoken language pronunciation in the field of artificial intelligence, wherein the method comprises the following steps: acquiring a target audio to be evaluated; carrying out acoustic feature extraction processing on the target audio to obtain a target acoustic feature sequence; determining an acoustic likelihood probability vector according to a target acoustic feature sequence through an acoustic feature recognition model, wherein the acoustic feature recognition model is a model taking a diphone state as a modeling unit; determining the posterior probability of a target phoneme in the target text based on the acoustic likelihood probability vector and the target text; and determining a target pronunciation evaluation result according to the posterior probability of the target phoneme. The method can improve the accuracy of the spoken language pronunciation evaluation.)
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种口语发音评测方法、装置、设备及存储介质。
背景技术
现如今,通过教育类应用程序(Application,APP)学习知识技能,已成为用户常用的学习方式。在一种常见的应用场景中,用于帮助用户学习外语的APP可以提供口语发音练习功能,该功能可以基于用户上传的发音音频对用户的口语发音进行评测打分,从而方便用户了解自身的口语发音是否标准。
相关技术中,目前主要使用隐马尔可夫模型-深度神经网络(Hidden MarkovModel-Deep Neural Networks,HMM-DNN)声学模型,对用户的口语发音进行评测。该HMM-DNN声学模型以三音素为建模单元,根据用户上传的发音音频的声学特征,确定并输出声学后验概率;进而,通过二分类器根据HMM-DNN模型输出的声学后验概率,确定用户的口语发音评测结果。
然而,在实际应用中,上述HMM-DNN声学模型的声学建模能力较弱,语音识别性能较差,基于该HMM-DNN声学模型输出的声学后验概率对用户的口语发音进行评测,所得到的评测结果的准确度较低,评测效果往往不够理想。
发明内容
本申请实施例提供了一种口语发音评测方法、装置、设备及存储介质,能够保证所确定的口语发音评测结果具有较高的准确度,有效地提升口语发音评测效果。
有鉴于此,本申请第一方面提供了一种口语发音评测方法,所述方法包括:
获取待评测的目标音频;所述目标音频对应于目标文本;
对所述目标音频进行声学特征提取处理,得到目标声学特征序列;
通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型;
基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率;
根据所述目标音素的后验概率,确定目标发音评测结果。
本申请第二方面提供了一种口语发音评测装置,所述装置包括:
音频获取模块,用于获取待评测的目标音频;所述目标音频对应于目标文本;
声学特征提取模块,用于对所述目标音频进行声学特征提取处理,得到目标声学特征序列;
似然概率确定模块,用于通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型;
后验概率确定模块,用于基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率;
发音评测模块,用于根据所述目标音素的后验概率,确定目标发音评测结果。
本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的口语发音评测方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的口语发音评测方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的口语发音评测方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种口语发音评测方法,该方法创新性地利用了以二音素状态为建模单元的声学特征识别模型进行口语发音评测。通过该声学特征识别模型,根据待评测的目标音频对应的目标声学特征序列,确定声学似然概率向量;然后,基于该声学似然概率向量和目标文本,确定目标文本中目标音素的后验概率;最终,根据该目标音素的后验概率确定目标发音评测结果。考虑到以二音素状态为建模单元的声学特征识别模型相比相关技术中的HMM-DNN声学模型,具有更好的声学建模能力和语音识别能力,因此,本申请实施例将该声学特征识别模型引入口语发音评测过程中;并且为了使该声学特征识别模型输出的声学似然概率向量能够适用于口语发音评测,本申请实施例还提出了基于声学似然概率确定声学后验概率的实现方式;如此,将以二音素状态为建模单元的声学特征识别模型用于口语发音评测,能够保证得到具有较高准确度的口语发音评测结果,从而有效地提高口语发音评测效果。
附图说明
图1为本申请实施例提供的口语发音评测方法的应用场景示意图;
图2为本申请实施例提供的一种口语发音评测方法的流程示意图;
图3为本申请实施例提供的Chain模型使用的HMM拓扑结构的示意图;
图4为本申请实施例提供的示例性的HMM拓扑结构的示意图;
图5为本申请实施例提供的示例性的发音评测结果展示界面的示意图;
图6为本申请实施例提供的另一种口语发音评测方法的流程示意图;
图7为本申请实施例提供的一种口语发音评测装置的结构示意图;
图8为本申请实施例提供的另一种口语发音评测装置的结构示意图;
图9为本申请实施例提供的又一种口语发音评测装置的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图;
图11为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术包括:自动语音识别技术(AutomaticSpeech Recognition,ASR)、语音合成技术(Text to Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音技术,具体通过如下实施例进行说明:
相关技术中,通常利用以三音素为建模单元的HMM-DNN声学模型进行口语发音评测,而该HMM-DNN声学模型的声学建模能力和语音识别能力均较弱,相应地,基于该HMM-DNN声学模型输出的声学后验概率确定的发音评测结果,往往准确度较低,所取得的发音评测结果较差。
针对上述相关技术存在的问题,本申请实施例提供了一种口语发音评测方法,该方法创新性地将以二音素状态为建模单元的声学特征识别模型用于口语发音评测,能够保证所确定的发音评测结果具有较高的准确度,取得较好的发音评测效果。
具体的,在本申请实施例提供的口语发音评测方法中,先获取待评测的目标音频,该目标音频对应于目标文本。然后,对该目标音频进行声学特征提取处理,得到目标声学特征序列。接着,通过声学特征识别模型,根据该目标声学特征序列确定声学似然概率向量;此处的声学特征识别模型是以二音素状态为建模单元的模型。进而,基于声学似然概率向量和目标文本,确定该目标文本中目标音素的后验概率。最终,根据该目标音素的后验概率,确定目标发音评测结果。
由于以二音素状态为建模单元的声学特征识别模型相比以三音素为建模单元的HMM-DNN模型,具有更好的声学建模能力和语音识别能力,因此,本申请实施例提供的方法将该声学特征识别模型引入口语发音评测过程中;并且为了使该声学特征识别模型输出的声学似然概率向量能够适用于口语发音评测,本申请实施例还提出了基于声学似然概率确定声学后验概率的实现方式。如此,实现将以二音素状态为建模单元的声学特征识别模型用于口语发音评测,利用该声学特征识别模型进行口语发音评测,能够保证所确定的发音评测结果具有较高的准确度,从而有效地提高口语发音评测效果。
应理解,本申请实施例提供的口语发音评测方法可以应用于具备语音处理能力的设备,如终端设备、服务器等。该终端设备具体可以为智能手机、计算机、平板电脑、个人数字助理(Personal Digital Assitant,PDA)、智能音箱、智能机器人等。该服务器具体可以为应用服务器或Web服务器,在实际部署时,可以为独立服务器,也可以为集群服务器或云服务器。
为了便于理解本申请实施例提供的口语发音评测方法,下面先对该口语发音评测方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的口语发音评测方法的应用场景示意图。如图1所示,该应用场景中包括终端设备110和服务器120,终端设备110和服务器120之间可以通过网络通信。其中,终端设备110中安装有目标应用程序,该目标应用程序具有口语发音练习功能;服务器120用于执行本申请实施例提供的口语发音评测方法。
在实际应用中,用户可以通过终端设备110使用目标应用程序中的口语发音练习功能。示例性的,用户使用该口语发音练习功能时,终端设备110可以显示目标应用程序向该用户提供的跟读文本,并且可以响应于用户对音频录入控件的操作,采集用户朗读该跟读文本时产生的音频;终端设备110检测到用户确认完成音频的录入后,可以通过网络将自身采集的音频发送给服务器120。
服务器120接收到终端设备110发送的音频后,可以将该音频视为待评测的目标音频,并且将用户录入该音频时依据的跟读文本视为目标文本。服务器120对目标音频进行声学特征提取处理,得到对应的目标声学特征序列,该目标声学特征序列包括目标音频中各个时间单元内的声学特征。
然后,服务器120可以通过声学特征识别模型,根据上述目标声学特征序列确定声学似然概率向量,此处的声学特征识别模型是以二音素状态为建模单元的模型。示例性的,上述声学特征识别模型可以为链式(Chain)模型,Chain模型可以根据输入的声学特征序列输出对应的声学似然概率向量,该声学似然概率向量本质上为T*N维的矩阵,T表示声学特征序列中包括的时间单元的数目,N为二音素状态的总数目,声学似然概率向量中的元素Xij表示在第j个二音素状态下第i个时间单元内的声学特征对应的似然概率,该似然概率表征在给定第j个二音素状态的条件下观察到第i个时间单元内的声学特征的条件概率。
接着,服务器120可以基于声学特征识别模型输出的声学似然概率向量和目标文本,确定目标文本中目标音素的后验概率。具体的,服务器120可以将目标音频对应的目标声学特征序列与目标文本进行强制对齐,即确定目标声学特征序列中与目标文本中的目标二音素对应的声学特征,该声学特征所属的时间区间即为目标二音素对应的目标时间区间。服务器120后续可以基于目标时间区间内的声学特征,评测用户对于目标二音素的发音是否标准。
由于声学特征识别模型输出的声学似然概率向量通常难以直接用于评测发音,因此,服务器120需要根据该声学似然概率向量,确定可用于评测发音的声学后验概率,后验概率是指在给定声学特征的条件下观察到某音素状态的概率。具体实现时,服务器120可以根据声学似然概率向量中目标时间区间内的声学特征对应的似然概率,确定目标音素的后验概率;此处的目标音素可以是目标二音素本身,也可以是目标二音素中后一音素。
进而,服务器120可以根据目标音素的后验概率,确定目标发音评测结果。例如,服务器120可以根据一个目标音素的后验概率,评测用户对于该目标音素的发音是否准确。又例如,服务器120也可以根据所属于某个单词的多个目标音素的后验概率,评测用户对于该单词的发音是否准确。再例如,服务器120还可以根据所属于某个语句的多个目标音素的后验概率,评测用户对于该语句的发音是否准确;等等。
服务器120通过上述过程确定出目标发音评测结果后,可以通过网络将该目标发音评测结果发送给终端设备110,以便终端设备110向用户展示该目标发音评测结果,使得用户了解自身的口语发音是否标准。
应理解,图1所示的应用场景仅为示例。在实际应用中,也可以在终端设备110本地部署声学特征识别模型,由终端设备110独立基于用户输入的目标音频进行口语发音评测。在此不对本申请实施例提供的口语发音评测方法的应用场景做任何限定。
下面通过方法实施例对本申请提供的口语发音评测方法进行详细介绍。
参见图2,图2为本申请实施例提供的口语发音评测方法的流程示意图。为了便于描述,下述实施例以该口语发音评测方法的执行主体为服务器为例进行介绍。如图2所示,该口语发音评测方法包括以下步骤:
步骤201:获取待评测的目标音频;所述目标音频对应于目标文本。
在实际应用中,服务器可以获取待评测口语发音的音频作为目标音频,将该目标音频对应的文本作为目标文本。
在一种可能的实现方式中,服务器可以获取终端设备发送的音频,作为待评测的目标音频。示例性的,终端设备中安装有具备口语发音练习功能的目标应用程序,该口语发音练习功能可以为用户提供跟读文本,并在口语发音练习功能对应的界面中显示该跟读文本;用户可以通过触控开始跟读控件触发终端设备采集其朗读该跟读文本时产生的音频,通过触控结束跟读控件触发终端设备停止采集音频;终端设备将其采集的音频通过网络发送给服务器,以使服务器将其接收到的音频作为待评测的目标音频,该目标音频对应的目标文本即为用户的跟读文本。
此外,上述口语发音练习功能也可以支持用户自由发挥,即在没有跟读文本的情况下,用户可以通过触控开始跟读控件触发终端设备采集其自由朗读产生的音频,通过触控结束跟读控件触发终端设备停止采集音频;终端设备将其采集的音频通过网络发送给服务器,以使服务器将其接收到的音频作为待评测的目标音频,此时服务器可以通过对该目标音频进行语音识别,确定该目标音频对应的目标文本。
应理解,上述用户触发终端设备采集音频的实现方式仅为示例,在实际应用中,用户也可以通过其它方式触发终端设备采集音频,例如,可以通过长按音频录入控件触发终端设备采集音频,本申请在此不对触发终端设备采集音频的实现方式做任何限定。
在另一种可能的实现方式中,服务器可以从数据库中获取待评测的目标音频,并确定目标音频对应的目标文本。示例性的,可以将用户上传的音频先存储至数据库中,当需要针对某音频进行发音评测时,服务器可以从数据库中调取该音频作为目标音频,并且确定该目标音频对应的目标文本。
应理解,在实际应用中,服务器也可以通过其它方式获取待评测的目标音频、以及目标音频对应的目标文本,本申请在此不对目标音频和目标文本的获取方式做任何限定。并且,本申请实施例中待评测的目标音频也并不仅限于用户输入的音频,也可以为其它类型的音频。
步骤202:对所述目标音频进行声学特征提取处理,得到目标声学特征序列。
服务器获取到目标音频后,可以对该目标音频进行声学特征提取处理,从而得到该目标音频对应的目标声学特征序列。
示例性的,服务器可以通过对目标音频进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取等一系列处理,得到该目标音频对应的目标声学特征序列。当然,在实际应用中,服务器也可以通过其它方式对目标音频进行声学特征提取处理,本申请在此不对从目标音频中提取目标声学特征序列的实现方式做任何限定。
需要说明的是,目标声学特征序列包括多个时间单元内的声学特征,这多个时间单元对应于目标音频的时长。即,从时间维度将目标音频划分为多段子音频,一段子音频对应的声学特征即为一个时间单元内的声学特征,各段子音频各自对应的声学特征组成了上述目标声学特征序列。上述时间单元的长度可以根据实际需求设定,如1ms、10ms等,本申请在此不对时间单元的长度做任何限定。
步骤203:通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型。
服务器对目标音频进行声学特征提取处理,得到目标声学特征序列后,可以调用声学特征识别模型,将该目标声学特征序列输入该声学特征识别模型,该声学特征识别模型通过对输入的目标声学特征序列进行分析处理,相应地输出声学似然概率向量。
需要说明的是,上述声学特征识别模型是以二音素状态(下文又称senone状态)为建模单元的神经网络模型,其用于针对输入的声学特征序列,确定在各senone状态下该声学特征序列中各时间单元内的声学特征各自对应的似然概率,似然概率具体是指在给定senone状态下观察到声学特征的条件概率。
示例性的,在本申请实施例提供的方法中,上述声学特征识别模型具体可以为Chain模型。不同于以三音素为建模单元的HMM-DNN声学模型,Chain模型是基于序列判别训练准则训练得到的,且以二音素状态为建模单元。Chain模型通常使用二状态的HMM拓扑来表示一个二音素,图3所示即为Chain模型使用的HMM拓扑结构的示意图,其中,二音素p1p2对应的第一个senone状态a仅可以出现一次,而二音素p1p2对应的第二个senone状态b可以出现任意次数,即可以出现零次、一次或多次,第二个senone状态b的出现次数取决于二音素p1p2对应的声学特征的时长;换言之,对于某个二音素而言,其对应的声学特征的时间区间长度确定后,其对应的senone状态序列也可以相应地确定,例如,假设某个二音素p1p2对应的声学特征的时间区间长度为三个时间单元,则该二音素p1p2对应的senone状态序列应当为[abb]。
此外,Chain模型的输出结果与HMM-DNN声学模型的输出结果也有所不同,HMM-DNN声学模型的输出结果为声学后验概率,即在给定声学特征下观察到senone状态的条件概率,而Chain模型的输出结果为声学似然概率,即在给定senone状态下观察到声学特征的条件概率。
假设某个二音素p1p2的对齐时间为第1个时间单元到第T个时间单元,该时间区间内的声学特征序列O=[o1o2…oT]∈RF×T,F表示声学特征的维度;假设该时间区间对应的senone状态序列S=[s1s2…sT],st表示第t时刻的senone状态。Chain模型用于确定在给定的senone状态st下观察到的条件概率Pθ(ot|st)。根据独立假设,在给定某个时间区间的senone状态序列S的情况下,Chain模型可以通过式(1)计算似然概率:
其中,θ表示Chain模型的参数,式(1)的右侧可以看成是关于θ的似然函数。
应理解,在实际应用中,除了可以将Chain模型作为声学特征识别模型外,也可以将其它以二音素状态为建模单元,并且用于确定声学似然概率的神经网络模型,作为本申请实施例中的声学特征识别模型,在此不对本申请实施例中的声学特征识别模型做任何限定。
需要说明的是,声学特征识别模型输出的声学似然概率向量可以理解为T*N维的似然概率矩阵,T表示输入的目标声学特征序列中包括的时间单元的数目,N表示senone状态的总数目;在声学似然概率向量中,元素Xij表示第j个senone状态下第i个时间单元内的声学特征对应的似然概率,即在给定第j个senone状态的条件下观察到第i个时间单元内的声学特征的条件概率。
步骤204:基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率。
具体实现时,服务器可以基于声学似然概率向量和目标文本,确定目标声学特征序列中与目标文本中的目标二音素对应的声学特征所属的时间区间,作为目标时间区间;进而,根据声学似然概率向量中目标时间区间内的声学特征对应的似然概率,确定该目标音素的后验概率。
即服务器获取到声学特征识别模型输出的声学似然概率向量后,可以基于该声学似然概率向量,将目标音频对应的目标声学特征序列与目标音频对应的目标文本强制对齐,即针对目标文本中的目标二音素(可以为目标文本中任一二音素),确定目标声学特征序列中与其对应的声学特征所属的时间区间,作为该目标时间区间。
在一种可能的实现方式中,服务器可以根据目标音频的时长、以及目标文本中各二音素各自对应的senone状态,构建该目标文本对应的候选senone状态序列;然后,针对每个候选senone状态序列,基于声学特征识别模型输出的声学似然概率向量,确定该候选senone状态序列对应的参考似然概率;进而,根据各候选senone状态序列各自对应的参考似然概率,从各候选senone状态序列中选出目标senone状态序列;最终,针对目标文本中的每个二音素,根据该目标senone状态序列,确定目标声学特征序列中与该二音素对应的声学特征所属的时间区间。
具体的,在给定目标音频的时长的情况下,服务器可以针对目标文本中的每个二音素分配对应的时间区间,并根据每个二音素对应的时间区间的长度以及该二音素对应的senone状态,构建该二音素对应的senone状态序列,按照目标文本中各个二音素的排布顺序,将各个二音素各自对应的senone状态序列串联起来,可以得到目标文本对应的候选senone状态序列。服务器调整其针对目标文本中每个二音素分配的时间区间,并且重复执行上述操作,即可得到目标文本对应的多个候选senone状态序列。
然后,服务器可以针对每个候选senone状态序列确定其对应的参考似然概率。具体的,服务器可以针对候选senone状态序列中的每个senone状态,确定其对应的时间单元,并在声学特征识别模型输出的声学似然概率向量中,查找在该senone状态下该时间单元内的声学特征对应的似然概率,作为该senone状态对应的似然概率;然后,基于候选senone状态序列中各个senone状态各自对应的似然概率,计算该候选senone状态序列对应的参考似然概率,例如,可以计算候选senone状态序列中各个senone状态各自对应的似然概率的和值或乘积,作为该候选senone状态序列对应的参考似然概率。
进而,服务器可以根据各候选senone状态序列各自对应的参考似然概率,从各候选senone状态序列中选出最佳候选senone状态序列,作为目标senone状态序列,例如,服务器可以选择所对应的参考似然概率最大的候选senone状态序列,作为该目标senone状态序列。
目标senone状态序列中包括的各个senone状态与目标音频中的各个时间单元一一对应,并且目标senone状态序列由目标文本中各个二音素各自对应的senone状态序列组成;基于此,服务器可以针对目标文本中的每个二音素,将该二音素对应的senone状态序列中的senone状态对应的时间单元串联起来,得到该二音素对应的时间区间。
为了便于理解上述实现过程,下面以目标文本为hi,且允许在hi之前出现静音(对应的音素标记为eps),目标音频的时长包括5个时间单元为例,结合图4所示的hi对应的HMM拓扑结构,对上述实现过程进行举例说明。
目标文本hi中包括单音素sil、h、i和sil,考虑到允许在hi之前出现静音eps,因此目标文本hi中包括以下二音素:(eps,sil)、(sil,h)、(h,i)、(i,sil);目标文本hi对应的HMM拓扑结构如图4所示,其中,二音素(eps,sil)对应的senone状态包括a1和b1,二音素(sil,h)对应的senone状态包括a2和b2,二音素(h,i)包括a3和b3,二音素(i,sil)对应的senone状态包括a4和b4.。
在目标音频的时长包括5个时间单元的情况下,服务器可以为二音素(eps,sil)、(sil,h)和(h,i)分别分配第一个至第三个时间单元,为二音素(i,sil)分配第四个和第五个时间单元,在该种情况下服务器构建出的候选senone状态序列为a1a2a3a4b4;服务器通过调整对于各二音素的时间区间的分配方式,还可以构建出其它候选senone状态序列,如a1a2a3b3a4、a1a2b2a3a4、a1b1a2a3a4。
然后,服务器可以针对每个候选senone状态序列确定其对应的参考似然概率;以针对候选senone状态序列a1a2a3b3a4确定对应的参考似然概率为例,服务器可以在声学特征识别模型输出的声学似然概率向量中,查找在senone状态a1下第一个时间单元内的声学特征对应的似然概率P(o1|s1=a1)、在senone状态a2下第二个时间单元内的声学特征对应的似然概率P(o2|s2=a2)、在senone状态a3下第三个时间单元内的声学特征对应的似然概率P(o3|s3=a3)、在senone状态a4下第四个时间单元内的声学特征对应的似然概率P(o4|s4=a4)、以及在senone状态b4下第五个时间单元内的声学特征对应的似然概率P(o5|s5=b4);进而,基于上述似然概率计算候选senone状态序列a1a2a3b3a4对应的参考似然概率为P(o1|s1=a1)×P(o2|s2=a2)×P(o3|s3=a3)×P(o4|s4=a4)×P(o5|s5=b4)。如此,按照类似的方式,针对候选senone状态序列a1a2a3b3a4、a1a2b2a3a4、a1b1a2a3a4分别计算对应的参考似然概率。
进而,服务器可以根据各候选senone状态序列各自对应的参考似然概率,确定最大的参考似然概率对应的候选senone状态序列,作为目标senone状态序列;并根据该目标senone状态序列,针对目标文本hi中的各个二音素(eps,sil)、(sil,h)、(h,i)、(i,sil)分别确定其对应的时间区间。假设目标senone状态序列为a1a2a3b3a4,则可以确定目标音频的第一个时间单元对应于二音素(eps,sil)、目标音频的第二个时间单元对应于二音素(sil,h)、目标音频的第三个时间单元对应于二音素(h,i)、目标音频的第四个和第五个时间单元对应于二音素(i,sil)。
服务器将目标音频对应的目标声学特征序列与目标音频对应的目标文本强制对齐,确定出目标文本中的目标二音素对应的目标时间区间后,可以进一步根据声学似然概率向量中目标时间区间内的声学特征对应的似然概率,确定与目标音素的后验概率。
需要说明的是,上述目标音素既可以指目标二音素本身,又可以指目标二音素中靠后的单音素(原因在于,二音素中靠后的单音素为二音素的主音素)。上述目标音素的后验概率既可以指独立的后验概率值,又可以指由多个后验概率值组成的后验概率分布。当目标音素为目标二音素时,目标音素的后验概率分布为M*M维的后验概率分布,其中M是所有单音素的数目,后验概率分布中的元素Yij表征由第i个单音素和第j个单音素组成的二音素所对应的后验概率;当目标音素为目标二音素中靠后的单音素时,目标音素的后验概率分布为M*1维的后验概率分布,其中M是所有单音素的数目,后验概率分布中的元素Zi1表示第i个单音素对应的后验概率。
具体确定目标音素的后验概率时,服务器可以根据目标二音素对应的目标时间区间的长度确定参考HMM拓扑;然后,两两组合各单音素,得到多个对应于该目标时间区间内的声学特征的候选二音素;进而,根据各候选二音素各自对应的senone状态和该参考HMM拓扑,确定各候选二音素各自对应的senone状态序列;最终,基于各senone状态序列,根据声学特征识别模型输出的声学似然概率向量中该目标时间区间内的声学特征对应的似然概率,确定目标音素的后验概率。
服务器确定出目标时间区间后,即可根据目标时间区间的长度确定适用于该目标时间区间的二音素的参考HMM拓扑;例如,在目标时间区间仅包括一个时间单元的情况下,参考HMM拓扑中仅包括二音素对应的主senone状态,在目标时间区间包括两个时间单元的情况下,参考HMM拓扑中同时包括二音素对应的主senone状态和从senone状态,且从senone状态仅出现一次,在目标时间区间包括三个时间单元的情况下,参考HMM拓扑中同时包括二音素对应的主senone状态和从senone状态,且从senone状态循环出现两次;以此类推。
此外,服务器需要两两组合各单音素得到多个候选二音素;例如,根据CMU发音词典的规则,在不考虑位置、重读的情况下共涉及39种单音素,此时两两组合各单音素将得到39*39=1521个候选二音素。进而,服务器可以针对每个候选二音素,根据该候选二音素对应的senone状态和上述参考HMM拓扑,确定该候选二音素对应的senone状态序列;例如,假设二音素p1p2对应的senone状态包括主senone状态a和从senone状态b,在参考HMM拓扑对应三个时间单元的情况下,针对二音素p1p2构建的senone状态序列应当为abb。
进而,服务器可以基于各senone状态序列,根据声学特征识别模型输出的声学似然概率向量中目标时间区间内的声学特征对应的似然概率,确定目标音素的后验概率。本申请实施例在此提供了四种示例性的确定目标音素的后验概率的实现方式,下面对这四种实现方式分别进行介绍。
第一种可能的实现方式,服务器可以通过以下方式确定二音素后验概率分布,作为目标音素的后验概率:针对每个senone状态序列,根据声学似然概率向量中在该senone状态序列包括的senone状态下目标时间区间内的声学特征对应的似然概率,确定该senone状态序列对应的候选二音素的参考似然概率;确定各候选二音素各自的参考似然概率的和值作为总参考似然概率;针对每个候选二音素,根据该候选二音素的参考似然概率和总参考似然概率,确定该候选二音素的后验概率;进而,基于各候选二音素各自的后验概率,构建目标时间区间的声学特征对应的二音素后验概率分布,作为目标音素的后验概率。
具体的,服务器可以针对senone状态序列中的每个senone状态,在声学似然概率向量中查找该senone状态下、该senone状态对应的时间单元内的声学特征所对应的似然概率,作为该senone状态对应的似然概率;然后,根据senone状态序列中各senone状态各自对应的似然概率,确定该senone状态序列对应的候选二音素的参考似然概率,例如,可以计算senone状态序列中各senone状态各自对应的似然概率的和值或乘积,作为该senone状态序列对应的候选二音素的参考似然概率。然后,计算各候选二音素各自的参考似然概率的和值作为总参考似然概率。针对每个候选二音素,计算该候选二音素的参考似然概率与总参考似然概率之间的比值,作为该候选二音素的后验概率。进而,利用各候选二音素的后验概率构建二音素后验概率分布,作为目标音素的后验概率;例如,假设共有M个单音素,两两组合M个单音素得到M*M个候选二音素,利用M*M个候选二音素各自的后验概率可以构建M*M维的二音素后验概率分布,其中元素Yij是由第i个单音素和第j个单音素组成的候选二音素的后验概率。
假设某候选二音素为p1p2,该候选二音素p1p2的参考似然概率为P(O|p1p2),则可以通过式(2)计算该候选二音素p1p2的后验概率P(p1p2|O):
其中,q1q2可以表示任意一个候选二音素,P(O|q1q2)表示某候选二音素q1q2的参考似然概率。在候选二音素p1p2对应的senone状态序列为S的情况下,P(O|p1p2)=P(O|S)。
如此,通过式(2)计算出各候选二音素各自的后验概率,即可利用各候选二音素各自的后验概率,构建目标时间区间对应的二音素后验概率分布,并将其作为目标音素的后验概率。
第二种可能的实现方式,服务器可以通过以下方式确定目标二音素自身的后验概率值,作为目标音素的后验概率:针对每个senone状态序列,根据声学似然概率向量中在该senone状态序列包括的senone状态下目标时间区间内的声学特征对应的似然概率,确定该senone状态序列对应的候选二音素的参考似然概率;确定各候选二音素各自的参考似然概率的和值作为总参考似然概率;针对目标二音素,根据该目标二音素的参考似然概率和总参考似然概率,确定该目标二音素的后验概率作为目标音素的后验概率。
与上述第一种实现方式不同的是,在第二种实现方式中服务器可以仅针对目标文本中的目标二音素确定其后验概率,并将该目标二音素的后验概率直接作为目标音素的后验概率。也就是说,在第二种实现方式中,服务器同样需要针对每个候选二音素确定其参考似然概率,并且根据各个候选二音素各自的参考似然概率确定总参考似然概率;但是服务器无需针对每个候选二音素计算其后验概率,只需针对目标二音素计算其后验概率,即只需计算该目标二音素的参考似然概率与总参考似然概率的比值,得到该目标二音素的后验概率作为目标音素的后验概率。
示例性的,假设目标二音素为p1p2,该目标二音素p1p2的参考似然概率为P(O|p1p2),则可以通过式(3)计算该目标二音素p1p2的后验概率P(p1p2|O):
其中,q1q2可以表示任意一个候选二音素,P(O|q1q2)表示某候选二音素q1q2的参考似然概率。在目标二音素p1p2对应的senone状态序列为S的情况下,P(O|p1p2)=P(O|S)。
如此,通过式(3)计算出目标二音素的后验概率,即可将该目标二音素的后验概率作为目标音素的后验概率。
需要说明的是,在上述第一种实现方式和第二种实现方式中,服务器确定二音素(候选二音素或目标二音素)的后验概率时,还可以综合考虑二音素的先验概率。以计算目标二音素的后验概率为例,服务器可以根据目标二音素的参考似然概率、目标二音素的先验概率、总参考似然概率、以及各候选二音素各自的先验概率,确定目标二音素的后验概率。
示例性的,假设目标二音素为p1p2,该目标二音素p1p2的参考似然概率为P(O|p1p2),则可以通过式(4)计算该目标二音素p1p2的后验概率P(p1p2|O):
其中,P(p1p2)表示目标二音素p1p2的先验概率,可以通过统计目标二音素p1p2在历史文本中的出现次数确定;P(q1q2)表示任意一种候选二音素q1q2的先验概率,可以通过统计候选二音素q1q2在历史文本中的出现次数确定。
上述式(4)所示的后验概率计算公式是根据贝叶斯公式推导出来的,上述式(2)和式(3)所示的后验概率计算公式,是在假设先验等概的情况下由式(4)转换得到的,经实验研究发现,通过上述式(2)和式(3)计算得到的后验概率往往准确度更高。
第三种可能的实现方式,服务器可以通过以下方式确定单音素后验概率分布,作为目标音素的后验概率:将候选二音素中靠前的单音素和靠后的单音素分别视为前音素和后音素;针对包括同一后音素的每个候选二音素对应的senone状态序列,根据声学似然概率向量中在该senone状态序列包括的senone状态下目标时间区间内的声学特征对应的似然概率,确定该候选二音素的参考似然概率;并且从包括该后音素的各候选二音素各自的参考似然概率中,选择最大的参考似然概率作为该后音素的参考似然概率;然后,确定各后音素各自的参考似然概率的和值作为总参考似然概率;进而,针对每个后音素,根据该后音素的参考似然概率和总参考似然概率,确定后音素的后验概率;最终,基于各后音素各自的后验概率,构建目标时间区间内的声学特征对应的单音素后验概率分布,作为目标音素的后验概率。
具体的,服务器可以针对每个音素,利用将其作为后音素的各候选二音素,构建该后音素对应的候选二音素集合。然后,针对每个后音素,根据其对应的候选二音素集合中各候选二音素各自对应的senone状态序列,确定该后音素的参考似然概率。具体实现时,服务器可以针对senone状态序列中的每个senone状态,在声学似然概率向量中查找该senone状态下、该senone状态对应的时间单元内的声学特征所对应的似然概率,作为该senone状态对应的似然概率;然后,根据senone状态序列中各senone状态各自对应的似然概率,确定该senone状态序列对应的候选二音素的参考似然概率,例如,可以计算senone状态序列中各senone状态各自对应的似然概率的和值或乘积,作为该senone状态序列对应的候选二音素的参考似然概率。针对某后音素对应的候选二音素集合中各候选二音素均确定出参考似然概率后,服务器可以在各候选二音素各自的参考似然概率中选取最大的参考似然概率,作为该后音素的参考似然概率。
然后,计算各后音素各自的参考似然概率的和值作为总参考似然概率,针对每个后音素,计算该后音素的参考似然概率与总参考似然概率的比值,作为该后音素的后验概率。进而,利用各后音素各自的后验概率构建单音素后验概率分布,作为目标音素的后验概率;例如,假设共有M个单音素,利用这M个单音素各自的后验概率可以构建M*1维的单音素后验概率分布,其中元素Zi1即为第i个单音素的后验概率。
示例性的,根据贝叶斯公式,某个单音素p2的后验概率P(p2|O)可以通过式(5)计算:
其中,表示在单音素p2固定的情况下,包括各单音素p1的候选二音素的后验概率的和值;表示各候选二音素各自的参考似然概率的和值。
然而,经实验研究发现,通过式(5)计算得到的单音素的后验概率往往不够准确;因此,将式(5)所示的单音素后验概率计算公式调整为式(6):
其中,表示后音素p2的参考似然概率,即在固定后音素p2,枚举前音素p1的情况下,针对包括每个前音素p1的候选二音素计算其参考似然概率,然后从包括后音素p2的各候选二音素各自的参考似然概率中选择最大的参考似然概率,作为后音素p2的参考似然概率。表示各后音素q2各自的参考似然概率的和值。
如此调整的原因在于,在实际应用中,两两组合各单音素得到的所有二音素并不是都存在的,某些单音素对应的二音素很多,而某些单音素对应的二音素很少;直接求和的计算,会使得针对对应于较多二音素的单音素计算得到较大的后验概率,而针对对应于较少二音素的单音素计算得到较小的后验概率;在实践过程中,发现在包括同一后音素的各候选二音素各自的参考似然概率中,挑选最大的参考似然概率表示该后音素的参考似然概率,能够使得后续计算得到的后验概率更准确。
如此,通过式(6)计算出各后音素各自的后验概率后,即可利用各后音素各自的后验概率,构建目标时间区间对应的单音素后验概率分布,并将其作为目标音素的后验概率。
第四种可能的实现方式,服务器可以通过以下方式确定目标二音素中目标后音素的后验概率值,作为目标音素的后验概率:将候选二音素中靠前的单音素和靠后的单音素分别视为前音素和后音素;针对包括同一后音素的每个候选二音素对应的senone状态序列,根据声学似然概率向量中在该senone状态序列包括的senone状态下目标时间区间内的声学特征对应的似然概率,确定该候选二音素的参考似然概率;并且从包括该后音素的各候选二音素各自的参考似然概率中,选择最大的参考似然概率作为该后音素的参考似然概率;然后,确定各后音素各自的参考似然概率的和值作为总参考似然概率;进而,针对目标二音素中的目标后音素,根据该目标后音素的参考似然概率和总参考似然概率,确定该目标后音素的后验概率作为目标音素的后验概率。
与上述第三种实现方式不同的是,在第四种实现方式中服务器可以仅针对目标文本中目标二音素包括的后音素(即目标后音素)确定其后验概率,并将该目标后音素的后验概率直接作为目标音素的后验概率。也就是说,在第四种实现方式中,服务器同样需要针对每个后音素确定其参考似然概率,并且根据各个后音素各自的参考似然概率确定总参考似然概率;但是服务器无需针对每个后音素计算其后验概率,只需针对目标二音素中包括的目标后音素计算其后验概率,即只需计算目标后音素的参考似然概率与总参考似然概率的比值,得到目标后音素的后验概率作为目标音素的后验概率。
示例性的,假设目标二音素为p1p2,目标后音素为p2,服务器可以通过式(7)计算该目标后音素p2的后验概率:
其中,表示目标后音素p2的参考似然概率;q1q2可以表示任意一个候选二音素,表示某后音素q2的参考似然概率。
如此,通过式(7)计算出目标二音素中目标后音素的后验概率,即可将该目标后音素的后验概率作为目标音素的后验概率。
步骤205:根据所述目标音素的后验概率,确定目标发音评测结果。
服务器确定出目标音素的后验概率后,即可根据该目标音素的后验概率确定目标发音评测结果。
在实际应用中,服务器通常需要使用发音评测模型,根据目标音素的后验概率确定目标发音评测结果。该发音评测模型是预先采用有监督训练的方式训练得到的神经网络模型,即服务器可以利用大量包括音素后验概率和标注的发音评测结果的训练样本,对发音评测模型进行训练,直至该发音评测模型满足训练结束条件为止,例如,直至该发音评测模型的性能达到预设的性能标准为止,或者直至该发音评测模型的迭代训练次数达到预设的训练次数为止,等等。
应理解,在实际应用中,服务器训练的发音评测模型的处理对象可以为二音素后验概率分布、二音素后验概率值、单音素后验概率分布和单音素后验概率值中的任意一种,具体可以根据实际需求,设置发音评测模型的处理对象,本申请在此不对该发音评测模型的处理对象做任何限定。
需要说明的是,在实际应用中,服务器可以通过以下至少一种方式确定上述目标发音评测结果:通过音素评测模型,根据目标音素的后验概率确定音素发音评测结果;通过单词评测模型,根据第一后验概率集合确定单词发音评测结果,此处的第一后验概率集合包括:目标文本中的待评测单词包括的各目标音素各自的后验概率;通过语句评测模型,根据第二后验概率集合确定语句发音评测结果,此处的第二后验概率集合包括:目标文本中的待评测语句包括各目标音素各自的后验概率。
即服务器确定出目标音素的后验概率后,可以基于目标音素的后验概率对音素发音、单词发音和语句发音中的至少一种进行评测。服务器对音素发音进行评测时,可以直接将通过步骤205确定的目标音素的后验概率输入音素评测模型,获取该音素评测模型输出的结果作为音素发音评测结果。服务器对单词发音进行评测时,可以确定待评测单词中包括的各目标音素,进而将待评测单词中各目标音素各自的后验概率输入单词评测模型,获取该单词评测模型的输出结果作为单词发音评测结果。服务器对语句发音进行评测时,可以确定待评测语句中包括的各目标音素,进而将待评测语句中各目标音素各自的后验概率输入语句评测模型,获取该语句评测模型的输出结果作为语句发音评测结果。当然,服务器还可以进一步利用文章评测模型,根据待评测文章中各语句包括的各目标音素各自的后验概率,确定文章发音评测结果,等等。
应理解,在服务器根据终端设备上传的目标音频进行发音评测的场景中,服务器确定出目标发音评测结果后,可以进一步将该目标发音评测结果返回给终端设备,以便终端设备向用户展示该发音评测结果。图5所示为一种示例性的发音评测结果展示界面的示意图,如图5所示,终端设备可以在界面中显示语句发音评测结果,该语句发音评测结果具体可以通过评分来表示,也可以通过星级来表示;此外,如图5中(a)所示,用户可以通过点击某个音素来查看该音素的发音评测结果,如图5中(b)所示,用户可以通过长按单词来查看该单词的发音评测结果。
本申请实施例提供的口语发音评测方法,考虑到以二音素状态为建模单元的声学特征识别模型相比以三音素为建模单元的HMM-DNN模型,具有更好的声学建模能力和语音识别能力,因此,将该声学特征识别模型引入口语发音评测过程中;并且为了使该声学特征识别模型输出的声学似然概率向量能够适用于口语发音评测,本申请实施例还提出了基于声学似然概率确定声学后验概率的实现方式。如此,实现将以二音素状态为建模单元的声学特征识别模型用于口语发音评测,利用该声学特征识别模型进行口语发音评测,能够保证所确定的发音评测结果具有较高的准确度,从而有效地提高口语发音评测效果。
为了便于进一步理解本申请实施例提供的口语发音评测方法,下面结合图6所示的流程图,以基于单音素的后验概率分布确定发音评测结果为例,对本申请实施例提供的口语发音评测方法进行整体示例性介绍。
如图6所示,终端设备可以将用户跟读目标文本时录制的音频,通过网络发送给服务器,以便服务器将其作为待评测的目标音频。服务器获取到目标音频后,可以先通过步骤601对目标音频进行声学特征提取处理,得到该目标音频对应的目标声学特征序列。
然后,服务器可以通过步骤602利用Chain模型基于目标声学特征序列,确定声学似然概率向量。该声学似然概率向量中包括各senone状态下目标声学特征序列中各时间单元内的声学特征各自对应的似然概率。
接着,服务器可以通过步骤603,根据Chain模型输出的声学似然概率向量,将目标声学特征序列与目标文本进行强制对齐,针对目标文本中包括的每个二音素,确定目标声学特征序列中与其对应的声学特征所属的时间区间。
进而,服务器可以通过步骤604至步骤606,以目标文本中每个二音素对应的时间区间为处理单元,基于声学似然概率向量中每个时间区间内的声学特征对应的似然概率,确定该时间区间内的声学特征对应的单音素后验概率分布。
具体实现时,针对单音素p2可以枚举各音素p1作为前音素,与该单音素p2组成多个候选二音素;然后,针对每个候选二音素,根据该候选二音素对应的senone状态序列和声学似然概率向量,确定该候选二音素的参考似然概率;进而,从包括后音素p2的各候选二音素各自的参考似然概率中,选出最大的参考似然概率maxp1P(O|p1p2)作为该后音素p2的参考似然概率;如此,通过上述方式针对各单音素确定其各自的参考似然概率。然后,服务器可以计算各单音素各自的参考似然概率的和值作为总参考似然概率。进而,针对每个单音素,计算其参考似然概率与总参考似然概率的比值作为该单音素的后验概率。最终,利用各单音素各自的后验概率构建该时间区间内的声学特征对应的单音素后验概率分布。
最终,服务器可以通过步骤607,利用预先训练好的发音评测模型,根据目标声学特征序列中各时间区间内的声学特征各自对应的单音素后验概率分布,对终端设备上传的音频进行口语发音评测打分。
本申请发明人通过实验,对相关技术中以三音素为建模单元的HMM-DNN声学模型的模型识别效果,与本申请实施例中以二音素状态为建模单元的Chain模型的模型识别效果进行对比,得到表1所示的模型识别效果对比结果。为了保证比较的公平性,针对HMM-DNN模型和Chain模型都是使用380小时的中国小学生英语口语录音训练的,并且都是使用10小时的语音数据测试的。
表1
Chain模型
HMM-DNN模型
字错误率(Word Error Rate,WER)
11.22
13.51
通过表1可以发现,使用Chain模型可以达到更高的识别准确率,并且从理论上来看,Chain模型的解码图小于以三音素为建模单元的HMM-DNN模型的解码图,Chain模型的解码时间更短。
此外,发明人还分别使用本申请实施例提供的基于Chain模型输出的似然概率进行口语发音评测方法、以及相关技术中基于HMM-DNN模型的口语发音评测方法,对音素发音进行打分,以评测两种方法的评测准确度。为了保证比较的公平性,完成音素后验概率的计算后,使用结构相同的三层神经网络用于预测音素发音好坏;该神经网络的输入为通过这两种方法计算得到的音素后验概率,神经网络的输出为1或0(分别表示当前评测的音素发音是否良好)。该神经网络是使用约3000句的中国小学生英语口语音素标注数据进行训练得到的,并且使用约1000句的标注数据用以测试。实验评价的指标包括召回率(Recall)、准确率(Precision)和F值(F-measure),对比结果如表2所示。
表2
准确率
召回率
F值
相关技术
0.49
0.54
0.51
本申请
0.46
0.61
0.53
通过表2可以发现,在召回率和F值两方面,本申请实施例提供的方法的评测效果优于相关技术中基于HMM-DNN模型的评测效果。
本申请实施例提供的方法的优势在于,利用语音识别业界广泛使用的Chain模型为基础,基于该Chain模型输出的似然概率确定音素后验概率,并基于该音素后验概率进行发音评测。一方面,基于该Chain模型得到的发音评测效果优于相关技术中基于HMM-DNN模型的发音评测效果。另一方面,考虑到目前的发音打分软件普遍需要维护两个模型,一个是用于发音评测的HMM-DNN模型,另一个用于语音识别的Chain模型,这会增加系统的维护成本,耗费大量人力物力;本申请实施例提出了基于Chain模型的口语发音评测方法,使得发音打分软件仅需维护一个Chain模型即可,大大降低了软件产品的维护成本。
针对上文描述的口语发音评测方法,本申请还提供了对应的口语发音评测装置,以使上述口语发音评测方法在实际中的应用以及实现。
参见图7,图7是上文图2所示的口语发音评测方法对应的口语发音评测装置700的结构示意图。如图7所示,该口语发音评测装置700包括:
音频获取模块701,用于获取待评测的目标音频;所述目标音频对应于目标文本;
声学特征提取模块702,用于对所述目标音频进行声学特征提取处理,得到目标声学特征序列;
似然概率确定模块703,用于通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型;
后验概率确定模块704,用于基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率;
发音评测模块705,用于根据所述目标音素的后验概率,确定目标发音评测结果。
可选的,在图7所示的口语发音评测装置的基础上,参见图8,图8为本申请实施例提供的另一种口语发音评测装置800的结构示意图。如图8所示,所述后验概率确定模块704包括:
强制对齐子模块801,用于基于所述声学似然概率向量和所述目标文本,确定所述目标声学特征序列中与所述目标文本中的目标二音素对应的声学特征所属的时间区间,作为目标时间区间;
后验概率确定子模块802,用于根据所述声学似然概率向量中所述目标时间区间内的声学特征对应的似然概率,确定所述目标音素的后验概率。
可选的,在图8所示的口语发音评测装置的基础上,所述强制对齐子模块801具体用于:
根据所述目标音频的时长、以及所述目标文本中各二音素各自对应的二音素状态,构建所述目标文本对应的候选二音素状态序列;
针对每个所述候选二音素状态序列,基于所述声学似然概率向量,确定所述候选二音素状态序列对应的参考似然概率;
根据各所述候选二音素状态序列各自对应的参考似然概率,从各所述候选二音素状态序列中选出目标二音素状态序列;
根据所述目标二音素状态序列,确定所述目标声学特征序列中与所述目标文本中各二音素对应的声学特征各自所属的时间区间。
可选的,在图8所示的口语发音评测装置的基础上,参见图9,图9为本申请实施例提供的另一种口语发音评测装置900的结构示意图。如图9所示,所述后验概率确定子模块802包括:
HMM拓扑确定单元901,用于根据所述目标时间区间的长度,确定参考隐马尔可夫模型HMM拓扑;
候选二音素构建单元902,用于两两组合各单音素,得到多个对应于所述目标时间区间内的声学特征的候选二音素;
二音素状态序列构建单元903,用于根据各所述候选二音素各自对应的二音素状态和所述参考HMM拓扑,确定各候选二音素各自对应的二音素状态序列;
后验概率确定单元904,用于基于各所述二音素状态序列,根据所述声学似然概率向量中所述目标时间区间内的声学特征对应的似然概率,确定所述目标音素的后验概率。
可选的,在图9所示的口语发音评测装置的基础上,所述后验概率确定单元904具体用于:
针对每个所述二音素状态序列,根据所述声学似然概率向量中在所述二音素状态序列包括的二音素状态下所述目标时间区间内的声学特征对应的似然概率,确定所述二音素状态序列对应的所述候选二音素的参考似然概率;
确定各所述候选二音素各自的参考似然概率的和值作为总参考似然概率;
针对每个所述候选二音素,根据所述候选二音素的参考似然概率和所述总参考似然概率,确定所述候选二音素的后验概率;
基于各所述候选二音素各自的后验概率,构建所述目标时间区间内的声学特征对应的二音素后验概率分布,作为所述目标音素的后验概率。
可选的,在图9所示的口语发音评测装置的基础上,所述后验概率确定单元904具体用于:
针对每个所述二音素状态序列,根据所述声学似然概率向量中在所述二音素状态序列包括的二音素状态下所述目标时间区间内的声学特征对应的似然概率,确定所述二音素状态序列对应的所述候选二音素的参考似然概率;
确定各所述候选二音素各自的参考似然概率的和值作为总参考似然概率;
针对所述目标二音素,根据所述目标二音素的参考似然概率和所述总参考似然概率,确定所述目标二音素的后验概率作为所述目标音素的后验概率。
可选的,在图9所示的口语发音评测装置的基础上,所述后验概率确定单元904具体用于:
根据所述目标二音素的参考似然概率、所述目标二音素的先验概率、所述总参考似然概率、以及各所述候选二音素各自的先验概率,确定所述目标二音素的后验概率。
可选的,在图9所示的口语发音评测装置的基础上,将所述候选二音素中靠前的单音素和靠后的单音素分别作为前音素和后音素;所述后验概率确定单元904具体用于:
针对包括同一后音素的每个所述候选二音素对应的所述二音素状态序列,根据所述声学似然概率向量中在所述二音素状态序列包括的二音素状态下所述目标时间区间内的声学特征对应的似然概率,确定所述候选二音素的参考似然概率;并从包括所述后音素的各所述候选二音素各自的参考似然概率中,选择最大的参考似然概率作为所述后音素的参考似然概率;
确定各所述后音素各自的参考似然概率的和值作为总参考似然概率;
针对每个所述后音素,根据所述后音素的参考似然概率和所述总参考似然概率,确定所述后音素的后验概率;
基于各所述后音素各自的后验概率,构建所述目标时间区间内的声学特征对应的单音素后验概率分布,作为所述目标音素的后验概率。
可选的,在图9所示的口语发音评测装置的基础上,将所述候选二音素中靠前的单音素和靠后的单音素分别作为前音素和后音素;所述后验概率确定单元904具体用于:
针对包括同一后音素的每个所述候选二音素对应的所述二音素状态序列,根据所述声学似然概率向量中在所述二音素状态序列包括的二音素状态下所述目标时间区间内的声学特征对应的似然概率,确定所述候选二音素的参考似然概率;并从包括所述后音素的各所述候选二音素各自的参考似然概率中,选择最大的参考似然概率作为所述后音素的参考似然概率;
确定各所述后音素各自的参考似然概率的和值作为总参考似然概率;
针对所述目标二音素中的目标后音素,根据所述目标后音素的参考似然概率和所述总参考似然概率,确定所述目标后音素的后验概率,作为所述目标音素的后验概率。
可选的,在图7所示的口语发音评测装置的基础上,所述发音评测模块705具体用于执行以下至少一种操作:
通过音素评测模型,根据所述目标音素的后验概率确定音素发音评测结果;
通过单词评测模型,根据第一后验概率集合确定单词发音评测结果;所述第一后验概率集合包括:所述目标文本中的待评测单词包括的各目标音素各自的后验概率;
通过语句评测模型,根据第二后验概率集合确定语句发音评测结果;所述第二后验概率集合包括:所述目标文本中的待评测语句包括的各目标音素各自的后验概率。
本申请实施例提供的口语发音评测装置,考虑到以二音素状态为建模单元的声学特征识别模型相比以三音素为建模单元的HMM-DNN模型,具有更好的声学建模能力和语音识别能力,因此,将该声学特征识别模型引入口语发音评测过程中;并且为了使该声学特征识别模型输出的声学似然概率向量能够适用于口语发音评测,本申请实施例还提出了基于声学似然概率确定声学后验概率的实现方式。如此,实现将以二音素状态为建模单元的声学特征识别模型用于口语发音评测,利用该声学特征识别模型进行口语发音评测,能够保证所确定的发音评测结果具有较高的准确度,从而有效地提高口语发音评测效果。
本申请实施例还提供了一种用于评测口语发音的设备,该设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图10,图10是本申请实施例提供的终端设备的结构示意图。如图10所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:PersonalDigital Assistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为智能手机为例:
图10示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图10,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1080是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
在本申请实施例中,该终端所包括的处理器1080还具有以下功能:
获取待评测的目标音频;所述目标音频对应于目标文本;
对所述目标音频进行声学特征提取处理,得到目标声学特征序列;
通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型;
基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率;
根据所述目标音素的后验概率,确定目标发音评测结果。
可选的,所述处理器1080还用于执行本申请实施例提供的口语发音评测方法的任意一种实现方式的步骤。
参见图11,图11为本申请实施例提供的一种服务器1100的结构示意图。该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
其中,CPU 1122用于执行如下步骤:
获取待评测的目标音频;所述目标音频对应于目标文本;
对所述目标音频进行声学特征提取处理,得到目标声学特征序列;
通过声学特征识别模型,根据所述目标声学特征序列确定声学似然概率向量;所述声学特征识别模型是以二音素状态为建模单元的模型;
基于所述声学似然概率向量和所述目标文本,确定所述目标文本中目标音素的后验概率;
根据所述目标音素的后验概率,确定目标发音评测结果。
可选的,CPU 1122还可以用于执行本申请实施例提供的口语发音评测方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种口语发音评测方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种口语发音评测方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:基于嵌套深度神经网络的语音情感识别方法和系统