音频数据的评测方法、装置、电子设备及存储介质

文档序号：190524 发布日期：2021-11-02 浏览：27次 >En<

阅读说明：本技术 音频数据的评测方法、装置、电子设备及存储介质 (Audio data evaluation method and device, electronic equipment and storage medium ) 是由林炳怀王丽园于 2021-02-23 设计创作，主要内容包括：本申请实施例提供了一种音频数据的评测方法、装置、电子设备及存储介质,涉及人工智能技术领域,可以用于口语评测等场景。该方法包括：获取音频数据和与该音频数据对应的文本数据；基于音频数据与文本数据进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果；基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请方案的实施可以有效提高音频数据评测的准确性。(The embodiment of the application provides an audio data evaluation method and device, electronic equipment and a storage medium, relates to the technical field of artificial intelligence, and can be used in scenes such as spoken language evaluation. The method comprises the following steps: acquiring audio data and text data corresponding to the audio data; performing uncertainty analysis based on the audio data and the text data, and determining uncertainty analysis results of results obtained by evaluating the audio data by adopting an evaluation model; and determining an evaluation result for evaluating the audio data by adopting an evaluation model or other evaluation modes as a final evaluation result based on the uncertainty analysis result. The method and the device for evaluating the audio data can effectively improve the accuracy of the evaluation of the audio data.)

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种音频数据的评测方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，人工智能技术在各个领域中均占据了较为重要的作用。在计算机辅助教学领域中，口语自动评估技术起了重要作用，口语自动评估技术的实施，可以有效提高口语评测的效率。

然而，由于口语自动评估技术针对的人群较多，且包含不同年龄、不同口语水平的人，同时由于口语评测的训练打分数据往往需要人工进行标注，不仅耗时且对进行标注操作人员的专业度要求较高，以上各项问题使得口语评测模型的训练数据往往不能完全覆盖被评测者的所有特征，导致最终口语评测模型输出的分数具有不确定性或错误，即准确度较低。

发明内容

本申请提供的技术方案旨在至少能解决上述的技术缺陷之一，特别是音频数据评测结果准确性较低的技术缺陷。其中，技术方案如下：

在本申请的第一方面，提供了一种音频数据的评测方法，包括：

获取音频数据和与该音频数据对应的文本数据；

基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果；

基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

在一实施例中，基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括：

基于音频数据与文本数据进行语音识别，确定语音与文本对齐的时间信息；

基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

在另一实施例中，基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括：

提取音频数据中的声学特征信息；

基于声学特征信息与时间信息，确定音频数据的特征表示；

基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数；

基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

在又一实施例中，基于声学特征信息与时间信息，确定音频数据的特征表示，包括：

采用预构建的声学特征提取器基于声学特征信息，确定音频数据的标签信息；

基于标签信息与时间信息，确定每一词汇对应的时长，并基于该时长将对应的帧数的特征进行平均，得到每一词汇的特征表示；

将所有词汇的特征表示进行平均，得到相应音频数据的特征表示。

在一实施例中，训练声学特征提取器的步骤包括：

获取训练数据，训练数据包括帧级别的声学特征信息以及对应的真实标签信息；

采用训练数据训练声学特征提取器，使得基于交叉损失函数调整声学特征提取器的网络参数；交叉损失函数基于训练时预测每一帧声学特征信息所对应标签信息的概率与真实标签信息确定。

在一实施例中，基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数，包括：

确定用于训练评测模型的训练数据中每一训练标签下包括的训练特征表示；

计算每一训练标签下包括的训练特征表示之间的相似度，确定每一训练标签的聚合程度度量；

计算音频数据的特征表示与训练数据的训练特征表示之间的相似度，确定音频数据与每一训练标签下训练数据的相似度值；

基于聚合程度度量对相似度值进行归一化处理，将归一化处理的结果确定为音频数据的不确定性参数。

在一实施例中，基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括以下任意一项：

将所有音频数据的不确定性参数进行降序排序，将排序最低的预设百分比对应的音频数据的不确定性分析结果确定为不确定，将其他音频数据的不确定性分析结果确定为确定；

计算所有音频数据的不确定性参数的均值与标准差，基于均值与标准差确定阈值，将不确定性参数低于或等于阈值对应的音频数据的不确定性分析结果确定为不确定，将其他音频数据的不确定性分析结果确定为确定。

在一实施例中，基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果，包括：

当不确定性分析结果为确定时，确定采用评测模型对音频数据进行评测的评测结果作为最终评测结果；

当不确定性分析结果为不确定时，确定采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

在一实施例中，采用评测模型对音频数据进行评测，包括：

基于音频数据与文本数据进行语音识别，确定语音特征信息；

采用评测模型基于语音特征信息，确定音频数据的评测结果。

在一实施例中，还包括：

将最终评测结果反馈至相应的用户端，以在用户端展示最终评测结果。

在本申请的第二方面，提供了一种音频数据的评测装置，包括：

获取模块，用于获取音频数据和与该音频数据对应的文本数据；

分析模块，用于基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果；

确定模块，用于基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

在本申请的第三方面，提供了一种电子设备，电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面提供的方法。

在本申请的第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当计算机指令在计算机上运行时，使得计算机可以执行第一方面提供的方法。

本申请提供的技术方案带来的有益效果是：

在本申请中基于获取到的音频数据和与该音频数据对应的文本数据进行不确定性分析，确定出采用评测模型对音频数据进行评测所得结果的不确定性分析结果，进而可以基于不确定性分析结果确定是采用评测模型还是采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请的实施通过对获取到的音频数据进行不确定性分析，确定出评测模型对该音频数据进行评测所得结果的不确定性，即可以筛选出评测结果可能不准确的音频数据；进而可以基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果，以有效减少由于采用评测模型对音频数据进行评测导致评测分数不准确的情况，提高音频数据评测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种音频数据的评测方法的流程图；

图2为本申请实施例提供的一种音频数据的评测方法中声学特征提取器的操作流程示意图；

图3为本申请实施例提供的一种音频数据的评测方法中计算不确定性参数的流程示意图；

图4为本申请实施例提供的一种应用音频数据的评测方法的实施流程图；

图5为本申请实施例提供的一种应用于音频数据的评测方法的交互环境示意图；

图6为本申请实施例提供的一种应用于音频数据的评测方法的评测系统的框架示意图；

图7a为本申请实施例提供的一种应用音频数据的评测方法时相应的显示界面示意图；

图7b为本申请实施例提供的一种应用音频数据的评测方法时相应的显示界面示意图；

图8为本申请实施例提供的一种应用音频数据的评测方法时相应的显示界面示意图；

图9为本申请实施例提供的一种音频数据的评测装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请涉及的技术和名词进行说明：

AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请中，可以涉及语音技术、机器学习/深度学习等方向。

其中，语音技术(Speech Technology)的关键技术有ASR(Automatic SpeechRecognition，自动语音识别技术)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。ASR技术是一种将语音转换为文本的技术，在本申请实施例中可以采用ASR技术构建语音识别模型，对获取到的音频数据进行处理。

ML(Machine Learning,机器学习)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，可以采用与机器学习相关的技术构建评测模型、不确定性分析模块等。

随着人工智能技术的发展，人工智能技术在各个领域中均占据了较为重要的作用。在计算机辅助教学领域中，口语自动评估技术起了重要作用，口语自动评估技术的实施，可以有效提高口语评测的效率。然而，由于采用机器学习技术构建的口语评测模型具有不确定性，如偶然事件的不确定性(由于数据具有随机噪声)、认知的不确定性，导致最终口语评测模型输出的评测结果具有不确定性或错误，即准确度较低。

在相关技术中，为了解决上述不确定性的问题，提供了一种对不确定性进行建模的方案，然而该方案对基础的口语评测模型具有要求，需要模型本身可以输出评测结果的不确定性，其在一定程度上提高了模型的复杂度，且相应降低了模型处理的效率。

为解决上述至少一个问题，本申请提供一种音频数据的评测方法、装置、电子设备和计算机可读存储介质；具体地，对评测模型针对音频数据的评测结果进行不确定性分析，进而可以基于不确定性分析结果确定是否采用评测模型对音频数据进行评测的评测结果作为最终评测结果，以有效减少模型对音频数据进行评测所得评测结果错误的情况，提高音频数据评测的准确性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例中提供了一种音频数据的评测方法，如图1所示，图1示出了本申请实施例提供的一种音频数据的评测方法的流程示意图，其中，该方法可以由任一电子设备执行，如可以是用户终端，也可以是服务器，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但本申请并不局限于此。具体地，该方法包括下述步骤S101-S103：

步骤S101：获取音频数据和与该音频数据对应的文本数据。

具体地，音频数据可以是人为发出的语音数据，也可以是录制的多媒体数据(如视频)中音频轨道对应的数据。

可选地，本申请实施例可以获取一批(多个)音频数据同时进行处理，也可以针对单一的音频数据进行处理；如应用于口语测评的场景时，可以获取一批用户录入的多条语音同时进行处理，也可以获取某一用户录入的某一条语音进行处理，本申请对此不作限定，在下述实施例中为更好地说明本申请实施例，以获取一批音频数据同时进行处理为例进行叙述。

在一实施例中，文本数据是用户录入音频数据的基础，也即用户可以基于文本数据通过终端的麦克风录入音频数据，因此，音频数据所表征的内容与文本数据是相应的。当一次性获取多个音频数据进行处理时，该多个音频数据对应于同一文本数据；如在时刻1采用本申请实施例提供的音频数据的评测方法进行口语评测时，获取500个音频数据和与音频数据对应的1个文本数据A。如在时刻2采用本申请实施例提供的音频数据的评测方法进行口语评测时，获取1个音频数据和与音频数据对应的1个文本数据B。

可选地，当获取多个音频数据同时进行处理时，虽然多个音频数据均对应于同一文本数据，但由于每个用户发音的情况不同(如语速不同)，因此，每一音频数据的时长可能不同。

步骤S102：基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

具体地，本申请实施例中不确定性分析可以是指针对评测模型对音频数据进行评测的过程中各种事前无法控制的外部因素变化与影响所进行的估计和研究，也即对评测模型在训练过程中的学习情况进行分析，模型针对未经学习的数据进行评测时所得评测结果的置信度较低，所得评测结果属于不确定的范畴。

其中，如图4所示，本申请实施例可以采用神经网络构建不确定性分析模块基于当前获取的音频数据与文本数据进行不确定性分析，关于不确定性分析的具体过程将在后续实施例中说明。

步骤S103：基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

具体地，不确定性分析结果可以包括确定和不确定中的一种，当某一音频数据对应的不确定性分析结果为不确定时，即采用评测模型对该音频数据进行评测所得的评测结果的不确定性较高时，采用其他评测方式对音频数据进行评测，并将该评测结果作为最终评测结果进行输出；当某一音频数据对应的不确定性分析结果为确定时，即采用评测模型对该音频数据进行评测所得的评测结果的确定性较高时，将该评测结果作为最终评测结果进行输出。

其中，其他评测方式可以包括人工评测(人工审核)等方式，将音频数据传输至进行人工评测的用户端进行展示，由具有专业评估能力的用户进行评测。

在本申请实施例中，基于获取到的音频数据和与该音频数据对应的文本数据进行不确定性分析，确定出采用评测模型对音频数据进行评测所得结果的不确定性分析结果，进而可以基于不确定性分析结果确定是采用评测模型还是采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请的实施通过对获取到的音频数据进行不确定性分析，确定出评测模型对该音频数据进行评测所得结果的不确定性，即可以筛选出评测结果可能不准确的音频数据；进而可以基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果，以有效减少由于采用评测模型对音频数据进行评测导致评测分数不准确的情况，提高音频数据评测的准确性。

下面针对不确定性分析的具体过程进行说明。在不确定性分析中，基于音频数据(待预测数据)进行特征分析，将提取的特征与训练评测模型所用的训练数据的特征进行对比，计算特征之间的相似度；其中，相似度较低对应的音频数据可能是评测模型在训练时未覆盖的数据，因此相应的不确定性较高。基于不确定性分析可以得到每一音频数据分别对应的不确定性参数，进而可以基于不确定性参数判定某一音频数据对应的不确定分析结果是否是不确定。

在一实施例中，步骤S102中基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括以下步骤A1-A2：

步骤A1：基于音频数据与文本数据进行语音识别，确定语音与文本对齐的时间信息。

具体地，在本申请实施例中，语音识别以音频数据为研究对象，通过语音信号处理和模式识别处理让机器自动识别和理解用户口述录入的内容；即通过语音识别让机器通过识别和理解过程把音频数据中的语音信号转变为相应的文本或命令。

其中，由于不同年龄段、不同专业水平的用户针对同一文本进行朗读的语速、音高等均不同，因此，需要确定出每一用户对应的音频数据中，语音与文本对齐的时间信息。如针对文本“I like apple”，用户A录入的音频数据中，“I”对应的发音时间为1s-1.5s，“like”对应的发音时间为1.6s-2s，“apple”对应的发音时间为2s-3s。

步骤A2：基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

具体地，如图4所示，可以将获取到的音频数据，以及经处理得到的语音与文本对齐的时间信息作为不确定性分析模块的输入数据，由不确定性分析模块基于输入数据进行不确定性分析操作，输出不确定性分析结果。关于不确定性分析模块的具体操作将在后续实施例中叙述。

在一可行的实施例中，步骤A2中基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括以下步骤B1-B4：

步骤B1：提取音频数据中的声学特征信息。

可选地，可以通过DNN(Deep Neural Networks,深度神经网络)的声学模型提取音频数据中的声学特征信息，也可以采用ASR技术对音频数据进行语音识别处理得到声学特征信息，如MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)，梅尔频率是基于人耳听觉特征提出来的，它与赫兹Hz频率成非线性对应关系；MFCC则是利用它们之间的这种对应关系，计算得到的Hz频谱特征。其中，提取声学特征信息的步骤可以在不确定性分析模块中实施，也可以在将数据输入不确定性分析模块之前在其他模块中实施(如采用独立的语音识别模型进行声学特征的提取，也可以采用如图4所示的语音识别模型实施)。

其中，在对音频数据进行分析时，可以对音频进行分帧，也即把音频数据切分为多个小段，每一小段称为一帧，相应地，提取得到的声学特征信息可以是帧级别的特征信息。

步骤B2：基于声学特征信息与时间信息，确定音频数据的特征表示。

具体地，如图4和图6所示，步骤B2可以采用训练好的声学特征提取器(又可以称为声学特征提取模型，属于不确定性分析模块的一部分)进行操作。

在一实施例中，步骤B2中基于声学特征信息与时间信息，确定音频数据的特征表示，包括以下步骤C1-C3(步骤C1-C3的实施可以理解为针对每一音频数据进行的操作)：

步骤C1：采用预构建的声学特征提取器基于声学特征信息，确定音频数据的标签信息。

具体地，如图2所示，声学特征提取器中包括基于深度神经网络的提取特征模型，该模型可以是多种模型结构，如CNN(Convolutional Neural Networks,卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、多层网络的叠加，也可以是多层相同或不同的模型结构的叠加，如3层卷积神经网络的叠加；进而经过声学特征提取器中包括的全连接层将提取的深度特征进行非线性变换，得到音频数据对应的标签信息。

可选地，输入声学特征提取器的声学特征信息可以是帧级别的，相应地，声学特征提取器输出的每一帧声学特征对应的预测结果，该预测结果可以是帧级别的senone(考虑音素上下文的多音素组成单元，可以是三音素或多音素)的概率分布，也可以理解为某一senone标签的概率(标签信息)。

步骤C2：基于标签信息与时间信息，确定每一词汇对应的时长，并基于该时长将对应的帧数的特征进行平均，得到每一词汇的特征表示。

具体地，基于标签信息可以了解到当前音频数据中包括的词汇，如包括三个标签时，可以对应了解到当前音频数据中包括三个词汇；相应地，结合语音与文本对齐的时间信息可以确定出每一词汇对应的时长。进而，基于每一词汇对应的时长进行帧平均处理，可以得到每一词汇的特征表示。其中，帧平均处理可以是基于每一词汇对应的时长确定出对应的帧数(每一帧一般是在10ms-25ms之间，每一词汇可能对应多帧)，由于每一帧对应有特征，因此，可以进一步确定出每一词汇对应的时长对应的特征，在此基础上取特征的均值，可以得到每一词汇的特征表示。

步骤C3：将所有词汇的特征表示进行平均，得到相应音频数据的特征表示。

具体地，在步骤C2的基础上，可以确定出当前音频数据中每一词汇的特征表示，在此基础上进行特征平均处理，即取所有词汇的特征表示的平均值，可以得到该音频数据的特征表示。

下面结合图3以一具体的应用例对上述步骤C1-C3进行说明。

假设当前针对获取到的音频数据(某一条语音)“I like apple”，将该音频数据输入不确定性分析模块后，提取该音频数据帧级别的声学特征，提取声学特征的过程可以包括：对音频数据进行分帧处理，一帧一般在10ms-25ms左右，相应地，音频数据将被切分成多个语音帧(如M个语音帧{f1,f2,......,fm})，基于计算MFCC的方法进行时，每一帧对应输出的是一列DCT系数(假设维度为N)，则对应的MFCC可以表示为一个N*M的矩阵；其中，图3所示的输入声学特征提取器的声学特征信息“I[[1,0.2,3],[1.2,3,0.5]]l ike[[0.3,2,3],[0.2,2,3]]apple[[1,1.2,3],[2,3.5,4]]”可以是在矩阵的基础上针对所有帧取方差或标准差后的表示形式。

经声学特征提取器基于声学特征信息进行特征提取后，输出音频数据的标签信息，由于声学特征提取器处理的是帧级别的声学特征，因此输出的标签信息又可以称为帧特征表示，表示如图3所示“I[[1，2，3],[2，3，4]]like[[1，1，3],[1，3，4]]apple[[4，2，3],[2，3，4]]”。

在获得帧特征表示后，可以结合语音与文本对齐的时间信息进行帧平均处理，即步骤C2对应的操作内容，其中，时间信息假设表示如下：“I”对应的发音时间为1s-1.5s，“like”对应的发音时间为1.6s-2s，“apple”对应的发音时间为2s-3s；在此基础上执行帧平均处理后，可以得到如图3所示的内容：每一单词的特征表示“I[1.5，2.5，3.5]like[1，2，3.5]apple[3，2.5，3.5]”。

在获得每一单词的特征表示后，进行单词平均处理，即对所有单词的特征表示取均值，则可以得到如图3所示的内容：音频数据的特征表示(该条语音的特征表示)“[1.83，2.33，3.5]”。

在本上述实施例中，对应于英语口语评测的应用场景，因此词汇以单词为单位进行叙述，如每一词汇的特征表示对应为每一单词的特征表示。可选地，还可以应用于各种语言的口语评测场景，如国语、日语、韩语等，本申请实施例对此不作限定。

下面针对构建声学特征提取器的具体过程进行说明。

在一实施例中，训练声学特征提取器包括以下步骤D1-D2：

步骤D1：获取训练数据，训练数据包括帧级别的声学特征信息以及对应的真实标签信息。

具体地，训练数据中每一训练样本数据分别对应包括帧级别的深谷额特征信息以及每一特征对应的真实标签信息；其中，真实标签信息包括某一具体标签，该标签可以是senone标签。

步骤D2：采用训练数据训练声学特征提取器，使得基于交叉损失函数调整声学特征提取器的网络参数；交叉损失函数基于训练时预测每一帧声学特征信息所对应标签信息的概率与真实标签信息确定。

具体地，交叉损失函数可以表示如下公式(1)所示：

L＝-y*log(p)

......公式(1)

在公式(1)中，y为某一帧声学特征信息对应的senone的真实标签，p为声学特征提取器预测为相应senone标签的概率。

步骤B3：基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数。

具体地，用于训练评测模型的训练数据可以表征评测模型的性能，经对音频数据的特征表示和训练数据进行处理，可以确定出评测模型对音频数据进行处理时的不确定性情况，即预测结果的置信度。

下面针对确定不确定性参数的具体过程进行说明。

在一实施例中，步骤B3中基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数，包括以下步骤E1-E4：

步骤E1：确定用于训练评测模型的训练数据中每一训练标签下包括的训练特征表示。

具体地，可以参考步骤步骤B1-B2所示确定音频数据的特征表示的操作方式执行步骤E1中的部分内容，如针对每一训练数据，首先提取该训练数据中的声学特征信息，进而基于该声学特征信息与语音和文本对齐的时间信息，确定该训练数据的特征表示，至此，可以获得各训练数据的训练特征表示。进而，可以基于训练标签对应的训练特征表示确定每一训练标签下分布的训练数据；举例说明：训练数据中包括4条语音数据A、B、C和D，训练标签1对应的训练特征表示可对应于语音数据A、C和D，则训练标签1下分布有3条语音数据。

步骤E2：计算每一训练标签下包括的训练特征表示之间的相似度，确定每一训练标签的聚合程度度量。

具体地，可以通过多种距离函数(如余弦距离函数)计算训练数据中两两训练特征表示之间的相似度，基于训练特征表示之间的相似度，可以获得每一训练标签对应的相似度特征集合。举例说明：如训练标签1下对应有100个训练数据，则可以获得包括100*99个相似度特征的相似度特征集合；或者，如训练标签1下对应有语音数据A、C和D时，可以分别计算语音数据之间的相似度，即A和C、A和D、C和A、C和D、D和A、D和C之间的相似度，可以获得包括6个相似度特征的相似度特征集合(其中，由于AC和CA、AD和DA、CD和DC属于相同的相似度特征，在处理时为减少后续步骤的计算复杂度，可以删除集合中属于相同的相似度特征)。进而，针对每一训练标签的相似度特征集合，将求取该集合的平均数或众数的结果作为该训练标签的聚合程度度量sim(inner)。

步骤E3：计算音频数据的特征表示与训练数据的训练特征表示之间的相似度，确定音频数据与每一训练标签下训练数据的相似度值。

具体地，假设训练标签1下包括10个训练数据，则可以计算音频数据的特征表示与该训练标签1下每一训练数据的训练特征表示之间的相似度，得到一个包括10个相似度特征的相似度特征集合，计算该集合的平均数或众数所得的结果可以作为音频数据与训练标签1下训练数据的相似度值sim(outer)。

步骤E4：基于聚合程度度量对相似度值进行归一化处理，将归一化处理的结果确定为音频数据的不确定性参数。

具体地，归一化处理可以表达如下公式(2)所示：

由公式(2)可见，归一化处理为计算相似度值在聚合程度度量中的占比，基于归一化处理后，可以得到音频数据与每个训练标签的相似度值s_l，归一化处理所得的结果可以确定为音频数据的不确定性参数，如训练标签包括5个，则最终可以得到音频数据对应的5个相似度，即对应的不确定性参数：[0.3,0.5,0.3,0.6,0.1]。

可选地，由于评测模型在实际应用时为已训练好的模型，因此上述步骤E1和E2也可以是在线下处理，步骤E1-步骤E2的处理可以理解为基于训练数据语料和标签，确定每个训练标签下的数据聚合程度。相应地，步骤B3中可以仅包括步骤E3-E4，步骤E3实施时可以直接获取训练特征表示步骤E4实施时直接获取已训练好的评测模型对应的每一训练标签的聚合程度度量进行操作。

步骤B4：基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

具体地，若当前获取得到多个音频数据时，可以将基于步骤B3得到的每一音频数据分别对应的不确定性参数进行处理，得到每一音频数据分别对应的不确定性结果。若当前获取得到一个音频数据时，可以将该音频数据与预设阈值进行比对，若低于或等于预设阈值，则将该音频数据的不确定性分析结果确定为不确定；若高于预设阈值，则将该音频数据的不确定性分析结果确定为确定。

下面针对如何得到不确定性分析结果中对多个不确定性参数进行处理的具体过程进行说明。

在一实施例中，步骤B4中基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果，包括以下步骤F1-F2中的任意一项：

步骤F1：将所有音频数据的不确定性参数进行降序排序，将排序最低的预设百分比对应的音频数据的不确定性分析结果确定为不确定，将其他音频数据的不确定性分析结果确定为确定。

具体地，举例说明：如包括10个音频数据，则相应地包括10个不确定性参数，对该不确定性参数进行降序排序后，可以将排序最低的10％范围内对应的音频数据的不确定性分析结果确定为不确定，其余9个音频数据的不确定性分析结果确定为确定。

步骤F2：计算所有音频数据的不确定性参数的均值与标准差，基于均值与标准差确定阈值，将不确定性参数低于或等于阈值对应的音频数据的不确定性分析结果确定为不确定，将其他音频数据的不确定性分析结果确定为确定。

具体地，步骤F2中根据不同音频数据对应的不确定性参数的情况，动态调整阈值，以提高基于不确定性参数确定音频数据不确定性分析结果的适应性与准确定。

下面针对如何基于不确定性分析结果确定最终评测结果的具体过程进行说明。

在一实施例中，如图4所示，步骤S103中基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果，包括以下步骤G1-G2：

步骤G1：当不确定性分析结果为确定时，确定采用评测模型对音频数据进行评测的评测结果作为最终评测结果。

具体地，评测模型对音频数据进行评测的操作可以在确定采用评测模型相应的评测结果后进行，也可以在进行不确定性分析时同步进行；同步进行时，在确定采用评测模型相应的评测结果后，即可直接输出最终评测结果，可以有效提高音频数据的评测效率。

步骤G2：当不确定性分析结果为不确定时，确定采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

具体地，考虑到减少额外采用其他评测方式所涉及资源的问题，可以在确定采用其他评测方式相应的评测结果后，再采用其他评测方式对音频数据进行评测，以减少资源的浪费，降低音频数据的评测成本。

下面针对评测模型对音频数据进行评测的具体处理过程进行说明。

在一实施例中，采用评测模型对音频数据进行评测包括以下步骤H1-H2：

步骤H1：基于音频数据与文本数据进行语音识别，确定语音特征信息。

步骤H2：采用评测模型基于语音特征信息，确定音频数据的评测结果。

在本申请实施例中，评测模块可以对用户的发音进行自动评测。一般包含两个部分：1、与步骤H1对应的操作：基于语音识别提取发音置信度特征(即语音特征信息)；2、与步骤H2对应的操作：基于发音置信度特征构建评测模型，以使评测模型对音频数据进行评测所得评测结果拟合专业评测人员的打分结果。基于训练好的评测模型，输入语音和对应跟读文本到口语评测模块，输出对应发音的评测分数。

可选地，如图4所示，进行语音识别的操作可以单独构建一个模型进行处理，进而将语音识别模型提取的得到的语音特征信息输入至评测模型进行处理即可得到音频数据的评测结果。

下面针对最终评测结果的可视化过程进行说明。

在一可行的实施例中，本申请实施例提供的音频数据的评测方法还包括以下步骤I1：

步骤I1：将最终评测结果反馈至相应的用户端，以在用户端的显示界面展示最终评测结果。

具体地，在本申请实施例中，用户可以在用户端针对文本数据(即跟读文本)进行朗读(如图7a和图7b所示)，用户端可以将采集到的音频数据与文本数据上传至服务器，由服务器转达至评测系统中本申请实施例提供的音频数据的评测方法，进而在评测系统确定该最终评测结果后，可以通过服务器向用户端反馈最终评测结果，以在用户端的显示界面展示最终评测结果(如图8所示)。

下面结合图4-图8，针对应用本申请实施例提供的音频数据的评测方法的应用例进行说明。

在一可能的实施例中，N个用户(学生)采用终端400根据给定的跟读文本进行朗读，朗读内容如图7a所示“I know the fact,do you know？”，用户可点击或长按“开始朗读”的检测控件使得终端400开启麦克风采集用户发音的音频数据(此时为语音数据)；当用户朗读结束，可以通过点击或松开“结束朗读”的检测控件结束发音，以使终端400停止采集音频数据。

当结束朗读后，终端400将采集到的音频数据与文本数据通过网络300上传至服务器200，由服务器200调用评测系统500对音频数据进行评测。

具体地，服务器200可以将音频数据发送至不确定性分析模块，并同时将音频数据与文本数据发送至语音识别模型。

进而在评测系统500中，将语音识别模型输出的语音文本对齐结果(语音与文本对齐的时间信息)发送不确定性分析模块，并将语音识别模型输出的语音特征信息发送至评测模型。其中，输出语音文本对齐结果和语音特征信息的可以是同一语音识别模型，也可以是不同的语音识别模型。

其中，不确定性分析模块在获取到音频数据后，基于音频数据提取帧级别的声学特征，进而将声学特征输入至声学特征提取器中，通过声学特征提取器与不确定性分析模块中的其他网络架构确定音频数据的不确定性分析结果。

当不确定性结果为确定时，调用评测模型输出的评测结果返回至用户；当不确定性结果为不确定时，将音频数据传输至人工评测模块，由老师进行分数评估，最终返回给用户的分数为老师评估的分数。

由评测系统500向服务器200返回最终评测结果，并由服务器200通过网络300分别向各个用户使用的终端400-1至400-N反馈最终评测结果。

在终端400获取到最终评测结果后，将在显示界面进行展示(如在分别在显示界面400-11至400-N1中进行展示)，其展示效果如图8所示，显示界面中展示有跟读文本，并以5颗星星表达口语朗读的质量优劣，图8所示的评测结果中，某一用户获得4颗星星，若满分为100分时，该用户可以相应获得80分。进一步地，最终评测结果不仅仅包括评测分值，还可以相应指示出用户口语朗读的缺陷所在，如图8中手势所指单词“know”为该用户口语朗读较差的单词。

在本申请实施例中，存在一种情况是评测系统500可以是服务器200的一部分，在此基础上，上述实施例提供的音频数据的评测方法的执行主体可以是服务器200；存在另一种情况是评测系统500可以由其他独立的计算机设备(终端或服务器)承载，在此基础上，上述实施例提供的音频数据的评测方法的执行主体相应为终端或服务器。

下面为进一步说明本申请实施例可以达到的技术效果，给出相应的实验数据情况。

本申请的实验基于一个已经训练好的评测模型进行。共采用1500条测试数据(相应上述实施例中的音频数据)和对应的专家标注分数。将测试数据输入到不确定性分析模块和评测模型中，输出不确定性结果和评测模型的评测结果。将评测结果与实际专家评分的结果相差较大的样本作为所有不确定的样本标签，不确定分析模块输出的结果为不确定性预测值，可以计算不确定性分析模块的准确度。实验结果表示：准确度为80％，召回率为30％。尽管召回率较低，但是召回的测试数据的准确度较高，可以将召回的测试数据返回给专业人员，由专业人员进一步纠正评测结果。

本申请实施例提供了一种音频数据的评测装置，如图9所示，该音频数据的评测装置900可以包括：获取模块901、分析模块902、确定模块903；其中，获取模块901，用于获取音频数据和与该音频数据对应的文本数据；分析模块902，用于基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果；确定模块903，用于基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

在一实施例中，分析模块902用于执行基于音频数据与文本数据进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果的步骤时，还用于执行下述步骤：

基于音频数据与文本数据进行语音识别，确定语音与文本对齐的时间信息；

基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

在另一实施例中，分析模块902用于执行基于音频数据与时间信息进行不确定性分析，确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果的步骤时，还用于执行下述步骤：

提取音频数据中的声学特征信息；

基于声学特征信息与时间信息，确定音频数据的特征表示；

基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数；

基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。

在又一实施例中，分析模块902用于执行基于声学特征信息与时间信息，确定音频数据的特征表示的步骤时，还用于执行下述步骤：

采用预构建的声学特征提取器基于声学特征信息，确定音频数据的标签信息；

基于标签信息与时间信息，确定每一词汇对应的时长，并基于该时长将对应的帧数的特征进行平均，得到每一词汇的特征表示；

将所有词汇的特征表示进行平均，得到相应音频数据的特征表示。

在一实施例中，装置900还包括训练模块，用于训练声学特征提取器，具体地，训练模块还用于执行下述步骤：

获取训练数据，训练数据包括帧级别的声学特征信息以及对应的真实标签信息；

在一实施例中，分析模块902用于执行基于音频数据的特征表示与训练评测模型的训练数据，确定音频数据的不确定性参数的步骤时，话用于执行下述步骤：

确定用于训练评测模型的训练数据中每一训练标签下包括的训练特征表示；

计算每一训练标签下包括的训练特征表示之间的相似度，确定每一训练标签的聚合程度度量；

计算音频数据的特征表示与训练数据的训练特征表示之间的相似度，确定音频数据与每一训练标签下训练数据的相似度值；

基于聚合程度度量对相似度值进行归一化处理，将归一化处理的结果确定为音频数据的不确定性参数。

在一实施例中，分析模块902用于执行基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果的步骤时，还用于执行以下任意一项：

在一实施例中，确定模块903用于执行基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果的步骤时，还用于执行下述步骤：

当不确定性分析结果为确定时，确定采用评测模型对音频数据进行评测的评测结果作为最终评测结果；

当不确定性分析结果为不确定时，确定采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。

在一实施例中，确定模块903中用于执行采用评测模型对音频数据进行评测的步骤时，还用于执行以下步骤：

基于音频数据与文本数据进行语音识别，确定语音特征信息；

采用评测模型基于语音特征信息，确定音频数据的评测结果。

在一实施例中，装置900还包括反馈模块，用于将最终评测结果反馈至相应的用户端，以在用户端展示最终评测结果。

本申请实施例的装置可执行本申请的实施例所提供的方法，其实现原理相类似，本申请各实施例中的装置中的各模块所执行的动作是与本申请各实施例中的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应的方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：在本申请中基于获取到的音频数据和与该音频数据对应的文本数据进行不确定性分析，确定出采用评测模型对音频数据进行评测所得结果的不确定性分析结果，进而可以基于不确定性分析结果确定是采用评测模型还是采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请的实施通过对获取到的音频数据进行不确定性分析，确定出评测模型对该音频数据进行评测所得结果的不确定性，即可以筛选出评测结果可能不准确的音频数据；进而可以基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果，以有效减少由于采用评测模型对音频数据进行评测导致评测分数不准确的情况，提高音频数据评测的准确性。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备1000包括：处理器1001和存储器1003。其中，处理器1001和存储器1003相连，如通过总线1002相连。可选地，电子设备1000还可以包括收发器1004，收发器1004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1004不限于一个，该电子设备1000的结构并不构成对本申请实施例的限定。

处理器1001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1002可包括一通路，在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1003用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：智能手机、平板电脑、笔记本电脑、智能音箱、智能手表、车载设备等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的音频数据的评测方法。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

25页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种云平台访问控制方法

音频数据的评测方法、装置、电子设备及存储介质

相关技术

网友询问留言