语音识别模型训练方法及系统

文档序号：193314 发布日期：2021-11-02 浏览：22次 >En<

阅读说明：本技术 语音识别模型训练方法及系统 (Speech recognition model training method and system ) 是由温亚于 2021-07-30 设计创作，主要内容包括：本发明公开一种语音识别模型训练方法,包括：根据用户的选择操作确定待训练模型,所述待训练模型至少包括待训练声学模型、待训练语言模型和待训练热词模型之一；获取用户上传的预设领域训练数据集；基于所述预设领域训练数据集对所述待训练模型进行训练。本发明根据用户的选择操作确定待训练模型,获取用户上传的预设领域训练数据集,然后基于所述预设领域训练数据集对所述待训练模型进行训练。只需要用户根据需求选择需要进行训练的模型,并将目标领域的训练数据集进行上传即可完成所选择的模型的训练,以得到对语音识别模型的训练,无需用户具备系统算法和人工智能知识,用户可以更加自主的完成识别优化,降低了训练模型的门槛和成本。(The invention discloses a speech recognition model training method, which comprises the following steps: determining a model to be trained according to the selection operation of a user, wherein the model to be trained at least comprises one of an acoustic model to be trained, a language model to be trained and a hotword model to be trained; acquiring a preset field training data set uploaded by a user; and training the model to be trained based on the preset domain training data set. The method comprises the steps of determining a model to be trained according to selection operation of a user, obtaining a preset field training data set uploaded by the user, and then training the model to be trained based on the preset field training data set. The training of the selected model can be completed only by selecting the model to be trained according to the requirement by the user and uploading the training data set of the target field so as to obtain the training of the voice recognition model, the user does not need to have system algorithm and artificial intelligence knowledge, the user can complete recognition optimization more independently, and the threshold and the cost of the training model are reduced.)

语音识别模型训练方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法及系统。

背景技术

随着数据量增加、计算能力增强以及深度学习理论技术的发展，语音识别准确率不断提升，应用领域不断拓宽。语音识别的应用有交互式的，如搭载在车机/手机上的语音助手，通过语音识别把用户的语音转换为机器能够理解的文字，使得机器执行对应任务并给予反馈，实现一种自然的人机交流。此外还有非交互式的应用，例如通过行程录音保障司乘安全，以及在客服质检、智能外呼等领域上的应用。

以交互产品为例，语音识别的准确率基本可以达到95％的字准水平。但是这并不能满足日新月异的业务需求。尤其是对于细分领域新增的专有词汇，如英文词、地名、专业用语，如果不针对性的调优模型，任何一家厂商的语音识别模型都难以满足业务要求。

目前，在语音识别优化层面，一般在研发阶段进行模型训练和系数调整，测试通过后，最后进行部署。但在部署后如果遇到新的特殊数据无法推断，只能重新回到研发阶段再进行模型训练和系数调整，再次测试，调整后再进行部署。这里就会产生两个问题：第一，重新训练需要回到研发阶段进行模型训练和系数调整，那么模型会由于人为原因造成错误尚未可知，而且也无法实时的进行模型的迭代，效率低下；第二，传统训练需要遵循按照批次的方式进行再训练，否则可能让模型无法收敛，所以不能在每次遇到特殊数据后就马上进行调整，必须收集足够多数据后才能进行再训练和重新部署，这个也不能满足业务对识别进行快速迭代的需求。由于业务的优化周期一般可达几周甚至几月，多条业务线时间存在交叠，偶尔也会出现紧急需求，完全依靠有限的语音工程师处理，并不能及时响应，支持力度不够。另外，沟通成本高，客户过度依赖语音厂商，自身也无发挥空间，影响业务推进和用户体验。

发明内容

本发明实施例提供一种语音识别模型训练方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别模型训练方法，包括：

根据用户的选择操作确定待训练模型，所述待训练模型至少包括待训练声学模型、待训练语言模型和待训练热词模型之一；

获取用户上传的预设领域训练数据集；

基于所述预设领域训练数据集对所述待训练模型进行训练。

第二方面，本发明实施例提供一种语音识别模型训练系统，包括：

模型选择程序模块，用于根据用户的选择操作确定待训练模型，所述待训练模型至少包括待训练声学模型、待训练语言模型和待训练热词模型之一；

用户数据输入程序模块，用于获取用户上传的预设领域训练数据集；

模型训练程序模块，用于基于所述预设领域训练数据集对所述待训练模型进行训练。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别模型训练方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别模型训练方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别模型训练方法。

本发明实施例根据用户的选择操作确定待训练模型(待训练声学模型和/或待训练语言模型和/或待训练热词模型)，获取用户上传的预设领域训练数据集，然后基于所述预设领域训练数据集对所述待训练模型进行训练。只需要用户根据需求选择需要进行训练的模型，并将目标领域的训练数据集进行上传即可完成所选择的模型的训练，以得到对语音识别模型的训练，无需用户具备系统算法和人工智能知识，用户可以更加自主的完成识别优化，降低了训练模型的门槛和成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音识别模型训练方法的一实施例的流程图；

图2为本发明的语音识别模型训练方法的另一实施例的流程图；

图3为本发明的语音识别模型训练系统的一实施例的原理框图；

图4为本发明的语音识别模型训练系统的另一实施例的原理框图；

图5为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种语音识别模型训练方法，包括：

S11、根据用户的选择操作确定待训练模型，所述待训练模型至少包括待训练声学模型、待训练语言模型和待训练热词模型之一。

S12、获取用户上传的预设领域训练数据集。

示例性地，获取用户上传的预设领域训练数据集包括：检测并获取用户在交互界面所上传的预设领域训练数据集，或者检测用户通过调用API接口所发送的获取请求来获取预设领域训练数据集。

S13、基于所述预设领域训练数据集对所述待训练模型进行训练。

本发明根据用户的选择操作确定待训练模型，获取用户上传的预设领域训练数据集，然后基于所述预设领域训练数据集对所述待训练模型进行训练。只需要用户根据需求选择需要进行训练的模型，并将目标领域的训练数据集进行上传即可完成所选择的模型的训练，以得到对语音识别模型的训练，无需用户具备系统算法和人工智能知识，用户可以更加自主的完成识别优化，降低了训练模型的门槛和成本。

如图2所示，为本发明的语音识别模型的训练方法的另一实施例的流程图，在该实施例中，所述基于所述预设领域训练数据集对所述待训练模型进行训练，包括：

S131、对于所述声学模型，对所述预设领域训练数据集进行处理得到带有文本标注的音频数据集合，以训练所述声学模型；

S132、对于所述语言模型，对所述预设领域训练数据集进行处理得到纯文本语料或者基于自定义的语料模板，以训练所述语言模型；

S133、对于所述热词模型，对所述预设领域训练数据集进行处理得到预设领域的词汇集合，以训练所述热词模型。

本实施例中针对不同的模型(例如，声学模型、语言模型和热词模型)分别对训练数据集进行了针对性的处理，从而获得了适于各个模型进行训练的数据，便于模型的快速训练。并且由于是按照不同模型对训练数据的不同需求分别对预设领域训练数据集进行了处理，从而实现了用户按需选择所需模型进行训练的方法。使得本申请实施例的语音识别模型训练方法能够更加灵活的进行训练，提升了训练的针对性和有效性。

在一些实施例中，本发明的语音识别模型训练方法还包括：检测用户所选择的训练模式，所述训练模式包括增量训练模式和全量训练模式；所述基于所述预设领域训练数据集对所述待训练模型进行训练，包括：基于所述预设领域训练数据集，并采用用户所选择的训练模式对所述待训练模型进行训练。

本实施例中用户在进行模型训练时，可以根据实际需求来选择训练模式(例如，增量训练模式或者全量训练模式)，从而当用户需要紧急部署、且对识别精度相对较低的情况下可以选择增量训练模式实现快速训练、快速部署。当用户不急于部署使用、对识别精度较高时可以选择全量训练模式，来确保精度要求。

在一些实施例中，本发明的语音识别模型训练方法还包括：采用用户批量上传的测试音频数据集对训练后的声学模型或者语言模型或者热词模型进行测试。

本实施例中用户通过UI界面批量上传测试音频数据集对训练后的声学模型或者语言模型或者热词模型进行测试，以确定出定制得到的模型的性能，并选出性能最佳的定制模型。用户通过批量上传测试音频数据集对训练后的模型进行了高效测试，并且由于各个测试音频数据均是通过无差别的批量上传的，所以使得测试接管较为客观准确。

在一些实施例中，本发明的语音识别模型训练方法还包括：选择单条测试音频对训练后的声学模型或者语言模型或者热词模型进行测试。

在一些实施例中，训练得到的多个声学模型、多个语言模型和多个热词模型；在一些实施例中，本发明的语音识别模型训练方法还包括：

采用用户批量上传的测试音频数据集分别对多个声学模型进行测试以确定性能最优的声学模型；

采用用户批量上传的测试音频数据集分别对多个语言模型进行测试以确定性能最优的语言模型；

采用用户批量上传的测试音频数据集分别对多个热词模型进行测试以确定性能最优的热词模型。

本实施例中对于每一种模型(例如，声学模型、语言模型和热词模型)分别预选训练了多个，从而在测试阶段可以对多个模型同时进行测试，选择出性能最佳的模型，提高了训练、测试模型的效率。

如图3所示为本发明的语音识别模型训练系统的一实施例的原理框图，在该实施例中包括：

模型选择程序模块100，用于根据用户的选择操作确定待训练模型，所述待训练模型至少包括待训练声学模型、待训练语言模型和待训练热词模型之一；

用户数据输入程序模块200，用于获取用户上传的预设领域训练数据集；

模型训练程序模块300，用于基于所述预设领域训练数据集对所述待训练模型进行训练。

本发明的语音识别模型训练系统根据用户的选择操作确定待训练模型，获取用户上传的预设领域训练数据集，然后基于所述预设领域训练数据集对所述待训练模型进行训练。只需要用户根据需求选择需要进行训练的模型，并将目标领域的训练数据集进行上传即可完成所选择的模型的训练，以得到对语音识别模型的训练，无需用户具备系统算法和人工智能知识，用户可以更加自主的完成识别优化，降低了训练模型的门槛和成本。

在一些实施例中，所述获取用户上传的预设领域训练数据集，包括：检测并获取用户在交互界面所上传的预设领域训练数据集，或者检测用户通过调用API接口所发送的获取请求来获取预设领域训练数据集。

在一些实施例中，所述基于所述预设领域训练数据集对所述待训练模型进行训练，包括：

对于所述声学模型，对所述预设领域训练数据集进行处理得到带有文本标注的音频数据集合，以训练所述声学模型；

对于所述语言模型，对所述预设领域训练数据集进行处理得到纯文本语料或者基于自定义的语料模板，以训练所述语言模型；

对于所述热词模型，对所述预设领域训练数据集进行处理得到预设领域的词汇集合，以训练所述热词模型。

在一些实施例中，本发明的语音识别模型训练系统还包括：

训练模式检测模块，用于检测用户所选择的训练模式，所述训练模式包括增量训练模式和全量训练模式；所述基于所述预设领域训练数据集对所述待训练模型进行训练，包括：基于所述预设领域训练数据集，并采用用户所选择的训练模式对所述待训练模型进行训练。

在一些实施例中，本发明的语音识别模型训练系统还包括：第一训练模块，用于采用用户批量上传的测试音频数据集对训练后的声学模型或者语言模型或者热词模型进行测试。

在一些实施例中，本发明的语音识别模型训练系统还包括：第二训练模块，用于选择单条测试音频对训练后的声学模型或者语言模型或者热词模型进行测试。

在一些实施例中，训练得到的多个声学模型、多个语言模型和多个热词模型；在一些实施例中，本发明的语音识别模型训练系统还包括：第二训练模块，用于采用用户批量上传的测试音频数据集分别对多个声学模型进行测试以确定性能最优的声学模型；采用用户批量上传的测试音频数据集分别对多个语言模型进行测试以确定性能最优的语言模型；采用用户批量上传的测试音频数据集分别对多个热词模型进行测试以确定性能最优的热词模型。

如图4所示，为本发明的语音识别模型训练系统的另一实施例的原理框图，在该实施例中包括：用户数据输入模块、数据预处理服务模块、模型训练模块、模型自动化评估测试模块、模型发布上线模块、线上数据采集模块和语音标注模块。其中：

(1)、用户数据输入模块：

用户可以通过UI界面上传用于语言模型、声学模型、热词模型训练的数据集语料，也可以通过调用API接口，发送HTTP请求，传输数据集语料。在语料格式要求层面：

用于语言模型训练的语料，需要为纯文本语料或基于自定义的语料模板和实体。例如，针对航空场景，涉及到机票预定的业务。类似：“小明想订一张从上海飞往北京的机票”，我们会将诸如此类的话术，抽象出一个模版为：“{人名}想订{数量}从{城市}飞往{城市}的机票”。在这个模版里，“人名”、“数量”、“城市”都是槽位，这些槽位可以有非常多具体的词条实体，也就是用户可以自定义的。如人名：张三、李四等，数量：一张、二张等，城市：北京、上海、深圳、广州等。

上述的这个例子，可以进一步扩展和抽象，即定义模版的复杂度，越复杂的模版，所能够覆盖到的具体话术样例更多。类似“小明计划订购一张明天从上海到北京的火车票”，可抽象出一个模版为：“{人名}{动作}{操作}{数量}{时间}从{城市}到{城市}的{票}”。每一个大括号{}，代表留出来的槽位，槽位里可以填充相应的实体词条。

用于声学模型训练的语料，需要为带有文本标注的音频数据集合。

用于热词模型训练的语料，需要为专业领域的词汇集合。

(2)、数据预处理模块：

用户输入的数据，往往存在数据格式上的问题，且语言模型、声学模型、热词训练接收的数据，有各自的标准格式要求。为此，需要对输入的数据进行处理，如文本规范化、分词、音频格式标准化、标注数据处理等。

(3)、模型训练模块：

模型训练模块主要包含：语言模型自训练、声学模型自训练、热词模型自训练。用户可以通过UI界面或者API创建语言模型、声学模型、热词模型，创建完模型后，会有一个唯一的任务ID标识。用户可以选择语言模型或声学模型训练或热词模型。例如，用户可以通过UI交互界面进行操作，也可以通过API进行交互来选择需要训练的模型，无需用户具备系统算法和人工智能知识，用户可以更加自主的完成识别优化，降低了训练模型的门槛和成本。

用户选择语言模型或声学模型训练或热词模型时，还可以选择不同的训练模式，例如是增量式训练还是全量式训练。在增量式训练模式下，用户触发增量式训练时，可以选择历史训练过的模型，在历史模型的基础上，对新增的数据进行迭代优化。在全量式训练模式下，用户不但可以选择历史的训练数据集，进行叠加组合训练，也可以仅使用当前的数据集训练。在不同训练模式下，用户还可以自定义模型训练参数。为此，用户不但有了多个角度优化语音识别的选择，也有了进行单角度深度优化的空间。

示例性地，对于声学模型，用户可以定义训练模式，为了让用户可以从训练时间和训练效果上，有更多自由的选择。在用户输入数据不变的情况下，我们支持三种模式，其一、训练时间短，优化效果一般。其二、训练时间略长，优化效果中等。其三、训练时间长、优化效果好。其次就是增量、全量的选择，用户可以基于历史已经训练的模型，在之前的基础上，追加数据训练。也可以从头到尾，重新训。更详细的偏底层算法的参数，我们没有放开，避免给用户带去不必要的干扰。

对于语言模型，用户可以自由选择是否和大的基础模型进行模型插值。于是，我们开放了模型插值的几个参数，主要是是否进行插值、插值系数、是否进行裁剪、裁剪系数。这几个参数用于表示是否和大模型插值，以及以多少比例插值，插值后得到的模型，是否进行裁剪，裁剪的比例是多少。

对于热词模型，热词我们抽象出了每个槽位，用户可以基于槽位，上传自己的词表。

(4)、模型评估测试模块：

模型评估测试主要包含：客观测试、主观测试、对比测试。

在客观测试下，用户可以批量上传测试音频数据集，选择进行不同定制语言模型、声学模型或热词模型的识别测试，以得到在不同情形下的语音识别量化的准确率。

本申请实施例中的语音识别模型训练系统为一种模型的自训练系统，其意义在于用户可以基于自己的业务场景的情况，采集业务场景的数据，自主的训练语言模型、声学模型和热词模型，完成语言识别用户级的定制优化。例如，一些用户的业务场景噪声比较多、方言语种、中文混杂、专名比较多，或者是话术风格比较特殊如庭审、审讯等。这些情况，普通的通用语音识别不能够很好的满足，需要定制优化，即个性化针对性的定制。这样的一套系统，就可以做到千人千面，且低门槛的让用户自主完成，不需要专业研发人士参与。

在选择进行不同定制语言模型、声学模型或热词模型的识别测试时，假设用户已经分别定制出语言模型、声学模型、热词模型。那么定制后，用户可以上传测试数据集，分别选择语言模型、声学模型、热词模型进行测试。以衡量出哪一种优化方法带来的效果提升最明显。用户也可以同时选择三者，做一个联合测试，看下三个维度共同作用下，能够带来的识别优化效果提升。

在主观测试下，用户可以上传单条测试音频，选择进行不同定制语言模型、声学模型或热词模型的识别测试，以得到不同情形下的语音识别结果，直接直观的验证自训练模型的有效性。

在对比测试下，用户可以批量上传音频数据集，做识别测试。在测试前，需要分为两个不同的测试组，选择不同的自训练语言模型、声学模型或热词模型，用于测试两组不同自训练模型的识别效果差异，以便于选择更优的模型使用。

示例性地，在训练阶段就训练了多个模型，例如两个语言模型、两个声学模型、两个热词模型。用户在做模型训练时，可以从三个维度出发，即训练类型可以选择语言模型、声学模型、热词模型。假设用户选择了语言模型训练类型。那么用户可以在这个训练类型下，定制很多个语言模型。然后通过模型测试，去比较定制的那么多语言模型，到底哪一个优化的更好。同理，声学模型和热词模型，也可以定制多个。

(5)、模型发布上线模块：

模型发布上线模块，主要是完成将用户自训练的语言、声学、热词模型，部署上线。在实际生产过程中，识别服务、训练服务往往是部署在同一个集群内的不同机器上，用户通过训练服务，自训练的模型资源，是存储在训练服务所在的服务器的，训练得到模型是一个生产的过程。然而消费的过程，是在识别服务消费，在另一台机器上，就需要将生产出来的模型发布部署到识别消费服务所在的机器上。为此，用户可以通过UI界面或者API,触发发布，模型即可由后台程序同步到识别机器，完成发布部署上线。

(6)、线上数据采集模块：

线上数据采集模块，主要是完成两件事情，其一，将数据按照一定的判别策略，阈值过滤做数据筛选，直接输送到声学模型训练系统。其二，是将线上数据按照一定策略，导入到标注系统模块，用于精准数据标注。

为了更好的优化模型，通常需要大量的标注数据进行数据支撑，然而标注数据本身获取的时间较长，同时成本较高。为了能够在标注数据较少，甚至没有的情况下，也能够较快的进行模型的优化。对此我们提供了半监督的训练方式，可充分利用线上的大量无标注数据，快速进行模型的自训练优化。

例如对于一个新的业务场景来说，我们首先将线上的语音数据通过定时器定期的从数据库表中拉取后，将其放入由多个召回模型和一个可选择的判别策略组成的数据采集模块中，通过数据采集召回质量较高的语音并得到与其对应的伪标签。

主要是虽然可以通过互联网得到大量的语音数据，但不易得到与语音数据对应的精确标注。于是，在低数据资源条件下，进行语音识别性能的优化，采用无监督或半监督学习的方法，不失为一种行之有效的方法，在这里我们采用的是半监督的方式。

首先，利用少量的已有的带标注数据，随机采样出几组数据集，通过标准的训练流程，训练得到几个初始的声学召回模型。

其次，利用得到的多个初始声学召回模型,对不带标注的线上语音数据进行识别解码，得到识别的伪标注。这个标注既可以是以最优结果的形式保存，也可以是以多候选结果的形式保存，这里我们保存的是最优结果。

然后，由于多个声学召回模型，语音识别解码得到的伪标注中有很多识别错误。于是我们定义了一个判别策略，通过结合置信度和困惑度对自动产生的伪标注进行甄别筛选,保留相对可靠的识别结果。

置信度：根据解码中的后验概率或似然度分数的高低依次筛选数据。给每一句话一个置信度得分，设置得分的阈值，挑选置信度高的句子。

困惑度：计算解码结果与初始语言模型的困惑度挑选数据。设置困惑度的阈值，挑选困惑度较低的句子。

句子置信度挑选准则是从解码文本由多个声学模型产生的可靠性角度挑选数据,而困惑度挑选准则是从解码文本与语言模型的匹配程度上入手挑选数据，两种数据挑选准则原理的不同使它们可以相互补充.，结合句子置信度与困惑度的数据挑选策略,将两种方法挑选的数据混合去重,发挥互补性,使数据挑选的可信度更高。

召回模型是指声学模型，对应到判别策略中的置信度准则。即根据解码结果中的后验概率高低来依次筛选数据，在这里会设计一个置信度阈值，如0.75，即低于这个阈值的，送人工标注。高于这个阈值的，筛选出来，用于模型训练。

而这些被我们从线上召回的数据将被作为新的训练数据加入模型中，并根据业务侧提供的测试集自动的进行模型的优化和参数的调整。最后优化得到的模型将在进行能力输出的同时也将得到的声学模型，放回到数据采集召回模块，用于数据筛选，通过更新召回模型的方式优化下一次召回的数据质量(其中，能力输出指的是通过数据筛选系统，选择后的数据，进入到模型训练系统，生产训练得到的声学模型。将这个模型用于业务场景中，同时用作为一个召回模型)。示例性地，将每一次得到的优化后的声学模型，更新到数据采集召回模块，视为其中一个声学召回模型。期间为提高数据采集模块所召回数据的质量，在进行数据召回时，没有选择使用单一模型进行伪标签预测，而是选用多个与目标场景类似的模型在规定阈值的情况下，按照一定的相似度来进行数据的选取以及伪标签的预测。这种方式不仅可以保证数据的质量能够对模型训练的性能带来有效提升，同时也能够增加训练样本的多样性，让模型在训练的过程中变得更为鲁棒。

示例性地，单一模型指的是输入为语音输出为该语音的伪标签的神经网络模型，例如上文提到的声学召回模型，也是一个神经网络模型。

示例性地，规定的阈值包括置信度和困惑度。其中，一定的相似度在置信度准则下，阈值可以设定调整，默认给定的是0.75。一定的相似度在困惑度准则下，阈值也可以设定调整，默认给定的是100。

(7)、语音标注系统模块：

用户在自主进行声学模型优化，自训练声学模型时，通常需要大量的标注数据进行数据支撑，为了让用户可以直接将标注的数据，用于声学模型训练，本案提供了语音数据标注系统模块，用户可以通过UI界面或者API接口，上传大量语音数据，发布数据标注任务，并可以将数据标注任务分配给标注人员标注，标注完成后，标注任务数据被推送到数据审核,经审核通过的数据，可以直接用于语言模型或声学模型训练。

本发明实现的是一种语言模型、声学模型、热词模型的自训练，所能够直接达到的效果就是降低用户自主优化语音识别性能的门槛，实现高效迅速的识别性能优化。用户不需要理解底层更深层次的语音识别算法逻辑，也不需要理解底层优化的链路逻辑，只需要关注业务场景，以及业务场景可以采集到哪些真实数据即可。将这些和业务场景有关的数据采集到，上传到系统，即可从多个角度完成场景优化。但其更深层次的，由于整个自训练系统适用的业务场景比较广泛，且每一个流程模块都是作为一个单独的微服务在运行，用户可以很方便的在系统上做二次开发。另外，系统链路的模块之间松耦合，为方便用户定位问题提供了方便，也增强了服务稳定性。系统链路设计的时候，我们遵循高内聚低耦合的设计原则。比如语言模型训练、声学模型训练、热词模型训练，是从多个维度去优化语言识别。这三者之间是独立的，用户可以选择性的部署其中一个或者多个。为此，每一个优化模块，都是单独的作为一个业务API服务存在。且三者都是计算密集型的，从服务稳定性和维护角度的出发，适合隔离。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别模型训练方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别模型训练方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音识别模型训练方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音识别模型训练方法。

上述本发明实施例的语音识别模型训练系统可用于执行本发明实施例的语音识别模型训练方法，并相应的达到上述本发明实施例的实现语音识别模型训练方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图5是本申请另一实施例提供的执行语音识别模型训练方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行语音识别模型训练方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别模型训练方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别模型训练方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别模型训练装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语音识别模型训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与语音识别模型训练装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音识别模型训练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

16页详细技术资料下载

语音识别模型训练方法及系统

相关技术

网友询问留言