语音数据处理方法、装置、设备、存储介质及程序产品

文档序号：1923544 发布日期：2021-12-03 浏览：19次 >En<

阅读说明：本技术 语音数据处理方法、装置、设备、存储介质及程序产品 (Voice data processing method, device, equipment, storage medium and program product ) 是由赵伟伟姜迪于 2021-09-17 设计创作，主要内容包括：本申请提供一种语音数据处理方法、装置、设备、存储介质及程序产品,所述方法包括：获取采集到的待处理语音数据；获取更新后的识别模型,更新后的识别模型由终端根据个性训练数据集对初始识别模型进行更新得到,初始识别模型由服务端基于公共训练数据训练得到,个性训练数据集至少包括采集到的语音数据；将待处理语音数据输入至更新后的识别模型进行识别,得到识别结果；确定识别结果对应的控制指令,并执行控制指令。如此,在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下,实现个性化、识别准确率高的语音识别服务。(The application provides a voice data processing method, a device, equipment, a storage medium and a program product, wherein the method comprises the following steps: acquiring collected voice data to be processed; acquiring an updated recognition model, wherein the updated recognition model is obtained by updating an initial recognition model according to an individual training data set by a terminal, the initial recognition model is obtained by training a server based on public training data, and the individual training data set at least comprises collected voice data; inputting the voice data to be processed into the updated recognition model for recognition to obtain a recognition result; and determining a control instruction corresponding to the identification result, and executing the control instruction. Therefore, on the premise of ensuring that the voice data of the user does not go out of the local area and ensuring that the privacy of the user is not revealed, the voice recognition service with individuation and high recognition accuracy is realized.)

技术领域

本申请涉及人工智能技术领域，涉及但不限于一种语音数据处理方法、装置、设备、存储介质及程序产品。

背景技术

随着人工智能、智能硬件等领域的发展，基于语音识别的人机交互方式越来越得到用户的认可。尤其在车载场景中，驾驶员通过语音唤醒车载智能交互系统，即可通过语音下达控制指令，既方便又安全。

相关技术中车载智能交互系统中的语音识别服务提供两种方式：一种是云语音识别服务，车载终端将用户的语音上传至云服务商服务器，云服务商服务器上的语音识别软件将语音转译成文字回传给用户，云服务语音识别服务的优势是计算能力强、可以持续的更新模型，在用户无感的状态下完成效果的提升，功能强大，但前提是必须联网，断网后语音识别服务不可用，并且需要上传用户语音，存在泄露用户声纹信息的风险，无法确保用户身份等隐私信息安全；另一种是通过车载终端私有化部署的语音识别服务将用户语音转译成文本，优点是无需联网，不存在隐私泄露问题，但受限于语音识别技术、终端计算及存储能力、复杂指令逻辑、复杂背景声音、用户口音等因素影响，导致识别能力较弱，识别成功率较低，并且需用户配合(包括使用标准普通话、声音大点、背景环境安静)才能完成识别，给用户带来不便。

发明内容

本申请实施例提供一种语音数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品，不仅能够保护用户隐私安全，而且能够实现个性化、识别准确率高的语音识别服务。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音数据处理方法，所述方法应用于终端，所述方法包括：

获取采集到的待处理语音数据；

获取更新后的识别模型，所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到，所述初始识别模型由服务端基于公共训练数据训练得到，所述个性训练数据集至少包括采集到的语音数据；

将所述待处理语音数据输入至所述更新后的识别模型进行识别，得到识别结果；

确定所述识别结果对应的控制指令，并执行所述控制指令。

本申请实施例提供一种语音数据处理装置，所述装置包括：

第一获取模块，用于获取采集到的待处理语音数据；

第二获取模块，用于获取更新后的识别模型，所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到，所述初始识别模型由服务端基于公共训练数据训练得到，所述个性训练数据集至少包括采集到的语音数据；

识别模块，用于将所述待处理语音数据输入至所述更新后的识别模型进行识别，得到识别结果；

执行模块，用于确定所述识别结果对应的控制指令，并执行所述控制指令。

本申请实施例提供一种语音数据处理设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语音数据处理方法。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的语音数据处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的语音数据处理方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的语音数据处理方法中，服务端基于公共训练数据训练得到初始识别模型，将初始识别模型发送至终端，终端根据个性训练数据集对初始识别模型进行更新得到更新后的识别模型，该个性训练数据集至少包括采集到的语音数据。当终端获取采集到的待处理语音数据；将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果；最后确定识别结果对应的控制指令，并执行控制指令。如此，在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下，实现个性化、识别准确率高的语音识别服务。

附图说明

图1为本申请实施例提供的语音数据处理系统的一种网络架构示意图；

图2是本申请实施例提供的电子设备的一种组成结构示意图；

图3为本申请实施例提供的语音数据处理方法的一种实现流程示意图；

图4为本申请实施例提供的语音数据处理方法的另一种实现流程示意图；

图5为本申请实施例提供的语音识别服务自学习方法的实现流程图；

图6为本申请实施例提供的自学习引擎根据用户数据进行迁移学习的一种实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)迁移学习，是一种机器学习方法，就是把为任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。

2)弱监督学习(weak supervised learning)，是机器学习领域中的一个分支，与传统的监督学习相比，其使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练。

基于上述对本申请实施例中涉及的名词和术语的解释，首先对本申请实施例提供的语音数据处理系统进行说明，参见图1，图1是本申请实施例提供的语音数据处理系统的一种网络架构示意图，该语音数据处理系统包括终端100、服务端200和网络300，其中终端100至少为一个，图1中以1个终端100为例示出。终端100通过网络300连接服务端200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在一些实施例中，终端100可以是智能手机，车载终端，笔记本电脑，平板电脑，台式计算机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务端200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端100以及服务端200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

服务端200，用于根据公共训练数据训练得到初始识别模型，该公共训练数据包括公共语音数据和公共语音数据对应的文本数据。服务端200训练完成后，将训练好的初始识别模型发送至终端100。

终端100，用于从服务端200接收初始识别模型；根据采集到的用户语音数据确定个性训练数据集，然后根据个性训练数据集对初始识别模型进行更新得到更新后的识别模型；获取采集到的待处理语音数据后，将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果；确定识别结果对应的控制指令，并执行控制指令。用户的语音数据无需发送至服务端200，能够保护用户隐私安全，并且，终端100从服务端200接收已经训练好的初始识别模型，然后在终端100本地，利用用户语音数据对初始识别模型进行迁移学习，得到适应于终端用户的更新后的识别模型，从而能够实现个性化、识别准确率高的语音识别服务。

参见图2，图2是本申请实施例提供的电子设备的一种组成结构示意图，在实际应用中，电子设备10可以实施为图1中的终端100或服务端200，以电子设备10为图1所示的终端100为例，对实施本申请实施例的语音数据处理方法的电子设备进行说明。图2所示的电子设备10包括：至少一个处理器110、存储器150、至少一个网络接口120和用户接口130。电子设备10中的各个组件通过总线系统140耦合在一起。可以理解，总线系统140用于实现这些组件之间的连接通信。总线系统140除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统140。

处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口130包括使得能够呈现媒体内容的一个或多个输出装置131，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口130还包括一个或多个输入装置132，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器150可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器150可选地包括在物理位置上远离处理器110的一个或多个存储设备。

存储器150包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器150旨在包括任意适合类型的存储器。

在一些实施例中，存储器150能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统151，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块152，用于经由一个或多个(有线或无线)网络接口120到达其他计算设备，示例性的网络接口120包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块153，用于经由一个或多个与用户接口130相关联的输出装置131(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块154，用于对一个或多个来自一个或多个输入装置132之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语音数据处理装置可以采用软件方式实现，图2示出了存储在存储器150中的语音数据处理装置155，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块1551、第二获取模块1552、识别模块1553和执行模块1554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的语音数据处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的语音数据处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音数据处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面说明本申请实施例提供的语音数据处理方法。在一些实施例中，本申请实施例提供的语音数据处理方法可以由图1所示网络架构的终端或服务端单独实施，或者由终端及服务端协同实施，接下来以终端实施为例，参见图3，图3是本申请实施例提供的语音数据处理方法的一种实现流程示意图，将结合图3示出的步骤进行说明。

步骤S301，获取采集到的待处理语音数据。

该待处理语音数据为持有终端的用户的语音数据，终端包括一语音采集装置，当用户希望终端执行某一操作时，对终端说出该操作对应的语音，语音采集装置采集到语音，得到待处理语音数据。举例说明，终端为车载终端，用户想听音乐时，对车载终端说出“播放音乐”，车载终端的语音采集装置进行采集，得到待处理语音数据“播放音乐”。

步骤S302，获取更新后的识别模型。

这里，获取更新后的识别模型，可以是终端根据个性训练数据集对初始识别模型进行更新得到更新后的识别模型。该个性训练数据集中包括采集到的语音数据和语音数据对应的文本数据。初始识别模型是由服务端基于公共训练数据训练得到并发送至终端的。

终端接收到初始识别模型后，采集用户语音数据，利用初始识别模型对语音数据进行识别，得到识别结果(即文本数据)，若所有控制指令中存在与识别结果对应的某控制指令，表明初始识别模型能够成功地识别语音数据，执行该控制指令；若所有控制指令中不存在与识别结果对应的控制指令，表明初始识别模型无法成功识别语音数据，无法确定用户想要执行哪一控制指令，此时需要重新采集用户语音数据，继续对重新采集的语音数据进行上述识别过程，直至识别成功，将识别成功的语音数据和之前识别失败的语音数据，以及对该些语音数据进行识别得到的文本数据，作为一组训练数据进行存储。在进行存储时，可以先加密然后再存储，加强数据的安全性。如上进行多次记录，将得到的多组训练数据组成训练数据集。由于该训练数据集是由持有终端的用户采集得到的，采集的语音数据具有该用户使用习惯、口音、使用场景等个性特征，因此，该训练数据集是该终端具有的个性训练数据集，在保护用户语音数据的前提下，无需向其他终端或服务端发送用户语音数据，确保用户隐私信息不被泄露。

步骤S303，将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果。

获取到更新后的识别模型后，将采集到的待处理语音数据输入至更新后的识别模型进行语音识别，得到识别结果，例如采集到用户输入的语音数据为“去xx地”，进行识别后得到的识别结果为“去xx地”。

步骤S304，确定识别结果对应的控制指令，并执行控制指令。

根据步骤S303得到的识别结果，确定对应的控制指令并执行。如上述举例“去xx地”，进行分析确定该识别结果对应的控制指令为“导航去xx地”，打开导航应用程序(App，application)，导航目的地为xx地的路线。

本申请实施例提供的语音数据处理方法，终端获取采集到的待处理语音数据；获取更新后的识别模型，更新后的识别模型由终端根据个性训练数据集对初始识别模型进行更新得到，初始识别模型由服务端基于公共训练数据训练得到，个性训练数据集至少包括采集到的语音数据；将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果；确定识别结果对应的控制指令，并执行控制指令。如此，在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下，实现个性化、识别准确率高的语音识别服务。

在一些实施例中，上述步骤S302“获取更新后的识别模型”可以实现为以下步骤：

步骤S3021，获取服务端发送的初始识别模型。

服务端获取公共训练数据，构建原始识别模型，根据公共训练数据对原始识别模型进行训练，得到训练好的初始识别模型，然后将初始识别模型发送至终端，以使终端利用自身的私有语音数据，在终端对初始识别模型进行更新。

步骤S3022，获取训练数据集。

该训练数据集包括多组训练数据，每组训练数据包括语音数据和语音数据对应的文本数据。其中，语音数据对应的文本数据，是根据初始识别模型识别得到的。本申请实施例中，训练数据集可以通过以下步骤来获取：

步骤S30221，获取采集到的第一语音数据。

为了更清楚描述训练数据，下面以播放a音乐为例进行说明，该第一语音数据可以为“播放a音乐(方言)”。

步骤S30222，判断参考数据集中是否存在与第一语音数据对应的目标参考数据。

该参考数据集由服务端确定并发送至终端的。服务端对每一控制指令设置对应的至少一个参考数据，将所有参考数据组成参考数据集并发送至终端，每一参考数据包括参考语音数据和参考文本数据。基于初始识别模型对第一语音数据进行识别，得到第一文本数据；确定第一文本数据与各参考文本数据的匹配度；当参考数据集中不存在匹配度大于预设匹配度阈值的参考文本数据时，确定参考数据集中不存在与第一语音数据对应的目标参考数据，此时进入步骤S30223；当参考数据集中存在匹配度大于预设匹配度阈值的参考文本数据时，确定参考数据集中存在与第一语音数据对应的目标参考数据，确定该目标参考数据对应的控制指令，并执行该控制指令。这里的目标参考数据为包括目标参考文本数据的参考数据，该目标参考文本数据为匹配度大于预设匹配度阈值的参考文本数据。

仍以上述举例说明，基于初始识别模型对第一语音数据“播放xxx音乐(方言)”进行识别，得到第一文本数据“不放xxx音乐”；确定“不放xxx音乐”与参考数据集中各参考数据包括的参考文本数据的匹配度；当参考数据集中不存在匹配度大于预设匹配度阈值的参考文本数据时，确定参考数据集中不存在与“播放xxx音乐(方言)”对应的目标参考数据，也就是说，确定“播放xxx音乐(方言)”对应的控制指令失败，此时进入步骤S30223重新采集；当参考数据集中存在匹配度大于预设匹配度阈值的参考文本数据时，确定参考数据集中存在与“播放xxx音乐(方言)”对应的目标参考数据，也就是说，确定“播放xxx音乐(方言)”对应的控制指令成功，如根据目标参考数据确定的控制指令为“打开音乐播放器并开始播放xxx音乐”，然后执行“打开音乐播放器并开始播放xxx音乐”这一控制指令。

步骤S30223，获取预设时长内采集到的第二语音数据。

这里，第二语音数据可以与第一语音数据对应同一控制指令，即用户的第一语音数据确定控制指令失败，终端未执行控制指令时，用户再次下发用于执行同一控制指令的第二语音数据，如说出“播放xxx音乐(普通话)”，或者提高音量说出“播放xxx音乐(方言)”，通过调整说的内容或音量等方式以提高识别准确率。

第二语音数据还可以与第一语音数据对应不同的控制指令，如用户开始想听xxx音乐，未成功播放时，用户换为听yyy电台，此时，第一语音数据和第二语音数据对应不同的控制指令。

这里需要说明的是，第一语音数据的第一采集时间和第二语音数据的第二采集时间之间的间隔时长在预设时长内，该预设时长可以设置为30s(秒)至2min(分钟)之间任一值，当然也可以结合实际应用设置为其他更长或更短的值。当用户在超过预设时长后再次输入语音时，将再次输入的语音作为第一语音数据。

步骤S30224，判断参考数据集中是否存在与第二语音数据对应的目标参考数据。

这里判断参考数据集中是否存在与第二语音数据对应的目标参考数据，与判断参考数据集中是否存在与第一语音数据对应的目标参考数据的判断方式相同，参见上述步骤S30222中的详细说明。

当参考数据集中存在与第二语音数据对应的目标参考数据时，进入步骤S30225；当参考数据集中不存在与第二语音数据对应的目标参考数据时，将该第二语音数据作为第二个第一语音数据进行保存，然后返回步骤S30223重新获取新的第二语音数据。例如第一语音数据为“播放xxx音乐(方言)”，用户只是提高音量，但采集的第二语音数据还是“播放xxx音乐(方言)”，该两次采集都未在参考数据集中确定出语音数据对应的目标参考数据，进行保存后的第一语音数据包括“播放xxx音乐(方言)”和“播放xxx音乐(方言)”，然后继续采集，直至采集到在参考数据集中存在对应的目标参考数据的第二语音数据时停止采集，此时进入步骤S30225。或者，第n次采集的第n语音数据之后，在预设时长内未采集到第n+1语音数据，此时删除所有第N语音数据，返回步骤S30221重新进行采集，这里n为正整数，N＝1，2，…，n。

步骤S30225，基于第一语音数据和第二语音数据确定一组训练数据。

参考数据集中存在与第二语音数据对应的目标参考数据后，基于初始识别模型对N个第一语音数据进行识别，得到N个第一文本数据，基于初始识别模型对第二语音数据进行识别，得到第二文本数据，将N个第一语音数据、N个第一文本数据、第二语音数据和第二文本数据确定为一组训练数据。

步骤S30226，基于多次确定得到的多组训练数据构建训练数据集。

每得到一组训练数据，将其添加至训练数据集中，积累到一定量的训练数据后，对初始识别模型进行训练。

步骤S3023，基于语音数据和文本数据，对初始识别模型进行迁移学习，得到迁移模型。

利用训练数据集中的语音数据和文本数据，对初始识别模型进行多轮迁移学习，得到多个迁移模型。

步骤S3024，基于迁移模型对初始识别模型进行更新，得到更新后的识别模型。

在一种实现方式中，得到更新后的识别模型可以实现为：将至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型。具体的，可以将步骤S3023得到的所有迁移模型和初始识别模型进行融合，将融合得到的新模型确定为更新后的识别模型；或者，也可以先从步骤S3023得到的所有迁移模型中筛选出部分迁移模型，将筛选的部分迁移模型和初始识别模型进行融合，将融合得到的新模型确定为更新后的识别模型。

在另一种实现方式中，若服务端也对初始识别模型进行更新，即服务端基于新的公共训练数据对之前训练好的初始识别模型进行更新，得到更新后的初始识别模型，服务端将更新后的初始识别模型发送至终端，此时得到更新后的识别模型可以实现为：将至少一个迁移模型、初始识别模型和更新后的初始识别模型进行融合，得到更新后的识别模型。具体的，可以将步骤S3023得到的所有迁移模型、从服务端接收到的初始识别模型和更新后的初始识别模型进行融合，得到更新后的识别模型；或者，也可以先从步骤S3023得到的所有迁移模型中筛选出部分迁移模型，将筛选的部分迁移模型、从服务端接收到的初始识别模型和更新后的初始识别模型进行融合，得到更新后的识别模型。

本申请实施例中，在融合时，可以进行无约束条件的融合，如进行平均融合，也可以基于约束条件进行融合。下面以终端将至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型为例，对融合方式进行说明。

在进行无约束条件的融合的一种实现方式中，可以将各模型对应权重取其平均值，对至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型。

在进行有约束条件的融合的一种实现方式中，可以将参考数据集作为约束条件，基于参考数据集对至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型，该更新后的识别模型为符合该约束条件的最优模型。

在进行有约束条件的融合的又一种实现方式中，可以先根据更新后的目标训练数据集，对参考数据集进行更新，得到更新后的参考数据集；将该更新后的参考数据集作为约束条件，根据更新后的参考数据集对至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型，该更新后的识别模型为符合该约束条件的最优模型。

其中，对参考数据集进行更新，可以实现为：获取参考数据集中包括的参考数据的数量；根据参考数据的数量，从更新后的目标训练数据集包括的所有目标训练数据中选取多个目标训练数据；将多个目标训练数据作为参考数据添加至参考数据集中，得到更新后的参考数据集。

这里，选取的目标训练数据的数量，不大于参考数据集的数量的二分之一，即每次更新时，更新后参考数据集包括参考数据的数量，最多等于更新前参考数据集包括参考数据的数量的1.5倍，不会使参考数据集剧增，以确保进行融合时所采用的验证数据的准确性和稳定性。

在一些实施例中，上述步骤S3023“基于语音数据和文本数据，对初始识别模型进行迁移学习，得到迁移模型”可以实现为以下步骤：

步骤S30231，获取训练数据集包括的训练数据的数量。

当训练数据较少时，无法得到稳定的模型，本申请实施例中，当训练数据集中的训练数据达到一定量时，再对初始识别模型进行更新，能够确保更新后的初始识别模型的稳定性。

步骤S30232，判断训练数据的数量是否达到第一数量阈值。

当训练数据的数量达到第一数量阈值时，表明训练数据较多，此时进入步骤S30233；当训练数据的数量未达到第一数量阈值时，表明训练数据还较少，此时返回步骤S30221继续采集新的训练数据。

步骤S30233，对训练数据集进行预处理，得到目标训练数据集。

该目标训练数据集包括目标训练数据。对训练数据集进行预处理的过程参见下述步骤S2331至步骤S2335。

步骤S30234，根据目标训练数据集对初始识别模型进行迁移学习，得到至少一个迁移模型。

本申请实施例中，通过对训练数据集进行预处理，剔除不符合要求的训练数据，得到目标训练数据集，根据目标训练数据集对初始识别模型进行迁移学习，与根据训练数据集对初始识别模型进行迁移学习相比，得到的迁移模型的识别准确率更高。

在一些实施例中，上述步骤S30233“对训练数据集进行预处理，得到目标训练数据集，目标训练数据集包括目标训练数据”可以实现为以下步骤：

步骤S2331，获取终端的状态信息。

这里终端的状态信息包括运行状态和剩余电能，运行状态包括空闲状态和工作状态。当终端正在执行控制指令时，确定终端处于工作状态，当终端未执行控制指令，如处于待机时，确定终端处于空闲状态。本申请实施例中，控制指令特指根据用户语音控制执行某一操作的控制指令，不包括如控制终端待机的系统指令。剩余电能可以理解为终端目前的剩余电量，当剩余电能较少时，可能不足以支撑完成初始识别模型的更新过程，为了确保更新完整，在更新前获取终端剩余电能，当剩余电能低于更新初始识别模型所需的电能，不进行更新。

步骤S2332，判断运行状态是否为空闲状态。

当运行状态为空闲状态，进入步骤S2333；当运行状态为工作状态，进入步骤S2331重新获取终端的状态信息。本申请实施例中，在用户未使用终端时对初始识别模型进行更新，一方面不影响终端的正常使用，另一方面可以缩短更新时长，提高更新效率。

步骤S2333，判断剩余电能是否大于预设电能阈值。

当剩余电能大于预设电能阈值时，确定终端可以进行模型更新，此时进入步骤S2334；当剩余电能小于或等于预设电能阈值时，表明终端当前电量较少，可能不足以支撑到模型更新完成，返回步骤S2331重新获取终端的状态信息。

步骤S2334，对训练数据集中的各组训练数据进行预处理，得到各组训练数据对应的目标训练数据。

其中，在对其中一组训练数据进行预处理，即“对训练数据集中的一组训练数据进行预处理，得到一组训练数据对应的目标训练数据”，可以实现为：分别确定一组训练数据包括的各第一文本数据与一组训练数据包括的第二文本数据的相似度。将相似度大于预设相似度阈值的每一第一文本数据确定为一个目标第一文本数据。将各个目标第一文本数据、各个目标第一文本数据对应的第一语音数据，确定为一组训练数据对应的目标训练数据。

当用户在预设时长内先后输入的多条语音数据对应不同的控制指令时，该组训练数据会影响识别结果，例如，第一语音数据包括“播放xxx音乐(方言)”、“打开yyy电台(方言)”，第一文本数据包括“不放xxx音乐”、“打开yyy电塔”，第二语音数据为“打开yyy电台”，第二文本数据为“打开yyy电台”，确定“不放xxx音乐”与“打开yyy电台”的相似度为0，确定“打开yyy电塔”与“打开yyy电台”的相似度为0.8，预设相似度阈值为0.6，则将大于0.6的“打开yyy电塔”确定为目标第一文本数据，将“打开yyy电台(方言)”和“打开yyy电塔”确定为一组目标训练数据，将训练数据中最后一个文本数据，即第二文本数据作为该组目标训练数据的标注文本数据。

当一组训练数据包括的N个第一语音数据对应的N个第一文本数据中，存在M个第一文本数据与第二文本数据的相似度大于预设相似度阈值，则得到M个目标第一文本数据，该M个目标第一文本数据，和该M个目标第一文本数据对应的M个第一语音数据，确定得到M组目标训练数据，其中，M为小于N的自然数，即一组训练数据可以对应M组目标训练数据，该M组目标训练数据的标注文本数据相同，均为第二文本数据。

步骤S2335，基于各组训练数据对应的目标训练数据，确定目标训练数据集。

对训练数据集中所有组训练数据进行清洗，得到各组训练数据对应的目标训练数据，将该些组目标训练数据组成为目标训练数据集。在实现时，当目标训练数据过多时，会影响模型的更新速度。本申请实施例中，在确保识别精度的前提下，当目标训练数据的数量大于第二数量阈值时，对目标训练数据进行删减。具体可以实现为：根据每组训练数据对应的目标训练数据，获取目标训练数据的数量；当目标训练数据的数量大于第二数量阈值时，根据各个第一语音数据的获取时刻，从目标训练数据中确定待删除训练数据；从目标训练数据中，删除待删除训练数据，将剩余的目标训练数据组成目标训练数据集。

在确定待删除训练数据时，可以根据时间，将目标训练数据中距离当前时间更久的目标训练数据确定为待删除训练数据。

在一些实施例中，上述步骤S30234“根据目标训练数据集对初始识别模型进行迁移学习，得到至少一个迁移模型”可以通过以下步骤来实现：

步骤S2341，根据各个目标训练数据，对初始识别模型进行迁移学习，得到第一迁移模型。

根据目标训练数据集中的各个目标训练数据，对初始识别模型进行一次迁移学习，得到第一迁移模型。

步骤S2342，将每个目标训练数据包括的各第一语音数据输入至第一迁移模型，得到各第一语音数据对应的识别文本。

步骤S2343，基于各第一语音数据对应的识别文本对目标训练数据集进行清洗，得到更新后的目标训练数据集。

基于各第一语音数据对应的目标第一文本数据，确定各第一语音数据对应的识别文本的字错误率；从目标训练数据中删除字错误率大于预设阈值的第一语音数据和目标第一文本数据，得到更新后的目标训练数据，更新后的目标训练数据组成更新后的目标训练数据集。

在一次迁移完成后，使用第一迁移模型对各目标训练数据包括的语音数据进行预测，即将各目标训练数据包括的各第一语音数据输入至第一迁移模型，得到各第一语音数据对应的识别文本，根据标注文本数据，确定各识别文本的字错误率，即逐字比较标注文本数据和识别文本是否相同，将不同字的个数与标注文本的总字数的商作为字错误率，或者将不同字的个数与识别文本的总字数的商作为字错误率。判断各第一语音数据对应的识别文本的字错误率是否大于预设阈值，删除字错误率大于预设阈值的第一语音数据和该第一语音数据对应的文本数据，删除完后剩余的目标训练数据即为更新后的目标训练数据。

步骤S2344，根据更新后的目标训练数据集，对初始识别模型继续进行迁移学习，得到第二迁移模型。

根据更新后的目标训练数据集中包括的目标训练数据，对初始识别模型进行迁移学习，得到第二迁移模型。

步骤S2345，判断是否达到迁移结束条件。

这里迁移结束条件可以为更新后的目标训练数据集中包括的目标训练数据不再改变，或者迁移学习的累计次数达到预设次数阈值。当达到迁移结束条件时，停止迁移学习，进入步骤S2346；当未达到迁移结束条件时，返回步骤S2342，继续进行目标训练数据的更新，并继续进行迁移学习，每进行一次迁移学习，得到一个迁移模型，即进行k次迁移学习，得到第k迁移模型，其中k为正整数。

步骤S2346，保存多次进行迁移学习得到的多个迁移模型。

将k次迁移学习得到的k个迁移模型进行存储，然后进入步骤S3024进行模型融合。

通过上述步骤S2341至步骤S2346，实现根据目标训练数据集对初始识别模型进行迁移学习，得到多个迁移模型，以用于对初始模型进行更新。

基于前述的实施例，本申请实施例再提供一种语音数据处理方法，图4为本申请实施例提供的语音数据处理方法的另一种实现流程示意图，应用于图1所示的网络架构，如图4所示，该语音数据处理方法包括以下步骤：

步骤S401，服务端获取公共训练数据和原始识别模型。

该公共训练数据为公开的语音数据。

步骤S402，服务端基于公共训练数据，对原始识别模型进行训练，得到初始识别模型。

步骤S403，服务端将初始识别模型发送至终端。

步骤S404，终端获取训练数据集。

终端获取训练数据集可以实现为：获取采集到的第一语音数据；当参考数据集中不存在与第一语音数据对应的目标参考数据时，获取预设时长内采集到的第二语音数据，参考数据集由服务端确定并发送至终端；当参考数据集中存在与第二语音数据对应的目标参考数据时，基于第一语音数据和第二语音数据确定一组训练数据；基于多次确定得到的多组训练数据构建训练数据集。

这里，当训练数据较少时，无法得到稳定的模型，本申请实施例中，终端获取训练数据的过程中，判断当前训练数据集是否满足训练条件，当训练数据集中的训练数据达到一定量时，再对初始识别模型进行更新，能够确保更新后的初始识别模型的稳定性。

在一些实施例中，判断当前训练数据集是否满足训练条件，可以实现为：获取训练数据集包括的训练数据的数量；判断训练数据的数量是否达到第一数量阈值；当训练数据的数量达到第一数量阈值时，确定满足训练条件，此时进入步骤S405；当训练数据的数量未达到第一数量阈值时，确定不满足训练条件，继续执行步骤S404获取更多的训练数据。

步骤S405，终端对训练数据集进行预处理，得到目标训练数据集。

该目标训练数据集包括目标训练数据。获取目标训练数据集可以实现为：获取终端的状态信息，状态信息包括运行状态和剩余电能，运行状态包括空闲状态和工作状态；当运行状态为空闲状态、且剩余电能大于预设电能阈值时，对训练数据集中的各组训练数据进行预处理，得到各组训练数据对应的目标训练数据；基于各组训练数据对应的目标训练数据，确定目标训练数据集。

其中，对训练数据集中的一组训练数据进行预处理，得到一组训练数据对应的目标训练数据，可以实现为：分别确定一组训练数据包括的各第一文本数据与一组训练数据包括的第二文本数据的相似度；将相似度大于预设相似度阈值的每一第一文本数据确定为一个目标第一文本数据；将各个目标第一文本数据、各个目标第一文本数据对应的第一语音数据，确定为一组训练数据对应的目标训练数据。

其中，基于各组训练数据对应的目标训练数据，确定目标训练数据集，可以实现为：根据每组训练数据对应的目标训练数据，获取目标训练数据的数量；当目标训练数据的数量大于第二数量阈值时，根据各个第一语音数据的获取时刻，从目标训练数据中确定待删除训练数据；从目标训练数据中，删除待删除训练数据，将剩余的目标训练数据组成目标训练数据集。

步骤S406，终端根据目标训练数据集对初始识别模型进行迁移学习，得到至少一个迁移模型。

对初始识别模型进行多轮迁移学习，得到多个迁移模型，可以实现为：根据各个目标训练数据，对初始识别模型进行迁移学习，得到第一迁移模型；将每个目标训练数据包括的各第一语音数据输入至第一迁移模型，得到各第一语音数据对应的识别文本；基于各第一语音数据对应的识别文本对目标训练数据集进行清洗，得到更新后的目标训练数据集；根据更新后的目标训练数据集，对初始识别模型继续进行迁移学习，直至达到迁移结束条件；保存多次进行迁移学习得到的多个迁移模型。

其中，在每轮迁移学习后，对目标训练数据集进行清洗，剔除识别错误率高的目标训练数据，具体可以实现为：基于各第一语音数据对应的目标第一文本数据，确定各第一语音数据对应的识别文本的字错误率；从目标训练数据中删除字错误率大于预设阈值的第一语音数据和目标第一文本数据，得到更新后的目标训练数据。

步骤S407，终端基于迁移模型对初始识别模型进行更新，得到更新后的识别模型。

当服务端不对初始识别模型进行更新时，该步骤可以实现为：将至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型；当服务端也利用更新的公共训练数据对初始识别模型进行更新时，终端从服务端接收更新后的初始识别模型，该步骤可以实现为：将至少一个迁移模型、初始识别模型和更新后的初始识别模型进行融合，得到更新后的识别模型，更新后的初始识别模型由服务端对初始识别模型进行更新得到。

本申请实施例中，以终端将至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型为例，对融合方式进行说明。

在一种实现方式中，可以将各模型对应权重取其平均值，对至少一个迁移模型和初始识别模型进行融合，得到更新后的模型。

在另一种实现方式中，可以将参考数据集作为约束条件，对至少一个迁移模型和初始识别模型进行融合，得到更新后的模型。

在又一种实现方式中，可以先根据更新后的目标训练数据集，对参考数据集进行更新，得到更新后的参考数据集；然后根据更新后的参考数据集，对至少一个迁移模型和初始识别模型进行融合，得到更新后的识别模型。对参考数据集进行更新，可以实现为：获取参考数据集中包括的参考数据的数量；根据参考数据的数量，从更新后的目标训练数据集包括的所有目标训练数据中选取多个目标训练数据；将多个目标训练数据作为参考数据添加至参考数据集中，得到更新后的参考数据集。

步骤S408，终端获取采集到的待处理语音数据。

步骤S409，终端将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果。

步骤S410，终端确定识别结果对应的控制指令，并执行控制指令。

获取到更新后的识别模型后，将采集到的待处理语音数据输入至更新后的识别模型进行语音识别，得到识别结果，根据识别结果，确定并执行对应的控制指令，在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下，实现个性化、识别准确率高的语音识别服务。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

声纹是每个人独特的生理特征，类似指纹，使用声纹技术可以准确定位到具体的个人。当前的声纹技术可以使用任意内容文本的短语音(一般10s左右)生成高质量声纹(例如使用语音识别服务时讲的语音)，会造成用户身份泄露。可见在享受技术带来的便利同时，用户本身也承担了隐私泄露的风险。语音识别服务厂商会尽最大努力保护用户语音安全，包括但不限于及时删除语音、加密存储等。

相关技术中语音识别服务提供有两种方式：一种是云语音识别服务，即用户端侧设备通过通讯协议联网将用户的语音上传至云服务商服务器，云服务商服务器上的语音识别软件将语音转译成文字回传给用户，云服务语音识别服务的优势是计算能力强、可以持续的更新模型，在用户无感的状态下完成效果的提升，功能强大，缺点是必须联网，断网语音识别服务不可用，且需要上传用户语音(或者特殊处理后信息)，存在潜在的泄露用户的声纹信息的风险，造成隐私泄露；另一种是通过端侧私有化部署的语音识别服务将用户语音转译成文本，优点是无需联网，且业务在用户设备完成，不存在隐私泄露问题，但端侧部署的模型受限于端侧硬件能力，功能比较受限，在不影响基本指标情况下，一般会进行裁剪，识别能力较弱，需用户配合(包括使用标准普通话、声音大点、背景安静一些)完成识别，对泛化能力有一定的影响，用户本身差异、使用场景的差异会对效果产生影响。

相关技术中提供一种方案，在端侧同时部署云语音识别和本地私有化语音识别，正常环境下使用云语音识别服务，在弱网或者断网情况下使用本地私有化语音识别，虽然用户端侧设备具备运行较完整的私有化语音识别模型能力，但受限于语音识别技术、端侧的计算、存储能力，复杂指令逻辑、复杂背景声音、用户口音等因素影响，会对体验造成一定的影响，还是需要将用户语音数据发送至云服务商服务器，在服务端训练模型，定期对端侧模型进行更新，仍会造成隐私泄露。

基于此，从隐私安全、提升用户端侧语音识别体验出发，本申请实施例提出一种在用户端侧进行私有化语音识别服务自学习的方法，根据用户使用习惯、使用场景，通过端侧模型的自学习，完成用户本身特色的迁移学习，让端侧语音识别更符合用户使用习惯。

图5为本申请实施例提供的语音识别服务自学习方法的实现流程图，如图5所示，该方法包括以下步骤：

步骤S501，启动程序。

用户在端侧(车载、手机、电脑、音箱等，对应上文的终端)安装语音识别服务，安装的内容包括但不限于：语音识别服务模型(对应上文的初始识别模型)、基准效果验证数据集(包括语音和对应的文本，其中文本对应上文的参考数据集)、自学习引擎；其中基准效果验证数据集覆盖本语音识别服务模型支持的所有指令(对应上文的控制指令)。

步骤S502，接收用户输入的语音，将语音转译为文本。

用户启动使用，自学习引擎记录用户的使用过程，接收到用户收入的语音，利用语音识别服务模型对语音进行识别，将语音转译为文本。

步骤S503，判断是否触发弱监督场景。

如果检测到用户连续多次使用端测语音识别服务，并且最终命中了业务相关的指令，此时认为触发弱监督场景，进入步骤S504。如果检测到用户使用端测语音识别服务，一次就命中了业务相关的指令，此时认为未触发弱监督场景，无需对语音数据进行缓存，进入步骤S507。

这里基于基准效果验证数据集确定语音是否命中了业务相关的指令，当基准效果验证数据集中存在对应的验证数据与语音对应的文本匹配后，确定该语音命中了业务相关的指令，端侧控制该端侧上对应该指令的应用程序执行该指令。

步骤S504，将符合要求的语音和文本进行缓存。

将步骤S503中检测到的用户连续多次使用端测语音识别服务这批连续录音(对应上文第一语音数据和第二语音数据)以及端侧解码的文本(对应上文第一文本数据和第二文本数据)加密记录下来，形成一个原始训练数据单元(对应上文一组训练数据)。

在用户使用过程中记录用户的可用于迁移学习的语音、对应的文本，生成弱监督训练数据。

步骤S505，判断是否触发自学习。

判断记录的原始训练数据单元是否达到一定数量，如果记录的原始训练数据单元达到一定数量，进入步骤S506；否则，进入步骤S507。

步骤S506，利用自学习引擎对当前所有的原始训练数据单元进行迁移学习。

步骤S507，判断是否结束自学习。

当满足结束自学习的条件时，进入步骤S508；否则转步骤S502继续服务用户。

步骤S508，结束。

图6为本申请实施例提供的自学习引擎根据用户数据进行迁移学习的一种实现流程示意图，该自学习流程是上述步骤S506的一种实现方式，如图6所示，自学习流程包括以下步骤：

步骤S601，等待自学习触发信号。

步骤S602，判断是否有信号且符合自学习要求。

等待触发自学习模块启动的请求信号，如果有请求信号，但自学习模块处于工作状态，忽略当前请求转步骤S601；如果有请求信号，且自学习模型处于空闲状态，设置自学习模块为工作状态，检测端侧环境，如果设备处于闲时且电力充沛(例如夜间充电时间段)，转步骤S603；如果有请求信息，且自学习模型处于空闲状态，设置自学习模块为工作状态，检测端侧环境，如果设备处于忙时或者电力不充沛时，休眠自学习引擎一段时间后，返回步骤S601。

步骤S603，清洗原始训练数据单元集合，生成训练集合。

在一种实现方式中，清洗原始训练数据单元集合可以实现为：

步骤S6031，按时间顺序，依次取最近的一个原始训练数据单元(包括多个录音以及对应的解码文本)。

步骤S6032，计算当前原始训练数据单元中每一个句子的文本与最后一个句子的文本的相似度(可使用编辑距离)，保留相似度大于阈值的语音和文本，其中这些语句的标注文本都是最后一个句子的解码文本，并保存到正式训练集中。

步骤S6033，重复步骤S6031，生成正式训练集；如果正式训练集过大，可删除时间较久的语音，适当删减，避免训练集合数目过大。

步骤S604，使用正式训练集对端侧的正式语音识别模型进行迁移学习，生成多个迁移模型。

一般对模型进行微调，每次学习生成一个迁移后的模型，最后生成一个模型集合。具体实现过程如下：

步骤S6041，使用当前正式的模型、正式的训练数据集，对正式模型进行一次迁移学习，可迭代多轮，完成后保存当前迁移模型。

步骤S6042，使用当前迁移模型预测正式训练集语音，从正式训练集中去除字错误率高的语音。

步骤S6043，如果正式训练集大小不再变化，或者达到最多学习次数，转步骤S605，否则继续步骤S6041。

通过剪裁正式训练集，实现对正式训练集中包括训练数据的更新，从而可进行多次迁移学习，生成多个迁移模型。

步骤S605，从正式训练集中取部分数据，与预设的验证集合并为当前验证集。

这里，取的部分数据的数量，不超过预设验证集的一半。

步骤S606，当前正式模型、多个迁移模型以及从服务端更新的模型，在当前验证集的约束下融合成一个最优模型。

搜集每轮迁移学习生成的迁移模型、当前正式模型、以及有可能的从服务端更新的模型，形成模型集合，使用模型融合方法(包括但不限于进化算法)，根据步骤S605生成的当前验证集，融合一个最佳的模型，替换当前正式模型。

步骤S607，最优模型替换当前工作的正式模型。

自学习引擎根据用户数据进行迁移学习，生成新的模型替换正式工作模型。

步骤S608，判断是否结束。

若当前自学习过程完成，确定结束，更改自学习模块状态为空闲。否则返回步骤S601继续训练。

本申请实施例提出一种让端侧语音识别模型通过用户语音进行迁移学习的方法，能够提升端侧语音识别服务对当前用户语音进行识别的效果，避免用户音频数据泄露。并且在端侧部署，在端侧根据用户使用习惯自学习，不泄露客户语音数据，提升使用体验。

下面继续说明本申请实施例提供的语音数据处理装置的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器150的语音数据处理装置155应用于终端，所述语音数据处理装置155中的软件模块可以包括：

第一获取模块1551，获取采集到的待处理语音数据；

第二获取模块1552，获取更新后的识别模型，所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到，所述初始识别模型由服务端基于公共训练数据训练得到，所述个性训练数据集至少包括采集到的语音数据；

识别模块1553，将所述待处理语音数据输入至所述更新后的识别模型进行识别，得到识别结果；

执行模块1554，确定所述识别结果对应的控制指令，并执行所述控制指令。

在一些实施例中，所述第二获取模块1552，包括：

第一获取单元，用于获取所述服务端发送的所述初始识别模型；

第二获取单元，用于获取训练数据集，所述训练数据集还包括所述语音数据对应的文本数据；

迁移学习单元，用于基于所述语音数据和所述文本数据，对所述初始识别模型进行迁移学习，得到迁移模型；

更新单元，用于基于所述迁移模型对所述初始识别模型进行更新，得到更新后的识别模型。

在一些实施例中，所述第二获取单元，还用于：获取采集到的第一语音数据；当参考数据集中不存在与所述第一语音数据对应的目标参考数据时，获取预设时长内采集到的第二语音数据，所述参考数据集由所述服务端确定并发送至所述终端；当所述参考数据集中存在与所述第二语音数据对应的目标参考数据时，基于所述第一语音数据和所述第二语音数据确定一组训练数据；基于多次确定得到的多组训练数据构建训练数据集。

在一些实施例中，所述第二获取单元，还用于：基于所述初始识别模型对所述第一语音数据进行识别，得到第一文本数据；确定所述第一文本数据与各参考文本数据的匹配度，所述参考数据集中各参考数据包括参考语音数据和参考文本数据；当所述参考数据集中不存在匹配度大于预设匹配度阈值的参考文本数据时，确定所述参考数据集中不存在与所述第一语音数据对应的目标参考数据；当所述参考数据集中存在匹配度大于预设匹配度阈值的参考文本数据时，确定所述参考数据集中存在与所述第一语音数据对应的目标参考数据；所述目标参考数据为包括目标参考文本数据的参考数据，所述目标参考文本数据为匹配度大于预设匹配度阈值的参考文本数据。

在一些实施例中，所述第二获取单元，还用于：基于所述初始识别模型对所述第二语音数据进行识别，得到第二文本数据；将所述第一语音数据、所述第一文本数据、所述第二语音数据和所述第二文本数据确定为一组训练数据。

在一些实施例中，所述迁移学习单元，还用于：获取所述训练数据集包括的训练数据的数量；当所述训练数据的数量达到第一数量阈值时，对所述训练数据集进行预处理，得到目标训练数据集，所述目标训练数据集包括目标训练数据；根据所述目标训练数据集对所述初始识别模型进行迁移学习，得到至少一个迁移模型。

在一些实施例中，所述迁移学习单元，还用于：获取所述终端的状态信息，所述状态信息包括运行状态和剩余电能，所述运行状态包括空闲状态和工作状态；当所述运行状态为空闲状态、且所述剩余电能大于预设电能阈值时，对所述训练数据集中的各组训练数据进行预处理，得到各组训练数据对应的目标训练数据；基于所述各组训练数据对应的目标训练数据，确定目标训练数据集。

在一些实施例中，所述迁移学习单元，还用于：分别确定所述一组训练数据包括的各第一文本数据与所述一组训练数据包括的第二文本数据的相似度；将相似度大于预设相似度阈值的每一第一文本数据确定为一个目标第一文本数据；将各个目标第一文本数据、所述各个目标第一文本数据对应的第一语音数据，确定为所述一组训练数据对应的目标训练数据。

在一些实施例中，所述迁移学习单元，还用于：根据每组训练数据对应的目标训练数据，获取目标训练数据的数量；当所述目标训练数据的数量大于第二数量阈值时，根据各个第一语音数据的获取时刻，从所述目标训练数据中确定待删除训练数据；从所述目标训练数据中，删除所述待删除训练数据，将剩余的目标训练数据组成目标训练数据集。

在一些实施例中，所述迁移学习单元，还用于：根据各个目标训练数据，对所述初始识别模型进行迁移学习，得到第一迁移模型；将每个目标训练数据包括的各第一语音数据输入至所述第一迁移模型，得到所述各第一语音数据对应的识别文本；基于所述各第一语音数据对应的识别文本对所述目标训练数据集进行清洗，得到更新后的目标训练数据集；根据所述更新后的目标训练数据集，对所述初始识别模型继续进行迁移学习，直至达到迁移结束条件；保存多次进行迁移学习得到的多个迁移模型。

在一些实施例中，所述迁移学习单元，还用于：基于所述各第一语音数据对应的目标第一文本数据，确定所述各第一语音数据对应的识别文本的字错误率；从所述目标训练数据中删除字错误率大于预设阈值的第一语音数据和目标第一文本数据，得到更新后的目标训练数据。

在一些实施例中，所述更新单元，还用于：将至少一个迁移模型和所述初始识别模型进行融合，得到更新后的识别模型；或者，当从所述服务端接收到更新后的初始识别模型时，将至少一个迁移模型、所述初始识别模型和所述更新后的初始识别模型进行融合，得到更新后的识别模型，所述更新后的初始识别模型由所述服务端对所述初始识别模型进行更新得到。

在一些实施例中，所述更新单元，还用于：根据更新后的目标训练数据集，对参考数据集进行更新，得到更新后的参考数据集；根据更新后的参考数据集，对至少一个迁移模型和所述初始识别模型进行融合，得到更新后的识别模型。

在一些实施例中，所述更新单元，还用于：获取参考数据集中包括的参考数据的数量；根据所述参考数据的数量，从更新后的目标训练数据集包括的所有目标训练数据中选取多个目标训练数据；将所述多个目标训练数据作为参考数据添加至所述参考数据集中，得到更新后的参考数据集。

这里需要指出的是：以上语音数据处理装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请语音数据处理装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的语音数据处理方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3至图6示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

26页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：识别电话接听行为的方法及装置

语音数据处理方法、装置、设备、存储介质及程序产品

相关技术

网友询问留言