语音识别的特征提取；识别单位的选择

本申请提供一种语音识别方法、计算机程序产品及电子设备,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法通过将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽,并利用语言子模型根据编码子模型输出的特征序列对掩蔽序列解码得到识别文本。在端到端语音识别模型中引入语言子模型,可以有效减少多音字对识别结果的影响,从而提升了语音识别准确率。

2021-11-02

访问量：20

语音识别处理方法及系统

本申请实施例提供一种语音识别处理方法及系统,所述方法包括：终端设备采集语音数据,对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信。本申请提供的技术方案具有准确率高的优点。

2021-11-02

访问量：16

可定制的低延时命令词识别方法及装置

本发明涉及一种可定制的低延时命令词识别方法及装置,包括获取待识别语音,并根据待识别语音确定待处理的声学特征；将声学特征输入到预构建的神经网络分类模型中进行识别,获取声学特征所属的每个建模单元的后验概率；其中,建模单元为带调拼音；根据后验概率计算每个命令词的置信度以及其包含的建模单元出现的时间点；根据置信度和时间点来判断是否输出该命令词。本发明能够对汉语中所有的带调拼音进行建模,采用简单高效的打分机制,完成低延时命令词列表的识别任务,降低了命令词识别的开发成本和时间成本。本发明采用的置信度计算方法具有极低的计算复杂度和空间复杂度,并具有较高的准确率和较低的误唤醒率,可实时地检测命令词是否出现。

2021-11-02

访问量：28

终端设备唤醒方法和装置、存储介质及电子装置

本发明公开了一种终端设备唤醒方法和装置、存储介质及电子装置,其中,上述方法包括：获取待识别的音频数据；在终端设备内配置的至少两个唤醒模型的每个唤醒模型中,基于各自从音频数据中提取的不同维度下的音频特征分别进行唤醒识别,得到与唤醒模型对应的音频识别结果,其中,每个唤醒模型用于提取一种维度下的音频特征；在音频识别结果达到唤醒条件的情况下,将终端设备调整为唤醒状态。采用上述技术方案,解决了现有技术中终端设备的唤醒性能差的问题。

2021-11-02

访问量：22

流式端到端语音识别方法、装置及电子设备

本申请实施例公开了流式端到端语音识别方法、装置及电子设备,所述方法包括：以帧为单位对接收到的语音流进行语音声学特征提取并进行编码；对已完成编码的帧进行分块处理,并对同一分块中包含的需要进行编码输出的激活点数量进行预测；根据预测结果确定需要进行解码输出的激活点所在的位置,以便解码器在所述激活点所在的位置进行解码并输出识别结果。通过本申请实施例,能够提升流式端到端语音识别系统对噪声的鲁棒性,进而提升系统性能以及准确度。

2021-11-02

访问量：28

语音数据的处理方法及装置、存储介质、电子装置

本发明提供了一种语音数据的处理方法及装置、存储介质、电子装置,上述方法包括：获取待处理的语音数据；根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度；通过至少一个目标语音模型对待处理的语音数据进行处理,解决了现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。

2021-11-02

访问量：30

一种生成声学特征、语音模型训练、语音识别方法及装置

本申请实施例公开了一种生成声学特征、语音模型训练、语音识别方法及装置,通过获取当前语音帧的声学信息向量和当前语音帧的信息量权重,并根据上一语音帧对应的已累积信息量权重、当前语音帧对应的保留率以及当前语音帧的信息量权重,能够得到当前语音帧对应的已累积信息量权重。保留率为1与泄漏率之差。利用泄漏率调整当前语音帧对应的已累积信息量权重和当前语音帧对应的整合声学信息向量,能够降低信息量权重较小的语音帧对于整合声学信息向量的影响,提高信息量权重较大的语音帧的声学信息向量在整合声学信息向量中所占的比重,得到的整合声学信息向量更为准确,提高语音模型的准确程度。

2021-11-02

访问量：29

一种基于深度学习的语音情感识别方法

一种基于深度学习的语音情感识别方法,属于语音识别领域。现有语音情感识别率低。本发明方法的一种基于深度学习的语音情感识别方法包括,待测语音信息的预处理；情感特征提取；对提取的情感特征参数进行归一化处理的过程；设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统；利用归一化处理的情感特征参数对识别系统进行训练；利用训练后的DNN瓶颈层结合决策树和特征融合的语音情感识别系统对获取待测语音信息进行语音识别。本发明方法提高了语音情感识别率。

2021-11-02

访问量：40

口音分类模型训练和口音分类方法、装置和存储介质

本申请涉及一种口音分类模型训练方法、装置、计算机设备和存储介质。该方法包括：获取训练音频和对应的口音类别标签；将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的；基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。采用本方法能够提高目标口音分类模型的分类准确性。

2021-11-02

访问量：34

口音识别声学模型训练、口音识别方法、装置和存储介质

本申请涉及一种口音识别声学模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取训练数据；提取训练语音对应的声学特征；将声学特征和口音区域特征输入初始口音识别声学模型中,初始口音识别声学模型将口音区域特征进行变换,得到初始变换特征,对声学特征进行语音特征提取,得到初始语音特征,将初始变换特征和初始语音特征进行合并,得到初始合并特征,并对初始合并特征进行语音音素识别,得到初始语音音素信息；基于初始语音音素信息和对应的音素标签计算损失信息,基于损失信息更新初始口音识别声学模型,并循环迭代执行,直到训练完成时,得到目标口音识别声学模型。采用本方法能够口音识别的准确性。

2021-11-02

访问量：55

注册成为会员可查看更多数据。

热门专题

技术分类