实时语音识别方法、装置、设备及介质

文档序号:116999 发布日期:2021-10-19 浏览:36次 >En<

阅读说明:本技术 实时语音识别方法、装置、设备及介质 (Real-time voice recognition method, device, equipment and medium ) 是由 刘轶 聂吉昌 于 2021-04-07 设计创作,主要内容包括:本申请涉及人工智能技术领域,揭露了一种实时语音识别方法,所述方法包括:获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。此外,本申请还涉及一种实时语音识别方法、装置、设备及存储介质。本申请可解决语音识别的效率较低以及识别结果的可读性较差的问题。(The application relates to the technical field of artificial intelligence, and discloses a real-time voice recognition method, which comprises the following steps: acquiring a first voice stream input by a user, and removing noise of the first voice stream in real time through a preset first voiceprint feature to obtain a second voice stream, wherein the first voiceprint feature is a voiceprint feature extracted from a historical voice set of the user; performing end point detection on the second voice stream in real time through preset sentence break characteristics to judge whether a voice starting point appears, wherein the sentence break characteristics are sentence break characteristics extracted from a historical voice set of a user; and when the voice starting point is detected, performing voice recognition on the second voice stream in real time to obtain a voice text. In addition, the application also relates to a real-time voice recognition method, a real-time voice recognition device, equipment and a storage medium. The method and the device can solve the problems of low efficiency of voice recognition and poor readability of a recognition result.)

实时语音识别方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种实时语音识别方法、装置及存储介质。

背景技术

随着科技的发展,人工智能技术在各个领域的应用越来越广泛。语音识别作为人工智能技术的一项重要应用,被广泛应用于各个领域。例如,客服问答中,通过对用户语音的识别,可实现对用户意图的定位,进而实现针对性的对用户提供个性化服务,或者通过对客服语音的识别,可实现对不同客服的服务态度或业务水平的判断,进而对客服的工作进行监督。

目前的实时语音识别方法多为获取用户的整段语音,再对整段语音进行识别,将识别的第二语音文本输出给用户。该方法中,当整段语音较长时,语音包含的内容较多,会导致语音识别的效率低下,且直接将语音识别的内容作为结果输出,会导致语音识别结果中包含一些错误,以至于语音识别结果的可读性较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种实时语音识别方法、装置及存储介质。

第一方面,本申请提供了一种实时语音识别方法,所述方法包括:

获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;

通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;

在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。

可选地,所述获取用户输入的第一语音流的步骤之前,包括:

获取用户的所述历史语音集;

从所述历史语音集中提取所述第一声纹特征和所述断句特征。

可选地,所述根据所述第一声纹特征对所述第一语音流进行噪声去除,得到第二语音流,包括:

提取所述第一语音流中各时刻的第二声纹特征;

计算所述第二声纹特征与所述第一声纹特征的相似度;

剔除所述第一语音流中相似度小于预设相似度阈值的第二声纹特征,得到第二语音流。

可选地,所述断句特征包括断句时长阈值与习惯断句词,所述的从所述历史语音集中提取所述断句时长阈值,包括:

统计所述历史语音集中用户每次断句的断句时长;

根据所述断句时长计算用户断句的平均时长,并根据所述平均时长确定所述断句时长阈值;以及,

所述的从所述历史语音集中提取所述习惯断句词,包括:

统计所述历史语音集中用户每次断句前的词语,得到断句词语集

计算所述断句词语集中各个词语出现的频率,将所述频率大于预设频率阈值的词语作为所述断句习惯词。

可选地,所述通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,包括:

实时检测所述第二语音流是否出现停顿;

在监测到停顿时,记录所述停顿的持续时间,并识别停顿前的单位时间内所述第二语音流中出现的词语;

将所述持续时间与所述断句时长阈值进行比对,并将所述词语与所述习惯断句词进行比对;

若所述持续时间大于所述断句时长阈值,且所述词语是所述习惯断句词,则确定所述停顿出未所述第二语音流的语音开始点。

可选地,所述对所述第二语音流进行语音识别,得到语音文本,包括:

对所述第二语音流进行卷积、池化及多重全连接处理,得到语音向量;

根据预设的文字向量表对所述语音向量进行匹配,得到初始文本;

对所述初始文本进行文本补全,得到语音文本。

可选地,所述对所述初始文本进行文本补全,得到语音文本,包括:

对所述初始文本进行分词处理,得到文本分词;

从所述文本分词中选取目标分词,并对所述目标分词进行语义关联性检测,得到所述目标分词与前后文本分词的关联系数;

当所述关联系数小于预设的关联系数阈值时,利用替换词对所述目标分词进行补正,得到语音文本。

可选地,所述利用替换词对所述目标分词进行补正,得到语音文本,包括:

获取可替换词,计算所述目标分词之前的文本分词与所述可替换词的前置关联系数;

计算所述目标分词之后的文本分词与所述可替换词的后置关联系数;

判断所述前置关联系数和所述后置关联系数是否均大于所述关联系数阈值;

若所述前置关联系数和所述后置关联系数中有至少一个小于或等于所述关联系数阈值,则返回获取可替换词的步骤,重新获取新的可替换词;

若所述前置关联系数和所述后置关联系数均大于所述关联系数阈值,则利用所述可替换词对所述目标分词进行替换,得到语音文本。

第二方面,本申请提供了一种实时语音识别装置,所述装置包括:

所述噪声去除模块,用于获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;

所述端点识别模块,用于通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;

所述语音识别模块,用于在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。

第三方面,提供了一种基于隐私信息的语音识别设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的实时语音识别方法的步骤。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的实时语音识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本申请实施例提供的该方法、装置、电子设备及计算机可读存储介质,可通过第一声纹特征对用户的第一语音流进行噪声去除,减少所述第一语音流中的无用信息量,并实现对第一语音流中噪声的精确去除,不仅有利于提高后续进行语音识别时的精确度,还可提高语音识别时的效率;根据断句特征将第二语音流进行语段切分,避免了对完整的语音流进行语音识别,有利于提高了识别的效率;对语音识别获取的语音文本进行文本补全,减少了语音文本中的错误,提高了语音文本的可读性。可解决语音识别的效率较低以及识别结果的可读性较差的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实时语音识别方法的流程示意图;

图2为本申请实施例提供的端点检测的流程示意图;

图3为本申请实施例提供的文本补全的流程示意图;

图4为本申请实施例提供的一种语音识别的装置的模块示意图;

图5为本申请实施例提供的一种语音识别的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种实时语音识别方法的流程示意图。在本实施例中,所述实时语音识别方法包括:

S1、获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征。

本申请实施例中,可利用预先安装于用户端的麦克风持续获取用户的第一语音流。例如,当用户点击了用户端中语音输入的按钮后,麦克风持续对环境中的声音进行捕获,以获取用户的第一语音流;或者,当用户在用户端中执行了语音录入的指令后,该指令控制麦克风开始持续对环境中的声音进行捕获,以获取用户的第一语音流。

本申请其中一个应用场景中,捕获的第一语音流中还含有除用户语音之外的背景噪音,因此,本申请实施例根据预设的第一声纹特征对第一语音流实时进行降噪处理,可实现将该第一语音流中不属于用户语音的噪音的去除,得到第二语音流。其中,所述第二语音流为不包或包含少量噪音的用户语音。

详细地,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征。

本申请其中一个实施例中,所述获取用户输入的第一语音流的步骤之前,包括:

获取用户的所述历史语音集;

从所述历史语音集中提取所述第一声纹特征和所述断句特征。

其中,所述断句特征包括断句时长阈值与习惯断句词。

本申请实施例中,所述历史语音集中包含该用户的多条历史语音,例如,所述历史语音集中包含多条该用户的通话记录,或者,包含多条该用户的咨询语音记录等。

本申请实施可通过预设的卷积神经网络、分贝仪、滤波器或其组合的方式提取历史语音集中的第一声纹特征和断句特征,其中,所述第一声纹特征包括但不限于:音量、幅值、语音谱密度;所述断句特征是指用户在产生语音时的停顿习惯,例如,用户更偏好在哪些词语处进行停顿、用户停顿的时长等。

本申请其中一个实施例中,可通过分贝仪检测历史语音集中各语句的语音强度,并依据所述语音强度与历史语音的语音时长计算该历史语音的音量;通过滤波器生成各历史语音的语音波形,并根据该语音波形对幅值进行计算,以从用户的历史语音集中提取到第一声纹特征。

进一步地,可通过预设的卷积神经网络,对历史语音集中各历史语音进行检测,以确定各历史语音中,用户在何处进行断句,断句时长为多久,并以此统计出用户的断句特征。

详细地,断句特征包括断句时长阈值与习惯断句词,所述断句时长阈值用于判断用户说话过程中的停顿是否为断句。例如,当用户说话过程中出现停顿时,若停顿时间小于所述断句时长阈值,则确认用户此时在进行断句,若停顿时间大于或等于所述断句时长阈值,则确认用户此时已经说完。

所述习惯断句词也可用于判断用户说话过程中的停顿是否为断句,例如,当用户说话过程中出现停顿,若停顿处出现的词语为习惯断句词,则确认用户此时在进行断句,若停顿处出现的词语不为习惯断句词,则确认用户此时已经说完。

具体地,所述的从所述历史语音集中提取所述断句时长阈值,包括:

统计所述历史语音集中用户每次断句的断句时长;

根据所述断句时长计算用户断句的平均时长,并根据所述平均时长确定所述断句时长阈值;以及,

所述的从所述历史语音集中提取所述习惯断句词,包括:

统计所述历史语音集中用户每次断句前的词语,得到断句词语集

计算所述断句词语集中各个词语出现的频率,将所述频率大于预设频率阈值的词语作为所述断句习惯词。

例如,统计得到所述断句特征中,用户出现3次断句,断句时长分别为2s、3s和4s,则可计算得出平均时长为3s,当预设比例值为三分之四时,则可计算得出所述断句时长阈值为4s。

统计得出断句特征中用户每次断句前说的词语包括词语A、词语B和词语C,其中,词语A出现10次,词语B出现50次,词语C出现40次,则可计算得出词语A出现的频率为十分之一,词语B出现的频率为二分之一,词语C出现的频率为五分之二,当预设频率阈值为十分之三,则可确认词语B和词语C为习惯断句词。

本发实施例中,所述根据所述第一声纹特征对所述第一语音流进行噪声去除,得到第二语音流,包括:

提取所述第一语音流中各时刻的第二声纹特征;

计算所述第二声纹特征与所述第一声纹特征的相似度;

剔除所述第一语音流中相似度小于预设相似度阈值的第二声纹特征,得到第二语音流。

详细地,所述提取所述第一语音流中各时刻的第二声纹特征的步骤,与上述步骤S1中提取历史语音集中的第一声纹特征的步骤一致,在此不做赘述。

本申请其中一个实施例可对所述第二声纹特征与所述第一声纹特征进行向量转换,并利用余弦距离算法或欧式距离算法等具有相似度计算功能的算法,对转换得到的向量进行相似度计算。并根据相似度计算的结果对第一语音流中不属于用户语音的部分进行剔除,以实现对第一语音流的降噪处理。

例如,通过计算得出,第一语音流中,第10s至第15s的输入语音中包含的第二声纹特征与所述第一声纹特征的相似度小于所述相似阈值,则将第10s至第15s的输入语音中不属于第一声纹特征的部分进行提出,保留属于第一声纹特征的部分。

本申请实施例通过第一声纹特征对第一语音流进行噪声去除,可减少所述第一语音流中的无用信息量,并实现对第一语音流中噪声的精确去除,不仅有利于提高后续进行语音识别时的精确度,还可提高语音识别时的效率。

S2、通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征。

本申请实施例可通过所述断句特征中的断句时长阈值和所述习惯断句词对所述第二语音流进行实时进行端点检测,以判断是否出现语音开始点。

例如,对所述第二语音流进行持续检测,当检测到出现停顿时,对该停顿进行计时,当该停顿时间小于所述断句时长阈值,则认为用户正在断句,还未说完;当该停顿时间大于或等于所述断句时长阈值,则确认用户此时已经说完,确定该停顿处为所述第二语音流的端点。

或者,对所述第二语音流进行持续检测,当检测到出现停顿时,对该停顿进行计时,同时检测出现停顿之前第二语音流中出现的词语,当该停顿时间小于所述断句时长阈值且该词语为习惯断句词时,则认为用户正在断句,还未说完;当该停顿时间大于或等于所述断句时长阈值且该词语不是习惯断句词时,则确认用户此时已经说完,确定该停顿处为所述第二语音流的端点。

例如,统计得到所述断句特征中,用户出现3次断句,断句时长分别为2s、3s和4s,则可计算得出平均时长为3s,当预设比例值为三分之四时,则可计算得出所述断句时长阈值为4s。

统计得出断句特征中用户每次断句前说的词语包括词语A、词语B和词语C,其中,词语A出现10次,词语B出现50次,词语C出现40次,则可计算得出词语A出现的频率为十分之一,词语B出现的频率为二分之一,词语C出现的频率为五分之二,当预设频率阈值为十分之三,则可确认词语B和词语C为习惯断句词。

进一步地,本申请另一实施例中,参阅图2所示,所述通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,包括:

S21、实时检测所述第二语音流是否出现停顿;

S22、在监测到停顿时,记录所述停顿的持续时间,并识别停顿前的单位时间内所述第二语音流中出现的词语;

S23、将所述持续时间与所述断句时长阈值进行比对,并将所述词语与所述习惯断句词进行比对;

S24、若所述持续时间大于所述断句时长阈值,且所述词语是所述习惯断句词,则确定所述停顿出未所述第二语音流的语音开始点。

详细地,所述单位时间可由用户自行定义,在监测到停顿时,可利用具有语音识别功能的模型识别所述停顿前单位时间内所述第二语音流中出现的词语,避免了对完整的语音流进行识别,有利于提高了识别的效率,进而提高了对第二语音流进行端点检测的效率。

S3、在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。

本申请实施例中,在检测到语音开始点时,可采用预设的语音识别模型实时对第二语音流进行语音识别,得到语音文本,所述语音识别模型包括但不限于基于HMM(HiddenMarkov Model,隐马尔可夫模型)的语音识别模型、基于GMM(Gaussian Mixture Model,高斯混合模型)的语音识别模型。

本申请实施例中,所述对所述第二语音流进行语音识别,得到语音文本,包括:

对所述第二语音流进行卷积、池化及多重全连接处理,得到语音向量;

根据预设的文字向量表对所述语音向量进行匹配,得到初始文本;

对所述初始文本进行文本补全,得到语音文本。

其中,所述多重全连接处理一般为两层全连接处理,即对池化语音段进行两次全连接处理,以增强模型复杂度,提高获取的语音向量的精确度。

所述文字向量表中包含多个文字,及所述文字对应的语音向量,通过所述文字向量表,可查询出与所述语音向量所匹配的文字,进而获得语音文本。

通过预设的语音识别模型对第二语音流进行语音识别,有利于提高识别出的语音文本的精确度。

本申请另一实施例中,还可采用声学模型对所述第二语音流进行语音识别,得到语音文本,所述声学模型通过对每个字进行发声的建模,以建立包含多个字,及每个字对应的标准发声的数据库,通过对所述第二语音流中每个时刻下用户发声的采集,以获取每个时刻下用户的发声,进而将该发声与预先构建的包含多个字,及每个字对应的标准发声的数据库中的字进行概率匹配,以此实现对第二语音流进行语音识别,得到语音文本。

通过声学模型对所述第二语音流进行语音识别时,由于不需要对语言进行卷积、池化等特征提取的处理,因此有利于提高语音识别,获取语音文本的效率。

本申请一实际应用场景中,由于模型精确度或外界环境因素的影响,导致识别出的语音文本的可读性不高。例如,由于某一时刻外界噪声较强,因此在步骤S2中根据第一声纹特征对第一语音流进行噪声去除后,该时刻下的真实语音也被去除了,导致得到的语音文本在此处出现了缺失;或者,获得的语音文本中,存在着错别字等情况。因此,本发明实施例对语音文本进行文本补全,以提高获取的语音文本的可读性。

本申请实施例中,可采用NLP模型、BERT模型等具有自然语言处理功能的模型对语音文本进行文本补全,得到语音文本。

本发明其中一实施例中,参阅图3所示,所述对所述初始文本进行文本补全,得到语音文本,包括:

S31、对所述初始文本进行分词处理,得到文本分词;

S32、从所述文本分词中选取目标分词,并对所述目标分词进行语义关联性检测,得到所述目标分词与前后文本分词的关联系数;

S33、当所述关联系数小于预设的关联系数阈值时,利用替换词对所述目标分词进行补正,得到语音文本。

详细地,可依次从所述文本分词中选取目标分词,通过word2vec、NLP等模型构建每一个文本分词的语义向量,并通过计算目标分词与前后文本分词对应的语义向量之间的差异值来得到所述关联系数。

具体地,在对目标分词进行补正时,可采用目标分词的同义词对所述目标分词进行替换来实现对目标分词进行补正;或者,计算该目标分词的前后文本分词与预设的可替换词的关联系数,当该目标分词的前后文本分词与所述可替换词的关联系数均大于或等于预设的关联系数阈值,利用所述可替换词将所述目标分词进行替换,得到语音文本。其中,所述可替换词可由用户预先给定。

本发明另一实施例中,所述利用替换词对所述目标分词进行补正,得到语音文本,包括:

获取可替换词,计算所述目标分词之前的文本分词与所述可替换词的前置关联系数;

计算所述目标分词之后的文本分词与所述可替换词的后置关联系数;

判断所述前置关联系数和所述后置关联系数是否均大于所述关联系数阈值;

若所述前置关联系数和所述后置关联系数中有至少一个小于或等于所述关联系数阈值,则返回获取可替换词的步骤,重新获取新的可替换词;

若所述前置关联系数和所述后置关联系数均大于所述关联系数阈值,则利用所述可替换词对所述目标分词进行替换,得到语音文本。

进一步地,若所述前置关联系数和所述后置关联系数中有至少一个小于或等于所述关联系数阈值,则重新获取新的可替换词并进行计算,直至对所述目标分词完成替换,得到语音文本。

本申请实施例提供的该方法,可通过第一声纹特征对用户的第一语音流进行噪声去除,减少所述第一语音流中的无用信息量,并实现对第一语音流中噪声的精确去除,不仅有利于提高后续进行语音识别时的精确度,还可提高语音识别时的效率;根据断句特征将第二语音流进行语段切分,避免了对完整的语音流进行语音识别,有利于提高了识别的效率;对语音识别获取的语音文本进行文本补全,减少了语音文本中的错误,提高了语音文本的可读性。可解决语音识别的效率较低以及识别结果的可读性较差的问题。

如图4所示,本申请实施例提供了一种实时语音识别装置10的模块示意图,所述实时语音识别装置10,包括:噪声去除模块11、端点识别模块12和语音识别模块13。

所述噪声去除模块11,用于获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;

所述端点识别模块12,用于通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;

所述语音识别模块13,用于在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。

详细地,本申请实施例中所述实时语音识别装置10中的各模块在使用时采用与上述的图1至图3中所述的实时语音识别方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。

如图5所示,本申请实施例提供了一种语音识别设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,

存储器113,用于存放计算机程序;

在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的实时语音识别方法,包括:

获取用户输入的第一语音流,通过预设的第一声纹特征实时对所述第一语音流进行噪声去除,得到第二语音流,所述第一声纹特征为用户的历史语音集中所提取到的声纹特征;

通过预设的断句特征对所述第二语音流实时进行端点检测,以判断是否出现语音开始点,所述断句特征为用户的历史语音集中所提取到的断句特征;

在检测到语音开始点时,实时对所述第二语音流进行语音识别,得到语音文本。

上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口112用于上述电子设备与其他设备之间的通信。

存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。

上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的实时语音识别方法的步骤。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:声音处理方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!