变声方法及装置

文档序号:1273724 发布日期:2020-08-25 浏览:24次 >En<

阅读说明:本技术 变声方法及装置 (Sound changing method and device ) 是由 刘恺 于 2019-01-30 设计创作,主要内容包括:本发明公开了一种变声方法及装置,所述方法包括:接收源说话人语句;从所述源说话人语句中提取语音识别声学特征及语音合成声学特征;利用所述语音识别声学特征得到语音识别隐层特征;利用所述语音合成声学特征得到语音合成编码特征;将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。本发明方案可以实现任意源说话人语音到目标说话人语音的变换,而且具有较好的变声效果。(The invention discloses a sound changing method and a device, wherein the method comprises the following steps: receiving a source speaker sentence; extracting voice recognition acoustic features and voice synthesis acoustic features from the source speaker sentence; obtaining a speech recognition hidden layer characteristic by utilizing the speech recognition acoustic characteristic; obtaining a speech synthesis coding feature by using the speech synthesis acoustic feature; inputting the voice recognition hidden layer characteristics and the voice synthesis coding characteristics into a pre-constructed tone conversion model corresponding to a specific target speaker to obtain voice synthesis acoustic characteristics of the specific target speaker; and generating the audio signal of the specific target speaker by utilizing the voice synthesis acoustic characteristics of the specific target speaker. The scheme of the invention can realize the conversion from the voice of any source speaker to the voice of the target speaker and has better sound changing effect.)

变声方法及装置

技术领域

本发明涉及语音信号处理领域,具体涉及一种变声方法及装置。

背景技术

目前,随着语音合成技术的发展,如何使合成语音自然化、多样化、个性化成为当前语音技术研究的热点,而变声技术则是让合成语音多样化个性化的途径之一。变声技术主要是指保留语音信号的语义内容但改变说话人声音特性的技术,使某人的声音听起来像另外一个人的声音。变声技术从说话人转换的角度来说通常分为两种方式:一种是非特定人之间的语音转换,比如男声、女声之间的转换,不同年龄层次之间的转换等;另一种是特定人之间的语音转换,比如将说话人A的声音转换为说话人B的声音。

传统变声实现任意源说话人到目标发音人的音色转换的处理方法通常是基于语音识别技术,对平行语料使用DTW(Dynamic Time Warping,动态时间归整)或attention(注意力)机制等方式实现对齐,然后再进行音色转换。这种处理方式在转换模型训练时,需要收集源说话人和目标说话人的平行语料,即内容相同的音频语料,用对齐后的频谱特征训练转换模型;在进行音频转换时,对从源说话人的音频数据中提取的频谱特征通过转换模型进行转换,对基频特征采用线性拉伸处理,非周期成分不做任何变化。利用这种变声处理方式得到的变声效果不佳,尤其是转换后的声音无法较好地体现源说话人的韵律、情感等特点。

发明内容

本发明实施例提供一种变声方法及装置,以提高变声效果,使转换后声音的韵律、情感与源说话人的声音特点更接近。

为此,本发明提供如下技术方案:

一种变声方法,所述方法包括:

接收源说话人语句;

从所述源说话人语句中提取语音识别声学特征及语音合成声学特征;

利用所述语音识别声学特征得到语音识别隐层特征;

利用所述语音合成声学特征得到语音合成编码特征;

将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;

利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。

可选地,所述方法还包括按照以下方式构建所述对应特定目标说话人的音色转换模型:

收集特定目标说话人的音频数据;

利用所述特定目标说话人的音频数据对预先基于多个说话人的音频数据构建的通用变声模型进行自适应训练,得到对应所述特定目标说话人的音色转换模型。

可选地,所述方法还包括:基于多个说话人的音频数据构建通用变声模型,具体包括:

收集多个说话人的音频数据作为训练数据;

从所述训练数据中提取语音识别声学特征及语音合成声学特征;

利用所述语音识别声学特征得到语音识别隐层特征;

利用所述语音合成声学特征得到语音合成编码特征;

利用所述语音识别隐层特征、语音合成编码特征及所述语音合成声学特征,训练得到通用变声模型。

可选地,所述利用所述语音识别声学特征得到语音识别隐层特征包括:

将所述语音识别声学特征输入语音识别模型,得到语音识别隐层特征。

可选地,所述利用所述语音合成声学特征得到语音合成编码特征包括:

将所述语音合成声学特征输入预先构建的参考编码模型,得到语音合成编码特征。

可选地,所述参考编码模型为神经网络模型。

可选地,所述语音识别声学特征包括以下任意一项或多项:梅尔频率倒谱系数、感知线性预测参数。

可选地,所述语音合成声学特征包括:梅尔频谱。

一种变声装置,所述装置包括:

接收模块,用于接收源说话人语句;

特征提取模块,用于从所述源说话人语句中提取语音识别声学特征及语音合成声学特征;

隐层特征获取模块,用于利用所述语音识别声学特征得到语音识别隐层特征;

编码特征获取模块,用于利用所述语音合成声学特征得到语音合成编码特征;

特征转换模块,用于将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;

语音合成模块,用于利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。

可选地,所述装置还包括:音色转换模型构建模块,用于构建对应特定目标说话人的音色转换模型;

所述音色转换模型构建模块包括:

目标数据收集单元,用于收集特定目标说话人的音频数据;

模型训练单元,用于利用所述特定目标说话人的音频数据对预先基于多个说话人的音频数据构建的通用变声模型进行自适应训练,得到对应特定目标说话人的音色转换模型。

可选地,所述装置还包括:通用模型构建模块,用于基于多个说话人的音频数据构建通用变声模型;

所述通用模型构建模块包括:

通用数据收集单元,用于收集多个说话人的音频数据作为训练数据;

特征提取单元,用于从所述训练数据中提取语音识别声学特征及语音合成声学特征;

隐层特征获取单元,用于利用所述语音识别声学特征得到语音识别隐层特征;

编码特征获取单元,用于利用所述语音合成声学特征得到语音合成编码特征;

通用参数训练单元,用于利用所述语音识别隐层特征、语音合成编码特征及所述语音合成声学特征,训练得到通用变声模型。

可选地,所述隐层特征获取单元,具体用于将所述语音识别声学特征输入语音识别模型,得到语音识别隐层特征。

可选地,所述编码特征获取单元,具体用于将所述语音合成声学特征输入预先构建的参考编码模型,得到语音合成编码特征。

可选地,所述参考编码模型为神经网络模型。

可选地,所述语音识别声学特征包括以下任意一项或多项:梅尔频率倒谱系数、感知线性预测参数。

可选地,所述语音合成声学特征包括:梅尔频谱。

一种电子设备,包括:一个或多个处理器、存储器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。

一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。

本发明实施例提供的变声方法及装置,预先构建对应特定目标说话人的音色转换模型,对接收的源说话人语句对应的音频数据,从中提取语音识别声学特征及语音合成声学特征,利用该语音识别声学特征得到语音识别隐层特征,利用语音合成声学特征得到语音合成编码特征;将所述隐层特征和所述编码特征作为中介,利用所述音色转换模型将对应源说话人的语音识别声学特征转换为对应特定目标说话人的语音合成声学特征,然后利用该语音合成声学特征生成特定目标说话人音频信号。由于采用多个声学特征联合建模,因此可以得到较好的变声效果;而且由于加入了对整句语音的语音合成声学特征进行特征压缩得到的编码特征,因而可以使转换后声音的韵律、情感与源说话人的相应声音特点更接近。

进一步地,本发明方案中在建模时首先利用多个说话人的音频数据进行通用变声模型训练,然后在所述通用变声模型的基础上利用特定目标说话人少量音频数据进行自适应训练,得到对应特定目标说话人的音色转换模型。由于是在通用变声模型的基础上针对特定目标说话人的音频数据进行自适应训练,因此可以使训练得到的音色转换模型的参数更准确,进而利用该音色转换模型得到的语音合成声学特征更符合特定目标说话人的声音特点,使最终合成的音频信号具有更好的效果。而且,在针对不同的特定目标说话人时,仅需要录制少量该特定目标说话人的音频数据,不需要录制源说话人对应的平行语料,大大简化了训练语料的收集工作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本发明实施例变声方法中构建通用变声模型的流程图;

图2是本发明实施例变声方法中通用变声模型的一种拓扑结构示意图;

图3是本发明实施例变声方法的流程图;

图4是本发明实施例变声方法中模型训练及测试过程的示意图;

图5是本发明实施例变声装置的一种结构框图;

图6是根据一示例性实施例示出的一种用于变声方法的装置的框图;

图7是本发明实施例中服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供一种变声方法及装置,预先构建对应特定目标说话人的音色转换模型,对接收的源说话人语句对应的音频数据,从中提取语音识别声学特征及语音合成声学特征,利用该语音识别声学特征得到语音识别隐层特征,利用语音合成声学特征得到语音合成编码特征;将所述隐层特征和所述编码特征作为中介,利用所述音色转换模型将对应源说话人的语音识别声学特征转换为对应特定目标说话人的语音合成声学特征,然后利用该语音合成声学特征生成特定目标说话人音频信号。

在实际应用中,所述音色转换模型可以通过收集大量特定目标说话人的音频数据训练得到;或者首先利用多个说话人的音频数据进行通用变声模型训练,然后在所述通用变声模型的基础上利用特定目标说话人少量音频数据进行自适应训练,得到对应特定目标说话人的音色转换模型。

如图1所示,是本发明实施例变声方法中构建通用变声模型的流程图,包括以下步骤:

步骤101,收集多个说话人的音频数据作为训练数据。

所述通用变声模型并不针对特定目标说话人,因此可以基于多个说话人的音频数据进行训练。

步骤102,从所述训练数据中提取语音识别声学特征及语音合成声学特征。

所述语音识别声学特征可以包括但不限于以下任意一种或多种:MFCC(Mel-scaleFrequency Cepstral Coefficients,梅尔频率倒谱系数)、PLP(Perceptual LinearPredictive,感知线性预测)参数。所述MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性;所述PLP参数是一种基于听觉模型的特征参数,该特征参数是全极点模型预测多项式的一组系数,等效于一种LPC(Linear PredictionCoefficient,线性预测系数)特征。所述语音识别声学特征的提取可以采用现有技术,在此不再详细描述。

所述语音合成声学特征包括:梅尔频谱(MEL Spectrograms)等特征。

步骤103,利用所述语音识别声学特征得到语音识别隐层特征。

所述隐层特征是指语音识别模型隐层的输出,在本发明实施例中,所述语音识别模型可以采用神经网络模型,所述神经网络模型可以包括一个或多个隐层。相应地,将所述语音识别声学特征输入所述语音识别模型,可以得到隐层的输出。在实际应用中,可以将其中的一个或多个隐层输出作为所述语音识别的隐层特征。

步骤104,利用所述语音合成声学特征得到语音合成编码特征。

具体地,可以将所述语音合成声学特征输入预先构建的参考编码模型,根据所述参考编码模型的输出得到语音合成编码特征。所述参考编码模型可以采用神经网络,比如可以是多层卷积加单向GRU(Gated Recurrent Unit,门控循环单元)的结构,用于将不定长的音频信号压缩成一个固定长度的特征向量。

需要说明的是,所述语音合成编码特征是针对一个完整语句声学特征进行压缩的结果。

步骤105,利用所述语音识别隐层特征、语音合成编码特征及所述语音合成声学特征,训练得到通用变声模型。

所述通用变声模型及所述对应特定目标说话人的音色转换模型可以采用神经网络模型,比如CNN-LSTM(卷积神经网络和长短期记忆网络)等。

如图2所示,是本发明实施例变声方法中通用变声模型的一种拓扑结构示意图。

所述通用变声模型的输入包括:语音识别隐层特征A、语音识别隐层特征B、以及利用源音频语音合成声学特征经过参考编码模型得到的语音合成编码特征,输出为目标音频语音合成声学特征。其中,语音识别隐层特征A经过卷积层、池化层、残差层等多个神经网络模型,得到隐层1和隐层2;语音识别隐层特征B经过多层DNN得到隐层3;源音频语音合成声学特征,经过参考编码模型,得到隐层4;将隐层1、隐层2、隐层3和隐层4组合,作为LSTM模型的输入。

在上述通用变声模型的基础上,针对特定目标说话人,可以通过收集少量该特定目标说话人的音频数据,利用所述特定目标说话人的音频数据对所述通用变声模型进行自适应训练,得到对应所述特定目标说话人的音色转换模型。

自适应训练过程与所述通用变声模型的训练过程类似,只是训练数据的不同。

由于识别声学模型输出的隐层特征含有较少的源说话人的音色特征,同时保留有语义信息及部分韵律信息,因此通过变声模型学习该隐层特征到目标说话人的合成声学特征的映射关系,可以实现源说话人到目标说话人音色的转换。

本发明实施例提供的变声方法,利用上述音色转换模型,将源说话人的语音识别声学特征,转换为特定目标说话人的语音合成声学特征,然后根据所述语音合成声学特征生成特定目标说话人音频信号,实现源说话人音频数据到特定目标说话人音频信号的实时转换。

如图3所示,是本发明实施例变声方法的流程图,包括以下步骤:

步骤301,接收源说话人语句。

所述源说话人语句为源说话人的一个完整语句,即完整语句对应的音频。

步骤302,从所述源说话人语句中提取语音识别声学特征及语音合成声学特征。

与模型训练阶段类似,所述语音识别声学特征可以包括但不限于以下任意一种或多种:MFCC、PLP等;所述语音合成声学特征至少包括梅尔频谱。

步骤303,利用所述语音识别声学特征得到语音识别隐层特征。

所述语音识别隐层特征的获取可以通过将所述语音识别声学特征输入语音识别模型得到,具体地,可以将所述语音识别模型中的一个或多个隐层输出作为所述语音识别的隐层特征。

步骤304,利用所述语音合成声学特征得到语音合成编码特征。

具体地,可以将所述语音合成声学特征输入所述参考编码模型,根据所述参考编码模型的输出得到语音合成编码特征。

需要说明的是,所述语音合成编码特征是针对一个完整语句声学特征进行压缩的结果。

步骤305,将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征。

所述音色转换模型的输入为上述步骤303中得到的语音识别隐层特征及上述步骤304中得到的语音合成编码特征,输出为语音合成声学特征。

利用所述音色转换模型,可以将源说话人的语音识别声学特征转换成为具有特定目标说话人声音特点的语音合成声学特征。

步骤306,利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。

具体地,可以利用wavenet/wavernn等神经网络声码器生成语音信号,将所述语音合成声学特征合成语音信号,即实现任意源说话人语音到目标说话人语音的变换。

为了更好地理解本发明方案,图4示出了本发明实施例变声方法中模型训练及测试过程的示意图。

需要说明的是,上述步骤302中从源说话人语句中提取的语音合成声学特征包括的具体声学特征的类型及数量与步骤305中得到的特定目标说话人的语音合成声学特征所包括的具体声学特征的类型及数量可以相同,也可以不同,对此本发明实施例不做限定。

本发明实施例提供的变声方法,预先构建对应特定目标说话人的音色转换模型,对接收的源说话人语句,从中提取语音识别声学特征及语音合成声学特征,利用该语音识别声学特征得到语音识别隐层特征,利用语音合成声学特征得到语音合成编码特征;将所述隐层特征和所述编码特征作为中介,利用所述音色转换模型将对应源说话人的语音识别声学特征转换为对应特定目标说话人的语音合成声学特征,然后利用该语音合成声学特征生成特定目标说话人音频信号。由于采用多个声学特征联合建模,因此可以得到较好的变声效果;而且由于加入了对整句语音的语音合成声学特征进行特征压缩得到的编码特征,因而可以使转换后声音的韵律、情感与源说话人的声音特点更接近。

另外,本发明方案中在建模时首先利用多个说话人的音频数据进行通用变声模型训练,然后在所述通用变声模型的基础上利用特定目标说话人少量音频数据进行自适应训练,得到对应特定目标说话人的音色转换模型。由于是在通用变声模型的基础上针对特定目标说话人的音频数据进行自适应训练,因此可以使训练得到的音色转换模型的参数更准确,进而利用该音色转换模型得到的语音合成声学特征更符合特定目标说话人的声音特点,使最终合成的音频信号具有更好的效果。而且,在针对不同的特定目标说话人时,仅需要录制少量该特定目标说话人的音频数据,不需要录制源说话人对应的平行语料,大大简化了训练语料的收集工作。

相应地,本发明实施例还提供一种变声装置,如图5所示,是该装置的一种结构框图。

在该实施例中,所述装置包括以下各模块:

接收模块501,用于接收源说话人语句;

特征提取模块502,用于从所述源说话人语句中提取语音识别声学特征及语音合成声学特征;

隐层特征获取模块503,用于利用所述语音识别声学特征得到语音识别隐层特征;

编码特征获取模块504,用于利用所述语音合成声学特征得到语音合成编码特征;

特征转换模块505,用于将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;

语音合成模块506,用于利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。

在本发明实施例中,所述语音识别声学特征可以包括但不限于以下任意一种或多种:MFCC、PLP等;所述语音合成声学特征至少包括梅尔频谱。

所述隐层特征获取模块503具体可以将所述语音识别声学特征输入语音识别模型,得到语音识别隐层特征。所述语音识别模型可以采用神经网络模型,比如,LSTM(LongShort-Term Memory,长短期记忆网络)、LC-CLDNN(Latency-controlled CLDNN)等,所述CLDNN是一种同时使用卷积结构、循环结构、与全连接结构构建的神经网络模型。

在实际应用中,可以将所述语音识别模型中的一个或多个隐层输出作为所述语音识别的隐层特征。

所述编码特征获取模块504具体可以将所述语音合成声学特征输入预先构建的参考编码模型,根据所述参考编码模型的输出得到语音合成编码特征。所述参考编码模型的具体结构在前面已有详细说明,在此不再赘述。

所述特征转换模块505将所述语音识别隐层特征及所述语音合成编码特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征。所述语音合成声学特征可以包括梅尔频谱等特征。相应地,所述语音合成模块504可以利用wavenet/wavernn等神经网络声码器,将这些语音合成声学特征生成特定目标说话人音频信号,实现任意源说话人语音到目标说话人语音的变换。

本发明实施例提供的变声装置,预先构建对应特定目标说话人的音色转换模型,对接收的源说话人音频数据,从中提取语音识别声学特征及语音合成声学特征,利用该语音识别声学特征得到语音识别隐层特征,利用语音合成声学特征得到语音合成编码特征;将所述隐层特征和所述编码特征作为中介,利用所述音色转换模型将对应源说话人的语音识别声学特征转换为对应特定目标说话人的语音合成声学特征,然后利用该语音合成声学特征生成特定目标说话人音频信号。由于采用多个声学特征联合建模,因此可以得到较好的变声效果;而且由于加入了对整句语音的语音合成声学特征进行特征压缩得到的编码特征,因而可以使转换后声音的韵律、情感与源说话人的声音特点更接近。

在实际应用中,所述音色转换模型可以由相应的音色转换模型构建模块来构建,所述音色转换模型构建模块可以作为本发明装置的一部分,也可以独立于本发明装置,对此不做限定。

所述音色转换模型构建模块具体可以通过收集大量特定目标说话人的音频数据训练得到所述音色转换模型,或者利用多个说话人的音频数据进行通用变声模型训练,然后在所述通用变声模型的基础上利用特定目标说话人少量音频数据进行自适应训练,得到对应特定目标说话人的音色转换模型。

所述通用变声模型可以由相应的通用模型构建模块来构建,同样地,所述通用模型构建模块可以作为本发明装置的一部分,也可以独立于本发明装置,对此不做限定。

需要说明的是,无论是通用变声模型的训练还是基于通用变声模型的自适应训练,是一个迭代的计算过程,因此,在实际应用中,所述通用模型构建模块与所述音色转换模型构建模块,两者可以合并为一个功能模块,也可以作为两个独立的功能模块,对此不再限定。两者的迭代计算过程相同,只是所针对的训练数据不同。

在一个具体实施例中,所述音色转换模型构建模块可以包括以下各单元:

目标数据收集单元,用于收集大量特定目标说话人的音频数据作为训练数据;

特征提取单元,用于从所述训练数据中提取语音识别声学特征及语音合成声学特征;

隐层特征获取单元,用于利用所述语音识别声学特征得到语音识别隐层特征;

编码特征获取单元,用于利用所述语音合成声学特征得到语音合成编码特征;

参数训练单元,用于利用所述隐层特征、语音合成编码特征及所述语音合成声学特征,训练得到对应所述特定目标说话人的音色转换模型。

在另一个具体实施例中,所述通用模型构建模块可以包括以下各单元:

通用数据收集单元,用于收集多个说话人的音频数据作为训练数据;

特征提取单元,用于从所述训练数据中提取语音识别声学特征及语音合成声学特征;

隐层特征获取单元,用于利用所述语音识别声学特征得到语音识别隐层特征;

编码特征获取单元,用于利用所述语音合成声学特征得到语音合成编码特征;

通用参数训练单元,用于利用所述语音识别隐层特征、语音合成编码特征及所述语音合成声学特征,训练得到通用变声模型。

相应地,所述音色转换模型构建模块可以包括以下各单元:

目标数据收集单元,用于收集特定目标说话人的音频数据;

模型训练单元,用于利用所述特定目标说话人的音频数据对预先基于多个说话人的音频数据构建的通用变声模型进行自适应训练,得到对应特定目标说话人的音色转换模型。

自适应训练的过程主要是从所述特定目标说话人的音频数据提取语音识别声学特征及语音合成声学特征,并分别利用所述语音识别声学特征及所述语音合成声学特征得到语音识别隐层特征、语音合成编码特征,然后利用所述隐层特征、编码特征及所述语音合成声学特征,通过迭代计算,训练得到对应所述特定目标说话人的音色转换模型。

利用该实施例的方案,可以通过收集少量特定目标说话人的音频数据,基于通用变声模型进行自适应性训练得到对应所述特定目标说话人的音色转换模型,可以使训练得到的音色转换模型的参数更准确,进而利用该音色转换模型得到的语音合成声学特征更符合特定目标说话人的声音特点,使最终合成的音频信号具有更好的效果。而且,在针对不同的特定目标说话人时,仅需要录制少量该特定目标说话人的音频数据,不需要录制源说话人对应的平行语料,大大简化了训练语料的收集工作。

图6是根据一示例性实施例示出的一种用于变声方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。

图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于处理音频的方法、装置、电子设备和计算机可读介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!