信息处理装置、信息处理方法及程序

文档序号：1821639 发布日期：2021-11-09 浏览：11次 >En<

阅读说明：本技术 信息处理装置、信息处理方法及程序 (Information processing apparatus, information processing method, and program ) 是由角尾衣未留于 2020-03-16 设计创作，主要内容包括：本发明涉及能够提高包括语言模型的语音识别模型的性能的信息处理设备、信息处理方法及程序。学习设备设置有学习单元,该学习单元通过使用包括第一神经网络的学习模型来学习语言模型。语音识别设备,设置有语音识别单元,该语音识别单元通过使用语音识别模型来执行语音识别,该语音识别模型包括通过使用包括第一神经网络的学习模型而学习的语言模型。本发明可以应用于例如语音识别设备或用于学习语音识别模型的学习设备。(The present invention relates to an information processing apparatus, an information processing method, and a program capable of improving the performance of a speech recognition model including a language model. The learning apparatus is provided with a learning unit that learns a language model by using a learning model including a first neural network. A speech recognition apparatus is provided with a speech recognition unit that performs speech recognition by using a speech recognition model including a language model learned by using a learning model including a first neural network. The present invention can be applied to, for example, a speech recognition apparatus or a learning apparatus for learning a speech recognition model.)

信息处理装置、信息处理方法及程序

技术领域

本技术涉及信息处理装置、信息处理方法及程序，更具体地，涉及能够提高语音识别模型的性能的信息处理装置、信息处理方法及程序。

背景技术

通过机器学习得到的语音识别模型大致有以下两种类型。

第一种语音识别模型是其中声学模型和语言模型被分别训练并组合的模型。在这种语音识别模型中，在声学模型和语言模型组合的接触点上很可能出现间隙(gap)，并且难以优化整个语音识别模型的性能。

第二种语音识别模型是被称为端到端模型的模型，该端到端模型通过使用神经网络对直接输出与输入的声学特征量相对应的句子的模型进行训练而获得。在该语音识别模型中，需要大量的训练数据，在该训练数据中语音数据和指示该语音数据的内容的文本数据组合在一起。然而，获取或创建与文本数据相对应的大量语音数据是非常困难的。另一方面，在训练数据不足的情况下，语音识别模型的准确度降低。

在这种情况下，传统上，已经提出了一种通过将声学模型与语言模型组合来执行鉴别训练并且更新声学模型以校正误差，从而填补声学模型与语言模型之间的间隙的方法(例如，参考专利文献1)。

现有技术文献

专利文献

专利文献1：日本专利申请公开第2011-197410号

发明内容

技术问题

然而，在专利文献1的鉴别训练中，由于仅根据语言模型训练声学模型，所以语言模型的性能没有提高。

本技术是针对这种情况而提出的，并且目的是提高包括语言模型的语音识别模型的性能。

问题的解决方案

根据本技术的第一方面的信息处理装置包括学习单元，该学习单元使用包括第一神经网络的学习模型来训练语言模型。

根据本技术的第一方面的信息处理方法包括：使用包括神经网络的学习模型来训练语言模型。

根据本技术的第一方面的程序使计算机执行使用包括神经网络的学习模型来训练语言模型的处理。

根据本技术的第二方面的信息处理装置包括语音识别单元，该语音识别单元使用语音识别模型执行语音识别，该语音识别模型包括使用包括第一神经网络的学习模型训练的语言模型。

根据本技术的第二方面的信息处理方法包括使用语音识别模型执行语音识别，该语音识别模型包括使用包括神经网络的学习模型训练的语言模型。

根据本技术的第二方面的程序使计算机执行使用语音识别模型执行语音识别的处理，该语音识别模型包括使用包括神经网络的学习模型训练的语言模型。

在本技术的第一方面，使用包括神经网络的学习模型来训练语言模型。

在本技术的第二方面，使用语音识别模型来执行语音识别，该语音识别模型包括使用包括神经网络的学习模型训练的语言模型。

附图说明

图1是示出应用了本技术的语音识别装置的配置示例的框图。

图2是示出端到端语音识别装置的配置示例的框图。

图3是示出应用了本技术的学习装置的配置示例的框图。

图4是示出学习模型的配置示例的框图。

图5是用于描述学习处理的流程图。

图6是示出WFST的配置示例的图。

图7是用于描述学习模型的输入层和中间层的计算示例的图。

图8是示出状态转移的正向计算和反向计算的示例的图。

图9是用于描述输出层的计算示例的图。

图10是用于描述反向传播法的计算示例的图。

图11是示出计算机的配置示例的图。

具体实施方式

在下文中，将描述用于实施本技术的模式。描述将按以下顺序提供。

1.实施例

2.变型例

3.其他

<<1.实施例>>

将参照图1至10描述本技术的实施例。

<语音识别装置101的配置示例>

图1是示出应用了本技术的语音识别装置101的配置示例的框图。

语音识别装置101包括：信号处理单元111、特征量提取单元112、以及语音识别单元113。

信号处理单元111对输入的语音数据执行预定的信号处理，以校正语音数据。例如，信号处理单元111对语音数据执行噪声去除、波形整形等，以提高语音数据的信噪比(SNR)或信号失真比(SDR)。信号处理单元111将信号处理后的语音数据提供给特征量提取单元112。

特征量提取单元112从语音数据中提取诸如fbank(滤波器组对数功率)的声学特征量，以用于语音识别。特征量提取单元112将指示提取的声学特征量的特征量数据提供给语音识别单元113。

语音识别单元113使用语音识别模型121基于特征量数据执行语音识别。

语音识别模型121包括例如深度神经网络(DNN)-隐马尔可夫模型(HMM)方法中的语音识别模型。语音识别模型121包括声学模型131和语言模型132。

声学模型131基于特征量数据执行语音数据中的音素的辨别处理，并且输出表示辨别结果的声学数据。声学模型131例如通过基于由特征量数据指示的声学特征量使用DNN训练用于估计与每个音素对应的HMM的状态的模型而获得。

语言模型132基于从声学模型131提供的声学数据执行语音数据中的词的辨别处理，并且生成并输出指示语音数据的内容(词的排列)的输出数据。例如，语言模型132包括加权有限状态换能器(WFST)，该加权有限状态换能器(WFST)通过将HMM的转移概率与用于从紧接之前出现的一个或多个词估计下一个词的出现概率的模型组合而获得。

在本技术中，如后面将描述的，在单独训练的声学模型131和语言模型132被集成的状态下执行附加学习，并且声学模型131和语言模型132的参数被更新。结果，优化了整个语音识别模型121的性能。

<端到端语音识别装置201的配置示例>

为了与图1中的语音识别装置101进行比较，图2示出了使用端到端语音识别模型221的语音识别装置201的配置示例。注意，在图中，与图1中的语音识别装置101的部分对应的部分由相同的附图标记表示，并且将适当地省略其描述。

语音识别装置201与图1中的语音识别装置101相同之处在于包括信号处理单元111和特征量提取单元112，与图1中的语音识别装置101不同之处在于包括语音识别单元211，而不是语音识别单元113。

语音识别单元211使用包括编码器231和解码器232的语音识别模型221，基于特征量数据执行语音识别。

如上所述，使用在其中组合了语音数据和指示语音数据的内容的文本数据的训练数据，来训练语音识别模型221。然而，如上所述，获取或创建与文本数据相对应的大量语音数据非常困难，并且在训练数据不足的情况下，语音识别模型221的性能降低。

<学习装置301的配置示例>

图3示出用于训练图1中的语音识别模型121的声学模型131和语言模型132的学习装置301的配置示例。注意，在图中，与图1中的语音识别装置101的部分对应的部分由相同的附图标记表示，并且将适当地省略其描述。

学习装置301与图1中的语音识别装置101相同之处在于包括信号处理单元111和特征量提取单元112，并且与图1中的语音识别装置101不同之处在于包括学习单元311、而不是语音识别单元113。

向学习装置301输入训练数据，该训练数据包括输入数据和正确数据，该输入数据包括语音数据，并且正确数据以文本、向量等形式表示语音数据的内容。在这些数据中，输入数据被提供给信号处理单元111，并且正确数据被提供给学习单元311。

学习单元311通过使用集成了声学模型131和学习模型331的集成模型321来训练声学模型131和语言模型132。

学习模型331包括神经网络。因此，集成模型321包括其中集成了构成声学模型131的神经网络(DNN)和构成学习模型331的神经网络的网络。学习模型331是执行语言模型132的计算(例如使用构成语言模型132的WFST的解码处理)的模型，并且用于训练声学模型131和语言模型132。

<学习模型331的配置示例>

图4是示出集成模型321中包括的学习模型331的配置示例的框图。

学习模型331包括：输入层351、中间层352、输出层353、以及最大池化层354。

输入层351是将声学模型131连接到学习模型331的层，并且来自声学模型131的声学数据被提供到输入层351。输入层351通过将声学数据映射到语言模型132的状态空间来生成声学状态数据，并且将声学状态数据提供给中间层352。

中间层352基于声学状态数据执行语言模型132的状态转移的计算，并且将指示状态转移的计算结果的数据提供给输出层353。

输出层353基于从中间层352提供的状态转移的计算结果执行输入数据中的词的辨别计算，并且将指示计算结果的数据提供给最大池化层354。

最大池化层354基于从输出层353提供的词的辨别结果来估计输入数据的内容，并输出指示估计结果的数据。

<学习处理>

接下来，将参照图5中的流程图来描述由学习装置301执行的学习处理。

例如，当将训练数据输入到学习装置301中时，开始该处理。将包括在训练数据中的输入数据(语音数据)提供给信号处理单元111，并且将正确数据提供给学习模型331。

注意，为了简化描述，下面将作为具体示例描述要经受学习处理的语言模型132包括图6所示的WFST 401的情况。

WFST 401可以区分两个词，“开始”和“停止”。

WFST 401的每个节点指示状态，并且节点中的数字指示状态号。注意，状态0是初始状态，被双圆圈包围的状态9是结束状态。

连接各状态的箭头表示状态之间的转移。此外，在每个箭头的上方，在第一行示出“输入标签：输出标签”，并且在第二行示出用于状态转移的权重。

输入标签指示音素，该音素是状态转移的条件。例如，当在状态0中输入音素s时，WFST 401的状态转移到状态2。请注意，“sil”表示沉默。

输出标签指示状态转移时输出的词。例如，在从状态4转移到状态7时，输出“停止”作为输出标签。注意，“nil”表示没有输出输出标签(词)。

在下文中，用于转移到状态i的输入标签被称为状态i的输入标签，并且由ilabel(i)表示。例如，状态2的输入标签ilabel(2)是“s”。此外，在下文中，将转移到状态i时的输出标签称为状态i的输出标签，并由olabel(i)表示。例如，状态5的输出标签olabel(5)是“开始”。

在步骤S1中，信号处理单元111执行信号处理。具体地，信号处理单元111针对输入数据执行诸如噪声去除和波形整形的信号处理，并且将信号处理之后的输入数据提供给特征量提取单元112。

在步骤S2中，特征量提取单元112提取特征量。例如，特征量提取单元112针对具有预定长度的每个帧从输入数据提取诸如fbank的声学特征量，并且将指示所提取的声学特征量的特征量数据提供给学习单元311。

在步骤S3中，学习单元311执行音素的辨别计算。具体地，将特征量数据输入声学模型131，执行音素的辨别计算，并且输出声学数据。

声学数据包括表示输入数据的每帧的音素的辨别结果的声学向量。声学向量是包括多个预定音素中的每一个的声学分数作为元素的向量。声学分数指示目标帧中的声音包含目标音素的概率。

在图7的下部，示意性地示出了包括在从声学模型131输出的声学数据中的声学向量。

在该示例中，示出了帧t1至t14的声学向量。声学向量包括音素sil(沉默)、s、t、aa、r和p中的每一个声学分数，作为元素。这里，包括在声学向量中的每个声学分数由单元格表示。然后，随着声学分数越高，单元格的密度越高，随着声学分数越低，单元格的密度越低。

下文中，帧t的声学向量由Xa(t)表示，声学向量Xa(t)中的第i个音素的声学分数由xa_i(t)表示。注意，按照音素sil、s、t、aa、r和p的顺序，从0到5的数字分别分配给各音素。例如，xa₁(t)表示声学向量Xa(t)中音素s的声学分数。

在步骤S4中，学习单元311将声学数据映射到语言模型的状态空间。具体地，包括在声学数据中的声学向量Xa(t)被输入到学习模型331的输入层351，并且通过下式(1)转换为声学状态向量Xb(t)。

Xb(t)＝W×Xa(t)...(1)

W是用于将声学向量Xa(t)映射到语言模型132(WFST 401)的状态空间的矩阵，并且由下式(2)表示。

[等式1]

作为矩阵W的元素的权重w_i，j指示WFST 401的状态i相对于声学向量Xa(t)的声学分数xa_j(t)的权重。注意矩阵W的第一行是第0行，第一列是第0列。

在用于转移到状态i的输入标签ilabel(i)与声学向量Xa(t)中的声学分数xa_i(t)的目标音素匹配的情况下，权重w_i，j为1，并且在它们不匹配的情况下权重w_i，j为0。例如，用于转移到状态3的输入标签ilabel(3)与声学向量Xa(t)的声学分数xa₂(t)的目标音素匹配，因为它们都是t。因此，在矩阵W的第一列的权重w_1,j中，只有权重w_1,2被设置为1，并且其他权重被设置为0。

在图7的中间部分，示意性地示出声学向量Xa(t)已转换成的声学状态向量Xb(t)。

声学状态向量Xb(t)的元素是WFST 401的状态i的声学状态分数xb_i(t)。声学状态分数xb_i(t)表示在输入由声学向量Xa(t)指示的声音的情况下状态转移到状态i的概率。这里，包含在声学状态向量Xb(t)中的每个声学状态分数xb_i(t)由单元格表示。然后，当声学状态分数xb_i(t)较高时，单元格的密度较高，并且当声学状态分数xb_i(t)较低时，单元格的密度较低。

在步骤S5中，学习单元311执行状态转移的正向计算。即，将声学状态向量Xb(t)按时间顺序输入到语言模型132的中间层352，执行下式(3)的计算，并且按时间顺序导出状态向量A(t)。

[等式2]

等式(3)中的转移矩阵S以稀疏矩阵的形式表示WFST 401的状态转移，并且转移矩阵S由下式(4)表示。

[等式3]

作为转移矩阵S的元素的权重s_i,j表示WFST 401从状态j到状态i的状态转移的权重。注意，转移矩阵S的第一行是第0行，第一列是第0列。例如，将权重s_2,0设置为0.6，其是WFST 401从状态0到状态2的状态转移的权重。

注意，在等式(3)的计算中，作为状态向量A(t)的元素的状态分数α_i(t)由下式(5)导出。

[等式4]

状态分数α_i(t)指示在帧t中构成语言模型132的WFST 401的状态为状态i的概率。

注意，在作为状态向量A(t)的初始值的状态向量A(t0)中，状态分数α₀(t0)被设定为1，并且其他状态分数α_i(t0)被设定为0。即，状态向量A(t0)表示WFST 401的初始状态为状态0。

以这种方式，通过递归地应用转移矩阵S来执行状态向量A(t)的计算，执行与WFST401的状态转移相对应的计算。

在图7的上部，示意性地示出了状态向量A(t)。这里，包含在状态向量A(t)中的每个状态分数α_i(t)由单元格表示。然后，当状态分数α_i(t)较高时，单元格的密度较高，当状态分数α_i(t)较低时，单元格的密度较低。

在步骤S6中，学习单元311执行状态转移的反向计算。即，将声学状态向量Xb(t)以反向时间顺序输入到学习模型331的中间层352，执行下式(6)的计算，并且以反向时间顺序导出状态向量Β(t)。

[等式5]

注意，在等式(6)的计算中，作为状态向量Β(t)的元素的状态分数β_i(t)由下式(7)导出。

[等式6]

状态分数β_i(t)指示在帧t中，构成语言模型132的WFST 401的状态(当前为状态i)将在最后一帧之前达到结束状态的概率。

注意，在作为状态向量B(t)的初始值的状态向量B(t14)中，状态分数β₉(t14)被设定为1，并且其他状态分数β_i(t14)被设定为0。即，状态向量B(t14)表示WFST 401的结束状态是状态9。

以这种方式，通过递归地应用转移矩阵S的转置矩阵S^T来执行状态向量B(t)的计算，执行与WFST 401的反向状态转移相对应的计算。

在图8的上部，示意性地示出了状态向量B(t)。这里，包含在状态向量B(t)中的每个状态分数β_i(t)由单元格表示。然后，当状态分数β_i(t)较高时，单元格的密度较高，并且当状态分数β_i(t)较低时，单元格的密度较低。

注意，在图8的下部中，类似于图7的上部，示意性地示出了状态向量A(t)。

在步骤S7中，学习单元311执行输出计算。

具体地说，状态向量A(t)和状态向量Β(t)被输入到学习模型331的输出层353，并且执行下式(8)的计算以使得导出输出分数y_v(t)。

[等式7]

输出分数y_v(t)表示词的辨别结果，并且表示词v将出现在帧t中的概率。s_i,j∈O指示与向状态j转移的路径相对应的转移矩阵S的一组权重s_i,j，在该状态j中词v被作为输出标记olabel(j)输出。

以这种方式，基于WFST 401的状态转移的正向计算和反向计算的结果导出输出分数y_v(t)。

注意，在WFST 401中，到其中“开始”作为输出标签olabel(j)输出的状态的路径是用于从状态4转移到状态5和从状态4转移到状态6的路径。因此，在帧t中“开始”的输出分数y_v(t)是帧t中从状态4转移到状态5的概率或从状态4转移到状态6的概率，以较高者为准。

此外，在WFST 401中，到其中“停止”被作为输出标签olabel(j)输出的状态的路径仅是用于从状态4转移到状态7的路径。因此，帧t中“停止”的输出分数y_v(t)是从帧t中的状态4转移到状态7的概率。

注意，在图8的上部的状态向量Β(t)的图中，与状态5和状态6的状态分数β₅(t)和β₆(t)相对应的单元格被粗线包围，该状态5和状态6是在“开始”作为输出标签olabel(j)输出的情况下的转移目的地。此外，与状态7的状态分数β₇(t)相对应的单元格被粗虚线包围，该状态7是在“停止”作为输出标签olabel(j)输出的情况下的转移目的地。此外，在图8的下部的状态向量A(t)的图中，与状态4的状态分数α₄(t)相对应的单元格被粗线包围，该状态4是在“开始”或“停止”被作为输出标签olabel(j)输出的情况下的转移源。

在图9中箭头的左侧，示意性地示出了“停止”和“开始”的输出分数y_v(t)。这里，帧t1至t14中的“停止”和“开始”的输出分数y_v(t)由单元格表示。然后，当输出分数y_v(t)较高时，单元的密度较高，并且当输出分数y_v(t)较低时，单元的密度较低。

随后，将每个词v的输出分数y_v(t)输入到学习模型331的最大池化层354，并且执行例如下式(9)的计算以导出最终分数y_v，该分数y_v是每个词v的最终输出分数。

[等式8]

即，作为最终分数y_v，设定每个词v的输出分数y_v(t)的最大值。例如，在图9的示例中，最大的“停止”的输出分数y_v(t)是在帧t7中的输出分数。因此，设定帧t7中的输出分数y_v(t)作为“停止”的最终分数y_v。此外，最大的“开始”的输出分数y_v(t)是在帧t6中的输出分数。因此，设定帧t6中的输出分数y_v(t)作为“开始”的最终分数y_v。

注意，在实际的训练数据中，在很多情况下，一个句子中会出现多个词。在这种情况下，可以导出训练数据中每个词的最终分数y_v，使得下式(10)中的分数J最大。

[等式9]

R表示训练数据的正确数据中的词数量，并且r表示正确数据中词的出现序数。ref(r)指示出现在正确数据中的第r个词，并且y_ref(r)(t)指示帧t中的词ref(r)的输出分数。t(r-1)指示估计第(r-1)个词出现在正确数据中的帧，并且t(r+1)指示估计第(r+1)个词出现在正确数据中的帧。

结果，估计出现正确数据中的第r个词ref(r)的帧t，并且将所估计的帧t中的词ref(r)的输出分数y_v(t)设定为词ref(r)的最终分数y_v。

注意，例如将在其中估计出现词ref(r)的帧t中的每个词v的输出分数y_v(t)，设定为正确数据中除第r个词ref(r)以外的每个词v的最终分数y_v。

在步骤S8中，学习单元311执行误差计算。

由于通过上述式(1)至(10)中的计算可以将学习目标视为一般的辨别问题，因此可以使用损失函数来执行神经网络学习。因此，例如，学习单元311使用下式(11)中的软最大交叉熵函数作为损失函数来导出学习模型331的输出数据的误差。

[等式10]

输出向量Y是以每个词的最终分数y_v作为元素的向量。||Y||₁表示输出向量Y的L¹范数。正确向量P是表示正确数据的向量，并且将包含在正确数据中的词的分数设定为1并将其他词的分数设定为0。

注意，例如，为了避免过度学习，可以使用添加了正则化项的下式(12)。

[等式11]

注意，T指示输入数据的帧长度，而λ指示任意设定的权重。此外，KL()指示KL散度，并且Xa_org(t)指示在学习之前或学习开始时从声学模型131输出的声学向量。

在步骤S9中，学习单元311更新语言模型132的参数和声学模型131的参数。具体地说，在集成模型321中，学习单元311通过使用一般机器学习中的反向传播法对构成学习模型331的神经网络和构成下层声学模型131的DNN执行误差传播，来更新参数，以便使等式(11)或等式(12)中的损失函数的值最小化。结果，构成语言模型132的WFST 401的状态转移的权重(转移矩阵S的权重s_i,j)和构成声学模型131的DNN的参数被更新。注意，也可以更新上述等式(1)中的矩阵W的权重w_i,j。

图10示意性地示出了参数更新的流程。图10的上部是与图9中箭头左侧的输出数据类似的图。图10的中部是与通过图8的上部中的反向计算的状态转移类似的图。图10的下部是与通过图8的下部中的正向计算的状态转移类似的图。

例如，如图10中的虚线箭头所示，误差在与用于导出“停止”的最终分数y_v的正向计算的状态转移和反向计算的状态转移中的每一个相反的方向上传播，并且更新每个状态转移的权重。类似地，如图10中的实线箭头所示，误差在与用于导出“开始”的最终分数y_v的正向计算的状态转移和反向计算的状态转移中的每一个相反的方向上传播，并且更新每个状态转移的权重。

此外，误差从每个帧t中的状态向量A(t)和状态向量Β(t)传播到声学状态向量Xb(t)，误差进一步从声学状态向量Xb(t)传播到声学向量Xa(t)，并且构成声学模型131的DNN的参数被更新。

在步骤S10中，学习装置301确定是否结束学习处理。例如，在输入了新的训练数据的情况下，学习装置301确定继续学习处理，并且处理返回到步骤S1。

此后，重复执行步骤S1至S10中的处理，直到在步骤S10中确定学习处理结束，并且更新声学模型131和语言模型132的参数。

另一方面，例如，在步骤S10中没有输入新的训练数据的情况下，学习装置301确定结束学习处理，并且学习处理结束。

注意，已通过该学习处理更新了自身的参数的声学模型131被用于语音识别装置101。此外，通过学习处理更新的参数反映在语音识别装置101的语言模型132中。例如，更新构成语言模型132的WFST。

以这种方式，在声学模型131和学习模型331被集成的状态下训练声学模型131和语言模型132两者。因此，可以在整个语音识别模型121中优化参数，并且提高语音识别的性能。

此外，声学模型131和语言模型132被预先单独训练。然后，通过以训练后的声学模型131和语言模型132为初始值执行图6中的学习处理，可以用少量的训练数据构造高性能的语音识别模型121。

此外，通过组合状态转移的正向计算和反向计算，提高了对通用机器学习的适用性。结果，可以容易地执行学习处理。此外，更多的路径被搜索出，并且可以顺利地执行学习处理。

<<2.变型例>>

在下文中，将描述本技术的上述实施例的变型例。

例如，在图6的学习处理中，可以只执行状态转移的正向计算而不执行状态转移的反向计算。在这种情况下，例如，为了通过反向传播法更新参数，添加了用于存储输出标签、与输出标签相关联的分数、以及状态转移的路径的处理。

此外，例如，可以使用学习模型331仅训练语言模型132。

此外，本技术可以应用于除上述DNN-HMM方法中的语音识别模型之外的语音识别模型的训练。例如，在附加语言模型与端到端语音识别模型相结合的情况下，本技术可以应用于语言模型的训练。

此外，通过使用本技术，可以执行仅用少量数据精细调整语音识别模型的自适应处理之外的处理。例如，在提供用于对语音识别模型执行自适应处理的应用编程接口(API)的情况下，可以指定是否与自适应数据一起更新构成语言模型的WFST，并且相应地更新语言模型。

此外，用于语音识别的音素分类的方法是任意的。例如，一般的音素可以被分类到更精细的状态。

<<3.其他>>

<计算机的配置示例>

例如，可以通过硬件或软件来执行上述的一系列处理，诸如语音识别装置101和学习装置301的处理。在通过软件执行一系列处理的情况下，在计算机中安装构成软件的程序。这里，计算机例如包括合并在专用硬件中的计算机、能够通过安装各种程序执行各种功能的通用个人计算机等。

图11是示出通过程序执行上述一系列处理的计算机的硬件的配置示例的框图。

在计算机1000中，中央处理单元(CPU)1001、只读存储器(ROM)1002、以及随机存取存储器(RAM)1003通过总线1004相互连接。

此外，输入/输出接口1005连接到总线1004。输入单元1006、输出单元1007、记录单元1008、通信单元1009、以及驱动器1010连接到输入/输出接口1005。

输入单元1006包括：输入开关、按钮、麦克风、成像元件等。输出单元1007包括：显示器、扬声器等。记录单元1008包括：硬盘、非易失性存储器等。通信单元1009包括：网络接口等。驱动器1010驱动诸如磁盘、光盘、磁光盘、以及半导体存储器的可移动介质1011。

在如上所述配置的计算机1000中，例如，CPU 1001经由输入/输出接口1005和总线1004将记录在记录单元1008中的程序加载到RAM 1003中，并且执行该程序以使得执行上述一系列处理。

由计算机1000(CPU 1001)执行的程序例如可以通过记录在作为封装介质等的可移动介质1011中来提供。此外，可以经由诸如局域网、因特网和数字卫星广播的有线或无线传输介质来提供节目。

在计算机1000中，通过将可移动介质1011附接到驱动器1010，程序可以经由输入/输出接口1005安装在记录单元1008中。此外，程序可由通信单元1009经由有线或无线传输介质接收并安装在记录单元1008中。此外，程序可以预先安装在ROM 1002或记录单元1008中。

注意，由计算机执行可以是以本描述中描述的顺序按时间顺序执行处理的程序，或者可以是并行地或者在诸如执行调用的时间的必要时间执行处理的程序。

此外，在本描述中，系统是指多个部件(设备、模块(组件)等)的集合，并且所有部件是否在同一壳体中并不重要。因此，容纳在单独的壳体中并经由网络连接的多个设备的集合和容纳在一个壳体中的具有多个模块的设备都是系统。

此外，本技术的实施例不限于前述实施例，并且可以在不脱离本技术的范围的情况下以各种方式改变。

例如，本技术可以配置为云计算，在该云计算中一个功能经由网络由多个设备共享并且联合地处理。

此外，上述流程图中描述的每个步骤不仅可以由一个设备执行，而且还可以由多个设备共享和执行。

此外，在一个步骤包括多个处理段的情况下，步骤中包括的多个处理段不仅可以由一个设备执行，而且还可以由多个设备共享和执行。

<配置组合示例>

本技术还可以采用以下配置。

(1)一种信息处理装置，包括：

学习单元，使用包括第一神经网络的学习模型来训练语言模型。

(2)根据(1)的信息处理装置，

其中，学习单元使用集成模型来训练语言模型和声学模型，在该集成模型中集成了该学习模型和与该语言模型分开的、预先使用第二神经网络训练的声学模型。

(3)根据(2)的信息处理装置，

其中，学习单元在集成模型中通过反向传播法来更新语言模型的参数和声学模型的参数。

(4)根据(2)或(3)的信息处理装置，

其中，学习模型包括：

输入层，从声学模型输出的声学数据被输入到该输入层，

中间层，执行语言模型的状态转移的计算，以及

输出层，基于状态转移的计算结果执行词的辨别计算。

(5)根据(4)的信息处理装置，

其中，输入层将声学数据映射到语言模型的状态空间。

(6)根据(5)的信息处理装置，

其中，声学数据包括指示语音数据的每一帧的音素的辨别结果的声学向量，并且

输入层将声学向量映射到语言模型的状态空间。

(7)根据(4)至(6)中任一项的信息处理装置，

其中，中间层基于表示语言模型的状态转移的转移矩阵来执行状态转移的计算。

(8)根据(7)的信息处理装置，

其中，语言模型包括加权有限状态换能器(WFST)，并且

转移矩阵将用于在WFST的状态之间转移的权重作为元素。

(9)根据(4)至(8)中任一项的信息处理装置，

其中，中间层执行状态转移的正向计算和反向计算，并且

输出层基于通过正向计算的状态转移的计算结果和通过反向计算的状态转移的计算结果，来执行词的辨别计算。

(10)根据(2)至(9)中任一项的信息处理装置，

其中，声学模型构成深度神经网络(DNN)-隐马尔可夫模型(HMM)方法中的语音识别模型。

(11)根据(1)的信息处理装置，

其中，使用表示语言模型的状态转移的转移矩阵来构造学习模型。

(12)根据(11)的信息处理装置，

其中，学习单元在学习模型中使用反向传播法来更新转移矩阵。

(13)根据(1)的信息处理装置，

其中，语言模型与端到端语音识别模型相结合。

(14)一种信息处理方法，包括：

使用包括神经网络的学习模型训练语言模型。

(15)一种用于使计算机执行以下处理的程序：

使用包括神经网络的学习模型训练语言模型。

(16)一种信息处理装置，包括：

语音识别单元，使用语音识别模型执行语音识别，该语音识别模型包括使用包括第一神经网络的学习模型训练的语言模型。

(17)根据(16)的信息处理装置，

其中，语音识别模型包括声学模型和语言模型，该声学模型使用集成模型来训练，在该集成模型中集成了学习模型和预先使用第二神经网络训练的声学模型。

(18)根据(17)的信息处理装置，

其中，语音识别模型包括声学模型和语言模型，声学模型和语言模型的参数已在集成模型中使用反向传播法更新。

(19)一种信息处理方法，包括：

使用语音识别模型执行语音识别，该语音识别模型包括使用包括神经网络的学习模型训练的语言模型。

(20)一种程序，用于使计算机执行以下处理：

使用语音识别模型执行语音识别，该语音识别模型包括使用包括神经网络的学习模型训练的语言模型。

注意，在本说明书中描述的效果仅是说明性的，不应受到限制，并且可以存在其他效果。

附图标记列表

101 语音识别装置

111 信号处理单元

112 特征量提取单元

113 语音识别单元

121 语音识别模型

131 声学模型

132 语言模型

301 学习装置

311 学习单元、集成模型

321、331 学习模型

351 输入层

352 中间层

353 输出层

354 最大池化层

401 WFST。

27页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：包括具有减缩厚度和减缩盘平坦度的盘的磁记录装置

信息处理装置、信息处理方法及程序

相关技术

网友询问留言