声音识别装置及声音识别方法

文档序号：1510441 发布日期：2020-02-07 浏览：25次 >En<

阅读说明：本技术 声音识别装置及声音识别方法 (Voice recognition device and voice recognition method ) 是由山崎航加藤真大泽政信于 2017-06-22 设计创作，主要内容包括：本发明是利用客户端侧的声音识别装置(100)和服务器侧的声音识别装置(202)对用户的说话进行声音识别的服务器·客户端型声音识别系统中的、客户端侧的声音识别装置(100),其包括：声音识别部(102),该声音识别部(102)识别用户的说话；通信状况获取部(104),该通信状况获取部(104)获取与具有服务器侧的声音识别装置(202)的服务器装置(200)的通信状况；及词汇变更部(105),该词汇变更部(105)基于所获取的通信状况,变更声音识别部(102)的识别对象词汇。(The present invention is a client-side voice recognition device (100) in a server/client-side voice recognition system that performs voice recognition of a user utterance using a client-side voice recognition device (100) and a server-side voice recognition device (202), and includes: a voice recognition unit (102) that recognizes the utterance of the user; a communication status acquisition unit (104) for acquiring the communication status with a server device (200) having a server-side voice recognition device (202); and a vocabulary changing unit (105), wherein the vocabulary changing unit (105) changes the vocabulary to be recognized by the voice recognition unit (102) based on the acquired communication status.)

声音识别装置及声音识别方法

技术领域

本发明涉及声音识别技术，特别涉及服务器·客户端型的声音识别。

背景技术

以往，使用服务器·客户端型的声音识别技术，其使服务器侧的声音识别装置的声音识别与客户端侧的声音识别装置协作，来对用户的说话声音执行声音识别处理。

例如，在专利文献1中公开了一种声音识别系统，其首先使客户端侧的声音识别装置对用户的说话声音进行识别处理，在识别失败的情况下，使服务器侧的声音识别装置对用户的说话声音进行识别处理。

现有技术文献

专利文献

专利文献1：日本专利特开2007-33901号公报

发明内容

发明所要解决的技术问题

在上述专利文献1所记载的声音识别系统中，在客户端侧的声音识别装置识别失败的情况下，到从服务器侧的声音识别装置获取识别结果为止需要时间，存在针对用户说话的响应变慢的问题。

本发明是为了解决上述那样的问题而完成的，其目的在于，在服务器·客户端型的声音识别处理中，实现兼顾针对用户说话的快响应速度和针对用户说话的高识别率。

解决技术问题的技术方案

本发明的声音识别装置是利用客户端侧的声音识别装置和服务器侧的声音识别装置对用户的说话进行声音识别的服务器·客户端型声音识别系统中的、客户端侧的声音识别装置，其包括：声音识别部，该声音识别部识别用户的说话；通信状况获取部，该通信状况获取部获取与具有服务器侧的声音识别装置的服务器装置的通信状况；及词汇变更部，该词汇变更部基于通信状况获取部所获取的通信状况，变更声音识别部的识别对象词汇。

发明效果

根据本发明，在服务器·客户端型的声音识别中，能够实现针对用户说话的快响应速度和针对用户说话的高识别率。

附图说明

图1是表示实施方式1的声音识别装置的结构的框图。

图2A、图2B是表示实施方式1的声音识别装置的硬件结构例的图。

图3是表示实施方式1的声音识别装置的词汇变更部的动作的流程图。

图4是表示实施方式1的声音识别装置的识别结果采用部的动作的流程图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示实施方式1的声音识别系统的结构的框图。

声音识别系统包括客户端侧的声音识别装置100和服务器装置200。此外，如图1所示，客户端侧的声音识别装置100连接到车载装置500。在下文中，将该车载装置500设为导航装置来进行说明。

首先，对声音识别装置100的概要进行说明。

声音识别装置100是客户端侧的声音识别装置，并且将表示住址名的词汇和表示设施名的词汇(以下记载为大词汇)作为识别对象词汇。此外，客户端侧的声音识别装置100对于作为声音操作的对象的车载装置500，将表示指示操作的操作命令的词汇和用户预先登记的词汇(以下记载为命令词汇)作为识别词汇。这里，用户预先登记的词汇是例如登记地名、及地址簿的个人名等。

客户端侧的声音识别装置100与后述的服务器侧的声音识别装置202相比，硬件资源少，CPU(Central Processing Unit：中央处理器)的处理能力也低。此外，对于大词汇，作为识别对象的词汇的数量非常大。因此，客户端侧的声音识别装置100的大词汇的识别性能比服务器侧的声音识别装置202的大词汇的识别性能差。

此外，客户端侧的声音识别装置100如上所述硬件资源较少，CPU的处理能力也较低，因此在命令词汇的识别中，无法识别出未进行与识别词典中登记的操作命令相同的说话。因此，客户端侧的声音识别装置100与服务器侧的声音识别装置202相比，可接受的说话的自由度较低。

另一方面，与服务器侧的声音识别装置202不同，客户端侧的声音识别装置100不需要经由通信网300收发数据，因此具有对用户说话的响应速度快的优点。此外，客户端侧的声音识别装置100能够不依赖于通信状况地对用户的说话进行声音识别。

接着，对声音识别装置202的概要进行说明。

声音识别装置202是服务器侧的声音识别装置，将大词汇和命令词汇作为识别对象词汇。服务器侧的声音识别装置202中，由于硬件资源丰富，CPU的处理能力也较高，所以与客户端侧的声音识别装置100相比，大词汇的识别性能优异。

另一方面，由于服务器侧的声音识别装置202需要经由通信网300收发数据，因此与客户端侧的声音识别装置100相比，对用户说话的响应速度较慢。另外，在服务器侧的声音识别装置202与客户端侧的声音识别装置100没有建立通信连接的情况下，无法获取用户的说话的声音数据，无法进行声音识别。

在实施方式1所涉及的声音识别系统中，在服务器侧的声音识别装置202与客户端侧的声音识别装置100的通信连接未建立的情况下，客户端侧的声音识别装置100针对用户的说话的声音数据，将大词汇以及命令词汇作为识别对象来进行声音识别，并输出声音识别结果。

另一方面，在服务器侧的声音识别装置202与客户端侧的声音识别装置100的通信连接已建立的情况下，客户端侧的声音识别装置100和服务器侧的声音识别装置202并行地对用户的说话的声音数据进行声音识别。此时，客户端侧的声音识别装置100从识别对象词汇中排除大词汇，仅将命令词汇变更为识别对象词汇。即，客户端侧的声音识别装置100仅使登记有命令词汇的识别词典有效。

声音识别系统将客户端侧的声音识别装置100的识别结果、或服务器侧的声音识别装置202的识别结果中的某一方的识别结果作为声音识别结果来输出。

具体地，在客户端侧的声音识别装置100的识别结果的可靠度为预先决定的阈值以上的情况下，声音识别系统将该客户端侧的声音识别装置100的识别结果作为声音识别结果来输出。

另一方面，在客户端侧的声音识别装置100的识别结果的可靠度小于预先决定的阈值、且在预先设定的待机时间内从服务器侧的声音识别装置202接收到识别结果的情况下，声音识别系统将接收到的服务器侧的声音识别装置202的识别结果作为声音识别结果来输出。另外，在客户端侧的声音识别装置100的识别结果的可靠度小于预先决定的阈值，但在待机时间内未能从服务器侧的声音识别装置202接收到识别结果的情况下，声音识别系统输出表示声音识别失败的信息。

在服务器侧的声音识别装置202与客户端侧的声音识别装置100的通信连接已建立的情况下，客户端侧的声音识别装置100将识别对象词汇限定为命令词汇。因此，在用户说出了命令的情况下，能够抑制客户端侧的声音识别装置100误识别在声音上与该命令类似的住址名或者设施名。由此，客户端侧的声音识别装置100的识别率提高，响应速度变快。

另一方面，当用户说出住址名或设施名时，客户端侧的声音识别装置100没有将大词汇作为识别对象词汇，因此，声音识别失败、或者作为可靠度较低的识别结果而获得命令的识别结果的可能性变高。其结果是，在用户说出了住址名或设施名的情况下，声音识别系统将从识别性能较高的服务器侧的声音识别装置202接收到的识别结果作为声音识别结果来输出。

接着，对客户端侧的声音识别装置100的结构进行说明。

客户端侧的声音识别装置100包括声音获取部101、声音识别部102、通信部103、通信状况获取部104、词汇变更部105和识别结果采用部106。

声音获取部101通过所连接的麦克风400获取用户的说话声音。声音获取部101例如通过PCM(Pulse Code Modulation：脉冲编码调制)对所获取的说话声音进行A/D(Analog/Digital：模拟/数字)转换。声音获取部101将转换后的数字化的声音数据输出到声音识别部102和通信部103。

声音识别部102根据从声音获取部101输入的数字化的声音数据，检测与用户说话的内容相对应的声音区间(以下记载为说话区间)。声音识别部102提取所检测到的说话区间的声音数据的特征量。声音识别部102将由后述的词汇变更部105指示的识别对象词汇作为识别对象，对提取出的特征量进行声音识别。声音识别部102将声音识别的识别结果输出到识别结果采用部106。作为声音识别部102的声音识别的方法，可以适用例如HMM(HiddenMarkov Model：隐马尔可夫模型)法之类的一般方法。声音识别部102具有用于识别大词汇和命令词汇的识别词典(未图示)。声音识别部102在由后述的词汇变更部105指示识别对象词汇时，使与所指示的识别对象词汇对应的识别词典有效。

通信部103经由通信网300建立与服务器装置200的通信部201的通信连接。通信部103将从声音获取部101输入的数字化的声音数据发送给服务器装置200。另外，通信部103如后所述，接收从服务器装置200发送的、服务器侧的声音识别装置202的识别结果。通信部103将接收到的服务器侧的声音识别装置202的识别结果输出给识别结果采用部106。

此外，通信部103以规定周期判定是否能够与服务器装置200的通信部201进行通信连接。通信部103将判定结果输出到通信状况获取部104。

通信状况获取部104基于从通信部103输入的判定结果，获取表示可否通信的信息。通信状况获取部104将表示可否通信的信息输出至词汇变更部105和识别结果采用部106。通信状况获取部104也可以构成为从外部设备获取表示可否通信的信息。

词汇变更部105基于从通信状况获取部104输入的表示可否通信的信息，决定声音识别部102要作为识别对象的词汇，并向声音识别部102发出指示。具体地，词汇变更部105参照表示可否通信的信息，在不可能与服务器装置200的通信部201进行通信连接的情况下，指示声音识别部102将大词汇和命令词汇作为识别对象词汇。另一方面，词汇变更部105在能够与服务器装置200的通信部201进行通信连接的情况下，指示声音识别部102将命令词汇作为识别对象词汇。

识别结果采用部106基于从通信状况获取部104输入的表示可否通信的信息，采用客户端侧的声音识别装置100的声音识别结果、服务器侧的声音识别装置202的声音识别结果、或者声音识别失败中的某一个。识别结果采用部106将所采用的信息输出到车载装置500。

具体而言，识别结果采用部106在通信部103与服务器装置200的通信部201的通信连接是不可能的情况下，判定从声音识别部102输入的识别结果的可靠度是否为预先决定的阈值以上。识别结果采用部106在选择出的声音识别结果的可靠度为预先决定的阈值以上的情况下，将该识别结果作为声音识别结果输出到车载装置500。另一方面，识别结果采用部106在选择出的识别结果的可靠度小于预先决定的阈值的情况下，将表示声音识别失败的信息输出到车载装置500。

另一方面，识别结果采用部106在通信部103与服务器装置200的通信部201的通信连接是可能的情况下，判定从声音识别部102输入的识别结果的可靠度是否为预先决定的阈值以上。识别结果采用部106在选择出的识别结果的可靠度为预先决定的阈值以上的情况下，将该识别结果作为声音识别结果输出到车载装置500。另一方面，识别结果采用部106在选择出的识别结果的可靠度小于预先决定的阈值的情况下，进行待机，等待经由通信部103输入服务器侧的声音识别装置202的识别结果。识别结果采用部106在预先设定的待机时间内从服务器侧的声音识别装置202获取了识别结果的情况下，将获取的识别结果作为声音识别结果输出到车载装置500。另一方面，识别结果采用部106在预先设定的待机时间内没有从服务器侧的声音识别装置202获取识别结果的情况下，将表示声音识别失败的信息输出到车载装置500。

接着，对服务器装置200的结构进行说明。

服务器装置200由通信部201和声音识别装置202构成。

通信部201经由通信网300建立与客户端侧的声音识别装置100的通信部103的通信连接。通信部201接收从客户端侧的声音识别装置100发送的声音数据。通信部201将接收到的声音数据输出给服务器侧的声音识别装置202。另外，通信部201将后述的服务器侧的声音识别装置202的识别结果发送给客户端侧的声音识别装置100。

服务器侧的声音识别装置202从由通信部201输入的声音数据中检测说话区间，提取所检测出的说话区间的声音数据的特征量。服务器侧的声音识别装置202使用大词汇和命令词汇作为识别对象词汇，并对所提取的特征量进行声音识别。服务器侧的声音识别装置202将识别结果输出到通信部201。

接下来，说明声音识别装置100的硬件结构例。

图2A和图2B是示出声音识别装置100的硬件结构例的图。

声音识别装置100中的通信部103是与服务器装置200的通信部201之间进行无线通信的收发装置100a。声音识别装置100中的声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106的各功能由处理电路实现。即，声音识别装置100具有用于实现上述各功能的处理电路。该处理电路可以是如图2A所示的专用硬件的处理电路100b，也可以是如图2B所示的执行存储器100d中存储的程序的处理器100c。

如图2A所示，在声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105以及识别结果采用部106是专用的硬件的情况下，处理电路100b例如相当于单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(Application SpecificIntegrated Circuit：专用集成电路)、FPGA(Field-programmable Gate Array：现场可编程门阵列)、或者将它们组合而成的部件。声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106的各部的功能可以分别由处理电路实现，或者可以将各部的功能统一由一个处理电路实现。

如图2B所示，在声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106是处理器100c的情况下，通过软件、固件或软件和固件的组合来实现各部的功能。软件或固件记述为程序，存储于存储器100d中。处理器100c通过读取并执行存储在存储器100d中的程序，实现声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106的各功能。即，声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106包括用于存储程序的存储器100d，该程序在由处理器100c执行时最终执行后述的图3和图4中所示的各步骤。这些程序还可以说是使计算机执行声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106的步骤或方法的程序。

在此，处理器100c是指例如CPU、处理装置、运算装置、处理器、微处理器、微型计算机、或DSP(Digital Signal Processor：数字信号处理器)等。

存储器100d例如可以是RAM(Random Access Memory：随机存取存储器)、ROM(ReadOnly Memory：只读存储器)、闪存、EPROM(Erasable Programmable ROM：可擦除可编程ROM)、EEPROM(Electrically EPROM：电EPROM)等非易失性或易失性的半导体存储器，也可以是硬盘、软盘等磁盘，还可以是迷你盘、CD(Compact Disc：压缩光盘)、DVD(DigitalVersatile Disc：数字化通用光盘)等光盘。

另外，声音获取部101、声音识别部102、通信状况获取部104、词汇变更部105和识别结果采用部106的各功能可以由专用硬件实现一部分，而由软件或固件实现一部分。如上所述，声音识别装置100中的处理电路100b可以通过硬件、软件、固件或它们的组合来实现上述各功能。

接着，说明声音识别装置100的动作。

首先，将参照图3的流程图说明识别对象词汇的设定。

图3是表示实施方式1所涉及的声音识别装置100的词汇变更部105的动作的流程图。

当从通信状况获取部104输入表示可否通信的信息时(步骤ST1)，词汇变更部105参照所输入的表示可否通信的信息，判定是否能与服务器装置200的通信部201进行通信连接(步骤ST2)。如果能与服务器装置200的通信部201进行通信连接(步骤ST2：是)，则词汇变更部105指示声音识别部102将命令词汇作为识别对象词汇(步骤ST3)。另一方面，如果不能与服务器装置200的通信部201进行通信连接(步骤ST2：否)，则词汇变更部105指示声音识别部102将大词汇和命令词汇作为识别对象词汇(步骤ST4)。在进行步骤ST3或ST4的处理之后，词汇变更部105结束处理。

接着，参照图4的流程图来说明识别结果的采用。

图4是表示实施方式1所涉及的声音识别装置100的识别结果采用部106的动作的流程图。另外，声音识别部102根据基于上述图3的流程图指示的识别对象词汇来进行将哪个识别词典设为有效的设定。

当从通信状况获取部104输入表示可否通信的信息时(步骤ST11)，识别结果采用部106参照所输入的表示可否通信的信息，判定是否能与服务器装置200的通信部201进行通信连接(步骤ST12)。如果能与服务器装置200的通信部201进行通信连接(步骤ST12：是)，则识别结果采用部106获取从声音识别部102输入的识别结果(步骤ST13)。在步骤ST13中由识别结果采用部106获取的识别结果是在仅命令词汇的识别词典变得有效的状态下由声音识别部102进行识别处理的结果。

识别结果采用部106判定在步骤ST13中获取的识别结果的可靠度是否为预先决定的阈值以上(步骤ST14)。如果可靠度为预先决定的阈值以上(步骤ST14：是)，则识别结果采用部106将在步骤ST13中获取的声音识别部102的识别结果作为声音识别结果输出到车载装置500(步骤ST15)。然后，识别结果采用部106结束处理。

另一方面，在可靠度不在预先决定的阈值以上的情况下(步骤ST14：否)，识别结果采用部106判定是否获取了服务器侧的声音识别装置202的识别结果(步骤ST16)。在获取了服务器侧的声音识别装置202的识别结果的情况下(步骤ST16：是)，识别结果采用部106将服务器侧的声音识别装置202的识别结果作为声音识别结果输出到车载装置500(步骤ST17)。然后，识别结果采用部106结束处理。

另一方面，在没有获取服务器侧的声音识别装置202的识别结果的情况下(步骤ST16：否)，识别结果采用部106判定是否经过了预先设定的待机时间(步骤ST18)。在未经过预先设定的待机时间的情况下(步骤ST18：否)，返回步骤ST16的判定处理。另一方面，在经过了预先设定的待机时间的情况下(步骤ST18：是)，识别结果采用部106将表示声音识别失败的信息输出到车载装置500(步骤ST19)。然后，识别结果采用部106结束处理。

如果不能与服务器装置200的通信部201进行通信连接(步骤ST12：否)，则识别结果采用部106获取从声音识别部102输入的识别结果(步骤ST20)。在步骤ST13中由识别结果采用部106获取的识别结果是在大词汇和命令词汇的识别词典变得有效的状态下由声音识别部102进行识别处理的结果。

识别结果采用部106判定在步骤ST20中获取的识别结果的可靠度是否为预先决定的阈值以上(步骤ST21)。如果可靠度为预先决定的阈值以上(步骤ST21：是)，则识别结果采用部106将在步骤ST20中获取的声音识别部102的识别结果作为声音识别结果输出到车载装置500(步骤ST22)。然后，识别结果采用部106结束处理。另一方面，如果可靠度不在预先决定的阈值以上(步骤ST21：否)，则识别结果采用部106将表示声音识别失败的信息输出到车载装置500(步骤ST23)。然后，识别结果采用部106结束处理。

另外，通信状况获取部104除了上述的结构以外，还可以具备获取用于预测通信部103与服务器装置200的通信部201之间的通信状况的信息的结构。这里，用于预测通信状况的信息是用于预测通信部103和服务器装置200的通信部201之间的通信连接是否在规定时间内变为不可通信的信息。具体地，是表示搭载有客户端侧的声音识别装置100的车辆在30秒后进入隧道的信息、或表示车辆在前方1km处进入隧道的信息等。通信状况获取部104经由通信部103从外部设备(未图示)获取用于预测该通信状况的信息。通信状况获取部104将所获取的用于预测通信状况的信息输出至词汇变更部105和识别结果采用部106。

词汇变更部105基于从通信状况获取部104输入的表示可否通信的信息和变得不可通信的状况的预测结果，针对声音识别部102指定识别对象词汇。具体而言，词汇变更部105在通信部103和服务器装置200的通信部201之间的通信连接是不可能的情况下，或者判定为在规定时间内变得不可通信的情况下，指示声音识别部102将大词汇和命令词汇作为识别对象词汇。另一方面，词汇变更部105在判定为与服务器装置200的通信部201的通信连接是可能的、且在规定时间内不会变得不可通信的情况下，指示声音识别部102将命令词汇作为识别对象词汇。

识别结果采用部106基于从通信状况获取部104输入的表示可否通信的信息和变得不可通信的状况的预测结果，采用客户端侧的声音识别装置100的声音识别结果、服务器侧的声音识别装置202的声音识别结果、或者声音识别失败中的某一个。

具体而言，识别结果采用部106在通信部103与服务器装置200的通信部201的通信连接是不可能的情况下，或者判定为在规定时间内变得不可通信的情况下，判定从声音识别部102输入的识别结果的可靠度是否为预先决定的阈值以上。

另一方面，识别结果采用部106在判定为与服务器装置200的通信部201的通信连接是可能的、且在规定时间内不会变得不可通信的情况下，判定从声音识别部102输入的识别结果的可靠度是否为预先决定的阈值以上。此外，识别结果采用部106根据需要进行待机，等待服务器侧的声音识别装置202的识别结果的输入。

如上所述，根据本实施方式1，是利用客户端侧的声音识别装置100和服务器侧的声音识别装置202对用户的说话进行声音识别的服务器·客户端型声音识别系统中的、客户端侧的声音识别装置100，其构成为包括：声音识别部101，该声音识别部101识别用户的说话；通信状况获取部104，该通信状况获取部104获取与具有服务器侧的声音识别装置202的服务器装置200的通信状况；及词汇变更部105，该词汇变更部105基于所获取的通信状况，变更声音识别部102的识别对象词汇，因此，能够实现针对用户说话的快响应速度和针对用户说话的高识别率。

此外，根据本实施方式1，构成为声音识别部102将命令词汇和大词汇作为识别对象词汇，词汇变更部105在通信状况获取部104所获取的通信状况表示与服务器装置200可以通信的情况下，将声音识别部102的识别对象词汇变更为命令词汇，在通信状况获取部104所获取的通信状况表示与服务器装置200不可通信的情况下，将声音识别部102的识别对象词汇变更为命令词汇和大词汇，因此，能够实现针对用户说话的快响应速度和针对用户说话的高识别率。

此外，根据本实施方式1，构成为包括识别结果采用部106，该识别结果采用部106基于通信状况获取部104所获取的通信状况、以及声音识别部的识别结果的可靠度，采用声音识别部101的识别结果、服务器侧的声音识别装置202的识别结果、或者声音识别失败中的某一个，因此，能够实现针对用户说话的快响应速度和针对用户说话的高识别率。

此外，根据本实施方式1，构成为通信状况获取部104获取用于预测与服务器装置200的通信状况的信息，词汇变更部105参照通信状况获取部104所获取的用于预测通信状况的信息，在判定为通信状况在规定时间内变为不可通信的情况下，将声音识别部102的识别对象词汇变更为命令词汇，因此，能防止在声音识别处理的中途通信状况变差。由此，声音识别装置100能够可靠地获取声音识别结果，并将其输出到车载装置500。

另外，本发明申请在其发明范围内可以对实施方式的任意结构要素进行变形，或者在实施方式中省略任意的结构要素。

工业上的实用性

本发明的声音识别装置可适用于在通信状态随着移动体的移动而变化的环境中对用户的说话进行声音识别处理的设备等。

标号说明

100、202声音识别装置、101声音获取部、102声音识别部、103、201通信部、104通信状况获取部、105词汇变更部、106识别结果采用部、200服务器装置。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：音频信号编码和解码

声音识别装置及声音识别方法

相关技术

网友询问留言