关键字检测装置、关键字检测方法以及程序

文档序号：704822 发布日期：2021-04-13 浏览：4次 >En<

阅读说明：本技术 关键字检测装置、关键字检测方法以及程序 (Keyword detection device, keyword detection method, and program ) 是由小林和则齐藤翔一郎伊藤弘章于 2019-08-28 设计创作，主要内容包括：抑制对并未意图要检测关键字却说出的关键字的误检测。关键字检测单元(11)生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果。声音检测单元(12)生成表示从输入声音检测出声音区间的结果的声音区间检测结果。延迟单元(13)向声音区间检测结果赋予至少比关键字的发言时间长的延迟。句中关键字排除单元(14)在关键字检测结果表示检测出关键字且声音区间检测结果表示检测出声音区间时,将关键字检测结果更新为表示未检测出关键字的结果。(False detection of a keyword spoken without intending to detect the keyword is suppressed. A keyword detection unit (11) generates a keyword detection result indicating the result of detecting the utterance of a specific keyword from an input voice. A voice detection unit (12) generates a voice section detection result indicating the result of detecting a voice section from an input voice. A delay unit (13) gives a delay longer than at least the utterance time of the keyword to the voice section detection result. When the keyword detection result indicates that a keyword is detected and the voice section detection result indicates that a voice section is detected, a sentence keyword exclusion unit (14) updates the keyword detection result to a result indicating that a keyword is not detected.)

关键字检测装置、关键字检测方法以及程序

技术领域

本发明涉及检测关键字的发音的技术。

背景技术

例如在智能扬声器或车载系统等能够基于声音进行控制的机器中，有的搭载了被称为关键字唤醒的功能，该功能在成为触发的关键字被发音时开始声音辨识。在这样的功能中，需要以声音信号作为输入并检测关键字的发音的技术。

图1是非专利文献1中公开的现有技术的结构。在现有技术中，如果关键字检测单元91从被输入的声音信号检测出关键字的发音，则目标音输出单元99使开关接通，将该声音信号作为成为声音辨识等的对象的目标音输出。

现有技术文献

非专利文献

非专利文献1:Sensory，Inc.，“TrulyHandsfreeTM”，[在线(online)]，[平成30年8月17日检索]，互联网<URL:http://www.sensory.co.jp/product/thf.htm>

发明内容

发明要解决的课题

但是，在现有技术中，即使不是意图要检测关键字的发言，如果在发言之中包含着关键字或接近于关键字的音素，则有时对该关键字或接近于关键字的音素进行反应，造成关键字的误检测。例如能够举出如下情况等：在关键字是“你好ABC”的情况下，如对于利用者说出“关键字是‘你好ABC’”那样，虽然并未意图要检测关键字，却说出了关键字。

本发明的目的是，鉴于上述那样的技术课题，抑制对并未意图要检测关键字却说出的关键字的误检测。

用于解决课题的手段

为了解决上述的课题，本发明的一方式的关键字检测装置包含：关键字检测单元，生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果；声音检测单元，生成表示从输入声音检测出声音区间的结果的声音区间检测结果；延迟单元，向声音区间检测结果赋予至少比关键字的发言时间长的延迟；以及句中关键字排除单元，在关键字检测结果表示检测出关键字且声音区间检测结果表示检测出声音区间时，将关键字检测结果更新为表示未检测出关键字的结果。

发明效果

根据本发明，能够抑制对并未意图要检测关键字却说出的关键字的误检测。

附图说明

图1是例示以往的关键字检测装置的功能结构的图。

图2是例示第一实施方式的关键字检测装置的功能结构的图。

图3是例示第一实施方式的关键字检测方法的处理过程的图。

图4是用于说明第一实施方式的原理的图。

图5是例示第二实施方式的关键字检测装置的功能结构的图。

图6是例示第二实施方式的关键字检测方法的处理过程的图。

图7是用于说明第二实施方式的原理的图。

图8是例示第三实施方式的关键字检测装置的功能结构的图。

具体实施方式

以下，针对本发明的实施方式详细地进行说明。另外，在附图中对具有相同的功能的结构单元附加相同的序号，并省略重复说明。

[第一实施方式]

第一实施方式的关键字检测装置1以利用者的声音(以下称为“输入声音”)作为输入，如果从输入声音检测出关键字，则输出作为声音辨识等的对象的目标音。关键字检测装置1如图2所示，具备关键字检测单元11、声音检测单元12、延迟单元13、句中关键字排除单元14以及目标音输出单元19。该关键字检测装置1通过进行图3所示的各步骤的处理来实现第一实施方式的关键字检测方法S1。

关键字检测装置1例如是在具有中央运算处理装置(中央处理单元(CPU：CentralProcessing Unit))、主存储装置(随机存取存储器(RAM：Random Access Memory))等的公知或者专用的计算机中读入特殊的程序而构成的特殊的装置。关键字检测装置1例如基于中央运算处理装置的控制来执行各处理。向关键字检测装置1输入的数据或在各处理中得到的数据例如被储存在主存储装置中，主存储装置中储存的数据根据需要被向中央运算处理装置读出并利用于其他处理。关键字检测装置1的各处理单元也可以是至少一部分由集成电路等硬件构成。

以下，参考图3，针对第一实施方式的关键字检测装置所执行的关键字检测方法进行说明。

在步骤S11中，关键字检测单元11从输入声音检测预先决定的特定的关键字的发音。关键字的检测例如通过使用事先学习的神经网络，判定以短时间的周期求出的功率谱的模式(pattern)是否与事先收录的关键字的模式类似来进行。关键字检测单元11将表示检测出关键字(“检测出关键字”)或者未检测出关键字(“未检测出关键字”)的关键字检测结果向句中关键字排除单元14输出。

在步骤S12中，声音检测单元12从输入声音检测声音区间。声音区间的检测例如如下进行。首先，根据输入声音的长时间平均来求出稳态噪声级(stationary noise level)N(t)。接着，对稳态噪声级N(t)乘以特定的常数α来设定阈值。并且，将短时间平均级P(t)大于阈值的区间检测为声音区间。此外，也可以通过将谱(spectrum)或倒谱(cepstrum)的形状与声音的特征是否一致也加入判定要素那样的方法，来检测声音区间。声音检测单元12将表示检测出声音区间(“检测出声音”)或者未检测出声音区间(“未检测出声音”)的声音区间检测结果向延迟单元13输出。

在短时间平均级P(t)的计算中，计算施加了平均的关键字发言时间T的矩形窗而得到的均方根功率(root mean square power)、或乘以指数窗而得到的均方根功率。如果将离散时刻t的功率设为P(t)，将输入信号设为x(t)，则成为：

[数1]

P(t)＝αP(t-1)+(1-α)x(t)²

其中，α是遗忘系数，预先设定0＜α＜1的值。α被设定以使时间常数成为平均的关键字发言时间T(样本)。即，α＝1-1/T。或者也可以如下式那样，计算施加了关键字发言时间T的矩形窗而得到的绝对值平均功率、或乘以指数窗而得到的绝对值平均功率。

[数2]

P(t)＝αP(t-1)+(1-α)|x(t)|

在步骤S13中，延迟单元13使声音检测单元12所输出的声音区间检测结果，延迟相当于将关键字检测的检测延迟时间、关键字的平均的发言时间和余量时间相加而得到的时间。在图4中表示意图要检测关键字的发言(图4A)与在句中出现关键字的发言(图4B)中的各时间的关系。余量时间设为数百毫秒至数秒程度。延迟单元13将延迟后的声音区间检测结果向句中关键字排除单元14输出。

在步骤S14中，句中关键字排除单元14从关键字检测单元11所输出的关键字检测结果排除与句中的关键字相关的检测结果，并向目标音输出单元19输出。具体而言，在关键字检测单元11所输出的关键字检测结果是“检测出关键字”时，且在延迟单元13所输出的声音区间检测结果是“检测出声音”的情况下，判断为该关键字是句中的关键字，将关键字检测结果更新为“未检测出关键字”并输出。在关键字检测单元11所输出的关键字检测结果是“检测出关键字”时，且在延迟单元13所输出的声音区间检测结果是“未检测出声音”的情况下，判断为意图要检测关键字的发言，原样输出“检测出关键字”。此时也可以设为如下方法：在声音区间检测结果是“检测出声音”的情况下，不是始终将关键字检测结果更新为“未检测出关键字”，而是设置对于关键字检测的似然的阈值，仅在关键字检测的似然低于阈值时，将关键字检测结果更新为“未检测出关键字”。

在步骤S19中，目标音输出单元19在句中关键字排除单元14所输出的关键字检测结果是“检测出关键字”的情况下，使开关接通，将输入声音作为目标音输出。在句中关键字排除单元14所输出的关键字检测结果是“未检测出关键字”的情况下，使开关断开而停止输出。

通过这样构成，根据第一实施方式，能够排除在利用者所说出的句中出现的关键字的检测，能够减少对并未意图要检测关键字却说出的关键字的误检测。

[第二实施方式]

第二实施方式的关键字检测装置2与第一实施方式同样，以利用者的声音作为输入，如果从输入声音检测出关键字，则输出作为声音辨识等的对象的目标音。关键字检测装置2如图5所示，除了第一实施方式的关键字检测单元11、声音检测单元12、延迟单元13、句中关键字排除单元14以及目标音输出单元19之外，还具备缓冲单元21。该关键字检测装置2通过进行图6所示的各步骤的处理来实现第二实施方式的关键字检测方法S2。

以下，参考图6，针对第二实施方式的关键字检测装置所执行的关键字检测方法，以与第一实施方式的关键字检测方法的差异点为中心进行说明。

在步骤S21中，缓冲单元21将延迟单元13所输出的声音区间检测结果以先入先出(first in first out)方式保持与一定时间相应的量。在图7中表示意图要检测关键字的发言(图7A)与在句中出现关键字的发言(图7B)中的各时间的关系。所保持的时间(FIFO长度)设为数百毫秒～数秒程度。

在步骤S14中，句中关键字排除单元14在关键字检测单元11所输出的关键字检测结果是“检测出关键字”时，且在缓冲单元21中保持的声音区间检测结果只要有一个是“检测出声音”的情况下，判断为该关键字是句中的关键字，将关键字检测结果更新为“未检测出关键字”并输出。在关键字检测单元11所输出的关键字检测结果是“检测出关键字”时，且在缓冲单元21中保持的声音区间检测结果全部都是“未检测出声音”的情况下，判断为意图要检测关键字的发言，原样输出“检测出关键字”。

通过这样构成，根据第二实施方式，在缓冲单元21所保持的时间区间整体中判定有无声音，因此能够防止偶然在发言之间的休止区间中判定是否为句中的关键字而对在句中出现的关键字进行误检测。

[第三实施方式]

第三实施方式的关键字检测装置3以多声道的声音信号作为输入，将检测出关键字的声道的声音信号作为成为声音辨识等的对象的目标音输出。关键字检测装置3如图8所示，除了具备与输入声音的声道数M(≥2)相应的第一实施方式的关键字检测单元11、延迟单元13、句中关键字排除单元14以及目标音输出单元19的组，还具备M声道输入输出的多输入声音检测单元32。

多输入声音检测单元32以多声道的声音信号作为输入，针对1以上且M以下的各整数i，将从声道i的声音信号检测出声音区间的声音区间检测结果向延迟单元13-i输出。多输入声音检测单元32通过在声道间对声音级信息进行交互，能够更准确地检测声音区间。多声道输入的声音区间检测的方法能够使用下述参考文献1中记载的方法等。

〔参考文献1〕日本特开2017-187688号公报

通过这样构成，根据第三实施方式，在输入了多声道的声音信号时，能够高精度地检测声音区间，结果提高了关键字检测的精度。

以上，针对本发明的实施方式进行了说明，但具体的结构不限于这些实施方式，即使在不脱离本发明的宗旨的范围内适宜进行设计的变更等，也显然包含在本发明中。在实施方式中说明的各种处理不仅按照记载的顺序以时间序列执行，也可以根据执行处理的装置的处理能力或者根据需要而并行地或者单独地执行。

[程序、记录介质]

在由计算机实现上述实施方式中说明的各装置中的各种处理功能的情况下，各装置应具有的功能的处理内容通过程序被描述。并且，通过由计算机执行该程序，上述各装置中的各种处理功能在计算机上实现。

描述了该处理内容的程序能够事先被记录于能够由计算机读取的记录介质。作为能够由计算机读取的记录介质，例如也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何介质。

此外，该程序的流通例如通过将记录了该程序的DVD、CD-ROM等可移动型记录介质销售、转让、借出等来进行。进而，也可以构成为：将该程序事先储存于服务器计算机的存储装置，经由网络，从服务器计算机向其他计算机转发该程序，从而使该程序流通。

执行这样的程序的计算机例如，首先将可移动型记录介质中记录的程序或从服务器计算机转发的程序暂时储存至自身的存储装置。并且，在执行处理时，该计算机读取自身的存储装置中储存的程序，并执行依照读取的程序的处理。此外，作为该程序的别的执行方式，也可以由计算机从可移动型记录介质直接读取程序，并执行依照该程序的处理，进而也可以在每次从服务器计算机向该计算机转发程序时，逐次执行依照所获取的程序的处理。此外，也可以构成为：不进行程序从服务器计算机向该计算机的转发，而利用仅通过其执行指示和结果取得来实现处理功能的所谓ASP(应用服务提供商(Application ServiceProvider))型的服务，来执行上述的处理。另外，在本方式中的程序中，设为包含供电子计算机用于处理且等价于程序的信息(虽然不是对于计算机的直接的指令，但是具有对计算机的处理进行规定的性质的数据等)。

此外，在该方式中，设为通过使计算机上执行特定的程序来构成本装置，但也可以将这些处理内容的至少一部分以硬件方式实现。

标号说明：

1、2、3、9 关键字检测装置

11、91 关键字检测单元

12 声音检测单元

13 延迟单元

14 句中关键字排除单元

19、99 目标音输出单元

21 缓冲单元

32 多输入声音检测单元

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：半导体存储装置

关键字检测装置、关键字检测方法以及程序

相关技术

网友询问留言