一种语音结束端点检测方法及装置

文档序号：1629497 发布日期：2020-01-14 浏览：13次 >En<

阅读说明：本技术 一种语音结束端点检测方法及装置 (Voice end point detection method and device ) 是由龙嘉裕于 2019-09-17 设计创作，主要内容包括：本申请实施例提供一种语音结束端点检测方法及装置,其中方法包括：获取用户输入的语音信号,并将所述语音信号转换为文本信息；确定所述文本信息对应的语境类型,和/或所述语音信号中的非语言特征信息；根据所述语境类型和/或所述非语言特征信息确定检测时长；识别所述文本信息中的每个字在所述语音信号中对应的发音区间,当确定所述文本信息中的第一字的发音区间之后的所述检测时长内,不包括第二字的发音区间,则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点；当确定所述第一字所处的句子的语义结构完整时,将第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。(The embodiment of the application provides a method and a device for detecting a voice ending endpoint, wherein the method comprises the following steps: acquiring a voice signal input by a user, and converting the voice signal into text information; determining a context type corresponding to the text information and/or non-language feature information in the voice signal; determining a detection duration according to the context type and/or the non-language feature information; identifying a pronunciation interval corresponding to each word in the text information in the voice signal, and when the pronunciation interval of a second word is not included in the detection duration after the pronunciation interval of a first word in the text information is determined, taking the ending time point of the pronunciation interval corresponding to the first word in the voice signal as a first endpoint; and when the semantic structure of the sentence in which the first word is positioned is determined to be complete, taking the first endpoint as a voice ending endpoint of the sentence in which the first word is positioned in the voice signal.)

一种语音结束端点检测方法及装置

技术领域

本申请涉及语音检测技术领域，尤其涉及一种语音结束端点检测方法及装置。

背景技术

随着科技的进步，人们的工作、生活几乎每天都应用到计算机以及网络，为了更便捷、高效的为工作、生活服务，语音识别在各个领域里的应用日益广泛，比如，人机交互式的语音识别，人与人之间沟通交流时以语音识别的方式记录两者的对话内容，亦或是随时随地的以语音的方式记录自己的所思所想等等，这一识别方式已逐渐成为语音应用发展的趋势。语音识别的过程主要包括4个步骤，分别是：语音信号采集、语音信号的特征参数提取、声学模型与模式匹配、语言模型与语言处理。其中，在第一步骤中的语音信号采集时，首先要对用户输入的语音信号进行判断，准确找出语音信号的起始点和终止点，从而知晓用户的这句话是否已说完，这就应用到端点检测技术(voice activity detection，VAD)，VAD技术作为语音识别系统与处理阶段遇到的第一个关键技术，其准确性在某种程度上直接决定了语音识别系统的成败。

现有技术中的VAD技术主要是获取用户的语音信号，根据过零率和声音量级等指标去检测一句话是否结束，具体的，如果在获取的语音流中前面连续多个帧的语音能量值小于预先设定的语音能量低点阈值，而接下来连续多个帧的语音能量值大于语音能量低点阈值，则在语音能量值增大的地方就是语音信号的起点；同样的，如果连续多个帧的语音能量值较大，随后多个帧的语音能量值变小，即小于预先设定的语音能量高点阈值，并且持续一定的时长，则认为在语音能量值减小的地方就是语音信号的终点。

从中可以看出，现有技术中的VAD技术仅是从语音能量的有无以及固定的检测时长中确定出语音信号的起点和终点，但现实生活的很多场景中，用户说话时会遇到各种情况，仅从语音能量的有无以及固定的检测时长是无法灵活应对这些情况的，比如，用户边思考边回答，这时犹豫、停顿的时间就会有所延长；再比如用户在说话时被打断、***话等，这就导致VAD技术检测的通用性较差，准确率较低。

综上所述，现有技术中的VAD技术仅仅根据语音能量来判断句子的结束，导致检测的准确率较低。

发明内容

本申请实施例提供一种语音结束端点检测方法及装置，用以解决现有技术中端点检测的准确率较低的问题。

本申请实施例提供一种语音结束端点检测方法，该方法包括：获取用户输入的语音信号，并将所述语音信号转换为文本信息；确定所述文本信息对应的语境类型，和/或所述语音信号中的非语言特征信息；根据所述语境类型和/或所述非语言特征信息确定检测时长；识别所述文本信息中的每个字在所述语音信号中对应的发音区间，当确定所述文本信息中的第一字的发音区间之后的所述检测时长内，不包括第二字的发音区间，则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点；所述第一字为所述文本信息中的任一字，所述第二字位于所述第一字之后且与所述第一字相邻；当确定所述第一字所处的句子的语义结构完整时，将所述第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。

通过这种方法先得到句子对应的语音信号的结束时间点，即第一端点；再进一步对句子语义结构完整性做判断，最终确定第一端点是否为语音结束端点，从而可以提高语音结束端点检测的准确率。

一种可能的实现方式，所述方法还包括：当确定所述第一字所处的句子的语义结构不完整时，采用自然语言理解NLU方式确定所述句子是否结束；若确定所述句子结束，则将所述第一端点作为所述句子在所述语音信号中的语音结束端点；否则，请求所述用户重新输入所述语音信号或者向所述用户发送指示信息，所述指示信息用于提示所述用户确认所述句子是否结束。

一种可能的实现方式，所述根据所述语境类型和/或当所述非语言特征信息确定检测时长，包括：当所述语境类型为疑问语境时，和/或当所述非语言特征信息包括拖音信息、犹豫信息以及延迟信息中的至少一种时，将第一时长作为所述检测时长；当所述语境类型不为所述疑问语境时，且所述非语言特征信息不包括拖音信息、犹豫信息以及延迟信息时，将第二时长作为所述检测时长，所述第一时长大于所述第二时长。

示例性的，所述第一时长可以大于200毫秒且小于2秒；所述第二时长小于或等于200毫秒。

一种可能的实现方式，所述确定所述文本信息对应的语境类型，包括：预先收集不同的疑问句；分析所述疑问句的语言成分构成，提取出具有疑问特征的词组，存储为词组集；当获取所述文本信息时，根据所述词组集，识别并确定所述文本信息对应的语境类型。

本申请实施例提供一种语音结束端点检测装置，具体包括获取单元，用于获取用户输入的语音信号，并将所述语音信号转换为文本信息；处理单元，用于确定所述文本信息对应的语境类型，和/或所述语音信号中的非语言特征信息；根据所述语境类型和/或所述非语言特征信息确定检测时长；所述处理单元，还用于识别所述文本信息中的每个字在所述语音信号中对应的发音区间，当确定所述文本信息中的第一字的发音区间之后的所述检测时长内，不包括第二字的发音区间，则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点；所述第一字为所述文本信息中的任一字，所述第二字位于所述第一字之后且与所述第一字相邻；当确定所述第一字所处的句子的语义结构完整时，将所述第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。

一种可能的实现方式，所述处理单元还用于当确定所述第一字所处的句子的语义结构不完整时，采用自然语言理解NLU技术确定所述句子是否结束；若确定所述句子结束，则将所述第一端点作为所述句子在所述语音信号中的语音结束端点；否则，请求所述用户重新输入所述语音信号或者向所述用户发送指示信息，所述指示信息用于提示所述用户确认所述句子是否结束。

一种可能的实现方式，所述处理单元还用于当所述语境类型为疑问语境时，和/或当所述非语言特征信息包括拖音信息、犹豫信息以及延迟信息中的至少一种时，将第一时长作为所述检测时长；当所述语境类型不为所述疑问语境时，且所述非语言特征信息不包括拖音信息、犹豫信息以及延迟信息时，将第二时长作为所述检测时长，所述第一时长大于所述第二时长。

本申请实施例提供一种计算机可读存储介质，所述计算机存储介质中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述任一种可能的设计中的方法。

本申请实施例提供一种计算机程序产品，当计算机读取并执行所述计算机程序产品时，使得计算机执行上述任一种可能的设计中的方法。

本申请实施例提供一种芯片，所述芯片与存储器相连，用于读取并执行所述存储器中存储的软件程序，以实现上述任一种可能的设计中的方法。

本申请实施例提供了一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现上述任一种可能的设计中的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

利用本发明实施例提供的一种语音结束端点检测方法及装置，具有以下有益效果：通过对用户输入的语音信号确定对应的语境类型，和/或非语言特征信息，以便动态调节语音结束端点的检测时长来合理确定句子中字的发音区间结束的时间点；再结合句子的语义结构完整性分析，判断这个时间点是否为句子的语音结束端点，从而保证检测句子的语音结束端点的准确率。

附图说明

图1为本申请实施例提供的一种手机结构示意图；

图2为本申请实施例提供的一种语音结束端点检测方法的流程图；

图3为本申请实施例提供的一种确定第一端点的示意图；

图4为本申请实施例提供的一种浅层语义分析的流程图；

图5为本申请实施例提供的一种深层语义分析的流程图；

图6为本申请实施例提供的一种语音结束端点检测装置结构示意图。

具体实施方式

下面结合说明书附图对本申请实施例做详细描述。

在描述本申请实施例之前，先对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)、语音端点检测VAD，是指从连续的语音流中检测出有效的语音段，包括两个方面，检测出有效语音的起始点即前端点和检测出有效语音的结束点即后端点，采用短时能量技术区分有话段和无话段。

2)、自动语音识别技术(automatic speech recognition，ASR)是指将人的语音转换为文本的技术。

3)、话轮，是指在日常会话中，说话者在任意时刻里连续不断地说出具有并发挥着某种交际功能的话，其结尾的标志是说话者和听话者进行角色互换或双方均以沉默作为放弃话轮的信号。

4)、话轮转换，是指说话者和受话者之间的话轮能够顺利交接。

5)、口语转写技术，是指一种用于标记对话的技术，采用声纹识别和短时能量技术，把非语言的交互特征标记在撰写的语料上，以便获取更加丰富的语境信息。

6)、浅层语义分析，是根据句子中谓词的语义角色成分判断句子的完整性；其中，语义角色成分包括核心语义角色和附属语义角色。比如，给定一个句子，根据句子中谓词的相应语义角色成分，包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)，以句子的谓词为中心，研究句子中各成分与谓词之间的关系来判断分析句子的完整性。

7)、语义角色标注，是指以句子为单位，分析句子的谓词-论元结构，针对句子中的核心谓词来确定句子中的论元以及论元的角色。采用基于规则的方法，例如遍历语法树、句法依存树等方法，从句子中剪除掉不可能成为论元的词，获得谓词的角色链，从候选论元中识别出所有属于该谓词的论元；对识别出的论元赋予语义角色并标注，对标注结果进行处理，比如删除语义重复的论元等。

8)、深层语义分析，是指对句子真实语义进行分析以判断句子的完整性。

9)、增量索引，是指生成各个索引文件，将这些索引文件按照策略进行合并，形成一个或若干个大的索引文件，当有新数据增加进来时进行索引，形成一段独立的索引数据，当越来越多的新数据进行索引时就生成了一个索引数据集合和管理这些索引数据的索引信息集合，在索引信息集合中保存了每个索引文件所在的目录、索引文件的名称，以及此索引文件中包含的文档数量。当进行查询时，先访问这个索引信息集合，根据这个集合里面的信息访问各个索引数据，然后将从每个索引数据文件中得到的结果集进行合并，形成一个完整的结果集。

本申请实施例可以适用于任何电子设备，诸如手机、平板电脑、可穿戴设备(例如，手表、手环、智能头盔等)、车载设备、智能家居、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等。

以电子设备手机为例，图1为一种手机的结构示意图，为了便于说明，图1仅示出了手机的主要部件。如图1所示，手机100包括应用耦合到存储器102的至少一个处理器101、输入单元103、触控面板104、其它输入设备105、显示单元106、显示屏107、第一摄像头108、第二摄像头109、音频电路110、麦克风111等。其中，至少一个处理器101主要用于对通信协议以及通信数据进行处理，以及对整个电子设备进行控制，执行软件程序，处理软件程序的数据，例如用于支持电子设备执行对接收的语音信息做语音结束端点检测的处理等。存储器102主要用于存储软件程序和数据。输入单元103主要用于接收用户对电子设备的触控面板104的触屏、文字等的输入。显示屏107，主要用于电子设备的主界面、各个APP的应用界面等，本申请实施例中显示屏107可以显示语音信号转换处理后的文本信息。麦克风111主要用于获取用户输入的语音信号。本领域技术人员可以理解，图1中示出的手机结构只做实现方式的举例，并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。应注意，本申请实施例中的处理器101可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphicsprocessing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是可折叠电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。处理器101中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器101中的存储器为高速缓冲存储器。该存储器可以保存处理器101刚用过或循环使用的指令或数据。如果处理器101需要再次使用该指令或数据，可从所述存储器中直接调用，避免重复存取，减少处理器110的等待时间，提高系统的效率。

本申请实施例中，处理器101可以调用存储在存储器102中的程序指令，完成电子设备对接收到的语音信号进行语音结束端点的检测。

可以理解，本申请实施例中的存储器102可用于存储计算机可执行程序代码以及电子设备的各种功能应用以及数据处理，所述可执行程序代码包括指令。处理器101可以通过运行存储在存储器102中的指令，执行本申请实施例提出的对接收到的语音信号进行语音结束端点的检测。存储器102可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，以及至少一个应用程序(例如爱奇艺应用，微信应用等)的软件代码等。存储数据区可存储电子设备使用过程中所产生的数据(例如图像、视频等)等。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

目前，语音结束端点检测可以应用于很多场景中，比如最典型的应用场景就是用户在使用即时消息应用(例如微信、QQ、连我等)时，可以基于即时消息应用给出的对话功能，发送自己的语音给对方联系人，或者接收对方联系人发来的语音，通过扬声器112播放等。而电子设备在用户使用这些即时消息进行语音聊天或语音消息方式通信时，由于用户的话音通常具有连贯性或时序性，而且可能还存在环境噪声，这样电子设备通过拾音器也就是麦克风111如何准确找出用户发出的语音信号中的起始点和终止点，从而知晓用户的这句话是否已说完，就会使用到语音结束端点检测技术VAD。本发明实施例中语音结束端点检测程序指令可以预先存储于存储器102中，或者存储于外界其他存储器中，处理器101可以调用存储器102或外界存储器中存储的语音结束端点检测程序指令并运行，就可以实现较为准确的识别电子设备接收到的语音信号的结束点位置，从而提升用户使用即时消息应用进行语音通信或语音消息通信时的使用体验。

此外，本发明实施例也可以应用于电子设备中的语音翻译类应用、会议记录类应用、人机交互类应用等场景；进一步对应的场景可以是可穿戴设备的语音记录、开会时的语音记录、移动终端语音搜索或咨询等的人机交互时语音记录、侦测破案时的语音转换为文字记录、车载设备的语音记录等。

语音结束端点检测方法在应用到上述电子设备时，电子设备可以通过麦克风111来采集用户发出的语音信号；结合图1给出的手机结构图，图2给出了本申请实施例提供的一种语音结束端点检测方法的流程图，可以包括以下步骤。

步骤201：当手机中的处理器101检测到需要使用语音结束端点检测的功能被启动时，比如手机的录音APP被打开，或者手机中的微信对话框中的语音触发控件被触发等场景，处理器101启动麦克风111，由麦克风111获取用户输入的语音信号，处理器101将麦克风111采集到的语音信号转换为文本信息；

具体的，举例来说，可以通过麦克风111获取用户的语音信号，也可以通过其他方式获取用户的语音信号，比如手机通过RF电路114或WiFi模块113接收到第三方设备发来的语音信号，本申请实施例对此并不限定。当获取到用户的语音信号时，处理器101可以通过自动语音识别技术(automatic speech recognition，ASR)同步将语音信号转换为文本信息。ASR是一种将人的语音转换为文本的技术。

步骤202：手机中的处理器101确定所述文本信息对应的语境类型，和/或所述语音信号中的非语言特征信息；

关于如何确定所述文本信息对应的语境类型的方法，可以参考下面的描述。

语境类型一般按照句子的语气分为疑问语境、陈述句语境、祈使句语境，疑问语境是指包含一般疑问句、特殊疑问句、反问句以及选择问句的语境，陈述句语境是指包含肯定句和否定句的语境，祈使句语境是特指包含表达命令、请求、劝告、警告、禁止类的肯定句和否定句的语境。

对上述语境中包含的语句做分析，按照言语行为理论，言语行为类型主要有表述、询问、要求三种，相对应地句子的功能类型分为陈述句、疑问句、祈使句三种。一般来说，当有疑问句出现的场景中，回答者需要思考停顿的时间，若采用现有技术中的VAD技术来检测语音结束端点，在检测时长内因思考停顿的原因极易导致句子被误判为语音结束，破坏句子的完整性。这种情况在陈述句和祈使句中不易出现，所以，语音结束端点检测处理中，只将语境类型分为：疑问语境和非疑问语境两种类型。

对疑问语境中的疑问句的语言成分构成做分析，可以看出，在组成疑问句的词组上可以判断是否为疑问形式，根据这一特征，提取出这些词组，比如，"为什么"、"到底"、"怎么"、"什么"、"吗"之类的词，将这些词组汇总并存储为词组集，该词组集可以预先存储在存储器102中。

步骤201中处理器101在将语音信号转换为文本信息后，将组成文本信息的词组与词组集中的词组比较，当文本信息的词组存在词组集中的词组时，确定文本信息对应的语境类型为疑问语境；否则，确定文本信息对应的语境类型为非疑问语境。

举例来说，词组集包括的词组有"为什么"、"到底"、"怎么样"、"什么"、"吗"；用户输入的语音信号转换为的文本信息有：1、明天的天气怎么样？2、天气不错，你明天有什么打算？3、考虑户外运动下。将上述文本信息1先进行词组拆分处理，比如可以拆分出“明天”“天气”“怎么样”；将上述文本信息2先进行词组拆分处理，比如可以拆分出“天气”“不错”“明天”“什么”“打算”；将上述文本信息3先进行词组拆分处理，比如可以拆分出“考虑”“户外”“运动”；然后将拆分出的词组分别与词组集一一对应比较，当文本信息1与词组集比较时，文本信息1中的“怎么样”存在于词组集中；当文本信息2与词组集比较时，文本信息2中的“什么”存在于词组集中；当文本信息3与词组集比较时，文本信息3中的“考虑”“户外”“运动”均不存在于词组集中，可以看出，文本信息1和文本信息2均有词组存在于词组集中，而文本信息3中的所有词组在词组集中均不存在，因此，可以确定文本信息1和文本信息2对应的语境类型为疑问语境，而文本信息3对应的语境类型为非疑问语境。

通过上述方法确定语境类型，可以获知文本信息对应的语境是否为疑问语境，以对语音结束端点做不同的处理；另一种对语音结束端点做不同处理的情况是语音信号中包含有非语言特征信息，详细描述如下。

关于如何确定所述语音信号中的非语言特征信息的方法，可以参考下面的描述。

语音信号中包含的信息称为声学信息，声学信息中包括语言信息、副语言信息、非语言信息以及无声信息。

其中，语言信息是指通过说话的人说出语言而附加到语音信号的、能够利用文字表示的信息。比如，语言信息是音素、音节、以短音节为单位汇总的音素、文字等。

副语言信息是指通过说话的人发声而附加到语音信号的、无法从语言信息识别的信息。它是一种表示说话的人正在思考中的填充语，也是一种利用声调的方向来识别是否是向对方询问的信息。比如，在“是吗”这样的语言信息的后半的声调变高的情况下，该语言信息表示是询问；而在后半的声调变低的情况下，该语言信息表示肯定。

非语言信息是指语音信号中所包含的表示说话的人的特征信息，也可以是表示说话的人的状态信息。比如，非语言特征信息是说话时的拖音信息、犹豫信息以及延长信息等；非语言状态信息是说话的人的性别、年龄、身体的特征、个性等。

无声信息是指在语音信号中不包括语言信息、副语言信息、非语言信息中的任意信息的状态的信息，比如，无声以及噪音。

从上述声学信息包括的4种类型信息可以看出，当说话时包含非语言特征信息中的拖音信息、犹豫信息以及延迟信息时，若采用现有技术中的VAD技术来检测语音结束端点，在检测时长内因有拖音信息、犹豫信息或者延长信息的原因极易导致句子被误判为语音结束，破坏句子的完整性。所以，需要识别出语音信号中的非语言特征信息，再对其做不同的语音结束端点处理。

当麦克风获取到步骤201中用户输入的语音信号后，处理器通过口语转写技术识别语音信号中是否存在拖音信息、犹豫信息以及延迟信息，其中，口语转写技术是一种用于标记对话的技术，应用口语转写技术识别语音信号为现有技术，具体内容不再赘述。

举例来说，非语言信息的实例情况如下。

实例1、语音信号中存在重叠的语音，例如获取到的语音信号对应的文本信息如下。

用户A：我不知道那是真的；

用户B：是真的。

分析：用户A和用户B说的话中包括相同的语音“真的”，存在重叠的语音，重叠的语音虽然属于非语言信息，但不属于非语言信息中的拖音信息、犹豫信息以及延迟信息中的任一种，因此，语音结束端点检测时的检测时长将按照步骤203中的第二时长做处理。

实例2、语音信号中存在低沉的话语，例如获取到的语音信号对应的文本信息如下。

用户A：我们先等等吧；

用户B：好的。

分析：获取的语音信号显示用户A和用户B的说话状态都是低沉的，这指的是说话人的状态信息，属于非语言信息，但不属于拖音信息、犹豫信息以及延迟信息中的任一种，因此，语音结束端点检测时的检测时长将按照步骤203中的第二时长做处理。

实例3、语音信号中存在语音停顿，例如获取到的语音信号对应的文本信息如下。

用户A：他开车(停顿200毫秒)上山；(话轮转换1.3秒)

用户B：是吗？(停顿150毫秒)多远？

分析：获取的语音信号显示用户A在说“开车”和“上山”时，以及用户B在说“是吗”和“多远”时有停顿现象，属于非语言特征信息中的延迟信息，因此，语音结束端点检测时的检测时长将按照步骤203中的第一时长做处理。

实例4、语音信号中存在语音延长，例如获取到的语音信号对应的文本信息如下。

用户A：我做的很好….好；

用户B：好….好的。

分析：获取的语音信号显示用户A在说“好”字和用户B在说“好”字时都出现拖音，属于非语言特征信息中的拖音信息，因此，语音结束端点检测时的检测时长将按照步骤203中的第一时长做处理。

实例5、语音信号中存在语调变化，例如获取到的语音信号对应的文本信息如下。

用户A：它有4个故事？太好了！！！

用户B：是的。

分析：获取的语音信号显示用户A在说“故事”和“太好了”时是以升调的方式表述，属于副语言信息，不属于非语言信息，因此，语音结束端点检测时的检测时长将按照步骤203中的第二时长做处理。

实例6、语音信号中存在强调，例如获取到的语音信号对应的文本信息如下。

用户A：她有很多书！

分析：获取的语音信号显示用户A说话时，在说“有”和“很多”时强调突出，属于副语言信息，不属于非语言信息，因此，语音结束端点检测时的检测时长将按照步骤203中的第二时长做处理。

实例7、语音信号中存在音量变高，例如获取到的语音信号对应的文本信息如下。

用户A：太好了。

分析：获取的语音信号显示用户A说话时的状态很好引起音量变高，属于非语言信息，但不属于拖音信息、犹豫信息以及延迟信息中的任一种，因此，语音结束端点检测时的检测时长将按照步骤203中的第二时长做处理。

从上述分析可以看出，在上述7个实例中，属于拖音信息、犹豫信息以及延迟信息的有实例3和实例4，实例1、实例2、实例5、实例6和实例7都不属于；因此实例3和实例4中在语音结束端点检测时的检测时长会与其他的实例在语音结束端点检测时的检测时长有所不同。

步骤203：手机中的处理器根据所述语境类型和/或所述非语言特征信息确定检测时长。

具体的，当处理器确定文本信息的语境类型为疑问语境时，或当处理器确定非语言特征信息包括拖音信息、犹豫信息以及延迟信息中的至少一种时；或者当处理器确定文本信息的语境类型为疑问语境时，且确定非语言特征信息包括拖音信息、犹豫信息以及延迟信息中的至少一种时，将第一时长作为检测时长。

当处理器确定文本信息的语境类型不为疑问语境时，且非语言特征信息不包括拖音信息、犹豫信息以及延迟信息时，将第二时长作为检测时长，其中，第二时长小于第一时长。

本申请实施例中，第一时长以及第二时长的具体取值，可以根据实际情况确定。举例来说，一种可能的实现方式中，可以根据语言学中的话轮转换规则(即从说话者到受话者的转换)确定，例如一般的转换时长为200毫秒，2秒视为话轮转换的上限，因此，语音结束端点的检测时长借鉴话轮转换规则，以话轮转换时长以及其上限值为参照，可以设定第一时长和第二时长的不同取值，以此自适应调节检测机制，从而保证语音结束端点检测的准确率。

另一种可能的实现方式中，可以直接为第一时长以及第二时长设置不同的取值，例如第一时长的取值为大于200毫秒且小于2秒；第二时长小于或等于200毫秒。

步骤204：手机中的处理器识别所述文本信息中的每个字在所述语音信号中对应的发音区间，当确定所述文本信息中的第一字的发音区间之后的所述检测时长内，不包括第二字的发音区间，则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点。

其中所述第一字为所述文本信息中的任一字，所述第二字位于所述第一字之后且与所述第一字相邻。

举例来说，如图所示，图3为本申请实施例提供的一种确定第一端点的示意图。图3所示的语音信号对应的文本信息为“好的。你”。

处理器识别语音信号中第一字“好”的发音区间，结合步骤203中处理器确定的第一字“好”的发音区间之后的检测时长为第二时长，获知检测时长的取值为小于或等于200毫秒，当处理器检测过程中，检测时长内包括了第二字“的”的发音区间，继续检测第二字“的”之后的检测时长内是否包括第三字“你”的发音区间，从图中可以看出，不包括第三字“你”的发音区间，因此，将第二字的发音区间的结束时间点作为第一端点。

通过上述步骤201-204，处理器可以得到句子对应的语音信号的结束时间点，即第一端点，但这时的第一端点是否为语音结束端点还需要对句子做进一步的语义结构完整性的判断处理。

步骤205：当处理器确定所述第一字所处的句子的语义结构完整时，将所述第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。

图4为本申请实施例提供的一种语义结构完整的浅层语义分析的流程图，该方法流程用于判断上述步骤204得到的第一端点所在的句子的语义结构完整性，可以应用于图1所示的手机，当图1所示的手机执行该方法流程时，可以包括以下步骤。

步骤401：手机中的处理器预先将对话交互文本作为语料进行训练处理及语义角色标注；

具体的，处理器预先将各种对话交互文本作为语料进行训练，从训练的语料中抽取特征，构造相应的语义特征向量；在语义特征向量的基础上构造原型模式；根据原型模式对每个依存成分求出若干个侯选角色，构建谓词库，对每个谓词对应的所有依存成分的候选角色进行组合，得到各个谓词的角色链；对角色链中的语义角色进行标注，标注的类型包括：谓词、路径、短语类型、位置、语态、中心词、从属关系、组合特征以及论元的第一个和最后一个词。

步骤402：手机中的处理器对这次的文本进行语义角色标注处理，识别句子的语义结构完整性；

具体的，处理器利用神经网络识别出这次文本的语义角色，并进行标注。通过句子的核心谓词和所属的论元标注的语义角色判断出句子的成分是否完备，识别句子的语义结构完整性。其中，基于神经网络的语义识别技术为现有技术，具体内容不再赘述。

步骤403：手机中的处理器判断句子的语义结构是否完整，并对应做不同的处理；

步骤404：当手机中的处理器判断句子的语义结构完整时，将第一端点作为句子在语音信号中的语音结束端点。

步骤405：当处理器判断句子的语义结构不完整时，采用自然语言理解(NaturalLanguage Understanding，NLU)技术确定所述句子是否结束。其中，基于NLU的语句分析技术为现有技术，具体内容不再赘述。

具体的，如图所示，图5为本申请实施例提供的一种语义结构完整的深层语义分析的流程图，该方法流程可以应用于图1所示的手机，当图1所示的手机执行该方法流程时，可以包括以下步骤。

步骤501：手机中的处理器采用NLU技术分析句子的意图，并采用增量处理技术预测意图的正确性；

具体的，用户意图是可以通过NLU识别出来的，借鉴搜索引擎中增量索引的思想采用的增量处理技术，事先对各种对话文本按照NLU识别出的用户意图进行分类，生成各个对话意图文件，并将这些对话意图文件按照策略进行合并，形成一个或若干个大的对话意图文件，当有新文本增加进来需要意图预测时，形成一段独立的对话意图数据，当越来越多的新文本进行意图预测时就生成了一个对话意图数据集合和管理这些对话意图数据的意图信息集合，在意图信息集合中保存了每个对话意图文件所在的目录、对话意图文件的名称，以及此对话意图文件中包含的文档数量。

当处理器通过浅层语义分析句子的语义结构不完整时，处理器根据预先通过NLU技术分析的句子的意图信息集合，对应这个集合里面的信息再访问各个对话意图数据，然后将从每个对话意图数据文件中得到的结果集进行合并，形成一个完整的结果集，便于下一次的预测意图分析，通过这种处理方式，可以提高意图分析的有效性和准确度。

步骤502：处理器对句子的意图分析结果按照置信度划分为三类，并分别做不同处理；

步骤503：处理器判断置信度是否大于或等于M％；

步骤504：当置信度大于或等于M％时，处理器确定句子结束，将第一端点作为句子在语音信号中的语音结束端点；

步骤505：当置信度为小于M％，处理器判断是否同时大于或等于N％；

步骤506：当置信度为小于M％，且大于或等于N％时，处理器向用户发送指示信息，提示用户确认句子是否结束；

步骤507：用户判断确认句子是否正确；

具体的，当用户确认句子正确时，处理器确定句子结束，将第一端点作为句子在语音信号中的语音结束端点；当用户确认句子不正确时，转向步骤508中的处理器请求用户重新输入语音信号。

步骤508：当置信度小于N％时，处理器请求用户重新输入语音信号；

步骤509：处理器判断用户重新输入语音信号的次数是否大于L次；

具体的，当用户重新输入的次数小于或等于L次时，转向步骤201；其中，设定的次数阈值的取值可以为3次，也可以根据实际情况调整。

步骤510：当输入次数大于L次时，处理器停止语音结束端点检测。

其中，置信度为大于或等于M％时，属于置信度高的文本，比如，M的取值可以设定为85％。

置信度为小于M％，且大于或等于N％时，属于置信度中的文本，比如，N的取值可以设定为45％，这种对应于实际场景可能的情况是：用户没有说完，在说话过程中被打断或插嘴造成。此时处理器将预测结果跟用户确认是否预测正确，比如，跟用户进行显性确认“你的意思是(预测结果)，对吗？”当确认预测结果正确时，，将第一端点作为句子在语音信号中的语音结束端点；当确认预测结果不正确时，处理方式与分类中的第三点相同，即处理器提示用户重新输入句子，比如，“对不起，我刚刚好像打断你说话了，你能再说一次吗？”同时处理器记录用户重新输入句子的次数。

图6为本申请实施例提供的一种语音结束端点检测装置结构示意图，包括获取单元601和处理单元602，详细描述如下。

获取单元601，用于获取用户输入的语音信号，将所述语音信号转换为文本信息；

处理单元602，用于确定所述文本信息对应的语境类型，和/或所述语音信号中的非语言特征信息；根据所述语境类型和/或所述非语言特征信息确定检测时长；

还用于识别所述文本信息中的每个字在所述语音信号中对应的发音区间，当确定所述文本信息中的第一字的发音区间之后的所述检测时长内，不包括第二字的发音区间，则将所述第一字在所述语音信号中对应的发音区间的结束时间点作为第一端点；所述第一字为所述文本信息中的任一字，所述第二字位于所述第一字之后且与所述第一字相邻；当确定所述第一字所处的句子的语义结构完整时，将所述第一端点作为所述第一字所处的句子在所述语音信号中的语音结束端点。

一种可能的实现方式，所述处理单元还用于当确定文本信息的语境类型为疑问语境时，和/或当所述非语言特征信息包括拖音信息、犹豫信息以及延迟信息中的至少一种时，将第一时长作为所述检测时长；当确定文本信息的语境类型不为所述疑问语境时，且所述非语言特征信息不包括拖音信息、犹豫信息以及延迟信息时，将第二时长作为所述检测时长，所述第一时长大于所述第二时长。

比如，所述第一时长可以大于200毫秒且小于2秒；所述第二时长小于或等于200毫秒。

一种可能的实现方式，所述处理单元还用于预先收集不同的疑问句；分析所述疑问句的语言成分构成，提取出具有疑问特征的词组，存储为词组集；当获取所述文本信息时，根据所述词组集，识别并确定所述文本信息对应的语境类型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

18页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于XLNet的智能语音对话意图识别方法

一种语音结束端点检测方法及装置

相关技术

网友询问留言