一种语音标注方法及装置

文档序号:1650318 发布日期:2019-12-24 浏览:27次 >En<

阅读说明:本技术 一种语音标注方法及装置 (Voice labeling method and device ) 是由 汪俊 闫博群 李索恒 张志齐 于 2019-09-12 设计创作,主要内容包括:本发明实时例提供一种语音标注方法及装置,涉及信息技术领域,所述方法包括:获取待标注语音信息;将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,所述语音识别结果中至少包括候选标注结果,所述候选识别结果是所述语音识别模型针对同一待标注语音子信息确定的多个识别结果,所述待标注语音子信息为所述待标注语音信息的部分或全部;针对所述候选标注结果,接收标注人员确定的第二标注结果;根据所述第二标注结果,确定所述待标注语音信息的标注结果。使用了人机交互的方式提高了标注过程的效率。(The invention provides a voice labeling method and a voice labeling device in a real-time embodiment, which relate to the technical field of information, and the method comprises the following steps: acquiring voice information to be marked; inputting the voice information to be marked into a voice recognition model to obtain a voice recognition result, wherein the voice recognition result at least comprises a candidate marking result, the candidate recognition result is a plurality of recognition results determined by the voice recognition model aiming at the same voice sub-information to be marked, and the voice sub-information to be marked is part or all of the voice information to be marked; receiving a second labeling result determined by a labeling person aiming at the candidate labeling result; and determining the labeling result of the voice information to be labeled according to the second labeling result. The efficiency of the labeling process is improved by using a man-machine interaction mode.)

一种语音标注方法及装置

技术领域

本发明实施例信息技术领域,尤其涉及一种语音标注方法及装置。

背景技术

随着通信技术的发展,智能终端的普及,各种网络通讯工具成为大众沟通的主要工具之一。其中由于语音信息的操作和传输的便捷性,成为各种网络通讯工具的主要传输信息。而在使用各种网络通讯工具时,还涉及到将语音信息进行文本转换的过程,该过程就是语音识别技术。

语音识别技术中通常需要训练语音识别模型,在训练语音识别模型时,需要对海量语音数据进行标注。但是现有技术中通常采用人工进行标注,致使语音数据标注的工作效率低下,错误率高。

发明内容

本发明实施例提供一种语音标注方法及装置,能够提高语音标注过程的效率,并提高语音标注的准确性。

一方面,本发明实施例提供一种语音标注方法,所述方法包括:

获取待标注语音信息;

将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,所述语音识别结果中至少包括候选标注结果,所述候选识别结果是所述语音识别模型针对同一待标注语音子信息确定的多个识别结果,所述待标注语音子信息为所述待标注语音信息的部分或全部;

针对所述候选标注结果,接收标注人员确定的第二标注结果;

根据所述第二标注结果,确定所述待标注语音信息的标注结果。

可选的,所述接收标注人员确定的第二标注结果,包括:

将与所述候选标注结果对应的待标注语音子信息进行播放;

接收所述标注人员根据播放的所述待标注语音子信息确定的所述第二标注信息。

可选的,所述将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,包括:

将所述待标注语音信息的各待标注语音子信息输入至语音识别模型中的各语音识别子模型中,各语音识别子模型针对所述待标注语音子信息进行识别,得到各语音识别子模型识别相同的结果以及各语音识别子模型识别不同的结果,其中将各语音识别子模型识别不同的结果作为所述候选标注结果。

可选的,所述根据所述第二标注结果,确定所述待标注语音信息的标注结果,包括:

根据各语音识别子模型识别相同的结果以及所述第二标注结果确定所述待标注语音信息的标注结果。

可选的,所述根据所述第二标注结果,确定所述待标注语音信息的标注结果后,还包括:

根据所述待标注语音信息的标注结果训练所述语音识别模型。

一方面,本发明实施例还提供一种语音标注装置,所述装置包括:

获取单元,用于获取待标注语音信息;

识别单元,用于将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,所述语音识别结果中至少包括候选标注结果,所述候选识别结果是所述语音识别模型针对同一待标注语音子信息确定的多个识别结果,所述待标注语音子信息为所述待标注语音信息的部分或全部;

接收单元,用于针对所述候选标注结果,接收标注人员确定的第二标注结果;

确定单元,用于针对所述候选标注结果,接收标注人员确定的第二标注结果。

可选的,所述接收单元具体用于:

将与所述候选标注结果对应的待标注语音子信息进行播放;

接收所述标注人员根据播放的所述待标注语音子信息确定的所述第二标注信息。

可选的,所述识别单元具体用于:

将所述待标注语音信息的各待标注语音子信息输入至语音识别模型中的各语音识别子模型中,各语音识别子模型针对所述待标注语音子信息进行识别,得到各语音识别子模型识别相同的结果以及各语音识别子模型识别不同的结果,其中将各语音识别子模型识别不同的结果作为所述候选标注结果。

可选的,所述确定单元具体用于:

根据各语音识别子模型识别相同的结果以及所述第二标注结果确定所述待标注语音信息的标注结果。

可选的,所述装置还包括:

训练单元,用于根据所述待标注语音信息的标注结果训练所述语音识别模型。

一方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述语音标注方法的步骤。

一方面,本发明实施例提供一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行所述语音标注方法的步骤。

本发明实施例中,首先通过语音识别模型对待标注语音信息进行初步标注,在标注过程中,语音识别模型对同一待标注语音子信息确定出多个识别结果,这部分识别结果需要协同人工标注的方式确定,而其他部分的内容则不需要人工方式确定,所以在本发明实施中,在标注过程中使用了人机交互的方式,不需要标注人员参与全部标注工作,只需要将部分语音识别模型不能识别部分进行人工识别,则可完成待标注语音信息的标注工作,提高了标注过程的效率,也提高了标注的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景架构图;

图2为本发明实施例提供的一种语音标注方法的流程示意图;

图3为本发明实施例提供的一种语音识别模型的识别结果;

图4为本发明实施例提供的一种用户输入识别结果的示意图;

图5为本发明实施例提供的一种语音标注场景的示意图;

图6为本发明实施例提供的一种语音标注装置的结构示意图;

图7为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

语音识别技术,让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音标注,在语音识别过程中通常会使用到声学模型,声学模型的建立需要依赖大量的语音数据,以及语音数据对应的正确的文本信息,从而得到语音与文字的统计关系,并利用语音数据以及语音数据对应的正确的文本信息对模型进行训练,获得声学模型。通过语音数据确定语音数据对应的正确的文本信息的过程称为语音标注。

在具体实践过程中,本申请的申请人发现,目前的语音标注方法中,常采用人工听写的方式将语音数据转录为文本信息,获得标注信息。然而,所需文本语音对的数量较大时,人工标注的方式存在效率低、且人力成本高、准确性差的问题。

基于上述现有技术的缺点,本申请的申请人构思了一种语音标注方法,通过语音识别模型来进行标注,并且在语音识别模型不能识别准确时,还可以通过人机交互的方式来辅助识别,提高了语音标注的效率以及准确性。

在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例中的语音处理模型的训练方法可以应用于如图1所示的应用场景,该应用场景包括终端设备101和语音标注服务器102。其中,终端设备101和语音标注服务器102之间通过无线或有线网络连接,终端设备101包括但不限于智能音箱、智能手表、智能家居等智能设备,智能机器人、AI客服、银行***催单电话系统,以及具有语音交互功能智能电话、移动电脑、平板电脑等电子设备。语音标注服务器102可提供相关的语音服务器,如语音识别、语音合成等服务,语音标注服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

值得说明的是,本申请实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本申请实施例提供的技术方案的限制,对于其它的应用场景架构和业务应用,本申请实施例提供的技术方案对于类似的问题,同样适用。

为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

基于图1所示的应用场景图,本发明实施例提供了一种语音标注方法,该方法的流程可以由语音标注装置执行,如图2所示,包括:

步骤S201,获取待标注语音信息。

具体的,在本发明实施例中,待标注语音信息可以从语音数据库中获取,也可以是从各种音频渠道获得的语音信息,例如从网络的视频、音频中获取,或者从广播电视等渠道获取。

可选的,在本发明实施例中,若获取的待标注语音信息音频长度大于阈值时,可以对待标注语音信息进行断句切分,得到切分后的多个待标注语音信息。各个切分后的待标注语音信息的音频长度大致相同。

步骤S202,将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,所述语音识别结果中至少包括候选标注结果,所述候选识别结果是所述语音识别模型针对同一待标注语音子信息确定的多个识别结果,所述待标注语音子信息为所述待标注语音信息的部分或全部。

在本发明实施例中,语音识别模型可以深度学习模型,例如卷积神经网络CNN模型,循环神经网络RNN等模型,语音识别模型具有语音识别能力,能够较为准确的确定语音信息对应的文本信息。

在本发明实施例中,当语音识别模型针对同一待标注语音子信息确定出多个识别结果时,就将多个识别结果作为候选标注结果。

也就是说,在本发明实施例中,对某一部分的待标注语音信息进行语音识别时,会识别出多个结果,则将这些结果作为候选标注结果。

一种可选的实施例中,可以将待标注语音信息输入至语音识别模型中,得到一次识别结果,然后再将待标注语音信息输入至语音识别模型中,得到一次识别结果,经过多次识别,得到语音识别结果。在多次识别过程中,会出现某一次的识别结果与其他识别结果不同,则将这部分作为候选标注结果。

示例性的,在本发明实施例中,将待标注语音信息输入至语音识别模型中,得到的语音识别结果为“您好”,然后再将待标注语音信息输入至语音识别模型中,得到的识别结果为“你好”,则将“你”和“您”都作为候选标注结果。

另一种可选的实施例中,语音识别模型包括多个子模型,每个子模型都对待标注语音信息进行识别,子模型A识别的结果为“我和你是好朋友”,子模型B识别的结果为“我和您是好胖友”,子模型C识别的结果是“我和你是不好朋友”,所以将“你”、“您”、“是”、“是不”、“朋”、“胖”作为候选标注结果。

步骤S203,针对所述候选标注结果,接收标注人员确定的第二标注结果。

具体的,在本发明实施例中,对于语音识别模型不能准确识别的部分,通过标注人员来确定。

一种可选的实施例中,将候选标注结果进行显示,并播放候选标注结果对应的待标注语音子信息,通过标注人员听到候选标注结果对应的待标注语音子信息后确定的识别结果确定第二标注结果。

示例性的,在本发明实施例中,上述候选标识结果为“你”、“您”、“是”、“是不”、“朋”、“胖”,则将“你”和“您”对应的待标注语音子信息进行播放,标注人员确定待标注语音子信息对应的第二标注信息为“你”;将“是”、“是不”对应的待标注语音子信息进行播放,标注人员确定待标注语音子信息对应的第二标注信息为“是”,将“朋”、“胖”对应的待标注语音子信息进行播放,标注人员确定待标注语音子信息对应的第二标注信息为“朋”。

在本发明实施例中,可以如图3所示,将语音识别模型的识别结果进行展示,展示内容中包括候选标注结果以及语音识别模型确定的部分识别结果,然后在标注人员点击候选标注结果部分时,进行语音播放,然后提示用户选择各个候选标注结果中的一个作为第二标注信息。

可选的,在本发明实施例中,如图4所示,在展示内容中还可以包括“其它”选项,当标注人员点击了“其它”选项时,接收标注人员的输入内容,将标注人员的输入内容作为第二标注信息。

可选的,在本发明实施例中,还可以展示待标注语音信息的可选属性,然后接收标注人员的选择的属性,例如,可选属性包括待标注语音对应的发声人的性别,发声人的口音,发声环境是否有噪音,是否是单一发声人发音等。

可选的,在本发明实施例中,由于可能存在候选标注结果对应的待标注语音子信息不能被标注,所以在展示内容中还可以增加“无法标注”的选项,可以认为该待标注语音信息不能进行标注。

步骤S204,根据所述第二标注结果,确定所述待标注语音信息的标注结果。

在接收到标注人员的第二标注结果后,将语音识别模型识别准确的部分以及第二标注结果确定待标注语音信息的标注结果。

示例性的,标注人员确定待标注语音子信息对应的第二标注信息为“你”、“是”、“朋”,则待标注语音信息的标注结果为“我和你是好朋友”。

在本发明实施例中,在确定了待标注语音信息的标注结果后,还可以将下一个待标注语音信息输入至语音识别模型,然后对下一个待标注语音信息进行识别,得到标注结果。

在本发明实施例中,当对需要标注的所有待标注语音信息标注完成后,可以根据标注完成的所有待标注语音信息对语音识别模型进行训练,提高语音识别模型的识别能力,然后利用训练后的语音识别模型继续标注待标注语音信息。

为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的一种语音标注方法,如图5所示,在本发明实施例中,通过标注页面对待标注语音信息进行标注,标注页面连接了标注服务器,通过标注服务器完成标注。标注服务器中至少包括语音识别模型。

图5所示的标注页面上,包括待标注语音信息的播放部分、语音识别模型的识别结果部分以及人工标注部分。待标注语音信息的播放部分可以播放语音识别模型不能准确识别的部分,语音识别模型的识别结果部分包括语音识别模型识别的准确结果以及语音识别模型识别出的不准确结果,不准确结果可以通过待标注语音信息的播放部分进行播放。

人工标注部分用于接收标注人员的选择,标注人员将语音识别模型不能准确识别的部分确定为一个准确的结果,并进一步可以确定待标注语音信息的各个属性。

在本发明实施例中,首先输入了待标注语音信息,语音识别模型得到的语音识别结果展示在语音识别模型的识别结果部分,这部分内容包括多个识别不准确的部分,第一个识别不准确的部分包括四个结果,分别为“收购”、“收购案”、“收购按”以及“收购啊”,第二个识别不准确的部分包括三个结果,分别为:“欺负”、“吸负”、“吸附”,第三个识别不准确的部分包括三个结果,分别为:“怜的”、“人的”、“研的”,第四个识别不准确的部分包括两个结果,分别为:“吧”、“八”。

标注人员在点击不准确的部分时,会播放不准确部分对应的音频信息,标注人员可以通过拖动播放进度来选择播放位置。

标注人员选择了识别结果后,在识别结果显示位置中显示,并将其他不准确的识别结果也显示出来,具体的,根据标注人员以及语音识别模型的识别结果,待标注语音信息的识别结果为“收购该不会是要欺负哪家可怜的公司吧”。

同时标注人员也选择了待标注语音的属性,包括发声人员为女性、东北话口音、发声人的环境没有噪声、发声人的环境无异常、发声人是单独发声的。

通过语音识别模型以及标注人员完成了待标注语音信息的标注。

基于上述实施例,参阅图6所示,本发明实施例提供一种语音标注装置600,包括:

获取单元601,用于获取待标注语音信息;

识别单元602,用于将所述待标注语音信息输入至语音识别模型中,得到语音识别结果,所述语音识别结果中至少包括候选标注结果,所述候选识别结果是所述语音识别模型针对同一待标注语音子信息确定的多个识别结果,所述待标注语音子信息为所述待标注语音信息的部分或全部;

接收单元603,用于针对所述候选标注结果,接收标注人员确定的第二标注结果;

确定单元604,用于针对所述候选标注结果,接收标注人员确定的第二标注结果。

可选的,所述接收单元603具体用于:

将与所述候选标注结果对应的待标注语音子信息进行播放;

接收所述标注人员根据播放的所述待标注语音子信息确定的所述第二标注信息。

可选的,所述识别单元601具体用于:

将所述待标注语音信息的各待标注语音子信息输入至语音识别模型中的各语音识别子模型中,各语音识别子模型针对所述待标注语音子信息进行识别,得到各语音识别子模型识别相同的结果以及各语音识别子模型识别不同的结果,其中将各语音识别子模型识别不同的结果作为所述候选标注结果。

可选的,所述确定单元604具体用于:

根据各语音识别子模型识别相同的结果以及所述第二标注结果确定所述待标注语音信息的标注结果。

可选的,所述装置还包括:

训练单元605,用于根据所述待标注语音信息的标注结果训练所述语音识别模型。

基于相同的技术构思,本申请实施例提供了一种计算机设备,如图7所示,包括至少一个处理器701,以及与至少一个处理器连接的存储器702,本申请实施例中不限定处理器701与存储器702之间的具体连接介质,图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中,存储器702存储有可被至少一个处理器701执行的指令,至少一个处理器701通过执行存储器702存储的指令,可以执行前述的语音标注方法中所包括的步骤。

其中,处理器701是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据,从而获得客户端地址。可选的,处理器701可包括一个或多个处理单元,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。在一些实施例中,处理器701和存储器702可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行语音标注方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音信号处理方法、装置、终端、服务器及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!