录音方法及装置

文档序号:1864862 发布日期:2021-11-19 浏览:20次 >En<

阅读说明:本技术 录音方法及装置 (Recording method and device ) 是由 边涛 于 2021-08-11 设计创作,主要内容包括:本申请公开了一种录音方法及装置,属于音频处理技术领域。所述录音方法包括获取音频信号,对所述音频信号进行声纹特征检测以得到声纹特征信息,在该声纹特征与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征是对预先录制的音频进行声纹检测得到的。(The application discloses a recording method and a recording device, and belongs to the technical field of audio processing. The recording method comprises the steps of obtaining an audio signal, carrying out voiceprint characteristic detection on the audio signal to obtain voiceprint characteristic information, and starting recording on the audio signal under the condition that the voiceprint characteristic is matched with target voiceprint characteristic information, wherein the target voiceprint characteristic is obtained by carrying out voiceprint detection on pre-recorded audio.)

录音方法及装置

技术领域

本申请属于音频处理技术领域,具体涉及一种录音方法及装置。

背景技术

录音即是将声音信号记录的过程,人们利用电子设备等媒介进行录音,方便记录信息,并能够在日后通过放音的方式整理录音内容。

录音设备在接收到录音指令时,开始录音,直到接收到录音停止指令时停止录音。但是,发明人对现有技术的录音过程进行了研究,发现现有技术中至少存在如下问题,在录制特定声音前后,往往会出现大段空白内容或杂音内容,而这些内容占据录音存储空间,增加了录音设备在录音过程的存储负担。

发明内容

本申请实施例的目的是提供一种录音方法及装置,能够解决录音设备在录音过程中存储负担重的问题。

第一方面,本申请实施例提供了一种录音方法,该方法包括:

获取音频信号;

对所述音频信号进行声纹特征检测,得到声纹特征信息;

在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的。

第二方面,本申请实施例提供了一种录音装置,该装置包括:

获取模块,获取音频信号;

检测模块,对所述音频信号进行声纹特征检测,得到声纹特征信息;

录音模块,在所述声纹特征与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音。

可选地,录音模块具体用于:

过滤所述音频信号中不具有所述目标声纹特征信息的第一音频,对所述音频信号中具有所述目标声纹特征信息的第二音频进行录音。

可选地,本申请实施例提供的录音装置还包括:

展示模块,在开始对所述音频信号进行录音之前,展示至少两个候选声纹特征信息分别对应的用户身份信息,其中,所述候选声纹特征信息是对预先录制的音频进行声纹检测得到的,所述用户身份信息是对对应的候选声纹特征信息预先标记得到的;

第一接收模块,接收用户的第一输入;

确定模块,响应于所述第一输入,获取指定的用户身份信息,将所述指定的用户身份信息所对应的候选声纹特征信息确定为所述目标声纹特征信息。

可选地,所述候选声纹特征信息是在对所述音频信号进行声纹特征检测并检测到至少两个声纹特征信息的情况下,与检测到的至少两个声纹特征信息相匹配的声纹特征信息。

可选地,展示模块具体用于:

在对所述音频信号进行声纹特征检测之前,在接收并响应于用户的第二输入的情况下,展示至少两个候选声纹特征信息分别对应的用户身份信息。

可选地,录音模块具体用于:

在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号中具有所述目标声纹特征信息的第二音频进行语音识别,输出文本信息;

在所述声纹特征信息与目标声纹特征信息匹配、且所述文本信息中包含目标关键字的情况下,开始对所述音频信号进行录音。

可选的,录音模块具体还用于:

在录音过程中,在指定时间段内未检测到与目标声纹特征信息匹配的声纹特征信息的情况下,停止录音。

可选地,本申请实施例提供的录音装置还包括:

第二接收模块,在录音过程中,接收用户的第三输入;

插入模块,响应于所述第三输入,在录音文件中插入标签。

可选地,所述第三输入为如下至少一种形式:

具有与注册声纹特征信息匹配的声纹特征信息的音频输入,其中所述注册声纹特征信息是对录音设备注册用户预先录制的音频进行声纹检测得到的;

目标类型音频的输入;

与目标动作匹配的动作信号的输入,所述目标动作是预先设置的。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

第六方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

在本申请实施例中,通过获取音频信号,对音频信号进行声纹特征检测以得到声纹特征信息,并在检测到的声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音。这可以避免在具有目标声纹特征信息的音频内容之前录制到大段的空白或杂音等无效内容,从而节省录音设备的内部存储空间,提升录音的高效性。

附图说明

图1是本申请实施例提供的录音方法的流程图之一;

图2是本申请实施例提供的录音方法的流程图之二;

图3是本申请实施例提供的录音方法的流程图之三;

图4是本申请实施例提供的录音方法的流程图之四;

图5是本申请实施例提供的录音方法的流程图之五;

图6是本申请实施例提供的录音方法的流程图之六;

图7是本申请实施例提供的基于录音装置的录音打点原理示意图之一;

图8是本申请实施例提供的基于录音装置的录音打点原理示意图之二;

图9是本申请实施例提供的基于录音装置的录音打点原理示意图之三;

图10是本申请实施例提供的基于录音装置的录音打点原理示意图之四;

图11是本申请实施例提供的录音装置的结构示意图之一;

图12是本申请实施例提供的录音装置的结构示意图之二;

图13是本申请实施例提供的录音装置的结构示意图之三;

图14是本申请实施例提供的电子设备的结构示意图;

图15为实现本申请实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的录音方法、装置、电子设备及存储介质进行详细地说明。

图1为本申请实施例提供的录音方法的流程图,本方法的执行主体可以为录音装置,或者该录音装置中的用于执行录音的方法的控制模块。具体地,该录音装置可以包括但不限于具有录音功能的移动电话、或平板电脑等通信设备。本方法的执行主体还可以是录音设备所对应的服务器端,在此不做具体限定。

参考图1,本申请实施例提供的录音方法包括如下步骤:

步骤110:获取音频信号;

步骤120:对所述音频信号进行声纹特征检测,得到声纹特征信息;

步骤130:在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的。

其中,音频信号是声音的表示,录音设备可以配置麦克风来采集音频信号,从而实现对音频信号的获取。

其中,声纹特征信息又称声纹指纹(Acoustic fingerprint),具体表现为携带言语信息的声波频谱,这样对音频信号进行声纹特征检测,可以是从音频信号提取声波频谱。

可选地,通过特定算法从音频信中提取声纹特征信息,以实现声纹特征检测。

在这种情况下,在执行步骤120从音频信号中提取到声纹特征信息的情况下,将提取到的声纹特征信息与预先录制的候选声纹特征信息进行匹配。其中,在匹配结果显示在预先录制的候选声纹特征信息中匹配到与提取到的声纹特征信息匹配的目标声纹特征信息的情况下,则基于该匹配结果确定提取到的声纹特征信息与目标声纹特征信息匹配,则开始对音频信号进行录音。

另外,在匹配结果显示未匹配到与提取到的声纹特征信息匹配的目标声纹特征信息的情况下,则可以不启动录音,直到匹配到与提取到的声纹特征信息匹配的目标声纹特征信息,开始录音。

在本实施例中,利用检测到的声纹特征信息与预先录制的候选声纹特征信息进行匹配,能够得到与检测到的声纹特征信息相匹配的候选声纹特征信息,实现快速定位目标声纹特征信息。

可选地,录音设备本地可以存储预先录制的候选声纹特征信息。在这种情况下,录音设备在获取音频信号时,将从音频信号中检测到的声纹特征信息与录音设备本地存储的候选声纹特征信息进行声纹特征信息匹配,以获得匹配结果,并在匹配到目标声纹特征信息的情况下,开始录音。

可选地,预先录制的候选声纹特征信息可以存储在对应的服务器中。在这种情况下,录音设备在获取到音频信号时,可以将音频信号或从音频信号中检测到的声纹特征信息发送给服务器,服务器将检测到的声纹特征信息与服务器中存储的预先录制的候选声纹特征信息进行匹配,并在匹配到目标声纹特征信息的情况下,将匹配结果返回给录音设备。

可选地,开始对所述音频信号进行录音,具体包括:

过滤所述音频信号中不具有所述目标声纹特征信息的第一音频,对所述音频信号中具有所述目标声纹特征信息的第二音频进行录音。

该可选实施例可以实现对音频信号中的不同音频进行选择性录音。当在音频信号中识别到同时有多个声音音频的情况下,可以基于目标声纹特征信息,从音频信号中过滤掉不属于目标声纹特征信息的噪音、杂音等干扰性声音,并针对该目标声纹特征信息所属的特定音频进行录音,不仅提升了录音质量,同时也进一步提升了录音效率。

例如,在实际应用中,在课堂环境中,可以将老师的声纹特征信息设置为目标声纹特征信息,并在检测到老师的声纹特征信息时,对老师的声音进行录音,而过滤掉其他同学的声音和环境噪声。

可选地,在对音频信号进行录音时,也可以不过滤音频信号中不具有目标声纹特征信息的第一音频,从而对不具有目标声纹特征信息的第一音频和具有目标声纹特征信息的第二音频均进行录音。

图2是本申请实施例提供的录音方法的流程图,使用本实施例的方法,在开始对音频信号进行录音之前,通过如下步骤确定目标声纹特征信息:

步骤210:展示至少两个候选声纹特征信息分别对应的用户身份信息,其中,所述候选声纹特征信息是对预先录制的音频进行声纹检测得到的,所述用户身份信息是对对应的候选声纹特征信息预先标记得到的;

步骤220:接收用户的第一输入;

步骤230:响应于所述第一输入,获取指定的用户身份信息,将所述指定的用户身份信息所对应的候选声纹特征信息确定为所述目标声纹特征信息。

图2所示实施例提供对目标声纹特征信息的用户定制化方案,通过展示用户身份信息,使用户通过第一输入指定要录制的用户声音,不仅满足用户需求,而且录音设备能够根据指定的目标声纹特征信息快速定位要录制的声音音频,提升录音效率。

可选地,录音设备可以提供触摸屏来接收第一输入,则第一输入为对触摸屏的按压、滑动、单击、双击等,在此不做限定。

可选地,录音设备还可以提供物理按钮来接收第一输入,则第一输入为对物理按钮的按压操作。

可选地,第一输入为语音指令。

在该实施例中,用户身份信息可以包括但不限于姓名、昵称、职业等。

可选地,候选声纹特征信息可以是在对音频信号进行声纹特征检测并检测到至少两个声纹特征信息的情况下,与检测到的至少两个声纹特征信息相匹配的声纹特征信息。

在该实施例中,在对原始的音频信号进行声纹特征检测时,可以检测到多个声纹特征信息,并且部分或全部检测到的声纹特征信息与候选声纹特征信息匹配,此时可以先由用户从中选取要录制的一个或多个目标声纹特征信息的音频。

在另一实施例中,在对原始的音频信号进行声纹特征检测时,也可以是检测到单个声纹特征信息与目标声纹特征信息匹配,在该情况下,可以开始录音。

可选地,在对音频信号进行声纹特征检测之前,在接收并响应于用户的第二输入的情况下,展示至少两个候选声纹特征信息分别对应的用户身份信息。

在该场景中,在录音设备开机到对音频信号进行声纹特征检测之间的过程中,均可以接收用户通过第二输入对目标声纹特征信息的指定,以提前获得目标声纹特征信息。这样,在对音频信号进行声纹特征信息检测时,可以以提前得到的目标声纹特征信息为依据,对音频信号进行声纹特征检测及匹配,这可以提升对声纹特征的检测及匹配的效率,快速定位到要录制的音频。

在本实施例中,在检测到的声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,可以避免在正式录音内容之前出现大段的空白或杂音,从而提升录音的高效性并节省录音设备的存储空间。

可选地,参照图3所示可选实施例,本实施例提供的录音方法具体包括如下步骤:

步骤310:获取音频信号,具体参考上文步骤110的内容,在此不再赘述;

步骤320:对所述音频信号进行声纹特征检测,得到声纹特征信息,具体参考上文步骤120的内容,在此不再赘述;

步骤330:在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对音频信号中具有所述目标声纹特征信息的第二音频进行语音识别,输出文本信息;

步骤340:在所述声纹特征信息与目标声纹特征信息匹配、且所述文本信息中包含目标关键字的情况下,开始对所述音频信号进行录音。

本实施例提出了开始录音的时机,即同时满足目标声纹特征信息匹配及目标关键字检测的情况下,可以开始录音。在实际应用中,在检测到与目标声纹特征信息匹配的声纹特征信息时,也可以不开始录音,而是在文本信息中检测到目标关键字时,才开始录音,这样可以实现对特定音频进行录音,进一步降低录音体量,节省录音设备存储空间。

在具体应用场景中,目标关键字可以是事先设置的,并作为对文本信息进行识别的依据。具体地,这些目标关键字可以存储到词典中,这样可以将文本信息与词典中提取的目标关键字进行匹配,以确定文本信息中是否包含目标关键字。

具体地,目标关键字可以是“请注意”、“以下是重点”、“下面的内容务必要记住”等类似表述,在此不做限定。

可选地,对应于存储的不同候选声纹特征信息,目标关键字可以不同。在这种情况下,目标关键字可以是基于所述目标声纹特征信息所关联的声纹特征信息确定的。

在具体场景中,不同发言用户具有特定的口头禅或表达方式,则可以从中提取目标关键字形成词典,并将该目标关键字与对应的目标声纹特征信息建立关联关系,这样就可以在确定目标声纹特征信息的情况下,有针对性地从词典中提取关联的目标关键字。

可选地,参考图4所示,本实施例提供的录音方法包括如下步骤:

步骤410:获取音频信号;

步骤420:对所述音频信号进行声纹特征检测,得到声纹特征信息;

步骤430:在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的;

步骤440:在录音过程中,在指定时间段内未检测到与目标声纹特征信息匹配的声纹特征信息的情况下,停止录音。

其中,步骤410、420和430可分别参考上文步骤110、120及130的内容,在此不再赘述。

使用本实施例,可以防止在所录制的包含目标声纹特征信息的特定音频之后录制长时间的空白或无效音频,能够进一步节省录音设备存储空间,并提升录音效率。

图4为本申请可选实施例提供的录音方法的流程图,本方法包括如下步骤:

步骤510:获取音频信号;

步骤520:对所述音频信号进行声纹特征信息检测;

步骤530;在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的;

步骤540:在录音过程中,接收用户的第三输入;

步骤550:响应于所述第三输入,在录音文件中插入标签。

其中,步骤510、520及530可以分别参考上文步骤110、120及130的内容,在此不再赘述。

在该实施例中,所插入标签起到对特定音频位置的定位作用,满足用户对录音音频的定点标记需求,扩展了录音设备的录音功能选项。

可选地,第三输入为如下至少一种形式:

具有与注册声纹特征信息匹配的声纹特征信息的音频输入,其中所述注册声纹特征信息是对录音设备注册用户预先录制的音频进行声纹检测得到的;

目标类型音频的输入;

与目标动作匹配的动作信号的输入,所述目标动作是预先设置的。

其中,注册声纹特征信息与上文的目标声纹特征信息可以不同或相同。例如,在一种应用场景中,该注册声纹特征信息可以来自非发言用户的声音,如录音设备所属用户及其他旁听用户的提问发言声音等,在此不做限定。

其中,目标类型音频是指预先设置的类型音频,具体的音频类型如对桌子、录音设备等物理实体的敲击声。

其中,动作信号可以是指录音设备通过触摸屏接收到的手势动作。

在该实施例中,在录音文件中插入的标签的形式不受限定,可以是数字、文字等标记。

可选地,所述标签是具有所述注册声纹特征信息的第三音频,其中所述第三音频是从所述音频信号中得到的。

在这种情况下,第三音频即为标签本身。在具体应用场景中,用户可以在倾听发言音频时,对发言音频提出自己的观点,该观点可以通过第三音频的形式输入到录音设备中。

可选地,还可以在检测到与注册声纹特征信息匹配的声纹特征信息且在具有该注册声纹特征信息的音频中识别到指定关键字,触发在录音文件中插入标签。此时,指定关键字可以是“请打点”、“请标记”等,在此不做具体限定。

参照图6所示,下面结合具体应用场景阐述本申请实施例的录音方法,本方法具体包括如下各步骤。

步骤610:音频录制配置。

音频录制配置,包括但不限于音频过滤配置、音频打点配置、录制选项配置。

在音频过滤配置中,接收用户上传的声纹文件,识别该声纹文件并记录为目标声纹特征信息,这样后面可以录制具有该目标声纹特征信息的特定音频。

在音频打点配置中,可以设定通过点击屏幕按钮、物理按键、传感器或特定音频触发打点。还可以设定自动打点,可以预设关键词、或关键词+声纹的方式,自动对音频进行识别,识别到用户预设方案时将自动产生打点记录。

其中,在录制选项配置中,录音设备提供多种录制选项:录制内部声源;录制外部声源;自动跳过空白音频;人声录制。其中,内部声源是设备内部的语音通话声音,如移动电话通话或社交语音通话。

步骤620:利用声纹识别自动开始录音。具体地,在识别到指定声纹时自动录制,并可以在一定时间内没有识别到指定声纹时自动结束录制。

步骤630:通过打点对录音音频插入标签。

可选地,参考图7所示实施例,在设备屏幕悬浮一个按钮7A以供用户触发,每当接收到用户点击时,设备本地会生成文件记录时间点,该时间点最终会和录制的音频文件进行对应。用户需要标记重点内容时,往往没有时间进行更多思考和记录,本申请可以提供边界的方式帮助用户标记重要内容。

可选地,还可以提供基于传感器的打点。具体地,参照图8,用户摇晃录音设备80,图8所示双向箭头表示摇晃方向。

可选地,参考图9所示实施例,可以设置物理按键9A来接收用户按压,触发打点,以在录音文件中插入标签。

可选地,参考图10所示实施例,可以通过接收敲击桌子产生的特定类型声音10A进行打点。

可选地,提供自动打点功能,通过识别关键字匹配、或声纹+关键字匹配,实现自动打点的功能,如在课堂的场景下,可以更简单的识别出教学的重点内容进行打点,使学生的重点可以放在学习上而不需要手动进行打点标记。

步骤640:根据录音文件和打点信息,提取音频片段和关键字。

具体地,录音设备本地可以预设功能:标记点识别音频时间范围;是否忽略空白音频;是否上传云端分析,等。

在该实施例中,可以对用户设置的标记点进行文字转换,并提取文字中的关键字。

步骤650:展示标记点范围内的音频和关键词以及全部的音频相关信息。

在音频处理完成后,用户可以通过展示页面在本地查看音频分析数据,包含整体的音频信息、用户的标记点信息、音频转文字信息、关键词信息等等,可以在这里快捷地对音频进行一个整体的浏览的操作。如果用户将文件上传至了云端,那么也可以在浏览器中进行浏览和操作。

步骤660:响应于用户的输入,对录音文件进行裁剪、提取或文字转换等。

用户不仅仅可以对展示页面进行浏览,如果对展示页面中自动识别的关键音频范围不满意,可以采用拖动等输入方式对音频范围进行调整。对识别到的关键词和文字不满意,也可以手动进行设置。并且用户输入还可以是对标记音频进行裁剪、合成、提取等操作。关键词不仅可以使用户对音频内容有直观感受,也可以在后续音频文件过多时进行筛选时使用。

步骤670:将录制音频上传云端。

用户可以在处理完成后,自行选择是否上传到云端。基于当前的用户环境,用户可能会在其他设备使用该音频数据,用户可以将其上传到云端,便于多端互通,同时也可以避免设备的性能不足导致音频处理过慢,使用云端处理可以大大优化用户体验。

步骤680:响应于用户输入,将录制音频中的文字插入到目标应用程序中,并对文字设置与音频文件的超链接。

这样,对于用户记录的需求,提供将音频拖动至目标应用程序的功能,可以将音频文件直接插入到笔记类应用程序中。如果不支持,可以在笔记类应用程序中生成文字链接,通过点击该链接可在网页中打卡播放对应音频。可选地,也可直接复制音频,会自动生成格式化后的重点信息文字,用户可以直接插入到文本编辑器中。

需要说明的是,本申请实施例提供的录音方法,执行主体可以为录音装置,或者该录音装置中的用于执行录音的方法的控制模块。本申请实施例中以录音装置执行录音的方法为例,说明本申请实施例提供的录音装置。

参照图11所示,本申请实施例提供的录音装置可以包括:

获取模块1110,获取音频信号;

检测模块1120,对所述音频信号进行声纹特征检测,得到声纹特征信息;

录音模块1130,在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的。

可选地,录音模块1110具体用于:

过滤所述音频信号中不具有所述目标声纹特征信息的第一音频,对所述音频信号中具有所述目标声纹特征信息的第二音频进行录音。

可选地,录音模块1110具体用于:

在所述声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号中具有所述目标声纹特征信息的第二音频进行语音识别,输出文本信息;

在所述声纹特征信息与目标声纹特征信息匹配、且所述文本信息中包含目标关键字的情况下,开始对所述音频信号进行录音。

可选的,录音模块1110具体还用于:

在录音过程中,在指定时间段内未检测到与目标声纹特征信息匹配的声纹特征信息的情况下,停止录音。

可选地,参考图12所示,与图11不同之处在于,本实施例的录音装置还包括:

展示模块1210,在录音模块1240开始对所述音频信号进行录音之前,展示至少两个候选声纹特征信息分别对应的用户身份信息,其中,所述候选声纹特征信息是对预先录制的音频进行声纹检测得到的,所述用户身份信息是对对应的候选声纹特征信息预先标记得到的;

第一接收模块1220,接收用户的第一输入;

确定模块1230,响应于所述第一输入,获取指定的用户身份信息,将所述指定的用户身份信息所对应的候选声纹特征信息确定为所述目标声纹特征信息。

可选地,所述候选声纹特征信息是在对所述音频信号进行声纹特征信息检测并检测到至少两个声纹特征信息的情况下,与检测到的至少两个声纹特征信息相匹配的声纹特征信息。

可选地,在对所述音频信号进行声纹特征检测之前,在接收并响应于用户的第二输入的情况下,展示至少两个候选声纹特征信息分别对应的用户身份信息。

可选地,参照图13所示,与图11不同,本实施例的录音装置还包括:

第二接收模块1310,在录音过程中,接收用户的第三输入;

插入模块1320,响应于所述第三输入,在录音文件中插入标签。

可选地,所述第三输入为如下至少一种形式:

具有与注册声纹特征信息匹配的声纹特征信息的音频输入,其中所述注册声纹特征信息是对录音设备注册用户预先录制的音频进行声纹检测得到的;

目标类型音频的输入;

与目标动作匹配的动作信号的输入,所述目标动作是预先设置的。

本申请实施例提供的录音装置在获取到音频信号时,对音频信号进行声纹特征检测并得到声纹特征信息,并在检测到的声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音。这可以避免在具有目标声纹特征信息的音频内容之前录制到大段的空白或杂音等无效内容,从而节省录音素装置的内部存储空间,提升录音的高效性。

本申请实施例中的录音装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的录音装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的录音装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。

可选地,如图14所示,本申请实施例还提供电子设备1400,包括处理器1401,存储器1402,存储在存储器1402上并可在所述处理器1401上运行的程序或指令,该程序或指令被处理器1401执行时实现上述录音方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图15为实现本申请实施例的电子设备的硬件结构示意图。

该电子设备1500包括但不限于:射频单元1501、网络模块1502、音频输出单元1503、输入单元1504、传感器1505、显示单元1506、用户输入单元1507、接口单元1508、存储器1509、以及处理器1510等部件。

本领域技术人员可以理解,电子设备1500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图15中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。

其中,输入单元1504,用于获取音频信号。

处理器1510,用于对所述音频信号进行声纹特征检测,得到声纹特征信息;

在该声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音,其中所述目标声纹特征信息是对预先录制的音频进行声纹检测得到的。

使用本实施例的电子设备,在获取到音频信号时,对音频信号进行声纹特征检测,并在该声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号进行录音。这可以避免在具有目标声纹特征信息的音频内容之前录制到大段的空白或杂音等无效内容,从而节省录音素装置的内部存储空间,提升录音的高效性。

可选地,处理器1510还用于过滤所述音频信号中不具有所述目标声纹特征信息的第一音频,对所述音频信号中具有所述目标声纹特征信息的第二音频进行录音。

可选地,显示单元1506用于,在开始对所述音频信号进行录音之前,展示至少两个候选声纹特征信息分别对应的用户身份信息,其中,所述候选声纹特征信息是对预先录制的音频进行声纹检测得到的,所述用户身份信息是对对应的候选声纹特征信息预先标记得到的;

输入单元1504,还用于接收用户的第一输入;

处理器1510,还用于响应于所述第一输入,获取指定的用户身份信息,将所述指定的用户身份信息所对应的候选声纹特征信息确定为所述目标声纹特征信息。

可选地,处理器1510,还用于在对所述音频信号进行声纹特征检测之前,在接收并响应于用户的第二输入的情况下,展示至少两个候选声纹特征信息分别对应的用户身份信息。

可选地,处理器1510,还用于在检测到的声纹特征信息与目标声纹特征信息匹配的情况下,开始对所述音频信号中具有所述目标声纹特征信息的第二音频进行语音识别,输出文本信息;

在检测到的声纹特征信息与目标声纹特征信息匹配、且所述文本信息中包含目标关键字的情况下,开始对所述音频信号进行录音。

可选地,处理器1510还用于在录音过程中,在指定时间段内未检测到与目标声纹特征信息匹配的声纹特征信息的情况下,停止录音。

可选地,输入单元1504,还用于在录音过程中,接收用户的第三输入;

处理器1510,还用于响应于所述第三输入,在录音文件中插入标签。

应理解的是,本申请实施例中,输入单元1504可以包括图形处理器(GraphicsProcessing Unit,GPU)1541和麦克风1542,图形处理器1541对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1506可包括显示面板1561,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1561。用户输入单元1507包括触控面板1571以及其他输入设备1572。触控面板1571,也称为触摸屏。触控面板1571可包括触摸检测装置和触摸控制器两个部分。其他输入设备1572可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1509可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1510中。

本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述录制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述录制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述录音方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:录音方法、装置、电子设备及计算机可读介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类