音频识别方法和装置、计算机设备、计算机可读存储介质

文档序号:193389 发布日期:2021-11-02 浏览:48次 >En<

阅读说明:本技术 音频识别方法和装置、计算机设备、计算机可读存储介质 (Audio recognition method and device, computer equipment and computer-readable storage medium ) 是由 李金朋 邵云飞 张卫强 于 2021-09-30 设计创作,主要内容包括:本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。(The application relates to an audio recognition method and device, a computer device and a computer readable storage medium. The method comprises the following steps: and acquiring audio features corresponding to the audio data. Acquiring heterogeneous relation characteristics from a preset heterogeneous relation graph, wherein the preset heterogeneous relation graph is used for representing the relation between labels corresponding to audio data in a training set; the relationship between the labels includes a relationship between the scene labels, a relationship between the event labels, and a relationship between the scene labels and the event labels. The preset heterogeneous relational graph is generated based on inputting the initial heterogeneous relational graph into a preset R-GCN relational graph convolution neural network. And inputting the audio characteristics and the heterogeneous relation characteristics into a preset deep neural network for audio identification, and generating a scene label and an event label corresponding to the audio data. By adopting the method, the double recognition and classification tasks of scenes and events in the audio can be simultaneously carried out, and the accuracy and the reliability of recognition and classification are improved.)

音频识别方法和装置、计算机设备、计算机可读存储介质

技术领域

本申请涉及多媒体识别技术领域,特别是涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。

背景技术

随着多媒体相关技术的不断发展,音频处理技术也得到了不断发展。其中,对音频进行识别是音频处理过程中至关重要的一个环节。

传统方法,在对音频进行识别时,主要是从音频中识别出场景及事件。但是,在实际的音频识别任务中,通常对音频中的场景和事件分开进行识别。然而,一般情况下,音频中的事件与事件、场景与事件、场景与场景之间具有一定的关联关系。若分别对音频中的场景和事件进行识别,则就不能够在识别的过程中考虑到以上三者之间的关联关系。因此,对音频进行识别所得的场景及事件的准确性较低。

发明内容

基于此,有必要针对上述技术问题,提供一种音频识别方法和装置、计算机设备、计算机可读存储介质,能够提高识别分类的准确度和可信度。

一种音频识别方法方法,所述方法包括:

获取音频数据对应的音频特征;

从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的;

将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

在其中一个实施例中,将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签,包括:

将音频特征及异构关系特征进行拼接,生成融合异构关系特征;

将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,生成目标特征;

根据目标特征生成与音频数据对应的场景标签及事件标签。

在其中一个实施例中,提供了一种音频识别的方法,还包括:

获取训练集,为训练集中的每个预设音频数据设置标注标签;标注标签包括场景标签及事件标签;

根据训练集中预设音频数据的标注标签,构建初始异构关系图;

将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图。

在其中一个实施例中,根据训练集中预设音频数据的标注标签,构建初始异构关系图,包括:

根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵;

根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵;

根据邻接矩阵及关系类别矩阵,构建初始异构关系图。

在其中一个实施例中,将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图,包括:

从初始异构关系图中获取初始异构关系特征,通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,生成中间异构关系特征;

基于中间异构关系特征对初始异构关系图进行更新,生成中间异构关系图。

在其中一个实施例中, R-GCN关系图卷积神经网络包括R-GCN层及激活函数;通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,生成中间异构关系特征,包括:

将初始异构关系特征输入至R-GCN层中进行处理,生成处理后的初始异构关系特征;

将处理后的初始异构关系特征输入至激活函数中进行处理,生成中间异构关系特征。

在其中一个实施例中,提供了一种音频识别的方法,还包括:

从训练集中的每个预设音频数据中提取音频特征,从中间异构关系图中提取中间异构关系特征;

将预设音频数据的音频特征与中间异构关系特征输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签;

根据预设音频数据的预测场景标签及预测事件标签、预设音频数据的标注场景标签及标注事件标签,计算损失函数的值;

根据损失函数的值调整初始的R-GCN关系图卷积神经网络的参数,生成预设的R-GCN关系图卷积神经网络;

根据损失函数的值调整初始的深度神经网络的参数,生成预设的深度神经网络。

一种音频识别装置,装置包括:

音频特征获取模块,用于获取音频数据对应的音频特征;

异构关系特征获取模块,用于从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的;

音频识别模块,用于将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行所述计算机程序时实现如上方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上方法的步骤。

上述音频识别方法和装置、计算机设备、计算机可读存储介质,在对音频数据进行识别的过程中,首先获取音频数据对应的音频特征,然后从预设的异构关系图中获取异构关系特征。预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的。最后将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。其中,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系,且标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。所以,通过从预设的异构关系图中获取音频数据的异构关系特征可以充分考虑到音频数据中场景与场景、场景与事件、以及事件与事件之间的异构关系。因此,本申请提出的音频数据识别方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高音频识别的准确度和可信度。

附图说明

图1为一个实施例中音频识别方法的应用环境图;

图2为一个实施例中音频识别方法的流程示意图;

图3为一个实施例中获取音频数据对应的音频特征的流程示意图;

图4为一个实施例中异构关系图示意图;

图5为一个实施例中生成与音频数据对应的场景标签及事件标签的流程示意图;

图6为一个实施例中音频识别方法的流程示意图;

图7为一个实施例中构建初始异构关系图的流程示意图;

图8为一个实施例中音频识别方法的网络训练流程示意图;

图9为一个具体实施例中音频识别方法的流程示意图;

图10为一个实施例中音频识别装置的结构框图;

图11为图10中音频识别模块的结构框图;

图12为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

图1为一个实施例中音频识别的应用场景图。如图1所示,该应用环境包括计算机设备140。计算机设备140获取音频数据120对应的音频特征,然后从预设的异构关系图中获取异构关系特征。预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的。最后将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

图2为一个实施例中音频识别方法的流程示意图,如图2所示,提供了一种音频识别方法,应用于计算机设备,包括步骤220至步骤260。

S220,获取音频数据对应的音频特征。

音频数据是一系列数字代表时域中连续变化的样本,具体的表现形式为“波形图”,通过提取音频数据的音频特征可以精简音频数据的波形信号。音频特征可以加快计算机或者服务器等机器对音频中语义含义的理解。常用的音频特征包括但不限于:过零率、短时能量、短时自相关函数、短时平均幅度差、语谱图、短时功率谱密度、谱熵、基频、以及梅尔频谱等。在提取音频数据的音频特征过程中,通常要对音频信号进行分析通常需要进行采样和量化等操作,其中,采样是指连续时间的离散化过程,量化是指将连续波形转化为离散化的数字。对音频数据提取音频特征常用到的变换方式包括但不限于:短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱、以及恒Q变换等。本申请对获取音频数据对应的音频特征采用的手段不做限定。

优选的,图3为一个实施例中获取音频数据对应的音频特征的流程示意图,如图3所示,在本实施例中,从音频数据提取出log-mel谱作为音频特征,包括:

S221、对音频数据进行分帧。音频数据具有短时平稳的特点,即,音频数据在整体上不稳定,但在局部上是稳定的,因此,需要对音频数据进行分帧处理,得到多帧音频数据;

S222、将S221得到的各帧音频数据进行加窗。上述步骤中对音频数据进行分帧操作后会造成两帧音频数据的间断,进而加大了原始音频数据的误差。采用加窗的操作可以有效地解决上述问题,使得两帧音频数据之间具有连续的信息,并且表现出周期性特点。通常使用的窗函数包括但不限于:矩形窗、汉纳窗、汉明窗、布莱克曼窗等。优选的,本实施例采用汉宁窗对音频数据进行加窗操作,得到多帧加窗后的音频数据;

S223、获取音频数据的频谱图。分别对S222得到的多帧加窗后的音频数据进行短时傅里叶变换。短时傅里叶变换作用是将音频数据的时域信号转换成频域信号。进一步的,把每一帧音频数据作短时傅里叶变换后的频谱在时间上堆叠起来就可以得到音频数据的频谱图。

S224、获取音频数据的能量谱。将S223得到的音频数据的频谱图取其模平方,得到整体音频数据的能量谱。

S225、获取音频数据log-mel谱,将S224得到的音频数据的能量谱的频率转化为梅尔标度,其计算公式如下:

(1)

其中,f为能量谱中的频率,m为梅尔标度下对应的频率。

进一步的,将转化为梅尔标度的能量谱通过预设的梅尔滤波器组,得到音频数据的log-mel谱。优选的,预设的梅尔滤波器组中每一个滤波器都是一个三角滤波器。

S240,从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的。

具体的,图4为一个实施例中异构关系图示意图,如图4所示,该异构关系图包含四个场景标签:城中心、城市公园、森林小径、湖畔沙滩。以及九个事件标签:车辆声、溪水声、鸟鸣声、树叶声、嘈杂人声、音乐声、运动声、嬉笑声、水浪声。在图4 所示的异构关系图中,场景标签使用矩形节点表示,事件标签使用椭圆形节点表示。进一步的,为了区分两个节点之间的连接类型,图4 所示的异构关系图中粗线表示场景-事件关系,细线表示事件-事件关系,异构关系图可以反映出所连接两个节点的关系类别。进一步的,图4 所示的异构关系图中实线表示两个节点之间的关联度较高,虚线表示两个节点的关联度较低,没有连接的两个节点表示两者之间没有关联,也就是说,异构关系图可以反应出所连接两个节点的关联度,具体体现为各边的权重值反映了所连接两个节点的关联度。另外,异构关系图是一个有向图,例如,节点“城中心”到节点“音乐声”边的权重与节点“音乐声”到节点“城中心”边的权重是不同的,优选的,在本实施例中,为了表示简洁,两个节点不同方向的权值保持一致。

其中,将初始的异构关系图输入到预设的R-GCN关系图卷积神经网络中,得到预设的异构关系图。由于异构关系图是一种不规则、无限维的数据结构,不具有平移不变性的特点。针对这种结构,卷积神经网络CNN、循环卷积神经网络RNN等神经网络处理效果并不是很理想。GCN图卷积神经网络,实际上跟CNN的作用一样,就是一个特征提取器,只不过GCN的对象是图数据。GCN可以从输入的图数据中提取特征有关图特征,进而获取的图特征去对输入的图数据进行节点分类、图分类、边预测等任务。而关系图卷积神经网络R-GCN与GCN相比可以更好的考虑异构关系图中边的类型和方向。

将初始的异构关系图输入至预设的R-GCN关系图卷积神经网络中,通过对初始的异构关系图中各个节点状态更新,进而得到预设的异构关系图。预设的异构关系图中节点之间边的权重反映了音频数据中场景与场景之间的关系、事件与事件之间的关系、场景与事件之间的关系,进一步的,预设的异构关系图还可以反应出节点之间的关系类别,因此,从预设的异构关系图中可以得到能够反应出各节点状态的异构关系特征。

使用R-GCN提取异构关系图的异构关系特征可以充分考虑异构关系图中场景与场景、场景与事件、事件与事件之间的关系,进而提高对音频数据识别的准确度。

S260,将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

具体的,将步骤220得到的音频数据的音频特征和步骤240得到异构关系特征输入至预设的深度神经网络中进行音频识别,根据预设的深度神经网络的输出向量来确定音频数据对应的场景标签及事件标签。其中深度神经网络包括但不限于:CNN卷积神经网络、GAN生成对抗式神经网络、ResNet残差网络等。优选的,本申请实施例中,将音频特征及异构关系特征输入至预设的ResNet残差网络中进行音频识别,根据输出的向量确定与音频数据对应的场景标签及事件标签。

在本申请实施例中,在对音频数据识别的过程中,首先获取音频数据对应的音频特征,然后从预设的异构关系图中获取音频数据的异构关系特征。异构关系图用于表示音频数据对应的场景标签与场景标签、事件标签与事件标签、场景标签与事件标签之间的关系,通过从预设的异构关系图中获取音频数据的异构关系特征可以充分考虑到音频数据中场景与场景、场景与事件、以及事件与事件之间的关系。最后将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,根据深度神经网络的输出确定与音频数据对应的场景标签及事件标签,进而实现同时识别音频中场景和事件。而传统方法通常分别对音频的场景和事件进行识别,并没有充分考虑场景与场景、场景与事件、以及事件与事件之间的关系。因此,本申请提出的音频数据识别方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高音频识别的准确度和可信度。

在其中一个实施例中,图5为一个实施例中生成与音频数据对应的场景标签及事件标签的流程示意图,如图5所示,S260,将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签,包括:

S262,将音频特征及异构关系特征进行拼接,生成融合异构关系特征。

具体的,将音频数据中提取的音频特征与预设的异构关系图中提取的异构关系特征进行拼接操作,其中,音频特征和异构关系特征都表现为矩阵形式。本申请对具体的拼接操作不做限定,优选的,在本实施例中,将音频特征和异构关系特征沿着行向量的方向进行拼接。例如,假设音频特征为T*C的大小矩阵,异构关系特征为N*C的大小矩阵,则进行拼接后生成的融合异构关系特征为(T+N)*C大小的矩阵。

S264,将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,生成目标特征。

具体的,融合异构关系特征输入至预设的深度神经网络中进行卷积处理后得到一个张量,即目标特征。对于场景标签,表现为多分类单输出,即输出可以确定音频数据中的一个场景标签。对于事件标签,表现为多分类多输出,即输出可以确定音频数据中的多个事件标签。设计深度神经网络中最后一个卷积层的激活函数,对于识别场景标签,采用softmax函数,对于识别事件标签,采用sigmoid函数。softmax函数使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。sigmoid函数将每一个元素映射0到1之间,但所有元素的和不一定为1。具体为:

(2)

其中,z i 表示深度神经网络输出的张量,即目标特征,表示最后一个卷积层 的激活函数,x i 表示深度神经网络中最后一个卷积层的输出,N表示输出目标状态的维度, 即场景标签和事件标签的总数,N 1表示场景标签的总数,N 2表示事件标签的总数。

将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,卷积操作会学习和提取输入数据的特征,并对输入数据的各个参数进行更新,进而得到更新后得到目标特征。

S266,根据目标特征生成与音频数据对应的场景标签及事件标签。

具体的,S264得到的目标特征是一个N维的张量,选取N维的张量中前N 1维中最大的元素值对应的标签作为场景标签的识别结果,选取N维的张量中后N 2维中大于预设阈值的元素值对应的标签作为事件标签的识别结果,其中,预设阈值的选取范围为(0, 1),优选的,本实施例中选择0.4作为阈值。

本申请实施例中,通过将音频特征及异构关系特征进行拼接,进而生成融合异构关系特征,融合异构关系特征不仅具有音频数据本身的音频特征,也具有场景与场景、场景与事件、事件与事件之间关系特征。随后将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,生成目标特征,最后根据目标特征生成与音频数据对应的场景标签及事件标签。深度神经网络输出的目标特征同时反应了音频数据本身的音频特征以及场景与场景、场景与事件、事件与事件之间的关系,进而,实现了同时对音频数据的场景和事件进行识别,并提高了音频数据识别场景和事件的准确度。

在其中一个实施例中,图6为一个实施例中音频识别方法的流程示意图,如图6所示,提供了一种音频识别方法,还包括:

S620,获取训练集,为训练集中的每个预设音频数据设置标注标签;标注标签包括场景标签及事件标签。

具体的,在通常情况下,获取音频数据的方式包括但不限于:直接获取已有音频,比如在网上的声音素材网站进行下载或者通过多媒体光盘进行搜集等;利用音频处理软件获取音频,比如利用音频处理软件捕获、截取CD光盘音频数据,或者使用类似于“千千静听”等软件剥离视频中的声音;用麦克风录制声音,比如利用计算机、终端等设备自带的“录音机”或者“麦克风”进行采集声音。本申请对音频数据的获取方式不做限定。

其中,利用获取的音频数据制作音频数据训练集,然后为训练集中的每个音频数据设置标注标签,对每个音频数据标注一个场景标签和多个事件标签。其中,在对音频数据设置标注标签时,可以是通过人工标注或者是借助一些标注工具等方式,本实施例对设置标注标签的方式不做限定。优选的,在本实施例中,采用人工标注的方式为训练集中的每个预设音频数据设置标注标签。

S640,根据训练集中预设音频数据的标注标签,构建初始异构关系图。

具体的,异构关系图由节点和边组成,节点表示标签的类别,边表示所连接两节点之间的权重关系。因此,通过统计训练集中预设音频数据的标注标签,可以得到预设音频数据的标注标签之间的关联性,进而构建出异构关系图。

S660,将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图。

具体的,初始异构关系图是通过对训练集中预设音频数据的标注标签统计而得出的,因此,初始异构关系图只能反映出训练集中预设音频数据对应标签之间的联系,并不能准确的反应出音频数据中场景标签与场景标签、场景标签与事件标签、以及事件标签与事件标签之间的逻辑关系,为了更准确的获得异构关系特征,将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,R-GCN关系图卷积神经网络对初始异构关系图中各个节点进行更新之后,得到中间异构关系图。

本申请实施例中,首先获取音频数据训练集,并为训练集中的每个预设音频数据设置标注标签,其中,标注标签包括场景标签及事件标签。然后,通过统计训练集中预设音频数据的标注标签,进而构建初始异构关系图。最后将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图。构建的初始异构关系图充分考虑了音频数据训练集中所有标注标签之间的关系,进而提高了音频识别的正确率,提高了结果的可信度。

在其中一个实施例中,图7为一个实施例中构建初始异构关系图的流程示意图,如图7所示,S640,根据训练集中预设音频数据的标注标签,构建初始异构关系图,包括:

S642,根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵。

具体的,假设训练集中预设音频数据的标注标签的种类总数为N,预设音频数据的标注场景标签总数为N 1,预设音频数据的标注事件标签总数为N 2。统计训练集中预设音频数据的标注标签之间共生状态,构建共生矩阵M,M为N*N维的矩阵。M ij 表示对于训练集中的所有预设音频数据,标签L i 存在的情况下标签L j 也存在的数目。统计训练集中的所有预设音频数据中,N个标签分别出现的总数目,以N维向量的形式呈现,记为S。然后将M中每一列向量的各个元素都除以S向量的对应的各个元素,进而得到邻接矩阵A,邻接矩阵A也是一个N*N维的矩阵,具体表示为:

(3)

可见,邻接矩阵A反映出训练集中所有预设音频数据的标注标签之间的共生概率。具体的,邻接矩阵A可以反映异构关系图中所连接两个节点的边的粗细,进一步的,邻接矩阵A可以反映出异构关系图中两个节点之间的关系权重。

优选的,考虑到训练集中所有预设音频数据会存在噪声标注标签的情况,在本实施例中,将邻接矩阵A中小于阈值的元素值置为0,这样可以表明两个标签之间没有关联,即在异构关系图中表现为两个节点之间没有边连接。

S644,根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵。

具体的,构造关系类别集R,包括:场景-场景关系、场景-事件关系、事件-事件关系,分别用不同的数字表示,优选的,在本实施例中,使用数字1、2、3分别表示场景-场景关系、场景-事件关系、事件-事件关系。进一步的,构造与邻接矩阵A相同维度的构建关系类别矩阵RMat,RMat ij 表示标签L i 与标签L j 之间的类别关系。具体的,构建关系类别矩阵RMat可以反映异构关系图中所连接两个节点的关系类别。

S646,根据邻接矩阵及关系类别矩阵,构建初始异构关系图。

具体的,根据邻接矩阵及关系类别矩阵,构建初始异构关系图G={V,E,R},其中,V表示异构关系图中的各个节点,E表示异构关系图中连接两节点的边,用邻接矩阵A可以反映异构关系图中两个节点之间的关系权重,关系类别矩阵RMat可以反映异构关系图中两个节点之间的关系类别。

进一步的,对训练集中预设音频数据的标注标签进行词向量提取操作,词向量提取的作用是将单词或短语映射为实数的向量。提取词向量的方式包括但不限于:GloVe、n-gram、word2vec、fastText、ELMO等,本实施例中对词向量的提取方式不做限定。优选的,在本实施例中,采用GloVe对训练集中预设音频数据的标注标签进行词向量提取操作,进而作为初始异构关系图中各个节点的初始状态,即初始异构关系特征。

本申请实施例中,首先根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵,邻接矩阵能够反映出异构关系图中两个节点之间的关系权重。然后根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵,关系类别矩阵可以反映异构关系图中两个节点之间的类别关系。最后通过邻接矩阵和关系类别矩阵构建出异构关系图,因此,异构关系图可以充分反映出节点之间的异构关系,即可以充分考虑到场景与场景、事件与事件、以及场景与事件之间的关系,进而可以实现同时对音频数据的场景和事件进行识别,并有效的提高音频识别的准确度。

在其中一个实施例中,将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图,包括:

从初始异构关系图中获取初始异构关系特征,通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,生成中间异构关系特征。

具体的,初始异构关系图中各个节点的初始状态表示了初始异构关系特征,通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,即对初始异构关系图中各个节点的状态进行聚合更新,进而得到了中间异构关系特征,进一步的,对初始异构关系图中各个节点的状态采用聚合更新方式,具体为:

(4)

其中,表示R-GCN关系图卷积神经网络中第l个R-GCN层中第i个节点的状态向量,节点的状态向量即该节点的特征。表示R-GCN关系图卷积神经网络中通过第l个R-GCN层后第i个节点的状态向量,即,表示初始异构关系图通过上述公式计算后,得到的中间异构特征。另外,表示激活函数,R表示关系类别集,表示第i个节点在关系r下的邻居集,A表示邻接矩阵,表示第l个R-GCN层中,第i个节点在关系r下对应的可训练的权重矩阵,表示第l个R-GCN层中,第i个节点与自身对应的可训练的权重矩阵。可以看出,R-GCN关系图卷积神经网络对异构关系图中各个节点进行更新时,每层节点特征都是由上一层节点特征和节点与节点之间的关系而得到。另外,R-GCN对节点的邻居节点特征和自身特征进行加权求和得到新的特征,并且R-GCN可以保留节点自身的信息,会考虑自环。

进一步的,邻接矩阵A是可训练的,邻接矩阵A是根据初始异构关系图得到的,在R-GCN关系图卷积神经网络对初始异构关系图的初始异构关系特征进行聚合更新时,邻接矩阵A是不断变化的。

进一步的,在对初始异构关系图中各个节点的状态通过聚合更新方式时,如果参数量过大,可以通过基分解的方式减少参数量,基分解方式为:

(5)

其中,表示第l个R-GCN层第i个节点的状态向量的维度,B为基的数目,为系数,只依赖关系类别r。可以看出,可以表示为基的线性组合。

基于中间异构关系特征对初始异构关系图进行更新,生成中间异构关系图。

具体的,初始异构关系图中各节点的状态为初始的异构关系特征,通过对初始异构关系特征的更新,得到了中间异构关系特征。对于初始异构关系图来说,各个节点的状态进行了更新,进而得到了中间异构关系图。

本申请实施例中,首先从初始异构关系图中获取初始异构关系特征,通过初始的R-GCN关系图卷积神经网络对在初始异构关系特征进行聚合更新,即对初始异构关系图的各个节点进行更新,进而生成中间异构关系特征。随后基于中间异构关系特征对初始异构关系图进行更新,生成中间异构关系图。得到的中间异构关系图相比于初始异构关系图能够更好的反映出异构关系图中各个节点之间的关系,即音频数据中场景与场景、场景与事件、以及事件与事件之间的关系,进而提高了对识别音频数据的准确度。

在其中一个实施例中, R-GCN关系图卷积神经网络包括R-GCN层及激活函数;通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,生成中间异构关系特征,包括:

将初始异构关系特征输入至R-GCN层中进行处理,生成处理后的初始异构关系特征。

具体的,R-GCN关系图卷积神经网络包括R-GCN层及激活函数,将初始异构关系特征输入至R-GCN层后,R-GCN层会对初始异构关系特征会进行更新,进而生成处理后的初始异构关系特征。

将处理后的初始异构关系特征输入至激活函数中进行处理,生成中间异构关系特征。

具体的,R-GCN关系图卷积神经网络包括R-GCN层及激活函数,本文对R-GCN层不做限定,优选的,在本实施例中,使用的R-GCN关系图卷积神经网络具有2层R-GCN层。在R-GCN层后有相应的激活函数,激活函数的类型包括但不限于:ReLU激活函数、Tanh激活函数、LReLU激活函数、PReLU激活函数等,优选的,本实施例中,使用ReLU激活函数。

本申请实施例中,将初始异构关系特征输入至R-GCN关系图卷积神经网络R-GCN层中进行处理,生成处理后的初始异构关系特征。然后将处理后的初始异构关系特征输入至激活函数中进行处理,生成中间异构关系特征。以实现对初始异构关系特征的更新,进而提高识别音频数据的正确率。

在其中一个实施例中,图8为一个实施例中音频识别方法的网络训练流程示意图,如图8所示,提供了一种音频识别方法,还包括:

S810, 从训练集中的每个预设音频数据中提取音频特征,从中间异构关系图中提取中间异构关系特征。

具体的,从训练集中的每个预设音频数据中提取音频特征,优选的,在本实施例中,提取训练集中每个预设音频数据的log-mel谱作为音频特征。通过获取中间异构关系图中各个节点的状态,进而提取中间异构关系特征。

S820, 将预设音频数据的音频特征与中间异构关系特征输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签。

具体的,将预设音频数据的音频特征与中间异构关系特征进行拼接操作后输入至初始的深度神经网络中,根据输出的向量得出预设音频数据的预测场景标签及预测事件标签。

S830, 根据预设音频数据的预测场景标签及预测事件标签、预设音频数据的标注场景标签及标注事件标签,计算损失函数的值。

具体的,损失函数有助于优化神经网络的参数,通过优化神经网络的参数来最大程度地减少神经网络的损失。上述深度神经网络的输出向量可以同时反映出音频数据的场景标签和事件标签,识别场景标签是多分类单输出任务,识别事件标签是多分类多输出任务。

优选的,对于识别场景标签采用多类别交叉熵损失函数,对于识别事件标签采用二分类交叉熵损失,因此,损失函数如下:

(6)

也可合并简化为:

(7)

其中,为对应标签one-hot编码的第i个元素的值,one-hot编码中对应标签的元素值为1,其余元素值均为0,深度神经网络输出的N维张量(即目标特征)中第i个元素的值,N表示场景标签和事件标签的总数,N 1表示场景标签的总数。

S840, 根据损失函数的值调整初始的R-GCN关系图卷积神经网络的参数,生成预设的R-GCN关系图卷积神经网络。

具体的,初始的R-GCN关系图卷积神经网络通过损失函数的值可以调整初始R-GCN关系图卷积神经网络内部各个可训练的权重值,损失函数确定了初始的R-GCN关系图卷积神经网络的参数更新方向,进而得到预设的R-GCN关系图卷积神经网络。

S850, 根据损失函数的值调整初始的深度神经网络的参数,生成预设的深度神经网络。

具体的,初始的深度神经网络通过损失函数的值可以调整初始的深度神经网络内部各个可训练的权重值,损失函数确定了初始的深度神经网络的参数更新方向,进而得到预设的深度神经网络。

本申请实施例中,首先从训练集中的每个预设音频数据中提取音频特征,从中间异构关系图中提取中间异构关系特征,然后将预设音频数据的音频特征与中间异构关系特征输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签。进一步的,根据预设音频数据的预测场景标签及预测事件标签、预设音频数据的标注场景标签及标注事件标签,计算损失函数的值。进一步的,根据损失函数的值调整初始的R-GCN关系图卷积神经网络的参数,生成预设的R-GCN关系图卷积神经网络。进一步的,根据损失函数的值调整初始的深度神经网络的参数,生成预设的深度神经网络。通过对初始的R-GCN关系图卷积神经网络和初始的深度神经网络进行训练,两个网络的各个参数都得到了更新,进而有效的学习到音频数据的异构特征,提高了识别音频数据的准确度。

应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体的实施例中,如图9所示,提供了一种音频识别方法,包括:

在训练R-GCN关系图卷积神经网络和深度神经网络的过程中,具体包括以下步骤:

S901,获取训练集,为训练集中的每个预设音频数据设置标注标签,标注标签包括场景标签及事件标签。

S902,根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵;根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵;根据邻接矩阵及关系类别矩阵,构建初始异构关系图。

S903,从初始异构关系图中获取初始异构关系特征。

S904,R-GCN关系图卷积神经网络包括R-GCN层及激活函数,通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,将初始异构关系特征输入至R-GCN层中进行处理,生成处理后的初始异构关系特征;将处理后的初始异构关系特征输入至激活函数中进行处理,生成中间异构关系特征,基于中间异构关系特征对初始异构关系图进行更新,生成中间异构关系图。

S905,从中间异构关系图中提取中间异构关系特征;

S906,从训练集中的每个预设音频数据中提取音频特征,

S907,将预设音频数据的音频特征与中间异构关系特征输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签;

S908,根据预设音频数据的预测场景标签及预测事件标签、预设音频数据的标注场景标签及标注事件标签,计算损失函数的值;

S909,根据损失函数的值调整初始的R-GCN关系图卷积神经网络的参数,生成预设的R-GCN关系图卷积神经网络;根据损失函数的值调整初始的深度神经网络的参数,生成预设的深度神经网络。

S910,根据预设的R-GCN关系图卷积神经网络生成预设异构关系图。

在实际使用过程中,具体包括以下步骤:

S911,获取音频数据对应的音频特征;

S912,从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;

S913,将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

在本实施例中,在训练R-GCN关系图卷积神经网络和深度神经网络的过程中,首先获取训练集,为训练集中的每个预设音频数据设置标注标签,然后根据训练集中预设音频数据的标注标签之间的共生概率和关系类别构建初始异构关系图。进一步的,将初始异构关系图中获取的初始异构关系特征通过初始的R-GCN关系图卷积神经网络,进而得到中间异构关系图。进一步的,训练集中的每个预设音频数据中提取的音频特征与中间异构关系图得到的中间异构关系图输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签。进一步的,通过计算损失函数的值得到预设的R-GCN关系图卷积神经网络和预设的深度神经网络。

在实际使用过程中,首先获取音频数据对应的音频特征,将预设的异构关系图提取的异构关系特征和音频特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。因此,本发明能够同时进行音频中场景和事件的双重识别分类任务,并且可以提高音频识别分类的准确度和可信度。

在一个实施例中,图10为一个实施例中音频识别装置的结构框图,如图10所示,提供了一种音频识别装置1000,包括:

音频特征获取模块1020,用于获取音频数据对应的音频特征;

异构关系特征获取模块1040,用于从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的;

音频识别模块1060,用于将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。

在一个实施例中,如图11所示,音频识别模块1060,包括:

融合异构关系特征获取单元1062,用于将音频特征及异构关系特征进行拼接,生成融合异构关系特征;

目标特征获取单元1064,用于将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,生成目标特征;

场景及事件分类单元1066:用于根据目标特征生成与音频数据对应的场景标签及事件标签。

在一个实施例中,提供了一种音频识别装置,还包括:

音频数据训练集获取模块,用于获取音频数据训练集,为训练集中的每个预设音频数据设置标注标签;标注标签包括场景标签及事件标签;

异构关系图获取模块,用于根据训练集中预设音频数据的标注标签,构建初始异构关系图;

异构关系图更新模块,用于将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图。

在一个实施例中,异构关系图获取模块,还用于根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵;根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵;根据邻接矩阵及关系类别矩阵,构建初始异构关系图。

在一个实施例中,异构关系图更新模块,还用于从初始异构关系图中获取初始异构关系特征,通过初始的R-GCN关系图卷积神经网络对初始异构关系特征进行聚合更新,生成中间异构关系特征;基于中间异构关系特征对初始异构关系图进行更新,生成中间异构关系图。

在一个实施例中,异构关系图更新模块,还用于将初始异构关系特征输入至R-GCN层中进行处理,生成处理后的初始异构关系特征;将处理后的初始异构关系特征输入至激活函数中进行处理,生成中间异构关系特征。

在一个实施例中,提供了一种音频识别装置,还包括:网络训练模块,用于从训练集中的每个预设音频数据中提取音频特征,从中间异构关系图中提取中间异构关系特征;将预设音频数据的音频特征与中间异构关系特征输入至初始的深度神经网络中,生成预设音频数据的预测场景标签及预测事件标签;根据预设音频数据的预测场景标签及预测事件标签、预设音频数据的标注场景标签及标注事件标签,计算损失函数的值;根据损失函数的值调整初始的R-GCN关系图卷积神经网络的参数,生成预设的R-GCN关系图卷积神经网络;根据损失函数的值调整初始的深度神经网络的参数,生成预设的深度神经网络。

上述音频识别装置中各个模块的划分仅用于举例说明,在其他实施例中,可将音频识别装置按照需要划分为不同的模块,以完成上述音频识别装置的全部或部分功能。

在一个实施例中,图12为一个实施例中计算机设备的内部结构示意图。如图12所示,该计算机设备可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存储音频数据,该计算机设备的网络接口用于与外部的终端通过网络连接通信,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序可被处理器所执行,以用于实现以下各个实施例所提供的一种音频识别方法。

本申请实施例中提供的音频识别装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在计算机设备或者服务器上运行。该计算机程序构成的程序模块可存储在计算机设备或者服务器的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行音频识别方法的步骤。

一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行音频识别方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态 RAM (SRAM)、动态 RAM (DRAM)、同步 DRAM (SDRAM)、双数据率 SDRAM (DDRSDRAM)、增强型 SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种音频处理方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!