一种语种识别方法

文档序号:1467472 发布日期:2020-02-21 浏览:11次 >En<

阅读说明:本技术 一种语种识别方法 (Language identification method ) 是由 田剑豪 龚晓峰 杨文� 于 2019-10-21 设计创作,主要内容包括:本发明公开了一种语种识别方法,包括:步骤101:采集多种语言的语音信号,获取原始语音数据;步骤102:针对语音信号数据进行格式和速率变换,统一数据格式和采样速率;步骤103:对语音信号数据进行预处理,并根据预先确定的正则化方法,生成与指定时间长度相对应的语谱图数据库,并根据预定的划分门限值,划分出训练集、验证集和测试集共三个部分;步骤104:基于构建的神经网络,利用训练集和验证集进行多次迭代训练,达到预期的语种分类识别准确度;步骤105:将测试集语谱图数据导入神经网络,进一步核实各个语种的识别效果。本发明语种类别的识别准确性高,并且处理速度快,实现成本低,可用于边境敌我信号侦察、自动翻译、入境检测等多种应用场景。(The invention discloses a language identification method, which comprises the following steps: step 101: collecting voice signals of multiple languages to obtain original voice data; step 102: carrying out format and rate conversion on voice signal data, and unifying data format and sampling rate; step 103: preprocessing voice signal data, generating a voice spectrum database corresponding to a specified time length according to a predetermined regularization method, and dividing a training set, a verification set and a test set into three parts according to a predetermined division threshold value; step 104: based on the constructed neural network, performing iterative training for multiple times by using a training set and a verification set to achieve the expected language classification and identification accuracy; step 105: and importing the test set spectrogram data into a neural network, and further verifying the recognition effect of each language. The method has the advantages of high language category identification accuracy, high processing speed and low implementation cost, and can be used for various application scenes such as border friend and foe signal reconnaissance, automatic translation, entry detection and the like.)

一种语种识别方法

技术领域

本发明涉及语音信号处理和模式识别领域,尤其涉及一种语种识别方法。

背景技术

随着移动互联网和通信与信息化技术的不断进步,语音的采集、获取、录制、存储的成本日益降低,手段也十分丰富。但是语音的自动识别、不同语种的自动翻译、说话人的鉴别等方面,仍未获得低成本和普遍的应用,多种语言语种的自动识别分类也是如此。

在国际交流活动中,自动而快速的判断发言人的语言种类很有必要,也是多国语言快速自动翻译的前提。在入境检测上,面临着快速辨识异常入境人员的实时语言种类问题。在跨国刑事侦查活动中,有很多场景需要快速判断嫌疑人的语言种类。在国防边境地区的军事侦察应用中,需要实时监听、分析和判断截获的语音语言种类等信息。所有这些,当前都是依赖具备多种语言技能的专用人才,通过人工听取和分析判断的形式进行。该人工方式耗时费力,人力成本高昂。更为受限的是,大部分时候根本无法找到与实际环境相匹配的、合适的专业语言人才,同时专业语言人才稀少,单个个人掌握的语言种类也十分有限。因此采用机器学习方法,利用常规的计算机等计算设备,基于录取的语音信号数据,自动识别语言种类显得很有必要。

发明内容

为了克服现有的技术的不足,本发明提供一种语种识别方法。

本发明技术方案如下:一种语种识别方法,包括:

步骤101:采集多种语言的语音信号,获取原始语音数据;

步骤102:针对语音信号数据进行格式和速率变换,统一数据格式和采样速率;

步骤103:对所述语音信号数据进行预处理,并根据预先确定的正则化方法,生成与指定时间长度相对应的语谱图数据库,并根据预定的划分门限值,划分出训练集、验证集和测试集共三个部分;

步骤104:基于构建的神经网络,利用所述训练集和所述验证集进行多次迭代训练,达到预期的语种分类识别准确度;

步骤105:将所述测试集语谱图数据导入神经网络,进一步核实各个语种的识别效果。

在一些实施例中,步骤102中,统一数据格式为wav格式,样本数据的采样率为22050Hz,数据样点位宽为16bit。

在一些实施例中,步骤103中,把训练阶段的训练语音数据,按照预定的截取长度len_wav_section将语音波形分割为若干个语音片段。

在一些实施例中,步骤103中,每个所述语音片段分割为200个语音片段子段,每个所述语音片段子段长度为1024,相邻所述语音片段子段间的重叠率为50%,然后对每个所述语音片段子段的数据进行加窗处理。

在一些实施例中,步骤103中,每个所述语音片段子段进行FFT频谱变换处理,得到每个所述语音片段子段对应的频域数据,取模获取其幅度谱。

在一些实施例中,步骤103中,将同一个所述语音片段的多个所述语音片段子段的幅度谱数据依次拼接为二维矩阵,每一列对应一个所述语音片段子段的所述幅度谱数据,最终生成一个所述语音片段的语谱图二维矩阵,每个所述语音片段均做上述操作处理。

在一些实施例中,步骤104中,按照预设的神经网络参数,采用随机梯度优化算法对所述神经网络进行迭代训练,并实时统计准确率。

在一些实施例中,步骤104中,每次迭代训练的图片数量为10个,每迭代训练200次,采用所述验证集进行一次语种正确率的验证测试。

在一些实施例中,步骤104中,所述神经网络包括:卷积神经网络,所述卷积神经网络的结构构建中,其中的卷积层1,共16个卷积核,大小均为5×5,其中的卷积层2,共32个卷积核,大小均为3×3,其中的卷积层3,共32个卷积核,大小均为3×3,其中的卷积层4,共32个卷积核,大小均为1×1。

在一些实施例中,步骤104中,所有的非线性化层均使用ReLU函数。

根据上述方案的本发明,其有益效果在于,通过语音信号处理和卷积神经网络技术,识别速度为每秒处理和识别10张语谱图,1秒钟内即可完成一段语音的预处理和识别全过程(配置为2013年出产的Intel i5三代CPU i5-3450,4GB DDR3内存的普通计算机),从而实现一段语音的语种类型识别,完全满足实际使用需求,识别准确性高,并且处理速度快,实现成本低。同时不依赖于具体语种的特殊特点,可用于边境敌我信号侦察、自动翻译和入境检测等多种应用场景。

附图说明

图1是本发明的语种识别处理流程图。

图2是本发明的语音数据样本的预处理的实现流程图。

图3是本发明的语音数据样本的扩充预处理实现流程图。

图4是本发明的神经网络训练阶段的处理实现流程图。

图5是本发明的语种识别神经网络结构图。

图6是本发明的时频二维语谱图的示意图。

具体实施方式

下面结合附图以及实施方式对本发明进行进一步的描述:

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

如图1所示,一种语种识别方法,包括:

步骤101:采集多种语言的语音信号,获取原始语音数据;

步骤102:针对语音信号数据进行格式和速率变换,统一数据格式和采样速率;

步骤103:对所述语音信号数据进行预处理,并根据预先确定的正则化方法,生成与指定时间长度相对应的语谱图数据库,并根据预定的划分门限值,划分出训练集、验证集和测试集共三个部分;

步骤104:基于构建的神经网络,利用所述训练集和所述验证集进行多次迭代训练,达到预期的语种分类识别准确度;

步骤105:将所述测试集语谱图数据导入神经网络,进一步核实各个语种的识别效果。

在一些实施例中,步骤102中,统一数据格式为wav格式,样本数据的采样率为22050Hz,数据样点位宽为16bit。

在一些实施例中,步骤103中,把训练阶段的训练语音数据,按照预定的截取长度len_wav_section将语音波形进行分割为若干个语音片段。

在一些实施例中,步骤103中,每个所述语音片段分割为200个语音片段子段,每个所述语音片段子段长度为1024,相邻所述语音片段子段间的重叠率为50%,然后对每个所述语音片段子段的数据进行加窗处理。

在一些实施例中,步骤103中,每个所述语音片段子段进行FFT频谱变换处理,得到每个所述语音片段子段对应的频域数据,取模获取其幅度谱。

在一些实施例中,步骤103中,将同一个所述语音片段的多个所述语音片段子段的幅度谱数据依次拼接为二维矩阵,每一列对应一个所述语音片段子段的所述幅度谱数据,最终生成一个所述语音片段的语谱图二维矩阵,每个所述语音片段均做上述操作处理。

在一些实施例中,步骤104中,按照预设的神经网络参数,采用随机梯度优化算法对所述神经网络进行迭代训练,并实时统计准确率。

在一些实施例中,步骤104中,每次迭代训练的图片数量为10个,每迭代训练200次,采用所述验证集进行一次语种正确率的验证测试。

在一些实施例中,步骤104中,所述神经网络包括:卷积神经网络,所述卷积神经网络的结构构建中,其中的卷积层1,共16个卷积核,大小均为5×5,其中的卷积层2,共32个卷积核,大小均为3×3,其中的卷积层3,共32个卷积核,大小均为3×3,其中的卷积层4,共32个卷积核,大小均为1×1。

在一些实施例中,步骤104中,所有的非线性化层均使用ReLU函数。

101、多语种语音数据采集:采集多种场景的多种音源,多个说话人的多语种语音为训练样本,每种语言语音录制总时间长度不低于5小时。包括汉语、俄语、日语、印地语、越南语、法语、英语、越南语、德语、意大利语、西班牙语、***语、朝鲜语共计13种语言。语言种类可继续扩充,设计实现上只需要调整卷积神经网络的输出端的全连接层输出矢量维数即可,保证输出矢量维数与语言种类相等。

多语种语音数据获取,尽量采集多个不同个人的语音,采集场景包括但不限于实时说话人,车载收音机,电视广播,网络电台,影视作品等多种形式。人数数量的增多,采集场景和类型的丰富,有助于提升语种识别系统的泛化能力,有助于提升陌生语音样本的识别正确率。

102、样本数据的格式统一:在语音录制采集阶段,不必关注录制语音的格式等因素。多语种语音数据的采集并汇总完成后,需要针对语音样本数据进行必要的格式和速率变换,可基于成熟的语音文件转换软件,统一转换和保存为WAV格式,同时数据采样速率统一为22050Hz,采样位数16bit。

103、样本数据预处理,针对语音信号数据进行相同的预处理,分别分割为多个约4.6秒时长的语音片段,生成与指定时间长度相对应的语谱图图片,语谱图包含了与语音信号相关的丰富的时频信息,如图6所示。将多个语种语音分割并生成语谱图图片后,按照7:2:1的比例,划分成训练集、验证集、测试集共3个部分。其中训练集用于训练神经网络的网络参数,验证集用于训练中间过程的识别率检验和超参数的调整,测试集用于进行最终的识别准确率测试验证。

104、构建并训练神经网络:构建卷积神经网络,配置神经网络训练参数,基于训练集的样本进行多次迭代训练,达到预期的语种分类识别准确度。通常经过60次epoch即可达到预期效果,针对验证集,可实现不低于95%的识别准确率。

105、基于训练好的神经网络,针对测试集样本进行分类识别,进一步核实各个语种的识别效果。

图2为样本数据的预处理实现流程图,结合图2,具体实现细节描述如下:

201、读取WAV语音文件数据,并确认该文件的语音数据采样速率是否为22050Hz,采样数据位宽是否为16bit,若不符合条件则需要告警并剔除。

202、针对语音数据波形进行归一化处理,首先找出该语音段的最大幅值Audio_max_value,然后将该语音段波形数据统一除以该数值。

203、按照预定的截取长度len_wav_section,将语音波形进行分割为若干个语音片段。相邻语音片段间的重叠率为50%。截取长度len_wav_section为102912,即每个语音片段的数据样点数为102912,对应到时间上约为4.6秒的语音。

204、针对每个语音片段,可分割为200个语音片段子段,每个子段长度为1024,相邻子段间的重叠率为50%。针对每个子段的数据进行加窗处理,这里选用汉明窗。这属于非平稳信号处理中的短时傅里叶变换处理前的常规操作步骤。

205、针对各个语音片段子段(样本点数均为1024)进行FFT频谱变换处理,得到各个语音片段子段对应的频域数据,取模获取其幅度谱。

206、将同一个语音片段的多个语音子段的幅度谱数据,依次拼接为二维矩阵,每一列对应一个语音片段子段的幅度谱数据,最终生成一个语音片段的语谱图二维矩阵。各个语音片段均做同样的操作处理。

207、对各个语谱图二维矩阵进行颜色空间映射,生成对应的RGB三色语谱图图像。

208、针对语谱图图像进行尺度变换,转换成尺寸大小为621×521的图像。

209、将各个语谱图图像分别标记并保存成图像文件,采用BMP文件格式。

图3为语音数据样本数量扩充的预处理流程图,与图2所示的预处理流程的图相当类似,区别在于对语音数据样本额外添加了加噪处理环节,即303步骤。通过添加不同信噪比的白噪声,可获得成倍的语音数据样本。比如分别添加信噪比为16dB,14dB,12dB,10dB的噪声,使得样本数量成为原始语音样本数量的5倍。值得一提的是,为了增加语音数据样本数量,除了针对语音波形数据的加噪处理外,还可针对最终生成的语谱图图像进行处理,比如语谱图图像水平方向的个位数像素平移处理,比如针对图像本身的加噪处理,同样亦可获得成倍的样本数量扩充。

图4为神经网络训练阶段的处理流程实现框图,结合图4的具体实现细节描述如下:

401、分别将训练集和验证进行序号随机化处理,以使得每个epoch阶段的Batch数据包内的图片不完全一致。一个epoch阶段,会基于训练集中所有的样本数据进行训练。

402、设定神经网络的各个超参数,包括初始化权值,MiniBatchSize,MaxEpoch,InitLearnRate,ValidationFreq等参数数值。具体的,批处理文件大小MiniBatchSize设定为10,最大epoch次数MaxEpoch设定为100,学习速率InitLearnRate设定为0.0001,验证集验证频率次数ValidationFreq设定为200。

403、构建卷积神经网络,神经网络的连接结构如图5所示。

404、按照预设参数,采用随机梯度优化算法对该神经网络进行迭代训练,并实时统计准确率。每次迭代训练的图片数量为10个。每迭代训练200次,采用验证集进行一次语种正确率的验证测试。验证集只进行识别率的验证确认,不参与训练过程的操作。

405、基于验证集的准确率达到预期值或epoch次数达到指定次数则停止训练。

406、保存网络及训练参数等结果数据

图5为语种识别神经网络的结构示意图,结合图5的具体实现细节描述如下:

501、输入层,输入层的输入图像为RGB彩色图像,图像维度为621×521×3。

502、卷积层1,共16个卷积核,大小均为5×5,同时进行图像边缘填充处理,保证输出图像大小保持不变。

503、归一化层1的归一化处理操作如下:

输入的一个训练样本集合有m个样本,即{x1,x2,...,xm},待学习的参数两个,分别为γ和β。

求取输入样本集的均值:

Figure BDA0002240551700000081

求取输入样本集的方差:

Figure BDA0002240551700000082

针对每个样本进行归一化:

归一化层的输出为:

Figure BDA0002240551700000084

对应输出的样本集合为:{y1,y2,...,ym}

504、非线性化层1,采用ReLU(Rectified Linear Units)激活函数进行非线性化处理。ReLU函数如下:

Figure BDA0002240551700000091

505、卷积层2,共32个卷积核,大小均为3×3,同时进行图像边缘填充处理,卷积核步进为2。

506、归一化层2,处理方式与503相同。

507、非线性化层2,处理方式与504相同。

508、卷积层3,共32个卷积核,大小均为3×3,同时进行图像边缘填充处理。

509、归一化层3,处理方式与503相同。

510、非线性化层3,处理方式与504相同。

511、卷积层4,共32个卷积核,大小均为1×1,卷积核步进为2。

512、相加层。合并S511和510的输出结果。

513、池化层。采用算术平均处理方式,大小2×2,步进为2。

514、全连接层。输出维数为2。

515、Softmax层。Softmax函数的处理如下:

Figure BDA0002240551700000092

其中,Vi是前级输出单元的输出,i表示类别,这里为语言的种类数目。Si表示当前输出数值,该函数将多个分类额输出数值转化为相对概率,使得所有类别数值的输出总和为1。

516、输出层,给出分类结果。

相对于现有技术的有益效果是,采用上述方案,本发明通过语音信号处理和卷积神经网络技术,识别速度为每秒处理和识别10张语谱图,1秒钟内即可完成一段语音的预处理和识别全过程,从而实现一段语音的语种类型识别,完全满足实际使用需求,识别准确性高,并且处理速度快,实现成本低。同时不依赖于具体语种的特殊特点,可用于边境敌我信号侦察、自动翻译和入境检测等多种应用场景。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

上面对本发明专利进行了示例性的描述,显然本发明专利的实现并不受上述方式的限制,只要采用了本发明专利的方法构思和技术方案进行的各种改进,或未经改进将本发明专利的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音识别中间结果的质量评测方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!