基于语音的同人识别方法、装置、设备及存储介质

文档序号：154822 发布日期：2021-10-26 浏览：28次 >En<

阅读说明：本技术 基于语音的同人识别方法、装置、设备及存储介质 (Voice-based same-person identification method, device, equipment and storage medium ) 是由刘源王健宗彭俊清于 2021-07-23 设计创作，主要内容包括：本发明涉及人工智能领域,公开了一种基于语音的同人识别方法、装置、设备及存储介质,该方法包括：提取待识别语音的特征参数,基于预设的向量机模型和特征参数,确定目标用户的年龄段,并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据,将语音数据和待识别语音分别输入至预设的深度卷积神经网络中,输出音色特征向量,判断目标用户与注册用户是否为同人。本发明通过对语音进行格式转换和年龄识别,提取与目标用户具有相同年龄段的注册用户语音进行同人比对,提高了语音的识别率和同人识别的准确度。此外,本发明还涉及区块链技术,待识别语音和特征参数可存储于区块链中。(The invention relates to the field of artificial intelligence, and discloses a voice-based method, a voice-based device, voice-based equipment and a voice-based storage medium, wherein the method comprises the following steps: extracting characteristic parameters of the voice to be recognized, determining the age bracket of the target user based on a preset vector machine model and the characteristic parameters, extracting voice data corresponding to the age bracket from a preset voice database of a registered user, respectively inputting the voice data and the voice to be recognized into a preset deep convolutional neural network, outputting a tone characteristic vector, and judging whether the target user and the registered user are the same person. According to the invention, through carrying out format conversion and age recognition on the voice, the voice of the registered user with the same age group as the target user is extracted and compared with the same person, so that the voice recognition rate and the accuracy of the same person recognition are improved. In addition, the invention also relates to a block chain technology, and the voice and the characteristic parameters to be recognized can be stored in the block chain.)

技术领域

本发明涉及人工智能领域，尤其涉及一种基于语音的同人识别方法、装置、设备及存储介质。

背景技术

随着人工智能的不断发展，语音在很多领域，例如人机交互领域到了广泛的应用，如可以利用语音控制设备或者通过机器人进行智能语音对话，也可以利用语音支持疾病辅助诊断、健康管理、远程会诊等，因此，大量的人机交互产品需要对说话人本身进行区分，即通过语音对说话人的身份进行识别和区分。

在现有技术中，根据语音识别对说话人的身份进行同人识别和区分时，仅提取目标用户的语音数据中一段有限长度的语音特征进行识别，其结果并不能准确地表征一个说话人的个性特征，且识别结果基于概率计算，使得难以达到非常高的分辨度，从而导致同人识别的准确度低。

发明内容

本发明的主要目的在于解决现有技术中基于语音的同人识别的准确度低的技术问题。

本发明第一方面提供了一种基于语音的同人识别方法，所述基于语音的同人识别方法包括：获取目标用户的待识别语音，并提取所述待识别语音的标志参数信息；对所述标志参数信息进行参数分析，确定所述待识别语音的格式类型和属性信息；根据所述格式类型和属性信息，对所述待识别语音进行格式转换，并提取格式转换后的所述待识别语音的特征参数；基于预设的向量机模型和所述特征参数，对所述待识别语音进行年龄识别，确定所述目标用户的年龄段，并从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据；将所述语音数据和所述待识别语音分别输入至预设的深度卷积神经网络中，输出对应的音色特征向量，并对所述语音数据和所述待识别语音的音色特征向量进行比对，判断所述目标用户与所述注册用户是否为同人。

可选的，在本发明的第一方面的第一种实现方式中，所述根据所述格式类型和属性信息，对所述待识别语音进行格式转换，并提取格式转换后的所述待识别语音的特征参数包括：根据所述格式类型，提取所述待识别语音的属性信息中的采样率、比特率和声道；判断所述采样率和比特率是否满足预设要求；若不满足预设要求，则基于预设的转换规则，对所述采样率和比特率进行转换，并判断所述待识别语音的声道是否为单声道；若不是单声道，则将所述声道按照预设的声道转换规则转换为单声道；提取所述格式转换后的所述待识别语音的特征参数，其中，所述特征参数包括时域特征参数和频域特征参数。

可选的，在本发明的第一方面的第二种实现方式中，所述基于预设的向量机模型和所述特征参数，对所述待识别语音进行年龄识别，确定所述目标用户的年龄段，并从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据包括：对所述特征参数进行降维和聚合处理，得到年龄特征参数；基于预设的向量机模型和所述年龄特征参数，对所述待识别语音进行年龄识别，得到识别结果；将所述识别结果与所述向量机模型中的识别率进行比较，并计算所述识别结果的置信度；根据所述置信度，确定所述目标用户的年龄段；从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据。

可选的，在本发明的第一方面的第三种实现方式中，所述将所述语音数据和所述待识别语音分别输入至预设的深度卷积神经网络中，输出音色特征向量，并对所述音色特征向量进行比对，判断所述目标用户与所述注册用户是否为同人包括：基于预设的深度卷积神经网络中，分别提取所述语音数据和所述待识别语音的声纹特征；对所述声纹特征进行聚类处理，得到音色特征向量；计算所述音色特征向量的相似值，并判断所述相似值是否不小于预设的音色相似阈值；若是，则确定所述目标用户与所述注册用户为同人。

可选的，在本发明第一方面的第四种实现方式中，所述对所述声纹特征进行聚类处理，得到音色特征向量包括：计算所述声纹特征的色度特征值，并根据所述色度特征值，生成声纹矩阵；将所述声纹特征输入至所述深度卷积神经网络中，输出音色特征表示；将所述音色特征表示映射至预设的特征空间中，根据所述特征空间，对所述音色特征表示进行定量表征，得到音色特征向量。

可选的，在本发明第一方面的第五种实现方式中，在所述基于预设的深度卷积神经网络中，分别提取所述语音数据和所述待识别语音的声纹特征之前，还包括：分别对所述语音数据和所述待识别语音数据进行分帧处理，得到音频帧；提取所述音频帧的短时能量，并判断所述短时能量是否小于预设能量阈值，其中，所述短时能量为所述音频帧在不同时刻的强弱程度；若是，则剔除对应的音频帧。

可选的，在本发明第一方面的第六种实现方式中，在所述将所述语音数据和所述待识别语音分别输入至预设的深度卷积神经网络中，输出音色特征向量，并对所述音色特征向量进行比对，判断所述目标用户与所述注册用户是否为同人之后，还包括：提取所述待识别语音的帧声纹特征；基于预设的时延神经网络，计算所述帧声纹特征的后验概率；计算所述后验概率的热独值；根据所述热独值，对所述帧声纹特征进行分类，并根据分类的结果，对所述帧声纹特征进行标识；根据所述标识，对所述目标用户进行语音注册，并将所述待识别语音存储至所述注册用户的语音数据库中。

本发明第二方面提出一种基于语音的同人识别装置，所述基于语音的同人识别装置包括：获取模块，用于获取目标用户的待识别语音，并提取所述待识别语音的标志参数信息；分析模块，用于对所述标志参数信息进行参数分析，确定所述待识别语音的格式类型和属性信息；转换模块，用于根据所述格式类型和属性信息，对所述待识别语音进行格式转换，并提取格式转换后的所述待识别语音的特征参数；识别模块，用于基于预设的向量机模型和所述特征参数，对所述待识别语音进行年龄识别，确定所述目标用户的年龄段，并从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据；比对模块，用于将所述语音数据和所述待识别语音分别输入至预设的深度卷积神经网络中，输出对应的音色特征向量，并对所述语音数据和所述待识别语音的音色特征向量进行比对，判断所述目标用户与所述注册用户是否为同人。

可选的，在本发明第二方面的第一种实现方式中，所述转换模块包括：第一提取单元，用于根据所述格式类型，提取所述待识别语音的属性信息中的采样率、比特率和声道；判断单元，用于判断所述采样率和比特率是否满足预设要求；第一转换单元，用于若所述采样率和比特率不满足预设要求，则基于预设的转换规则，对所述采样率和比特率进行转换，并判断所述待识别语音的声道是否为单声道；第二转换单元，用于若所述声道不为单声道，则将所述声道按照预设的声道转换规则转换为单声道；第二提取单元，用于提取所述格式转换后的所述待识别语音的特征参数，其中，所述特征参数包括时域特征参数和频域特征参数。

可选的，在本发明第二方面的第二种实现方式中，所述识别模块具体用于：对所述特征参数进行降维和聚合处理，得到年龄特征参数；基于预设的向量机模型和所述年龄特征参数，对所述待识别语音进行年龄识别，得到识别结果；将所述识别结果与所述向量机模型中的识别率进行比较，并计算所述识别结果的置信度；根据所述置信度，确定所述目标用户的年龄段；从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据。

可选的，在本发明第二方面的第三种实现方式中，所述比对模块包括：第三提取单元，用于基于预设的深度卷积神经网络中，分别提取所述语音数据和所述待识别语音的声纹特征；聚类单元，用于对所述声纹特征进行聚类处理，得到音色特征向量；计算单元，用于计算所述音色特征向量的相似值，并判断所述相似值是否不小于预设的音色相似阈值；确定单元，用于若所述相似值不小于预设的音色相似阈值，则确定所述目标用户与所述注册用户为同人。

可选的，在本发明第二方面的第四种实现方式中，所述聚类单元具体用于：计算所述声纹特征的色度特征值，并根据所述色度特征值，生成声纹矩阵；将所述声纹特征输入至所述深度卷积神经网络中，输出音色特征表示；将所述音色特征表示映射至预设的特征空间中，根据所述特征空间，对所述音色特征表示进行定量表征，得到音色特征向量。

可选的，在本发明第二方面的第五种实现方式中，所述基于语音的同人识别装置还包括剔除模块，其具体用于：分别对所述语音数据和所述待识别语音数据进行分帧处理，得到音频帧；提取所述音频帧的短时能量，并判断所述短时能量是否小于预设能量阈值；若是，则剔除对应的音频帧。

可选的，在本发明第二方面的第六种实现方式中，所述基于语音的同人识别装置还包括注册模块，其具体用于：提取所述待识别语音的帧声纹特征；基于预设的时延神经网络，计算所述帧声纹特征的后验概率；计算所述后验概率的热独值；根据所述热独值，对所述帧声纹特征进行分类，并根据分类的结果，对所述帧声纹特征进行标识；根据所述标识，对所述目标用户进行语音注册，并将所述待识别语音存储至所述注册用户的语音数据库中。

本发明第三方面提供了一种基于语音的同人识别设备，所述基于语音的同人识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音的同人识别设备执行上述的基于语音的同人识别方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当其在计算机上运行时，使得计算机执行上述的基于语音的同人识别方法的步骤。

在本发明提供的技术方案中，通过获取目标用户的待识别语音中的标志参数信息，对其进行参数分析，提取待识别语音的特征参数，基于预设的向量机模型和特征参数，确定目标用户的年龄段，并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据，定向选择需要进行同人识别的注册用户的语音数据，提高了语音的识别率，将语音数据和待识别语音分别输入至预设的深度卷积神经网络中，输出音色特征向量，判断目标用户与注册用户是否为同人，本发明可应用于智能诊疗、远程会诊中，通过从语音中提取音色特征向量进行向量比对，提高了同人识别的准确度。

附图说明

图1为本发明实施例中基于语音的同人识别方法的第一个实施例示意图；

图2为本发明实施例中基于语音的同人识别方法的第二个实施例示意图；

图3为本发明实施例中基于语音的同人识别方法的第三个实施例示意图；

图4为本发明实施例中基于语音的同人识别方法的第四个实施例示意图；

图5为本发明实施例中基于语音的同人识别装置的一个实施例示意图；

图6为本发明实施例中基于语音的同人识别装置的另一个实施例示意图；

图7为本发明实施例中基于语音的同人识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于语音的同人识别方法、装置、设备及存储介质，通过获取目标用户的待识别语音中的标志参数信息，对其进行参数分析，提取待识别语音的特征参数，基于预设的向量机模型和特征参数，确定目标用户的年龄段，并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据，定向选择需要进行同人识别的注册用户的语音数据，提高了语音的识别率，将语音数据和待识别语音分别输入至预设的深度卷积神经网络中，输出音色特征向量，判断目标用户与注册用户是否为同人，本发明实施例可应用于智能诊疗、远程会诊中，通过从语音中提取音色特征向量进行向量比对，提高了同人识别的准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体内容进行描述，请参阅图1，本发明实施例中基于语音的同人识别方法的第一个实施例包括：

101，获取目标用户的待识别语音，并提取待识别语音的标志参数信息；

在本发明实施例中，该基于语音的同人识别方法可应用于智能诊疗、远程会诊中。医疗平台在基于就医大数据的数字问诊过程中实时采集目标用户的待识别语音，并将采集到的待识别语音上传到服务器中进行存储，在存储该待识别语音时，对待识别语音进行预处理，并从经过预处理之后的待识别语音中提取标志参数信息。其中，预处理包括分帧、加窗和预加重。分帧是将语音信号依据短时平稳性进行截断，帧长一般采用20ms，帧移一般采用10ms；加窗一般采用汉明窗或者汉宁窗，因为主瓣宽度对应频率分辨力，主瓣宽度越宽，其对应的频率分辨力越低，因此在选择窗函数时尽可能将能量集中于主瓣，或者最大旁瓣高度的相对幅度尽可能小，而汉明窗在幅频特性中旁瓣衰减较大，且可以减小吉布斯效应，所以语音信号的加窗处理一般选择汉明窗；由于语音信号易受声门激励和口鼻辐射的影响，在800Hz以上的频率成份会出现6dB/倍频程的衰减，因此需要通过预加重的方法来提升高频部分能量，借机弥补高频损失，一般采用一阶高通滤波器来实现预加重。另外，预处理还可以包括抗混叠滤波。

另外，本发明实施例可以基于人工智能技术对相关的语音数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例中的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102，对标志参数信息进行参数分析，确定待识别语音的格式类型和属性信息；

对标志参数信息中的各参数进行参数分析，由于不同格式类型的标志参数信息并不一致，则根据标志参数信息中所包含的各参数的类型确定待识别语音的格式类型和属性信息。其中，语音的格式类型包括WAV、MP3、OGG。这些语音格式都有行业统一的标准，录音设备用某一种格式，播放器就必须用该种格式进行解码，否则无法正常播放语音。具体的，将标志参数信息输入到服务器的语音格式识别单元中，进行WAV格式的文件头、标准参数等校验，如果符合WAV的标准，则判断该语音为WAV格式，否则将标志参数信息进行MP3格式标准的解码器/参数校验，如果符合MP3的标准，则判断该语音为MP3格式，否则将标志参数信息进行OGG格式标准的解码器/参数校验，如果符合OGG的标准，则判断该语音为OGG格式，并返回格式给服务器。如果依然无法识别出该语音的格式，则发出不支持该格式语音的信息提示。

在本实施例中，WAV为微软开发的一种声音文件格式，它符合RIFF(ResourceInterchange File Format)文件规范，用于保存Windows平台的音频信息资源。WAV文件头(Header)是位于文件开头的一段承担一定任务的数据，通常是对主体数据的描述。WAV文件头由：RIFF块(RIFF-Chunk)、格式化块(Format-Chunk)、附加块(Fact-Chunk)、数据块(Data-Chunk)4个部分组成。文件头含有44字节的标志参数信息，包括：4字节RIFF标志、4字节文件长度、4字节“WAVE”类型块标识等，通过对这些标志参数信息进行判断，即可确定该语音文件是否是WAV。

MP3全称为MPEG Audio Layer 3，它是一种高效的计算机音频编码方案，它以较大的压缩比将音频文件转换成较小的扩展名为.mp3的文件，基本保持源文件的音质。MP3文件大体上分为三个部分：ID3V2、音频数据、ID3V1。音频数据中记录了采样率、比特率等参数信息，通过对这些标志参数信息进行判断，即可确定该语音文件是否是MP3。

OGG全称是OGG Vorbis，是一种音频压缩格式，类似于MP3等的音乐格式。OGG文件解码后形成比特流，比特流最前面是三个包头，按照在文件中的顺序依次是：标识头(identification header)、注释头(comment header)和装备头(Setup Header)。标识头设置了版本和流的简单音频特性(如采样率和声道数目等)，通过对这些音频特性进行判断，即可确定该待识别语音是否是OGG格式。

103，根据格式类型和属性信息，对待识别语音进行格式转换，并提取格式转换后的待识别语音的特征参数；

根据格式类型，提取待识别语音的属性信息中的采样率、比特率和声道，分别比较采样率、比特率是否与预设要求相同，即判断采样率、比特率是否满足预设要求，如果不满足预设要求就需要进行格式转换，满足则无需进行格式转换，其中，预设要求为采样率为8k，比特率为16bit，对待识别语音进行格式转换的过程为将待识别语音的采样率和比特率按照预设的转换规则转换为满足预设要求的采样率和比特率。

判断待识别语音的声道是否为单声道，如果待识别语音不为单声道，即待识别语音为双声道，则根据预设的声道转换规则，将其转换为单声道。具体的，服务器提供基于C++程序的声道分离的jni接口，接口中定义了参数(左声道或右声道)，Java程序调用该接口，将左声道传给接口，C++程序处理完成后，将双声道语音转换为单声道传输给Java程序。

提取转换后的待识别语音中所包含的特征参数，其中，特征参数包括时域特征参数和频域特征参数，时域特征参数包括短时过零率、短时能量谱和基音周期，频域特征参数包括线性预测倒谱频数(LPCC)和梅尔频率倒谱系数(MFCC)。

104，基于预设的向量机模型和特征参数，对待识别语音进行年龄识别，确定用户的年龄段，并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据；

将特征参数输入至预设的向量机模型中，向量机模型对特征参数进行参数分析，从中提取年龄特征参数，并根据该年龄特征参数对待识别语音进行年龄识别，得到识别结果，即确定该待识别语音对应的年龄段。当确定好待识别语音对应的年龄段之后，从预设的注册用户的语音数据库总提取相同年龄段的语音数据。其中，预设的注册用户的语音数据库中包含所有经服务器中的医疗平台注册的注册用户的语音数据。

确定与待识别语音对应的目标用户的年龄段之后，从预设的注册用户的语音数据库中提取与该年龄段对应的语音数据，即从语音数据库中提取出相同年龄段的注册用户的语音数据。并分别对语音数据和待识别语音数据进行分帧处理，得到音频帧；提取音频帧的短时能量，并判断该短时能量是否小于预设能量阈值，其中，短时能量为音频帧在不同时刻的强弱程度；若该短时能量小于预设能量阈值，则剔除对应的音频帧，即实现对语音数据和待识别语音进行音频帧的过滤处理，从而提高后续对音色特征向量的比对准确度。

105，将语音数据和待识别语音分别输入至预设的深度卷积神经网络中，输出对应的音色特征向量，并对语音数据和待识别语音的音色特征向量进行比对，判断目标用户与注册用户是否为同人。

将该语音数据和待识别语音分别输入至服务器预设的深度卷积神经网络中，经由该深度卷积神经网络对语音进行分析，输出三维的音色特征表示，将该音色特征表示映射到预设空间中，经由特征空间定量表征音色特征，得到音色特征向量。将注册用户的音色特征向量和待识别语音对应的音色特征向量在特征空间内进行向量比对，当这两个音色特征向量一致时，表示待识别语音对应的目标用户与注册用户为同一人，当两个音色特征向量不一致时，表示待识别语音对应的目标用户与注册用户不是同一人，其中，预设的深度卷积神经网络是提前训练好的。其深度卷积神经网络的训练过程为现有技术，在此不做赘述。

在本实施例中，也可以是任意获取两个目标用户的语音数据，对这两个目标的语音数据进行格式转换、年龄识别和音色特征向量的比对，判断这两个目标用户是否为同人。即本实施例可以是对待识别的目标用户和注册用户进行同人识别，也可以是对两个待识别的目标用户进行同人识别。

在本发明实施例中，对待识别语音进行格式转换和年龄识别处理，进而根据处理的结果，定向选择与待识别语音具有相同年龄段的注册用户的语音数据进行同人识别，提高了语音的识别率，然后从语音中提取音色特征向量进行向量比对，提高了同人识别的准确度。

请参阅图2，本发明实施例中基于语音的同人识别方法的第二个实施例包括：

201，获取目标用户的待识别语音，并提取待识别语音的标志参数信息；

202，对标志参数信息进行参数分析，确定待识别语音的格式类型和属性信息；

203，根据格式类型和属性信息，对待识别语音进行格式转换，并提取格式转换后的待识别语音的特征参数；

204，对特征参数进行降维和聚合处理，得到年龄特征参数；

对特征参数进行降维和聚合处理，在本实施例中，降维处理为采用主成分分析算法(PCA算法)进行特征参数的数据降维，聚合为采用K均值聚类算法(k-means算法)进行特征参数的数据聚合，经由对特征参数进行降维和聚合处理后，得到年龄特征参数。其中，对数据进行降维和聚合处理属于现有技术，在此不做赘述。

205，基于预设的向量机模型和年龄特征参数，对待识别语音进行年龄识别，得到识别结果；

服务器架设有向量机模型，根据该向量机模型的支持向量机(Support VectorMachine)法，通过一个非线性映射p，把年龄特征参数映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，应用核函数的展开定理，在几乎不增加计算复杂度的前提下，根据向量机模型以及年龄特征参数识别出待识别语音所属的年龄段，得到识别结果。

206，将识别结果与向量机模型中的识别率进行比较，并计算识别结果的置信度；

207，根据置信度，确定目标用户的年龄段；

向量机模型中设定有各年龄段的识别率，将识别结果与识别率进行比较，计算该识别结果的置信度，即根据识别率分析该识别结果的置信度。当该置信度的值不小于预设的置信阈值时，表示其识别结果较为准确，则可确定待识别语音对应的目标用户的年龄段。

208，从预设的注册用户的语音数据库中提取与年龄段对应的语音数据；

209，将语音数据和待识别语音分别输入至预设的深度卷积神经网络中，输出对应的音色特征向量，并对语音数据和待识别语音的音色特征向量进行比对，判断目标用户与注册用户是否为同人。

确定与待识别语音对应的目标用户的年龄段之后，从预设的注册用户的语音数据库中提取与该年龄段对应的语音数据，即从语音数据库中提取出相同年龄段的注册用户的语音数据。将该语音数据和待识别语音分别输入至服务器预设的深度卷积神经网络中，经由该深度卷积神经网络对语音进行分析，输出三维的音色特征表示，将该音色特征表示映射到预设空间中，经由特征空间定量表征音色特征，得到音色特征向量。将注册用户的音色特征向量和待识别语音对应的音色特征向量在特征空间内进行向量比对，当这两个音色特征向量一致时，表示待识别语音对应的目标用户与注册用户为同一人，当两个音色特征向量不一致时，表示待识别语音对应的目标用户与注册用户不是同一人，其中，预设的深度卷积神经网络是提前训练好的。其深度卷积神经网络的训练过程为现有技术，在此不做赘述。

在本发明实施例中，步骤201-203与上述的基于语音的用人识别方法中的第一个实施例中的步骤101-103一致，在此不做赘述。

在本发明实施例中，对待识别语音进行格式转换，提取特征参数，并对特征参数进行降维和聚合处理，得到年龄特征参数，根据年龄特征参数进行年龄识别，再计算识别结果的置信度，确定待识别语音的年龄段，从而定向选择与待识别语音具有相同年龄段的注册用户的语音数据进行同人识别，提高了语音的识别率。

请参阅图3，本发明实施例中基于语音的同人识别方法的第三个实施例包括：

301，获取目标用户的待识别语音，并提取待识别语音的标志参数信息；

302，对标志参数信息进行参数分析，确定待识别语音的格式类型和属性信息；

303，根据格式类型和属性信息，对待识别语音进行格式转换，并提取格式转换后的待识别语音的特征参数；

304，基于预设的向量机模型和特征参数，对待识别语音进行年龄识别，确定用户的年龄段，并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据；

305，基于预设的深度卷积神经网络中，分别提取语音数据和待识别语音的声纹特征；

在本实施例中，声纹特征(Voice print)是表示用户，即说话者的声音特性的特征。可以通过预置的神经网络模型进行声纹特征的提取，其中，神经网络模型是经过预训练的序列性的深度卷积神经网络。

具体的，根据深度卷积神经网络中的语音端点检测方法(VAD检测)，对语音数据和待识别语音分别进行端点检测，从而分别将语音数据和待识别语音分割成多段说话者说话的音频数据，例如0-3秒、4-7秒和7-10秒各个时间段分别对应的音频数据，根据音频数据进行特征(embedding)提取，即提取得到各段音频数据各自对应的声纹特征。声纹特征可以看作是一个向量，维数可以根据需要设置，例如128维或者512维，通过声纹特征可以表征说话者独特的特点。其中，不同时长的音频数据可以提取得到固定维度的向量。例如，可以将音频数据各自对应的矩阵输入深度卷积神经网络中，声纹可以为频率，按照时间顺序组成矩阵，即该矩阵为时间-频率的二维数组，通过深度卷积神经网络输出各自对应的固定维度的向量。

306，对声纹特征进行聚类处理，得到音色特征向量；

在本实施例中，对声纹特征进行聚类处理可以是采用K均值聚类算法算法(K-means)聚类或者谱聚类，K表示类别的数量，K可以是根据目标语音数据中的说话者的数量确定。

服务器提取得到对应的声纹特征后，可以由声纹特征组成一个矩阵。矩阵的每一行可以表示语音中一段音频数据所对应的声纹特征，声纹特征为固定维度向量，每一行对应的音频数据的时长可以是不同的。例如矩阵的第一行可以表示0-3秒的向量，第二行可以表示4-7秒的向量，第三行可以表示7-10秒的向量，以此类推。对声纹特征的矩阵进行聚类，得到每一段音频数据对应的声纹特征的聚类结果。经过聚类后，对声纹特征进行向量化处理，得到音色特征向量。

307，计算音色特征向量的相似值，并判断相似值是否不小于预设的音色相似阈值；

308，若相似值不小于预设的音色相似阈值，则确定目标用户与注册用户为同人。

对待识别语音对应的目标用户的音色特征向量和注册用户的音色特征向量进行相似计算，即计算这两个音色特征向量的相似值，根据该相似值判断待识别语音对应的目标用户与注册用户是否为同人。当两个音色特征向量的相似值不小于预设的音色相似阈值时，则确定该目标用户与注册用户为同人，当相似值小于音色相似阈值时，则该目标用户与注册用户并不是同一人。

在本发明实施例中，步骤301-304与上述的基于语音的同人识别方法的第一个实施例中的步骤101-104一致，在此不做赘述。

在本发明实施例中，提取目标用户和注册用户的语音中的声纹特征，并对声纹特征进行聚类处理，得到音色特征向量，并计算音色特征向量的相似值，根据其相似值与相似阈值的比较确定目标用户和注册用户是否为同人，进而提高了同人识别的准确度。

请参阅图4，本发明实施例中基于语音的同人识别方法的第四个实施例包括：

401，获取目标用户的待识别语音，并提取待识别语音的标志参数信息；

402，对标志参数信息进行参数分析，确定待识别语音的格式类型和属性信息；

403，根据格式类型和属性信息，对待识别语音进行格式转换，并提取格式转换后的待识别语音的特征参数；

404，基于预设的向量机模型和特征参数，对待识别语音进行年龄识别，确定用户的年龄段，并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据；

405，将语音数据和待识别语音分别输入至预设的深度卷积神经网络中，输出音色特征向量，并对音色特征向量进行比对，判断用户与注册用户是否为同人；

406，提取待识别语音的帧声纹特征；

当目标用户与注册用户不为同一人时，可以对该目标用户进行语音注册，成为注册用户，或者当目标用户与注册用户为同一人时，也可对该语音进行注册，并添加至该注册用户的语音数据库中，充实该注册用户的语音数据。在本实施例中，声纹特征可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。具体的，直接提取待识别语音的特征参数MFCC，由于MFCC在提取过程中会自动进行分帧，并处理得到每一帧对应的MFCC，从而获得待识别语音中每一帧所对应的帧声纹特征。或者，可先对待识别语音以帧为单位进行切片，并分别提取各切片的MFCC特征，从而得到每一帧对应的MFCC特征，即帧声纹特征。

407，基于预设的时延神经网络，计算帧声纹特征的后验概率；

在本实施例中，采用时延神经网络(time delay neural network，TDNN)来实现的通用背景模型(Universal Background Mode，UBM)，即TDNN-UBM模型来计算后验概率。具体的，分别以各帧声纹特征作为数据输入，基于TDNN-UBM模型得到待识别语音中每一帧所对应的后验概率(time delay neural network，TDNN)。

408，计算后验概率的热独值；

409，根据热独值，对帧声纹特征进行分类，并根据分类的结果，对帧声纹特征进行标识；

根据所得到的后验概率对各帧声纹特征进行分类。计算各后验概率的热独值(one-hot)，再将相同热独值所对应的帧声纹特征归为同一分类，并记录该热独值为对应分类的类型标识，即根据热独值对帧声纹特征进行标识。

本实施例中，对采集到的待识别语音进行分类，并记录对应的类型标识，以供后续声纹识别过程中进行查找和匹配。通过借助TDNN-UBM模型，获取每一帧片段所对应的后验概率，并基于后验概率对帧片段进行分类，从而完成对待识别语音的收敛，从而提取出待识别语音中的关键特征；然后将类型相同的帧片段归为同类，以获得更明确的识别特征，可为后续的识别过程提供更全面的识别验证，以提升识别准确性。另外，在基于后验概率对帧声纹特征进行分类时，可通过计算后验概率的热独值来生成分类标准，从而提升分类的精准度。

410，根据标识，对目标用户进行语音注册，并将待识别语音存储至注册用户的语音数据库中。

根据类型标识，对待识别语音对应的用户进行语音注册，调用服务器上架设的医疗平台提供的1:1注册接口，其中，该注册接口中定义了参数(注册用户的标识号、语音的路径)，通过调用此注册接口，实现注册，当完成注册时，将进行语音注册的待识别语音存储至注册用户的语音数据库中。另外，进行语音注册时的语音不是原始的待识别语音，而是已经经过上述步骤(同人识别处理、分类和标识)处理之后所得到的8k、16bit、wav格式的语音。

在本发明实施例中，步骤401-405与上述的基于语音的同人识别方法的第一个实施例中的步骤101-105一致，在此不做赘述。

在本发明实施例中，在同人识别完之后，提取目标用户的语音的帧声纹特征，对帧声纹特征进行分类和标识，从而对目标用户进行语音注册，将其存储至语言数据库中，扩充注册用户及语音数据。

上面对本发明实施例中的基于语音的同人识别方法进行了描述，下面对本发明实施例中的基于语音的同人识别装置进行描述，请参照图5，本发明实施例中的基于语音的同人识别装置的一个实施例包括：

获取模块501，用于获取目标用户的待识别语音，并提取所述待识别语音的标志参数信息；

分析模块502，用于对所述标志参数信息进行参数分析，确定所述待识别语音的格式类型和属性信息；

转换模块503，用于根据所述格式类型和属性信息，对所述待识别语音进行格式转换，并提取格式转换后的所述待识别语音的特征参数；

识别模块504，用于基于预设的向量机模型和所述特征参数，对所述待识别语音进行年龄识别，确定所述目标用户的年龄段，并从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据；

比对模块505，用于将所述语音数据和所述待识别语音分别输入至预设的深度卷积神经网络中，输出对应的音色特征向量，并对所述语音数据和待识别语音的音色特征向量进行比对，判断所述目标用户与所述注册用户是否为同人。

在本发明实施例中，通过基于语音的同人识别装置对待识别语音进行格式转换和年龄识别处理，进而根据处理的结果，定向选择与待识别语音具有相同年龄段的注册用户的语音数据进行同人识别，提高了语音的识别率，然后从语音中提取音色特征向量进行向量比对，提高了同人识别的准确度。

请参阅图6，本发明实施例中的基于语音的同人识别装置的另一个实施例包括：

获取模块501，用于获取目标用户的待识别语音，并提取所述待识别语音的标志参数信息；

分析模块502，用于对所述标志参数信息进行参数分析，确定所述待识别语音的格式类型和属性信息；

转换模块503，用于根据所述格式类型和属性信息，对所述待识别语音进行格式转换，并提取格式转换后的所述待识别语音的特征参数；

其中，所述转换模块503包括：

第一提取单元5031，用于根据所述格式类型，提取所述待识别语音的属性信息中的采样率、比特率和声道；

判断单元5032，用于判断所述采样率和比特率是否满足预设要求；

第一转换单元5033，用于若所述采样率和比特率不满足预设要求，则基于预设的转换规则，对所述采样率和比特率进行转换，并判断所述声道是否为单声道；

第二转换单元5034，用于若所述待识别语音的声道不为单声道，则将所述声道按照预设的声道转换规则转换为单声道；

第二提取单元5035，用于提取所述格式转换后的所述待识别语音的特征参数，其中，所述特征参数包括时域特征参数和频域特征参数。

其中，所述识别模块504具体用于：

对所述特征参数进行降维和聚合处理，得到年龄特征参数；

基于预设的向量机模型和所述年龄特征参数，对所述待识别语音进行年龄识别，得到识别结果；

将所述识别结果与所述向量机模型中的识别率进行比较，并计算所述识别结果的置信度；

根据所述置信度，确定所述目标用户的年龄段；

从预设的注册用户的语音数据库中提取与所述年龄段对应的语音数据。

其中，所述比对模块505包括：

第三提取单元5051，用于基于预设的深度卷积神经网络中，分别提取所述语音数据和所述待识别语音的声纹特征；

聚类单元5052，用于对所述声纹特征进行聚类处理，得到音色特征向量；

计算单元5053，用于计算所述音色特征向量的相似值，并判断所述相似值是否不小于预设的音色相似阈值；

确定单元5054，用于若所述相似值不小于预设的音色相似阈值，则确定所述目标用户与所述注册用户为同人。

其中，所述聚类单元5052具体用于：

计算所述声纹特征的色度特征值，并根据所述色度特征值，生成声纹矩阵；

将所述声纹特征输入至所述深度卷积神经网络中，输出音色特征表示；

将所述音色特征表示映射至预设的特征空间中，根据所述特征空间，对所述音色特征表示进行定量表征，得到音色特征向量。

其中，所述基于语音的同人识别装置还包括剔除模块506，其具体用于：

分别对所述语音数据和所述待识别语音数据进行分帧处理，得到音频帧；

提取所述音频帧的短时能量，并判断所述短时能量是否小于预设能量阈值；

若是，则剔除对应的音频帧。

其中，所述基于语音的同人识别装置还包括注册模块507，其具体用于：

提取所述待识别语音的帧声纹特征；

基于预设的时延神经网络，计算所述帧声纹特征的后验概率；

计算所述后验概率的热独值；

根据所述热独值，对所述帧声纹特征进行分类，并根据分类的结果，对所述帧声纹特征进行标识；

根据所述标识，对所述目标用户进行语音注册，并将所述待识别语音存储至所述注册用户的语音数据库中。

在本发明实施例中，通过基于语音的同人识别装置通过对语音进行格式转换和年龄识别，进而提取与目标用户具有相同年龄段的注册用户语音进行同人比对，提高了语音的识别率和同人识别的准确度。

请参阅图7，下面从硬件处理的角度对本发明实施例中的基于语音的同人识别设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种基于语音的同人识别设备的结构示意图，该基于语音的同人识别设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于语音的同人识别设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在基于语音的同人识别设备700上执行存储介质730中的一系列指令操作。

基于语音的同人识别设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和或或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的基于语音的同人识别设备结构并不构成对基于语音的同人识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于语音的同人识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种语音鉴伪与说话人识别联合建模的方法

基于语音的同人识别方法、装置、设备及存储介质

相关技术

网友询问留言