以分析窗类型为特征的
一种深度融合面部表情和语音的驾驶员路怒症识别方法
本发明一种深度融合面部表情和语音的驾驶员路怒症识别方法,包括:从驾驶员面部视频影像信息中提取出驾驶员的面部影像信息和语音信息;对面部影像帧信息进行预处理并输入到多层卷积神经网络中获得面部表情特征;对语音信息首先提取其梅尔倒谱系数及其一阶和二阶系数值进行初始特征提取,并拼接2段语音片段初始特征输入到全连接层网络中获得与面部表情帧对应的判别性语音帧特征;将得到的面部帧表情特征和语音帧特征进行低秩双线性池化融合获得融合特征;对面部表情特征、语音特征和融合特征进行决策融合后获取到最终的路怒症识别结果。本发明在复杂驾驶环境下,依然能实现高精度地输出驾驶员愤怒症识别结果,进而有效地进行安全驾驶预警。

2021-11-02

访问量:46

基于梅尔倒谱系数-支持向量机架构的声音识别方法
本发明提供了一种基于梅尔倒谱系数-支持向量机架构的声音识别方法及系统,方法包括:获取待识别声音信号;提取待识别声音信号的声音特征数据;声音特征数据包括待识别声音信号的静态特征数据和动态特征数据;将待识别声音信号的声音特征数据输入声音识别模型中,得到声音识别结果;声音识别模型是根据历史声音信号对支持向量机模型进行训练得到的。本发明通过对声音信号的静态特征数据和动态特征数据对支持向量机模型进行训练,得到的声音识别模型,能够提高声音识别的准确性。

2021-10-29

访问量:37

语音增强模型的训练方法及装置、语音增强方法及装置
本公开关于一种语音增强模型的训练方法及装置、语音增强方法及装置,训练方法包括:获取训练样本集;将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络,得到含噪语音信号的至少两个特征,其中,至少两个频谱是基于预设的至少两组不同的时频转换参数获取的;将至少两个特征进行融合处理,得到融合后的特征;将融合后的特征输入到语音增强网络,得到含噪语音信号的预估增强频谱;基于预估增强频谱对应的预估时域信号和对应的干净语音信号,确定语音增强模型的目标损失函数;根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数,对语音增强模型进行训练。

2021-10-26

访问量:38

一种便携式实时反馈语言学习系统
本发明公开了一种便携式实时反馈语言学习系统,属于语言学习技术领域。本设备可智能根据用户的学习目标和应用场合分析其发音是否需要纠正,并进行指导教学。本发明包括显示模块、语音传输模块、控制模块、语言库模块;本设备将采集到的语音信号经过语音识别处理后,转换为数字信号传输至控制器,采用滑窗离散傅里叶变换方法进行谐波提取分析,将语音信号波形(即对应的音强,音长,音高)实时显示,并基于残差理论将语言库中对应语句波形进行对比,判断其发音是否正确。本设备携带方便,能够满足非母语学习者及发音不标准用户根据其需求解决语言发音问题。

2021-10-15

访问量:37

基于快速跳跃解码的语音转写识别训练解码方法及系统
本发明公开了基于快速跳跃解码的语音转写识别训练解码方法及系统,包括声学特征提取模块,提取声学特征序列;声学编码器,将声学特征序列转变为声学编码状态序列;解码器,基于声学编码状态序列,在预测概率分布,训练阶段计算损失;在解码阶段预测当前位置,将非空格标记为触发解码位置;语言预测器,用于建模文本标记之间的时序依赖关系;联合网络模块,通过声学编码状态序列和文本编码状态序列组合,在训练阶段预测得到概率分布;在解码阶段基于概率分布,使用搜索算法对解码路径进行更新;联合损失计算模块,训练阶段,根据解码器得到的概率分布,以及联合网络模块预测得到的概率分布,计算联合损失,根据联合损失计算梯度,进行反向传播。

2021-10-08

访问量:44

语音信号的特征获取方法及装置
本公开实施例公开了一种语音信号的特征获取方法及装置,方法包括:对待分析的语音信号进行时频化处理,获取语音信号的语谱图;统计获取语谱图内各能量点的方向信息;根据语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述语谱图中能量点与其所含有的方向区间之间的对应关系;根据形式背景,建立语音信号的方向共生属性拓扑图,方向共生属性拓扑图用于描述形式背景中属性对之间的共生关系。本技术方案可以用图的形式显示语音信号更加详细的方向信息,检测精度高,可解释性强,能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。

2021-09-24

访问量:38

一种语音识别解码的方法及装置
本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。

2021-09-24

访问量:33

一种端到端实时语音合成方法
一种端到端实时语音合成方法,通过对音频和文本数据进行预处理,整理成平行语料,通过词嵌入转换成特征向量,输入到基于高斯混合模型注意力机制的序列到序列生成模型,以生成预测的梅尔谱;将梅尔谱进行归一化处理,输入到基于生成对抗网络的声码器后端,经过对抗训练来提升合成语音的质量,最后输出合成语音。本发明方法在保证合成语音的质量的同时,可以提高注意力机制的对齐速度,并且在长语音的合成中表现优秀;通过对音频进行分频带编码,可以提高模型的训练速度,降低语音生成时耗,同时使用多尺度短时傅里叶变换损失函数,提高合成语音的质量与实时率。

2021-09-17

访问量:59

注册成为会员可查看更多数据。