将语音转换成非可听表达形式,例如语音可视化、触觉辅助的语音处理
用于提供通过触觉刺激增强的音乐或语音或声音音频感知的方法和系统
描述了一种用于提供通过触觉刺激增强的音乐或语音或声音音频感知的方法。所述方法包括以下步骤:接收代表所述音乐或语音或声音音频的信号(S、SE);同时生成一个或更多个触觉刺激(ST);然后基于前述接收信号(S或SE)调制所述一个或更多个触觉刺激(ST),以生成一个或更多个经调制的触觉刺激STM。然后,该方法设想将前述一个或更多个经调制的触觉刺激(STM)与音乐或语音或声音音频的声音扩散一起施加在聆听者身上,使得聆听者可以通过听觉刺激和通过触觉刺激来享受音乐或语音或声音音频。此外,描述了能够实现前述方法的用于提供通过触觉刺激增强的音乐或语音或声音音频感知的相应系统1。

2021-10-08

访问量:38

一种充分利用视觉与语音联系的视听语音增强方法及系统
一种充分利用视觉与语音联系的视听语音增强方法及系统,属于语音信号处理技术领域,解决如何利用视觉与语音之间的内在联系,在现实中嘈杂的语音环境中实现对目标语音信息进行增强的问题;在语音特征和视觉特征融合之前,通过BLSTM对视觉特征进行初次利用,由此得到的目标的二进制掩码和原始的噪声幅度谱图获取的语音特征相融合从而得到干净幅度二进制掩码,将此幅度掩码代替基本框架中的视觉特征和语音特征一起馈入BLSTM和全连接层组成的训练网络;同时在基础的增强网络之上,基于频域,加入后置相位子网络,利用语音的幅度和相位在结构上相关性,获取增强相位谱图和幅度谱图相融合使得语音增强效果更佳,提高了增强后语音清晰度,降低语音失真率。

2021-10-01

访问量:37

使用序列到序列映射在模拟数据与语音识别输出之间进行协调
接收合成训练数据项,该合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列。使用机器学习模型处理所述合成训练数据项,该机器学习模型输出表示所述合成句子的第二符号序列。通过用第二符号序列替换第一符号序列来修改所述合成训练数据项。在第一符号序列与第三符号序列之间存在统计学上的显著不匹配,该第三符号序列可由声学模型输出,该声学模型处理表示所述合成句子的话语的一组声学特征,并且在第二符号序列与第三符号序列之间不存在统计学上的显著不匹配。所述经修改的合成训练数据项可以被用于训练第二机器学习模型,该第二机器学习模型处理由所述声学模型输出的数据。

2021-09-24

访问量:63

注册成为会员可查看更多数据。