一种充分利用视觉与语音联系的视听语音增强方法及系统,属于语音信号处理技术领域,解决如何利用视觉与语音之间的内在联系,在现实中嘈杂的语音环境中实现对目标语音信息进行增强的问题;在语音特征和视觉特征融合之前,通过BLSTM对视觉特征进行初次利用,由此得到的目标的二进制掩码和原始的噪声幅度谱图获取的语音特征相融合从而得到干净幅度二进制掩码,将此幅度掩码代替基本框架中的视觉特征和语音特征一起馈入BLSTM和全连接层组成的训练网络;同时在基础的增强网络之上,基于频域,加入后置相位子网络,利用语音的幅度和相位在结构上相关性,获取增强相位谱图和幅度谱图相融合使得语音增强效果更佳,提高了增强后语音清晰度,降低语音失真率。