通话终端和通话终端的音量调节方法

文档序号:1925442 发布日期:2021-12-03 浏览:22次 >En<

阅读说明:本技术 通话终端和通话终端的音量调节方法 (Call terminal and volume adjusting method thereof ) 是由 刘海水 于 2021-07-30 设计创作,主要内容包括:公开了一种通话终端和通话终端的音量调节方法,其使用基于深度神经网络的人工智能模型来提取出通话终端的姿态变化前后图像的高维特征和对应于姿态变化时间段内环境噪声数值的高维特征,以更好地结合环境噪声的特征与体现姿态变化的图像特征来进行通话终端的音量自适应调整,确保用户在移动过程中使用通话终端的通话质量。(The artificial intelligence model based on the deep neural network is used for extracting high-dimensional characteristics of images before and after attitude change of the call terminal and high-dimensional characteristics corresponding to environmental noise values in an attitude change time period, so that the characteristics of the environmental noise and the image characteristics reflecting the attitude change are better combined to carry out self-adaptive adjustment on the volume of the call terminal, and the call quality of the call terminal used by a user in the moving process is ensured.)

通话终端和通话终端的音量调节方法

技术领域

本发明涉及通信领域,且更为具体地,涉及一种通话终端。

背景技术

通话终端是通信系统中应用最为广泛的一类通信终端,它可以是应用于普通电话交换网络PSTN的普通模拟电话机、录音电话机、投币电话机、磁卡电话机、IC卡电话机,也可以是应用于ISDN网络的数字电话机以及应用于移动通信网的无线手机。

近年来,随着移动互联网技术及多媒体技术的发展,通话终端已经是我们生活当中必不可少的通讯工具,给人们的生活带来了极大的便利。通话终端在固定环境中具有相对较佳的通话质量。

然而,当用户在移动中使用通话终端时,通话质量难以保证。具体地,用户在移动过程中使用通话设备通话则需要面对不同环境背景音的问题。如在通话过程中,从一个安静的环境进入嘈杂的环境时,此时原本的通话音量则显得过小,从而不再适用新的环境,进而影响到用户的使用。一般情况下,用户需要进行手动操作,将音量调节到新的合适的音量,操作不便。同时通话终端上的麦克风拾音器对于距离较为敏感,移动过程中不可避免的会发生麦克风与嘴巴忽远忽近情况的发生,声音变化就会很大,有时候对方只会听到很小的声音,有时声音又偏大,从而影响了用户的使用体验。

因此期望一种通话终端及其音量自适应调节方法和系统。

目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

近年来,深度学习以及神经网络的发展为通话终端及其音量自适应调节提供了新的解决思路和方案。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种通话终端及其音量调节方法,其使用基于深度神经网络的人工智能模型来提取出通话终端的姿态变化前后图像的高维特征和对应于姿态变化时间段内环境噪声数值的高维特征,以更好地结合环境噪声的特征与体现姿态变化的图像特征来进行通话终端的音量自适应调整,确保用户在移动过程中使用通话终端的通话质量。

根据本申请的一个方面,提供了一种通话终端,其包括:

惯性传感器,用于检测所述通话终端的姿态变化;

图像传感器,用于获取所述通话终端的姿态变化之前和之后的第一图像和第二图像;

环境噪声传感器,用于获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;

卷积神经网络单元,用于从所述第一图像和所述第二图像获取第一特征图和第二特征图;

深度神经网络单元,用于从所述一系列环境噪声数值构造的输入向量获得环境噪声向量;

噪声运动学特征提取单元,用于计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积;

特征向量计算单元,用于分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量;

差分向量计算单元,用于计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量;

分类单元,用于基于所述差分特征向量以分类器获得分类结果;以及

音量控制单元,用于基于所述分类结果自适应地调整所述通话终端的音量。

在上述通话终端中,所述噪声运动学特征提取单元,进一步用于以如下公式计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量;其中,所述公式为:

其中h是减小的普朗克常数,为1.054×10-34,k为玻尔兹曼热力学常数,为1.38×10-23,T为环境温度,一般为300K,x是每个位置的特征值,α和β为修正系数,用于分别将αhx和βhx/kT修正到[0,1]区间内。

在上述通话终端中,所述特征向量计算单元,进一步用于:以所述功率谱密度特征向量作为查询向量与所述第一特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第一特征向量;以及,以所述功率谱密度特征向量作为查询向量与所述第二特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第二特征向量。

在上述通话终端中,所述分类单元,进一步用于:将所述差分特征向量输入Softmax分类函数以获得增大音量的第一概率和减小音量的第二概率;以及,基于所述第一概率和所述第二概率的比较,确定所述分类结果。

在上述通话终端中,所述音量控制单元,用于响应于所述分类结果为增大音量,增大所述通话终端的音量;以及,响应于所述分类结果为减小音量,减小所述通话终端的音量。

在上述通话终端中,所述卷积神经网络单元,进一步用于以深度残差网络对所述第一图像和所述第二图像进行处理以获得所述第一特征图和所述第二特征图。

在上述通话终端中,所述惯性传感器为陀螺仪。

根据本申请的另一方面,提出了一种通话终端的音量调节方法,其包括:

通过惯性传感器检测所述通话终端的姿态变化;

通过图像传感器获取所述通话终端的姿态变化之前和之后的第一图像和第二图像;

通过环境噪声传感器获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;

通过卷积神经网络单元从所述第一图像和所述第二图像获取第一特征图和第二特征图;

通过深度神经网络单元从所述一系列环境噪声数值构造的输入向量获得环境噪声向量;

通过噪声运动学特征提取单元计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积;

通过特征向量计算单元分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量;

通过差分向量计算单元计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量;

通过分类单元基于所述差分特征向量以分类器获得分类结果;以及

通过音量控制单元基于所述分类结果自适应地调整所述通话终端的音量。

与现有技术相比,本申请提供的一种通话终端,其使用基于深度神经网络的人工智能模型来提取出通话终端的姿态变化前后图像的高维特征和对应于姿态变化时间段内环境噪声数值的高维特征,以更好地结合环境噪声的特征与体现姿态变化的图像特征来进行通话终端的音量自适应调整,确保用户在移动过程中使用通话终端的通话质量。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的通话终端的应用场景图。

图2为根据本申请实施例的通话终端的框图。

图3为根据本申请实施例的通话终端中特征向量计算单元的框图。

图4为根据本申请实施例的通话终端中分类单元的框图。

图5为根据本申请实施例的通话终端中音量控制单元的框图。

图6为根据本申请实施例的通话终端的音量调节方法的流程图。

图7为根据本申请实施例的通话终端的音量调节方法的系统架构示意图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

场景概述

如上所述,当用户在移动过程中使用通话终端时,除了环境音量的影响之外,还需要考虑用户手持通话终端时嘴部与拾音器的距离,这可以由用户手持通话终端时的姿态变化来体现,因此,本申请意在提供一种能够综合考虑环境噪声和用户手持通话终端的姿态变化的音量自适应调节方法。

为了获取用户手持通话终端的姿态变化的特征,在本申请的技术方案中,在通过陀螺仪之类的惯性传感器检测到通话终端的姿态变化的情况下,通过摄像头获取姿态变化后的第二图像,并将其与姿态变化前的第一图像一起通过卷积神经网络,以分别获得第一特征图和第二特征图。此外,为了能够更好地结合环境噪声的特征与体现姿态变化的图像特征,也就是,为了能够使得环境噪声的特征与图像的运动特征相关联,在本申请中使用环境噪声的运动学特征,也就是热力学特征,即,环境噪声的按时间序列的特征值的平均热噪声功率谱密度来表征环境噪声在时间序列上的变化特征。

具体地,针对获取第一图像和第二图像之间的连续时间段,在该时间段内以均匀的时间间隔获取一系列环境噪声数值,并通过深度神经网络以转换为环境噪声向量,然后,计算向量的每个位置的特征值的平均热噪声功率谱密度,表示为:

其中h是减小的普朗克常数,为1.054×10-34,k为玻尔兹曼热力学常数,为1.38×10-23,T为环境温度,一般为300K,x是每个位置的特征值,α和β为修正系数,用于分别将αhx和βhx/kT修正到[0,1]区间内。

这样,通过计算向量的每个位置的平均热噪声功率谱密度,获得功率谱密度特征向量,将其作为查询向量分别与第一特征图和第二特征图相乘,就可以获得结合了环境噪声的特征与体现姿态变化的图像特征的第一特征向量和第二特征向量。然后,计算第一特征向量和第二特征向量的按位置差值以获得差分特征向量,并输入分类器获得分类结果,该分类结果可以表示音量的调节方向,即增大或者减小。

基于此,本申请提出了一种通话终端,其包括:惯性传感器,用于检测所述通话终端的姿态变化;图像传感器,用于获取所述通话终端的姿态变化之前和之后的第一图像和第二图像;环境噪声传感器,用于获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;卷积神经网络单元,用于从所述第一图像和所述第二图像获取第一特征图和第二特征图;深度神经网络单元,用于从所述一系列环境噪声数值构造的输入向量获得环境噪声向量;噪声运动学特征提取单元,用于计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积;特征向量计算单元,用于分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量;差分向量计算单元,用于计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量;分类单元,用于基于所述差分特征向量以分类器获得分类结果;以及,音量控制单元,用于基于所述分类结果自适应地调整所述通话终端的音量。

图1图示了根据本申请实施例的通话终端的应用场景图。如图1所示,在该应用场景中,通过终端设备(例如,如图1中所示意的D)上安装的惯性传感器(例如,如图1中所示意的S1)检测所述通话终端的姿态变化;图像传感器(例如,如图1中所示意的S2)获取所述通话终端的姿态变化之前和之后的第一图像和第二图像;环境噪声传感器(例如,如图1中所示意的S3)获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;然后,将所述第一图像、第二图像和环境噪声数值输入至部署有通话终端的音量调节算法的服务器中,(例如,如图1中所示意的云服务器S),其中,所述服务器能够基于所述终端的音量调节算法对所述第一图像、第二图像和环境噪声数值进行处理,以生成用于表示音量的调节方向的分类结果,然后,基于所述分类结果自适应地调整所述通话终端的音量。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2图示了根据本申请实施例的一种通话终端的框图。如图2所示,根据本申请实施例的一种通话终端200,包括:惯性传感器210,用于检测所述通话终端的姿态变化;图像传感器220,用于获取所述惯性传感器210获得的所述通话终端的姿态变化之前和之后的第一图像和第二图像;环境噪声传感器230,用于获取所述图像传感器220获得的所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;卷积神经网络单元240,用于从所述图像传感器220获得的所述第一图像和所述第二图像获取第一特征图和第二特征图;深度神经网络单元250,用于从所述环境噪声传感器230获得的所述一系列环境噪声数值构造的输入向量获得环境噪声向量;噪声运动学特征提取单元260,用于计算所述深度神经网络单元250获得的所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积;特征向量计算单元270,用于分别以所述噪声运动学特征提取单元260获得的所述功率谱密度特征向量乘以所述卷积神经网络单元240获得的所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量;差分向量计算单元280,用于计算所述特征向量计算单元270获得的所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量;分类单元290,用于基于所述差分向量计算单元280获得的所述差分特征向量以分类器获得分类结果;以及,音量控制单元300,用于基于所述分类单元290获得的所述分类结果自适应地调整所述通话终端的音量。

在本申请实施例中,惯性传感器210,用于检测所述通话终端的姿态变化。具体地,在本申请实施例中,所述惯性传感器为陀螺仪。如前所述,由于用户在移动过程中使用通话终端时,除了环境音量的影响之外,还需要考虑用户手持通话终端时嘴部与拾音器的距离,这可以由用户手持通话终端时的姿态变化来体现。因此,在本申请实施例中,采用陀螺仪检测通话终端的姿态变化。

在本申请实施例中,图像传感器220,用于获取所述通话终端的姿态变化之前和之后的第一图像和第二图像。也就是,通过通话终端设备上安装的摄像头获取通话终端的姿态变化之前和之后的第一图像和第二图像。

在本申请实施例中,环境噪声传感器230,用于获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值。应可以理解,由于用户在移动过程中使用通话终端时,环境音量也会影响通话效果,因此需要综合考虑姿态变化和环境噪声的影响,因此,需要获取所述第一图像和所述第二图像的采集时间段之间的环境噪声数值。

在本申请实施例中,卷积神经网络单元240,用于从所述第一图像和所述第二图像获取第一特征图和第二特征图。也就是,将所述第一图像和所述第二图像输入卷积神经网络,以通过卷积神经网络提取出所述图像中的高维特征。

更具体地,在本申请实施例中,所述卷积神经网络单元,进一步用于以深度残差网络对所述第一图像和所述第二图像进行处理以获得所述第一特征图和所述第二特征图。本领域普通技术人员应知晓,相较于传统的卷积神经网络,深度残差网络为在传统卷积神经网络的基础上提出的一种优化网络结构,其主要解决在训练过程中的梯度消失的问题。深度残差网络引入了残差网络结构,通过残差网络结构可以把网络层弄得更深,并且,不会发生梯度消失的问题。残差网络借鉴了高速网络的跨层链接思想,其打破了传统的神经网络从N-1层的输入层只能给N层作为输入的惯例,使某一层的输出可以直接跨过几层作为后面某一层的输入,其意义在于为迭加多层网络而使得整个学习模型的错误率不降反升的难题提供了新的方向。

在本申请实施例中,深度神经网络单元250,用于从所述一系列环境噪声数值构造的输入向量获得环境噪声向量。也就是,将一系列环境噪声数值构造的输入向量通过深度神经网络,以提取出所述输入向量中的高维特征,以获得环境噪声向量。

在本申请实施例中,噪声运动学特征提取单元260,用于计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积。

应可以理解,为了能够更好地结合环境噪声的特征与体现姿态变化的图像特征,也就是,为了能够使得环境噪声的特征与图像的运动特征相关联,在本申请中使用环境噪声的运动学特征,也就是热力学特征,即,环境噪声的按时间序列的特征值的平均热噪声功率谱密度来表征环境噪声在时间序列上的变化特征。

更具体地,在本申请实施例中,所述噪声运动学特征提取单元,进一步用于以如下公式计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量;其中,所述公式为:

其中h是减小的普朗克常数,为1.054×10-34,k为玻尔兹曼热力学常数,为1.38×10-23,T为环境温度,一般为300K,x是每个位置的特征值,α和β为修正系数,用于分别将αhx和βhx/kT修正到[0,1]区间内。

在本申请实施例中,特征向量计算单元270,用于分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量。应可以理解,将所述功率谱密度特征向量作为查询向量分别与第一特征图和第二特征图相乘,就可以获得结合了环境噪声的特征与体现姿态变化的图像特征的第一特征向量和第二特征向量。

更具体地,在本申请实施例中,所述特征向量计算单元,包括:第一特征向量生成子单元,用于以所述功率谱密度特征向量作为查询向量与所述第一特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第一特征向量。也就是,将所述第一特征图映射到所述功率谱密度特征向量所在的高维空间中,以获得第一特征向量。以及,第二特征向量生成子单元,用于以所述功率谱密度特征向量作为查询向量与所述第二特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第二特征向量。也就是,将所述第二特征图映射到所述功率谱密度特征向量所在的高维空间中,以获得第二特征向量。

图3图示了根据本申请实施例的通话终端中特征向量计算单元的框图。如图3所示,所述特征向量计算单元270,包括:第一特征向量生成子单元271,用于以所述功率谱密度特征向量作为查询向量与所述第一特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第一特征向量;以及,第二特征向量生成子单元272,用于以所述功率谱密度特征向量作为查询向量与所述第二特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第二特征向量。

在本申请实施例中,差分向量计算单元280,用于计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量。应可以理解,计算所述第一特征向量和所述第二特征向量的按位置差值,获得的差分特征向量的每个像素位置都能表达所述特征向量之间按像素位置的特征差异,也就是,所述差分特征向量可以表示用户在移动过程中,姿态变化前后,融合环境噪声的特征与体现姿态变化的图像特征的特征差异。

在本申请实施例中,分类单元290,用于基于所述差分特征向量以分类器获得分类结果。

更具体地,在本申请实施例中,所述分类单元,包括:概率生成子单元,用于将所述差分特征向量输入Softmax分类函数以获得增大音量的第一概率和减小音量的第二概率。也就是,所述分类器为Softmax分类函数,分类标签为增大音量和减小音量,通过分类函数对差分特征向量进行分类,可以获得差分特征向量归属于分类标签的概率值。以及,结果确定子单元,用于基于所述第一概率和所述第二概率的比较,确定所述分类结果。也就是,确定所述第一概率和所述第二概率中的较大值作为分类结果。

图4为根据本申请实施例的通话终端中分类单元的框图。如图4所示,所述分类单元290,包括:概率生成子单元291,用于将所述差分特征向量输入Softmax分类函数以获得增大音量的第一概率和减小音量的第二概率;以及,结果确定子单元292,用于基于所述第一概率和所述第二概率的比较,确定所述分类结果。

在本申请实施例中,音量控制单元300,用于基于所述分类结果自适应地调整所述通话终端的音量。

更具体地,在本申请实施例中,所述音量控制单元,包括:音量增大子单元,用于响应于所述分类结果为增大音量,增大所述通话终端的音量;以及,音量减小子单元,用于响应于所述分类结果为减小音量,减小所述通话终端的音量。也就是,根据分类结果控制音量调节的方向。

图5为根据本申请实施例的通话终端中音量控制单元的框图。如图5所示,所述音量控制单元300,包括:音量增大子单元310,用于响应于所述分类结果为增大音量,增大所述通话终端的音量;以及,音量减小子单元320,用于响应于所述分类结果为减小音量,减小所述通话终端的音量。

综上,基于本申请通话终端被阐明,其使用基于深度神经网络的人工智能模型来提取出通话终端的姿态变化前后图像的高维特征和对应于姿态变化时间段内环境噪声数值的高维特征,以更好地结合环境噪声的特征与体现姿态变化的图像特征来进行通话终端的音量自适应调整,确保用户在移动过程中使用通话终端的通话质量。

这里,本领域技术人员可以理解,上述通话终端200中的各个单元和模块的具体功能和操作已经在上述描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的通话终端200可以实现在服务器中,例如,云服务器、终端服务器等。在一个示例中,根据本申请实施例的通话终端200可以作为一个软件模块和/或硬件模块而集成到服务器中。例如,该通话终端200可以是该服务器的操作系统中的一个软件模块,或者可以是针对于该服务器所开发的一个应用程序;当然,该通话终端200同样可以是该服务器的众多硬件模块之一。

替换地,在另一示例中,该通话终端200与该服务器也可以是分立的设备,并且该通话终端200可以通过有线和/或无线网络连接到该服务器,并且按照约定的数据格式来传输交互信息。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合

示例性方法

根据本申请的另一方面,还提供了一种通话终端的音量调节方法。

图6图示了根据本申请实施例的通话终端的音量调节方法的流程图。如图6所示,根据本申请实施例的通话终端的音量调节方法的流程图,包括:S110,通过惯性传感器检测所述通话终端的姿态变化;S120,通过图像传感器获取所述通话终端的姿态变化之前和之后的第一图像和第二图像;S130,通过环境噪声传感器获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值;S140,通过卷积神经网络单元从所述第一图像和所述第二图像获取第一特征图和第二特征图;S150,通过深度神经网络单元从所述一系列环境噪声数值构造的输入向量获得环境噪声向量;S160,通过噪声运动学特征提取单元计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积;S170,通过特征向量计算单元分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量;S180,通过差分向量计算单元计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量;S190,通过分类单元基于所述差分特征向量以分类器获得分类结果;以及,S200,通过音量控制单元基于所述分类结果自适应地调整所述通话终端的音量。

图7为根据本申请实施例的通话终端的音量调节方法的系统架构示意图。如图7所示,在该网络架构中,首先,通过图像传感器获取所述通话终端的姿态变化之前和之后的第一图像(例如,如图7中所示意的IN1)和第二图像(例如,如图7中所示意的IN2);接着,通过环境噪声传感器获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值(例如,如图7中所示意的K1到Kn);接着,以卷积神经网络(例如,如图7中所示意的CNN)从所述第一图像和所述第二图像获取第一特征图(例如,如图7中所示意的F1)和第二特征图(例如,如图7中所示意的F2);接着,将所述一系列环境噪声数值构造的输入向量(例如,如图7中所示意的V1)输入深度神经网络(例如,如图7中所示意的DNN)以获得环境噪声向量(例如,如图7中所示意的Vn);接着,计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量(例如,如图7中所示意的Vd);接着,分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量(例如,如图7中所示意的Vt1)和第二特征向量(例如,如图7中所示意的Vt2);接着,计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量(例如,如图7中所示意的Vc)接着,基于所述差分特征向量以分类器(例如,如图7中所示意的圈S)获得分类结果(例如,如图7中所示意的R);然后,基于所述分类结果自适应地调整所述通话终端的音量。

在步骤S110中,通过惯性传感器检测所述通话终端的姿态变化。具体地,在本申请实施例中,所述惯性传感器为陀螺仪。如前所述,由于用户在移动过程中使用通话终端时,除了环境音量的影响之外,还需要考虑用户手持通话终端时嘴部与拾音器的距离,这可以由用户手持通话终端时的姿态变化来体现。因此,在本申请实施例中,采用陀螺仪检测通话终端的姿态变化。

在步骤S120中,通过图像传感器获取所述通话终端的姿态变化之前和之后的第一图像和第二图像。也就是,通过通话终端设备上安装的摄像头获取通话终端的姿态变化之前和之后的第一图像和第二图像。

在步骤S130中,通过环境噪声传感器获取所述第一图像和所述第二图像的采集时间段之间的均匀的时间间隔内的一系列环境噪声数值。应可以理解,由于用户在移动过程中使用通话终端时,环境音量也会影响通话效果,因此需要综合考虑姿态变化和环境噪声的影响,因此,需要获取所述第一图像和所述第二图像的采集时间段之间的环境噪声数值。

在步骤S140中,通过卷积神经网络单元从所述第一图像和所述第二图像获取第一特征图和第二特征图。也就是,将所述第一图像和所述第二图像输入卷积神经网络,以通过卷积神经网络提取出所述图像中的高维特征。

在步骤S150中,通过深度神经网络单元从所述一系列环境噪声数值构造的输入向量获得环境噪声向量。也就是,将一系列环境噪声数值构造的输入向量通过深度神经网络,以提取出所述输入向量中的高维特征,以获得环境噪声向量。

在步骤S160中,通过噪声运动学特征提取单元计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量,所述平均热噪声功率谱密度为减小的普朗克常数与特征值的乘积除以以预定数值为指数的自然常数的幂函数与一的差值,且所述预定数值为所述减小的普朗克常数与特征值的乘积再除以玻尔兹曼热力学常数与环境温度的乘积。

应可以理解,为了能够更好地结合环境噪声的特征与体现姿态变化的图像特征,也就是,为了能够使得环境噪声的特征与图像的运动特征相关联,在本申请中使用环境噪声的运动学特征,也就是热力学特征,即,环境噪声的按时间序列的特征值的平均热噪声功率谱密度来表征环境噪声在时间序列上的变化特征。

更具体地,在本申请实施例中,计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量的过程,包括:以如下公式计算所述环境噪声向量中的每个位置的特征值的平均热噪声功率谱密度,以获得功率谱密度特征向量;其中,所述公式为:

其中h是减小的普朗克常数,为1.054×10-34,k为玻尔兹曼热力学常数,为1.38×10-23,T为环境温度,一般为300K,x是每个位置的特征值,α和β为修正系数,用于分别将αhx和βhx/kT修正到[0,1]区间内。

在步骤S170中,通过特征向量计算单元分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量。应可以理解,将所述功率谱密度特征向量作为查询向量分别与第一特征图和第二特征图相乘,就可以获得结合了环境噪声的特征与体现姿态变化的图像特征的第一特征向量和第二特征向量。

更具体地,在本申请实施例中,分别以所述功率谱密度特征向量乘以所述第一特征图和所述第二特征图以获得第一特征向量和第二特征向量的过程,包括:首先,以所述功率谱密度特征向量作为查询向量与所述第一特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第一特征向量。也就是,将所述第一特征图映射到所述功率谱密度特征向量所在的高维空间中,以获得第一特征向量。然后,以所述功率谱密度特征向量作为查询向量与所述第二特征图进行矩阵相乘,以获得结合了环境噪声的特征与体现姿态变化的图像特征的所述第二特征向量。也就是,将所述第二特征图映射到所述功率谱密度特征向量所在的高维空间中,以获得第二特征向量。

在步骤S180中,通过差分向量计算单元计算所述第一特征向量和所述第二特征向量的按位置差值以获得差分特征向量。应可以理解,计算所述第一特征向量和所述第二特征向量的按位置差值,获得的差分特征向量的每个像素位置都能表达所述特征向量之间按像素位置的特征差异,也就是,所述差分特征向量可以表示用户在移动过程中,姿态变化前后,融合环境噪声的特征与体现姿态变化的图像特征的特征差异。

在步骤S190中,通过分类单元基于所述差分特征向量以分类器获得分类结果。

更具体地,在本申请实施例中,基于所述差分特征向量以分类器获得分类结果的过程,包括:首先,将所述差分特征向量输入Softmax分类函数以获得增大音量的第一概率和减小音量的第二概率。也就是,所述分类器为Softmax分类函数,分类标签为增大音量和减小音量,通过分类函数对差分特征向量进行分类,可以获得差分特征向量归属于分类标签的概率值。然后,基于所述第一概率和所述第二概率的比较,确定所述分类结果。也就是,确定所述第一概率和所述第二概率中的较大值作为分类结果。

在步骤S200中,通过音量控制单元基于所述分类结果自适应地调整所述通话终端的音量。更具体地,在本申请实施例中,基于所述分类结果自适应地调整所述通话终端的音量的过程,包括:首先,响应于所述分类结果为增大音量,增大所述通话终端的音量。然后,用于响应于所述分类结果为减小音量,减小所述通话终端的音量。也就是,根据分类结果控制音量调节的方向。

综上,基于本申请通话终端被阐明,其基于深度学习的特征提取和分类的方法,采用神经网络提取出通话终端的姿态变化前后图像的高维特征和对应于姿态变化时间段内环境噪声数值的高维特征,更特别地,使用环境噪声的运动学特征,即,环境噪声的按时间序列的特征值的平均热噪声功率谱密度来表征环境噪声在时间序列上的变化特征,以更好地结合环境噪声的特征与体现姿态变化的图像特征。这样,获得更好的分类效果。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于用户情绪映射参数动态自适应的智能督导外呼平台

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类