音频信号的处理方法、装置及程序

文档序号：174381 发布日期：2021-10-29 浏览：29次 >En<

阅读说明：本技术 音频信号的处理方法、装置及程序 (Audio signal processing method, device, and program ) 是由石塚健治于 2020-02-13 设计创作，主要内容包括：从输入音波形取得电平的适当的指标。在音频信号,对从音节首起始的起音区间的电平值进行检测,生成直方图。(An appropriate indicator of the level is obtained from the input sound waveform. In an audio signal, a level value of a start interval starting from a syllable start is detected, and a histogram is generated.)

音频信号的处理方法、装置及程序

技术领域

本发明涉及一种音频信号处理，特别是涉及生成作为音频信号的输入电平的指标的信息的方法。

背景技术

为了在音频信号处理适当地进行输入电平控制、动态(Dynamics)控制，需要将信号处理的参数设定为适于输入电平的值。在非专利文献1所公开的技术，将输入音波形的整个区间的瞬时样本值的直方图作为输入电平的指标而提供给用户。

非专利文献1：Loudness Maximizer,[2019年1月8日检索]、互联网＜URL:http:help.izotope.com/docs/ozone4/pages/modules_loudness_maximizer.htm＞

非专利文献2：A Tutorial on Onset Detection in Musical Signals,IEEETransactionson Speech and Audio Processing(Volume:13,Issue:5),2005年8月15日出版

发明内容

但是，在所输入的音频信号的整个区间的瞬时样本值还包含例如音逐渐衰减的区间、没有演奏的区间等的瞬时样本值。因此，由此得到的直方图不会成为用于输入电平、动态的控制的信号电平的适当指标。

本发明就是鉴于上述情况而提出的，其目的在于，提供一种从所输入的音频信号取得信号电平的适当指标的方法。

本发明提供一种对在所输入的音频信号包含的各音符的波形的上升沿部分的1至多个电平值进行检测，创建所检测出的电平值的直方图的音频信号的处理方法。

附图说明

图1是表示在本发明的多个实施方式共通的音频信号的处理装置的结构的框图。

图2是说明本发明的音节首、音节首峰值的图。

图3是表示本发明的第1实施方式的音节首直方图的生成部的结构例的框图。

图4是表示该实施方式的动作例的波形图。

图5是表示本发明的第2实施方式的音节首直方图的生成部的结构例的框图。

图6是表示该实施方式的动作例的波形图。

图7是表示本发明的第3实施方式的音节首直方图的生成部的结构例的框图。

图8是表示本发明的第4实施方式的音节首直方图的生成部的结构例的框图。

图9是表示本发明涉及的具有音节首直方图的生成部的音频信号的处理装置的硬件结构的框图。

图10是表示该处理装置的动作的流程图。

图11是表示该处理装置的动作的流程图。

图12是表示该处理装置的动作的变形例的流程图。

具体实施方式

以下，参考附图对本发明的实施方式进行说明。

＜在多个实施方式共通的功能结构＞

图1示出在以后述的第1实施方式为代表的本发明的多个实施方式共通的音频信号的处理装置100的功能结构。这里，向处理装置100供给音频信号的传声器101、和将从处理装置100输出的音频信号作为音而输出的功率扬声器102与处理装置100一并示出。处理装置100例如可以为音频混频器、信号处理引擎、卡拉OK装置、电子乐器、摄像机、平板终端、智能机等的任意者。

音频信号的处理装置100具有ADC(Analog Digital Converter)1、信号处理部2、DAC(Digital Analog Converter)3、音节首直方图(Onset histogram)的生成部4、显示部5、参数推定部6及输入部7。

ADC 1对从传声器101供给的模拟的音频信号进行A/D转换，作为数字的信号SD而输出。信号处理部2针对信号SD实施例如用于输入电平、动态的控制等的信号处理而输出。DAC 3对从信号处理部2输出的数字的音频信号进行D/A转换而作为模拟的信号输出至功率扬声器102。

音节首直方图的生成部4是对在信号SD中从音节首(onset)起始的波形的上升部分的1至多个电平进行检测而直方图化的装置。这里，音节首是输入音频信号所包含的各音符的波形的上升点。根据非专利文献2，音节首例如是如图2所示波形的包络增加的起音(attack)的开始点。此外，图2示意性地示出音频信号的包络，根据音频信号波形，有时在起音的区间内产生多个峰值。图1的生成部4在信号SD中对1至多个音节首进行检测，将在从各音节首起始的起音区间内出现的峰值作为音节首峰值而进行检测，生成将音节首峰值直方图化的直方图。

音节首直方图显示于显示部5。用户基于所显示的音节首直方图，决定在信号处理部2使用的参数，将该参数从输入部7输入。参数推定部6将由用户输入的参数设定于信号处理部2，由此对用于音频信号的处理的参数进行调整。这里所说的参数例如是指，压缩机等的动态电路的阈值、通道的输入增益、动态均衡器的阈值、从多个通道向信号处理部2输入信号SD并对这些信号SD进行混频的情况下的音量控制器的电平等。另外，作为其他例子，也可以在参数推定部6具有AI(Artificial Intelligence)的功能。参数推定部6具有预先对音频信号的音节首直方图和适于该信号的参数之间的对应关系进行了训练(学习)的AI，根据所输入的音频信号的音节首直方图而决定适于该信号的参数，将该参数设定于信号处理部2，由此对用于音频信号的处理的参数进行调整。这里的AI例如可以通过将音节首直方图作为输入、将参数作为输出的学习模型而实现。另外，作为这里的学习模型，除了CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)等的神经网络以外，还例示回归分析、决策树、SVM(Support Vector Machine)、HMM(Hidden Markov Model)这样的机器学习模型。另外，可以将这里的学习模型构成为除了音节首直方图以外还被输入信号SD的音色(乐器的种类等)。被输入至学习模型的信号SD的音色的信息可以通过用户进行输入，也可以通过参数推定部6而从信号SD自动地进行推定。在该情况下，例如在信号处理部为混频器的情况下，可以考虑输入至信号处理部2的多个通道的信号SD的音色而决定混频时的参数。

＜第1实施方式＞

作为生成部4的一个例子，图3示出本发明的第1实施方式的音节首直方图的生成部41的结构。生成部41具有整流部411、真数/对数转换部412、峰值的检测部413、音节首峰值的检测部414及频度的计数部415。

整流部411针对每个采样周期进行信号SD的全波整流并作为信号Sr而输出。真数/对数转换部412将信号Sr的样本值转换为对数，并作为样本值SI而输出。

峰值的检测部413将样本值SI分隔为与规定数n的采样周期相当的一定时间长的时间帧，针对每个时间帧而求出样本值的峰值(最大值)。

音节首峰值的检测部414从样本值SI的列之中对音节首进行检测，基于该音节首，从检测部413所检测出的一系列的峰值之中对音节首峰值进行检测。

此外，音节首的检测可以通过包含非专利文献2所公开的以下方法的公知的任何方法而进行。

方法1：求出样本值SI的包络，将包络急剧上升的定时设为音节首。

方法2：将样本值SI分割为一定时间长的帧，针对每个帧而对STFT系数进行计算。将高频的STFT系数显著地变化的定时设为音节首。

方法3：将样本值SI分割为一定时间长的帧，针对每个帧而对STFT系数进行计算，根据STFT系数而对相位信息进行计算。将与帧推移相伴的相位信息的变化的形态显著地变化的定时设为音节首。

方法4：将样本值SI分割为一定时间长的帧，针对每个帧而对小波系数进行计算。将伴随着帧推移而小波系数显著地变化的定时设为音节首。

方法5：可以想到样本值SI从2个模型A及B的任意者产生。将样本值SI从模型A产生的对数似然度和样本值SI从模型B产生的对数似然度之间的大小关系发生反转的定时设为音节首。

方法6：对根据过去的样本值SI而预测当前的样本值SI的预测困难度进行计算，将预测困难度显著地提高的定时设为音节首。

检测部414例如以如下方法来决定音节首峰值。

例1：如图4所例示，将从检测出的音节首起的规定时间Ta(音符的上升沿的长度。例如，几百毫秒至1秒左右)确定为起音区间，将上述一系列的峰值中的起音区间的最大值Pmax设为音节首峰值。

例2：对上述一系列的峰值施加平滑化滤波，设为平滑的曲线，将该曲线的起音区间的最大值设为音节首峰值。

在图3，频度的计数部415将从检测部414输出的音节首峰值的定义域划分为多个范围，对属于各范围的音节首峰值的频度进行计数，由此生成音节首直方图。将以上述方式生成的音节首直方图显示于图1的显示部5、或者供给至参数推定部6。在直方图创建所使用的音节首峰值检测的时间范围是任意的。例如，可以通过在1至几首曲的时间范围、多个各曲的高潮的时间范围、紧前的规定时间范围、用户所指定的时间范围等上述任意的时间范围检测出的音节首峰值而创建直方图。

这里，紧前的规定时间范围是从以当前时刻作为起点而回溯了由用户指定的时间宽度的时刻至当前时刻为止的、所指定的时间宽度的窗的范围。生成部4(计数部415)使该窗随着时间的经过而移动，基于进入该窗的时间范围的音频信号而生成音节首峰值的直方图。更具体而言，在每次检测出音节首峰值时，使该音节首峰值的值所属的范围的频度增大(+1)，并且将该音节首峰值和该检测出的时刻作为履历而存储。而且，在从该时刻起经过了规定时间时，从履历读取该音节首峰值，使该值所属的范围的频度减小(－1)。

或者，用户也可以取代指定窗的时间宽度而指定直方图的遗忘速度(衰减率)。生成部4(计数部415)使各范围的频度在每次检测出音节首峰值时增大，并且按时间的经过而以与其遗忘速度相应的速度减少。

另外，用户所指定的时间范围是从由用户指定的开始时刻至结束时刻为止的过去的时间范围。音节首峰值的直方图不是实时地创建的，而是针对所指定的过去的时间范围的音频信号而创建的。在该情况下，为了得到过去的时间范围的音节首峰值，需要后述的第3实施方式的记录部、第4实施方式的记录器所例示的对与过去的音频信号相关的某些信息进行存储的信息存储部。

根据本实施方式，生成在起始自音节首的一定时间长的起音区间内产生的音节首峰值的直方图，因此能够作为与输入电平相关的适当指标而利用。

＜第2实施方式＞

作为生成部4的一个例子，图5示出本发明的第2实施方式的音节首直方图的生成部42的结构。

在生成部42，前处理部421针对每个采样周期而进行音频信号的样本SD的全波整流，进一步转换为对数而输出为样本SI。

减法部424、乘法部425、加法部426、延迟部427、比较部428及时间常数部429作为包络跟随器而针对每个采样周期，根据前处理部421所输出的样本SI而生成其包络Ed。

进行详述，减法部424从样本SI减去包络Ed的当前值，输出表示减法结果的样本。比较部428对样本SI和包络Ed的当前值进行比较，输出表示比较结果的信号。时间常数部429在比较部428的输出信号表示样本SI大于包络Ed的当前值时，输出与短的时间常数对应的系数α1。另一方面，时间常数部429在比较部428的输出信号表示样本SI为包络Ed的当前值以下时，输出与长的时间常数对应的系数α2<α1。乘法部425对由减法部424输出的样本乘以从时间常数部429输出的系数并输出。加法部426将乘法部425所输出的样本和包络Ed的当前值相加，并作为样本Ec而输出。延迟部427将使样本Ec以1个采样周期的量延迟后的样本作为包络Ed的当前值而输出。此外，也可以将减法部424的减法结果的符号用作比较部428的输出的替代，省略比较部428。

根据以上结构，在样本SI大于包络Ed的当前值的期间，包络Ed以与系数α1对应的第1时间常数急速地追随音频信号的样本SI的上升而上升。另外，在样本SI为包络Ed的当前值以下的期间，包络Ed以对应于系数α2且比第1时间常数长的第2时间常数平缓地下降。

锁存器422在比较部428的输出信号表示在某个采样周期中样本SI大于包络Ed的当前值、即音频信号处于上升沿区间的情况下，将该时间点的样本SI作为峰值候补Pc而锁存。

频度的计数部423是将音节首峰值的定义域分割为多个范围，对属于各范围的音节首峰值的频度进行计数的装置。计数部423根据用户的指示而将整个频度重置为零，此后在每次检测出音节首峰值时，使该音节首峰值所属的范围的频度增加(+1)。更详细而言，计数部423在某个采样周期判定为上升沿区间而在锁存器422锁存了峰值候补Pc之后，如果在与规定数m采样周期相当的规定期间T0内不存在下一个峰值候补的锁存，则在该时间点将已锁存的峰值候补Pc判断为音节首峰值Po，使该音节首峰值Po所属的范围的频度增加。第2实施方式的各起音区间是包含比规定期间T0短的间歇、且判定为连续地进入上升沿区间的一系列的采样周期。而且，各起音区间的开头的采样周期被视作与该起音区间对应的音节首的定时。

图6是表示生成部42的动作例的波形图。在图6，在由粗线示出的上升沿区间的各采样周期，将样本SI作为峰值候补Pc而依次进行锁存。在以从左起第5个粗线区间的最后的采样周期将样本SI锁存之后，没有成为SI＞Ed而经过时间T0。在经过了该时间T0的采样周期确定出起音区间，将在该时间点锁存的样本SI作为音节首峰值Po进行检测，该值所属的范围的频度以1为单位递增。

根据本实施方式，将各起音区间的音频信号波形的峰值作为音节首峰值而进行检测，生成表示音节首峰值的分布的音节首直方图。该直方图是对信号处理的参数控制有用的指标。

另外，根据本实施方式，由于将音信号上升的起音区间内的峰值设为音节首峰值，因此能够与起音区间的长度无关而适当地对音节首峰值进行检测。

这里，以由用户进行的频度重置至当前为止的时间范围的音节首峰值而生成了直方图，但音节首峰值检测的时间范围是任意的。

＜第2实施方式的变形例＞

关于本实施方式，可想到下面的变形例。

在本变形例，将图6的由粗线表示的上升沿区间的所有样本、即锁存于锁存器422的所有的峰值候补Pc对待为音节首峰值，生成直方图。通常，音频信号在起音区间中直至其峰值为止以短时间上升，因此以该方法创建的直方图成为与如第1实施方式、第2实施方式所示的仅将起音区间的峰值作为音节首峰值而创建出的直方图比较接近的形状。在本变形例，与第2实施方式比较，能够以短期间的样本、且以更简单的结构生成音节首峰值的直方图。

＜第3实施方式＞

作为生成部4的一个例子，图7示出本发明的第3实施方式的音节首直方图的生成部43的结构。前处理部431针对每个采样周期而进行信号SD的全波整流，并且转换为对数而作为样本SI进行输出。来自信号SD的一系列的音节首的检测也由该前处理部431进行。峰值的检测部432从前处理部431所输出的样本SI，对每个时间帧的峰值进行检测，将该峰值的时间序列记录于记录部433。上述前处理部431、检测部432、记录部433的处理在由处理装置100(例如，音频混频器)对音频信号进行处理(例如，混频处理)过程中在其后台进行。

音节首峰值的检测部434从记录于记录部433的峰值的时间序列之中，选择由检测范围的指定部436指定的时间范围内的峰值的时间序列，按照由检测条件的指定部437指定的检测条件，对音节首峰值进行检测。这里，用户一边观察在后述的UI部的显示器显示的峰值的时间序列(包络波形的形状)，一边使用该UI部而指定希望的时间范围。此外，该情况下的音节首峰值的检测方法与第1实施方式相同。另外，检测条件例如是指起音期间的时间长Ta等。频度的计数部435使由检测部434检测出的音节首峰值所属的范围的频度增加(+1)。

在本实施方式，也得到与上述第1实施方式相同的效果。另外，根据本实施方式，使用记录于记录部433的峰值，能够一边指定任意的时间范围、或改变检测条件，一边执行音节首峰值检测、频度计数。

＜第4实施方式＞

图8是表示本发明的第4实施方式的音节首直方图的生成部44的结构的框图。第4实施方式的处理装置100是在紧随图1中的ADC 1之后具有多轨记录器103(未图示)。在处理装置100(例如，音频混频器)对来自ADC 1的(多通道的)音频信号进行处理(例如，混频)时，记录器103在后台将该音频信号存储于存储介质。生成部44基于在记录器103的记录介质所录音的(希望的通道的)音频信号，创建音节首直方图。

音节首处理部442使用与上述第1实施方式、第2实施方式同种的方法，从记录器，从音频信号对音节首峰值进行检测。

读取部441将由检测范围的指定部444指定的时间范围内的音频信号的样本SD的时间序列从记录介质读取而输出。用户一边观察在显示器显示的样本SD的时间序列(音频波形的形状)，一边使用UI部而指定希望的时间范围。

音节首处理部442按照由指定部445指定的检测条件，从由读取部441所输出的音频信号对音节首峰值进行检测。对于该检测，可以使用至此为止说明过的任何方法。计数部443生成所检测出的音节首峰值的直方图。这里的检测条件的自由度高于第3实施方式，例如，也可以指定音节首的检测算法、或音节首峰值的检测算法等。

在本实施方式，也得到与上述第1或第2实施方式相同的效果。另外，在本实施方式，可以从记录于记录介质的录音波形一边指定任意的时间范围、或更自由地改变检测条件，一边对音节首峰值进行检测而生成直方图。

＜在多个实施方式共通的硬结构＞

图9示出在本发明的多个实施方式共通的音频信号的处理装置100的结构。处理装置100具有控制部111、UI(User Interface)部112、存储部113、ADC 114、信号处理部115、DAC 116、及将上述各要素连接的总线117。

控制部111是处理装置100整体的控制电路，例如由1至多个CPU构成。UI部112包含：操作部，其根据用户的操作，将其操作信息供给至控制部111；以及显示部，其对从控制部111接收到的信息进行显示。存储部113是对在控制部111执行的各种程序、在处理装置100的控制使用的各种控制信息进行存储的存储器。ADC 114对从未图示的传声器等供给的模拟的音频信号进行A/D转换，并作为数字的音频信号而输出。

信号处理部115具有2个功能。1个是在控制部111的控制之下，基于从ADC 114等供给的数字信号而创建音节首直方图的功能。即，控制部111通过执行存储部113内的程序，从而使信号处理部115作为图1的生成部4起作用。

信号处理部115的另1个功能是在控制部111的控制之下，针对从ADC 114等供给的数字信号实施信号处理，将作为其结果的数字信号供给至DAC 116的功能。即，控制部111使信号处理部115作为图1的信号处理部2而动作。

DAC 116对从信号处理部115输出的数字信号进行D/A转换，并输出至图9未图示的扬声器102等。

接着，对本实施方式的动作进行说明。如果将处理装置100的电源接通，则控制部111执行在存储部113存储的主流程。图10是该主流程的流程图。控制部111首先进行初始设定(S101)。在该初始设定，控制部111从存储部113读取使信号处理部115作为图1的生成部4及信号处理部2起作用的程序，并设定于信号处理部115。接着，控制部111对处理装置100的各种事件(例如，UI部112的用户操作等)的发生进行检测(S102)。接着，控制部111判断在S102是否检测到任何的事件(S103)。在该S103的判断结果为“NO”的情况下，控制部111反复进行事件的检测(S102)及事件的有无的判断(S103)。在S103的判断结果为“YES”的情况下，控制部111执行与所检测出的事件对应的事件处理(S104)，然后，再次反复进行事件的检测(S102)及事件的有无的判断(S103)。

在事件处理(S104)，执行与在S102检测出的事件的种类相应的处理。关于第1、第2实施方式，例如，在S103检测出对音节首直方图的创建开始进行指示的用户操作的情况下，控制部111对信号处理部115指示音节首直方图的创建开始。信号处理部115的生成部4根据该创建开始的指示，开始进行基于其之后从ADC 114供给的数字的音频信号的音节首峰值的检测及音节首直方图的创建。

另外，在S103检测出音节首直方图的显示指示的用户操作的情况下，控制部111在S104，根据该显示指示而执行图11所示的事件处理。该显示指示例如是使包含音节首直方图的图形显示在内的压缩机等的设定画面显示于UI部112的显示器的指示。

首先，控制部111从信号处理部115的生成部4接收在该时间点创建好的音节首直方图OH(S201)。接着，控制部111将音节首直方图OH显示于UI部112的显示器(S202)。然后，结束该事件处理。对于第3或第4实施方式，相同地，也可以使信号处理部115作为生成部43或生成部44而动作。

关于处理装置100的、控制部111和信号处理部115的功能分担，可以想到各种的变形例。例如，将音节首直方图OH的生成处理(生成部4)的全部或一部分不由信号处理部115执行，而是由控制部111执行。图12是关于第4实施方式(或第3实施方式)，在检测出音节首直方图的显示指示的用户操作的情况下，由控制部111执行的事件处理的流程图。

首先，控制部111从信号处理部115接收由信号处理部115从ADC 114取得的样本值SD中成为音节首直方图的创建对象的区间内的样本值(S301)。例如，从信号处理部115的记录器(或记录部433)接收所指定的时间范围内的音频信号的样本SD(或每个时间帧的峰值)的时间序列。接着，控制部111基于所接收到的样本值SD(或峰值)的时间序列，对一系列的音节首峰值Po进行检测，根据所检测出的音节首峰值Po而创建音节首直方图OH(S302)。接着，控制部111将音节首直方图OH显示于UI部112的显示部(S303)。然后，结束该事件处理。关于第1或第2实施方式，也可以相同地将生成部4的处理的全部或一部分由控制部111执行。

以上，对本发明的第1～第4实施方式进行了说明，但本发明也可以有其他实施方式。例如，如下所述。

(1)在上述各实施方式，作为处理对象的音频信号可以是1个乐器的演奏音的音频信号，也可以是将相同或不同种类的多个乐器的演奏音混合后的音频信号。

(2)可以由处理装置100从外部取得在音节首峰值的检测所使用的音节首。例如，在能够取得由MIDI乐器基于MIDI数据而演奏的演奏音等、音频信号和定时对齐的MIDI数据的时间序列的情况下，能够将该MIDI数据的时间序列所包含的音符开事件的定时作为音节首的定时而用于音节首峰值的检测。

(3)也可以将音节首直方图的生成部4的一部分或全部在控制部111的管理之下与安装于处理装置100的生成部4以外的处理部共用。例如，压缩机等音频信号的动态处理部大多包含包络跟随器，在该情况下，可以将其作为上述第2实施方式的生成部4的包络跟随器而使用。

标号的说明

100、110……音频信号的处理装置，101……传声器，102……功率扬声器，103……多轨记录器，111……控制部，112……UI部，113……存储部，1、114……ADC，2、115……信号处理部，3、116……DAC，4、41、42、43、44……音节首直方图的生成部，5……显示部，6……参数的推定部，7……输入部，411……整流部，412……真数/对数转换部，413、432……峰值的检测部，414、434……音节首峰值的检测部，415、423、435、443……频度的计数部，421、431……前处理部，422……锁存器，424……减法部，425……乘法部，426……加法部，427……延迟部，428……比较部，429……时间常数部，433……记录部，436、444……检测范围的指定部，437、445……检测条件的指定部，441……读取部，442……音节首的处理部。

15页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：具有减少晶体管降级的高压移位器

音频信号的处理方法、装置及程序

相关技术

网友询问留言