乐曲解析方法及乐曲解析装置

文档序号:157360 发布日期:2021-10-26 浏览:32次 >En<

阅读说明:本技术 乐曲解析方法及乐曲解析装置 (Music analysis method and music analysis device ) 是由 前泽阳 于 2020-03-19 设计创作,主要内容包括:高精度地对乐曲的构造区间进行推定。乐曲解析装置(100)针对由从乐曲的音响信号的K个解析点(B)以不同的组合选择出的N个解析点(B)构成的多个构造候补(C)的每一者,对评价指标(Q)进行计算,根据各构造候补(C)的评价指标(Q),对多个构造候补(C)的任意者进行选择,其中,N<K。对评价指标(Q)进行计算是,根据音响信号的第1特征量(F1),针对每个构造候补(C),对表示构造候补(C)的各解析点(B)与乐曲的构造区间的边界相符的准确度的第1指标(P1)进行计算,根据将构造候补(C)的N个解析点(B)作为边界的多个候补区间的每一者的持续长度,针对每个构造候补(C),对表示该构造候补(C)与乐曲的构造区间的边界相符的准确度的第2指标(P2)进行计算,根据第1指标(P1)和第2指标(P2),针对每个构造候补(C),对评价指标(Q)进行计算。(The structural section of a music is estimated with high accuracy. A music analysis device (100) calculates an evaluation index (Q) for each of a plurality of structure candidates (C) consisting of N analysis points (B) selected from K analysis points (B) of an acoustic signal of a music in different combinations, and selects any one of the plurality of structure candidates (C) on the basis of the evaluation index (Q) of each structure candidate (C), wherein N &lt; K. The evaluation index (Q) is calculated by calculating, for each structure candidate (C), a1 st index (P1) indicating the accuracy with which each analysis point (B) of the structure candidate (C) coincides with the boundary of the structural section of the music, based on the 1 st feature quantity (F1) of the acoustic signal, calculating, for each structure candidate (C), a2 nd index (P2) indicating the accuracy with which the structure candidate (C) coincides with the boundary of the structural section of the music, based on the duration of each of a plurality of candidate sections having N analysis points (B) of the structure candidate (C) as the boundary, and calculating, for each structure candidate (C), the evaluation index (Q) based on the 1 st index (P1) and the 2 nd index (P2).)

乐曲解析方法及乐曲解析装置

技术领域

本发明涉及一种对乐曲的构造进行解析的技术。

背景技术

当前提出有如下技术,即,通过对表示乐曲的音响的音响信号进行解析而对该乐曲的构造进行推定。例如,在非专利文献1公开了如下技术,即,通过将从音响信号提取的特征量输入至神经网络而对乐曲的构造区间(例如,A段或副歌等)的边界进行推定。在专利文献1公开了如下技术,即,利用从音响信号提取的音色及和弦的特征量而对乐曲的构造区间进行推定。另外,在专利文献2公开了如下技术,即,通过对音响信号进行解析而对乐曲内的节拍点进行推定。

专利文献1:日本特开2017-90848号公报

专利文献2:日本特开2019-20631号公报

非专利文献1:K.Ullrich,J.Schluter,and T.Grill,"Boundary Detection inMusic Structure Analysis using Convolutional Neural Networks,"ISMIR,2014

发明内容

但是,在非专利文献1或专利文献1的技术,有时针对构造区间的持续长度而在乐曲内解析的结果不相匹配。例如,有可能在乐曲的前半推定出适当的持续长度的构造区间,但在乐曲的后半推定出与实际的构造区间相比持续长度短的构造区间。考虑到以上情况,本发明的目的在于,高精度地对乐曲的构造区间进行推定。

为了解决以上的课题,本发明的一个例子涉及的乐曲解析方法针对由从乐曲的音响信号的K个解析点以不同的组合选择出的N个解析点构成的多个构造候补的每一者,对评价指标进行计算,其中,K为2以上的自然数,N为小于K且2以上的自然数,根据所述各构造候补的所述评价指标,将所述多个构造候补的任意者作为所述乐曲的构造区间的边界进行选择,所述评价指标的计算包含:第1解析处理,其是针对所述多个构造候补的每一者,根据所述音响信号的第1特征量,对表示该构造候补的所述N个解析点与所述乐曲的构造区间的边界相符的准确度的第1指标进行计算;第2解析处理,其是针对所述多个构造候补的每一者,根据将该构造候补的所述N个解析点作为边界的多个候补区间的每一者的持续长度,对表示该构造候补与所述乐曲的构造区间的边界相符的准确度的第2指标进行计算;以及指标合成处理,其是针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标和所述第2指标,对所述评价指标进行计算。

本发明的一个例子涉及的乐曲解析装置具有:指标计算部,其针对由从乐曲的音响信号的K个解析点以不同的组合选择出的N个解析点构成的多个构造候补的每一者,对评价指标进行计算,其中,K为2以上的自然数,N为小于K且2以上的自然数;以及候补选择部,其根据所述各构造候补的所述评价指标,将所述多个构造候补的任意者作为所述乐曲的构造区间的边界进行选择,所述指标计算部包含:第1解析部,其针对所述多个构造候补的每一者,根据所述音响信号的第1特征量,对表示该构造候补的所述N个解析点与所述乐曲的构造区间的边界相符的准确度的第1指标进行计算;第2解析部,其针对所述多个构造候补的每一者,根据将该构造候补的所述N个解析点作为边界的多个候补区间的每一者的持续长度,对表示该构造候补与所述乐曲的构造区间的边界相符的准确度的第2指标进行计算;以及指标合成部,其针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标和所述第2指标,对所述评价指标进行计算。

附图说明

图1是例示出实施方式涉及的乐曲解析装置的结构的框图。

图2是例示出乐曲解析装置的功能性结构的框图。

图3是例示出指标计算部的结构的框图。

图4是例示出第1解析部的结构的框图。

图5是自相似矩阵的说明图。

图6是束搜索的说明图。

图7是例示出搜索处理的具体顺序的流程图。

图8是例示出乐曲解析处理的具体顺序的流程图。

具体实施方式

图1是例示出一个方式涉及的乐曲解析装置100的结构的框图。乐曲解析装置100是通过对表示乐曲的歌唱音或演奏音等的音响的音响信号X进行解析,从而对该乐曲内的多个构造区间的边界(以下,称为“构造边界”)进行推定的信息处理装置。构造区间是根据音乐意义或乐曲内的定位而在时间轴上对乐曲进行划分得到的区间。例如,构造区间为序曲(intro)、A段(verse)、B段(bridge)、副歌(chorus)或结尾(outro)。构造边界为各构造区间的起点或终点。

乐曲解析装置100通过具有控制装置11、存储装置12及显示装置13的计算机系统而实现。例如,乐曲解析装置100通过智能手机或个人计算机等信息终端而实现。

控制装置11例如是对乐曲解析装置100的各要素进行控制的单个或多个处理器。例如,控制装置11由CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。显示装置13在由控制装置11进行的控制下对图像进行显示。显示装置13例如为液晶显示面板。

存储装置12例如为由磁记录介质或半导体记录介质等记录介质构成的单个或多个存储器。存储装置12例如对控制装置11执行的程序(即,针对控制装置11的指示的序列)和控制装置11使用的各种数据进行存储。例如,存储装置12对作为推定对象的乐曲的音响信号X进行存储。音响信号X例如被作为从传送装置传送至乐曲解析装置100的音乐文件而存储于存储装置12。此外,可以通过多种记录介质的组合而构成存储装置12。另外,可以将相对于乐曲解析装置100能够拆装的可移动型的记录介质、或乐曲解析装置100经由通信网而能够进行通信的外部记录介质(例如,网络硬盘)作为存储装置12而利用。

图2是例示出通过由控制装置11执行在存储装置12存储的程序而实现的功能的框图。控制装置11实现解析点确定部21、特征提取部22、指标计算部23及候补选择部24。此外,可以通过以相互分体地构成的多个装置而实现控制装置11的功能,也可以通过专用的电子电路而实现控制装置11的功能的一部分或全部。

解析点确定部21通过音响信号X的解析而对乐曲内的K个解析点B进行检测(K为2以上的自然数)。解析点B是乐曲内的作为构造边界的候补的时间点。解析点确定部21例如将与乐曲内的节拍点同步的时间点作为解析点B进行检测。例如,将乐曲内的多个节拍点、及对相前后的2个节拍点的间隔进行等分的时间点作为K个解析点B进行检测。例如,解析点B是以与乐曲的8分音符相当的间隔存在于时间轴上的时间点。也可以将乐曲内的各节拍点作为解析点B进行检测。另外,也可以将在乐曲内以相前后的2个节拍点的间隔的整数倍的周期排列于时间轴上的各时间点作为解析点B进行检测。乐曲内的多个节拍点通过音响信号X的解析而进行检测。节拍点的检测任意地采用公知技术。

特征提取部22针对K个解析点B的每一者,对音响信号X的第1特征量F1及第2特征量F2进行提取。第1特征量F1及第2特征量F2为表示音响信号X所表示的音响的音色的特征(即,频谱等的频率特性的特征)的物理量。第1特征量F1例如为MSLS(Mel-Scale LogSpectrum)。第2特征量F2例如为MFCC(Mel-Frequency Cepstrum Coefficients)。在第1特征量F1及第2特征量F2的提取中利用离散傅里叶变换等频率解析。第1特征量F1为“第1特征量”的例示,第2特征量F2为“第2特征量”的例示。

指标计算部23针对多个构造候补C的每一者,对评价指标Q进行计算。构造候补C为从乐曲内的K个解析点B选择的N个解析点B1~BN的序列(N为小于K且2以上的自然数)。构成构造候补C的N个解析点B1~BN的组合针对每个构造候补C而不同。构成构造候补C的解析点B的个数N也针对每个构造候补C而不同。如根据以上说明所理解的那样,指标计算部23针对由从K个解析点B以不同的组合选择出的N个解析点B构成的多个构造候补C的每一者构造候补C,对评价指标Q进行计算。

各构造候补C为与乐曲内的构造边界的时间序列相关的候补。针对各构造候补C计算出的评价指标Q是该构造候补C作为构造边界的时间序列而妥当的程度的指标。具体而言,构造候补C作为构造边界的时间序列越妥当则评价指标Q成为越大的数值。

候补选择部24根据各构造候补C的评价指标Q,将多个构造候补C的任意者(以下,称为“最佳候补Ca”)作为乐曲的构造边界的时间序列进行选择。具体而言,候补选择部24将多个构造候补C中的评价指标Q最大的构造候补C作为推定的结果进行选择。显示装置13对表示由控制装置11推定出的乐曲内的多个构造边界的图像进行显示。

图3是例示出指标计算部23的具体结构的框图。指标计算部23具有第1解析部31、第2解析部32、第3解析部33及指标合成部34。

第1解析部31针对多个构造候补C的每一者,对第1指标P1进行计算。各构造候补C的第1指标P1为表示该构造候补C的N个解析点B1~BN与乐曲的构造边界相符的准确度(例如,概率)的指标。第1指标P1是根据音响信号X的第1特征量F1而计算的。即,第1指标P1为着眼于音响信号X的第1特征量F1而对各构造候补C的妥当性进行评价的指标。

图4是例示出第1解析部31的具体结构的框图。第1解析部31具有解析处理部311、推定处理部312及概率计算部313。

解析处理部311根据针对K个解析点B分别计算出的K个第1特征量F1的时间序列,对自相似矩阵(SSM:Self-Similarity Matrix)M进行计算。如图5所例示的那样,自相似矩阵M为针对K个第1特征量F1的时间序列而排列了2个解析点B的第1特征量F1的相似度的K阶的正方矩阵。自相似矩阵M的第k1行第k2列(k1,k2=1~K)的要素m(k1,k2)被设定为K个第1特征量F1中的第k1个第1特征量F1和第k2个第1特征量F1之间的相似度(例如,内积)。

在图5,自相似矩阵M中的相似度大的位置由实线表现。在自相似矩阵M,该自相似矩阵M的对角线上的要素m(k,k)成为大的数值,除此以外,在乐曲内彼此相似或一致的旋律反复的范围内,沿对角线的要素m(k1,k2)成为大的数值。例如,在自相似矩阵M中对角线上的要素m(k1,k2)大的范围R1和范围R2,同样的旋律反复的可能性高。根据以上说明所理解的那样,自相似矩阵M作为用于对乐曲内的同样的旋律的反复性进行评价的指标而利用。

图4的推定处理部312针对乐曲内的K个解析点B的每一者,对概率ρ进行推定。各解析点B的概率ρ为该解析点B与乐曲的1个构造边界相符的准确度的指标。具体而言,推定处理部312根据自相似矩阵M和多个第1特征量F1的时间序列,对各解析点B的概率ρ进行推定。

推定处理部312例如包含第1推定模型Z1。第1推定模型Z1针对与各解析点B对应的控制数据D的输入,输出该解析点B与构造边界相符的概率ρ。第k个解析点B的控制数据D包含自相似矩阵M中的包含第k列(或第k行)的规定范围内的部分、及针对该解析点B计算出的第1特征量F1。

第1推定模型Z1例如为卷积神经网络(CNN:Convolutional Neural Network)或循环型神经网络(RNN:Recurrent Neural Network)等各种深度神经网络。具体而言,第1推定模型Z1为对控制数据D和概率ρ之间的关系进行了学习(训练)的训练好的模型,通过使控制装置11执行根据控制数据D对概率ρ进行推定的运算的程序、及应用于该运算的多个系数的组合而实现。第1推定模型Z1的多个系数通过利用包含已知的控制数据D和概率ρ在内的多个教师数据的机器学习而设定。因此,第1推定模型Z1基于多个教师数据的控制数据D和概率ρ之间潜在的倾向,针对未知的控制数据D输出统计上妥当的概率ρ。

图4的概率计算部313针对多个构造候补C的每一者,对第1指标P1进行计算。各构造候补C的第1指标P1是根据针对构成该构造候补C的N个解析点B1~BN的每一者推定出的概率ρ而计算的。例如,概率计算部313针对N个解析点B1~BN,将概率ρ合计得到的数值作为第1指标P1进行计算。

在以上结构,根据概率ρ而对第1指标P1进行计算,该概率ρ是由第1推定模型Z1根据从第1特征量F1的时间序列计算出的自相似矩阵M和该第1特征量F1的时间序列而推定的。因此,能够考虑乐曲内的各部分的第1特征量F1的时间序列的相似性(即旋律的反复性)而选择适当的构造候补C。

图3的第2解析部32针对多个构造候补C的每一者,对第2指标P2进行计算。各构造候补C的第2指标P2为表示该构造候补C的N个解析点B1~BN与乐曲的构造边界相符的准确度的指标。第2指标P2根据将构造候补C的N个解析点B1~BN作为边界而对乐曲进行了划分的多个区间(以下,称为“候补区间”)的每一者的持续长度进行计算。即,第2指标P2为着眼于由构造候补C规定的(N-1)个候补区间的每一者的持续长度而对该构造候补C的妥当性进行评价的指标。候补区间相当于乐曲的构造区间的候补。

第2解析部32包含根据构造候补C的N个解析点B1~BN而对第2指标P2进行推定的第2推定模型Z2。通过第2推定模型Z2进行的第2指标P2的推定由以下的数学式(1)表现。

[数学式1]

数学式(1)的记号Π代表连乘。数学式(1)的记号Ln代表第n个候补区间的持续长度,相当于解析点Bn和解析点Bn+1之间的间隔(Ln=Bn-Bn+1)。数学式(1)的记号p(Ln|L1…Ln-1)代表在观测到持续长度L1~Ln-1的时间序列的条件下紧随其后观测到持续长度Ln的后验概率。此外,在数学式(1)例示出连乘,但也可以将概率p(Ln|L1…Ln-1)的对数值的总和作为第2指标P2进行推定。第2推定模型Z2例如为N-gram等语言模型、或长短期记忆(LSTM:Long Short Term Memory)等循环型神经网络。

以上说明的第2推定模型Z2通过机器学习而生成,该机器学习利用了表示已有乐曲的各构造区间的持续长度的多个教师数据。即,第2推定模型Z2是对在已有的多个乐曲的各构造区间的持续长度的时间序列潜在的倾向进行了学习(训练)的训练好的模型。第2推定模型Z2例如对在4小节对应量的构造区间、8小节对应量的构造区间和4小节对应量的构造区间的时间序列后接着5小节对应量的构造区间的可能性高这样的倾向进行学习(训练)。因此,对于基于与已有的乐曲的各构造区间的持续长度的时间序列相关的倾向而各候补区间的持续长度的时间序列在统计上妥当的构造候补C,第2指标P2成为大的数值。即,构造候补C作为乐曲的构造边界的时间序列越妥当,第2指标P2成为越大的数值。

如以上所说明的那样,利用对乐曲的各构造区间的持续长度的倾向进行了学习的第2推定模型Z2。因此,能够基于实际的乐曲的各构造区间的持续长度的倾向而选择适当的构造候补C。

此外,与最初的解析点B1和紧随其后的解析点B2之间的候补区间相关的概率p(L1)例如沿循规定的概率分布而决定。另外,与(N-1)个解析点BN-1和最后的解析点BN之间的候补区间相关的概率p(LN-1|L1…LN-2)被设定为最后的解析点BN及其以后的概率的总和。

第3解析部33针对多个构造候补C的每一者,对第3指标P3进行计算。各构造候补C的第3指标P3为与将该构造候补C的N个解析点B1~BN作为边界的(N-1)个候补区间的每一者的第2特征量F2的分散度相对应的指标。具体而言,第3解析部33针对(N-1)个候补区间的每一者,对该候补区间内的各解析点B的第2特征量F2的分散度(例如,分散)进行计算,对(N-1)个候补区间的整个范围的分散度的合计值施加负号而对第3指标P3进行计算。此外,可以将(N-1)个候补区间的整个范围的分散度的合计值的倒数作为第3指标P3进行计算。

根据以上说明所理解的那样,各候补区间内的第2特征量F2的变动越小,第3指标P3成为越大的数值。如前述那样,第2特征量F2为表示音响信号X所表示的音响的音色的特征的物理量。因此,第3指标P3相当于各候补区间内的音色的均匀性的指标。具体而言,各候补区间内的音色的均匀性越高,第3指标P3成为越大的数值。具有在乐曲的1个构造区间内音色被均匀地维持这样的倾向。即,在构造区间内音色过度地变动的可能性低。因此,构造候补C作为乐曲的构造边界的时间序列越妥当,则第3指标P3成为越大的数值。根据以上说明所理解的那样,第3指标P3为着眼于各候补区间内的音色的均匀性而对构造候补C的妥当性进行评价的指标。

如以上例示的那样,对与各候补区间的第2特征量F2的分散度相对应的第3指标P3进行计算,在用于选择最佳候补Ca的评价指标Q反映出第3指标P3。因此,能够基于在各构造区间内音色被均匀地维持这样的倾向而选择适当的构造候补C。

指标合成部34根据第1指标P1、第2指标P2及第3指标P3,对各构造候补C的评价指标Q进行计算。具体而言,指标合成部34如由以下的数学式(2)表现的那样,将第1指标P1、第2指标P2及第3指标P3的加权和作为评价指标Q进行计算。数学式(2)的加权值α1~α3被设定为规定的正数。此外,指标合成部34例如可以根据来自利用者的指示而对加权值α1~α3进行变更。如根据数学式(2)所理解的那样,第1指标P1、第2指标P2或第3指标P3越大,则评价指标Q成为越大的数值。

Q=α1·P1+α2·P2+α3·P3 (2)

图2的候补选择部24如前述那样,将多个构造候补C中的评价指标Q最大的最佳候补Ca作为乐曲的构造边界的时间序列进行选择。具体而言,候补选择部24如以下所例示的那样,通过束搜索(Beam Search)而从多个构造候补C对1个最佳候补Ca进行搜索。

图6是候补选择部24对最佳候补Ca进行搜索的处理(以下,称为“搜索处理”)的说明图,图7是例示出搜索处理的具体内容的流程图。如图6所例示的那样,搜索处理由多个单位处理的反复构成。第i个单位处理包含以下所例示的第1处理Sa1及第2处理Sa2。

在第1处理Sa1,候补选择部24根据在第(i-1)个单位处理的第2处理Sa2中选择的W个构造候补C(以下,称为“保持候补C1”)的每一者,生成H个构造候补C(以下,称为“新候补C2”)(W及H为自然数)。

具体而言,候补选择部24通过在各保持候补C1的J个(J为1以上的自然数)解析点B1~BJ追加位于该解析点BJ后方的1个解析点B,从而生成新候补C2(Sa11)。针对乐曲内的K个解析点中的位于该解析点BJ后方的多个解析点B的每一者,生成新候补C2。

指标计算部23针对多个新候补C2的每一者,对评价指标Q进行计算(Sa12)。候补选择部24对多个新候补C2中的按评价指标Q的降序而位于上位的H个新候补C2进行选择(Sa13)。处理Sa11至处理Sa13针对W个保持候补C1的每一者而执行,由此生成(W×H)个新候补C2。

紧接以上所例示的第1处理Sa1之后执行第2处理Sa2。在第2处理Sa2,候补选择部24将由第1处理Sa1生成的(W×H)个新候补C2中的按评价指标Q的降序而位于上位的W个新候补C2作为新的保持候补C1进行选择。第2处理Sa2中选择的新候补C2的个数W与束宽相当。

候补选择部24直至规定的结束条件成立为止(Sa3:NO),反复进行以上所说明的第1处理Sa1及第2处理Sa2。结束条件为构造候补C所包含的解析点B到达乐曲的结尾。如果结束条件成立(Sa3:YES),则候补选择部24对在该时间点所保持的多个构造候补C中的评价指标Q最大的最佳候补Ca进行选择(Sa4)。

如以上例示的那样,通过束搜索而多个构造候补C的任意者被选择。因此,与将从K个解析点B对N个解析点B1~BN进行选择的所有的组合作为构造候补C而执行评价指标Q的计算和最佳候补Ca的选择的结构相比,能够降低最佳候补Ca的选择所需的处理负荷(例如,运算量)。

图8是例示出控制装置11对乐曲的构造边界进行推定的处理(以下,称为“乐曲解析处理”)的具体顺序的流程图。例如,以来自利用者的针对乐曲解析装置100的指示为契机,开始进行乐曲解析处理。乐曲解析处理为“乐曲解析方法”的一个例子。

解析点确定部21通过音响信号X的解析而对乐曲内的K个解析点B进行检测(Sb1)。特征提取部22针对K个解析点B的每一者,对音响信号X的第1特征量F1及第2特征量F2进行提取(Sb2)。指标计算部23针对多个构造候补C的每一者,对评价指标Q进行计算(Sb3)。候补选择部24根据各构造候补C的评价指标Q而将多个构造候补C的任意者作为最佳候补Ca进行选择(Sb4)。评价指标Q的计算(Sb3)包含第1解析处理Sb31、第2解析处理Sb32、第3解析处理Sb33及指标合成处理Sb34。

第1解析部31执行针对各构造候补C计算第1指标P1的第1解析处理Sb31。第2解析部32执行针对各构造候补C计算第2指标P2的第2解析处理Sb32。第3处理部执行针对各构造候补C计算第3指标P3的第3解析处理Sb33。指标合成部34执行根据第1指标P1、第2指标P2及第3指标P3而对各构造候补C的评价指标Q进行计算的指标合成处理Sb34。此外,第1解析处理Sb31、第2解析处理Sb32及第3解析处理Sb33的顺序是任意的。

如以上所说明的那样,根据将构造候补C的N个解析点B1~BN作为边界的(N-1)个候补区间的每一者的持续长度,对第2指标P2进行计算,在用于对多个构造候补C的任意者进行选择的评价指标Q反映出第2指标P2。即,考虑各候补区间的持续长度的妥当性而对乐曲的构造区间进行推定。因此,与仅根据音响信号X的特征量对乐曲的构造区间进行推定的结构相比,能够高精度地对乐曲的构造区间进行推定。例如,降低针对构造区间的持续长度而在乐曲内解析的结果不相匹配的可能性。

以下,例示出对以上所例示的各方式附加的具体变形的方式。可以将从以下的例示任意地选择出的2个以上方式在彼此不相矛盾的范围适当进行合并。

(1)在前述方式,例示出执行第1解析处理Sb31、第2解析处理Sb32及第3解析处理Sb33的方式,但也可以省略第1解析处理Sb31及第3解析处理Sb33的一方或双方。在省略了第1解析处理Sb31的结构,在根据第2指标P2和第3指标P3而对评价指标Q进行计算,在省略了第3解析处理Sb33的结构,根据第1指标P1和第2指标P2而对评价指标Q进行计算。另外,在省略了第1解析处理Sb31及第3解析处理Sb33双方的结构,根据第2指标P2而对评价指标Q进行计算。

(2)在前述方式,将与乐曲的节拍点同步的时间点确定为解析点B,但对K个解析点B进行确定的方法不受以上例示限定。例如,可以与音响信号X无关地设定例如在时间轴上以规定的周期排列的多个解析点B。

(3)在前述方式,例示出将音响信号X的MSLS作为第1特征量F1,但第1特征量F1的种类不受以上例示限定。例如,可以将频率频谱的包络线或MFCC作为第1特征量F1而利用。针对第2特征量F2也同样地,不限定于前述方式所例示的MFCC。例如,可以将频率频谱的包络线或MSLS作为第2特征量F2而利用。另外,在前述方式,例示出第1特征量F1和第2特征量F2不同的结构,但第1特征量F1和第2特征量F2也可以是同种类的。即,也可以将从音响信号X提取出的1种特征量兼用于自相似矩阵M的计算和第2指标P2的计算。

(4)也可以通过在与移动电话或智能手机等终端装置之间进行通信的服务器装置来实现乐曲解析装置100。例如,乐曲解析装置100通过从终端装置接收到的音响信号X的解析对最佳候补Ca进行选择,将该最佳候补Ca发送至请求源的终端装置。此外,在将解析点确定部21及特征提取部22搭载于终端装置的结构,乐曲解析装置100从终端装置接收包含K个解析点B、第1特征量F1的时间序列和第2特征量F2的时间序列在内的控制数据,利用该控制数据而执行评价指标Q的计算(Sb3)和最佳候补Ca的选择(Sb4)。乐曲解析装置100将最佳候补Ca发送至请求源的终端装置。根据以上说明所理解的那样,可以将解析点确定部21及特征提取部22从乐曲解析装置100省略。

(5)以上所例示的乐曲解析装置100的功能如前述那样,通过构成控制装置11的单个或多个处理器和存储于存储装置12的程序的协同动作而实现。本发明涉及的程序能够以储存于计算机可读取的记录介质的方式提供并安装于计算机。记录介质例如为非暂时性(non-transitory)的记录介质,优选例为CD-ROM等光学式记录介质(光盘),但也可以包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外,非暂时性的记录介质包含除了暂时性的传输信号(transitory,propagating signal)以外的任意的记录介质,并非将易失性的记录介质除外。另外,在传送装置经由通信网而传送程序的结构,在该传送装置对程序进行存储的存储装置相当于前述的非暂时性的记录介质。

(6)根据以上所例示的方式,例如可以掌握以下的结构。

本发明的一个方式(第1方式)涉及的乐曲解析方法针对由从乐曲的音响信号的K个解析点以不同的组合选择出的N个解析点构成的多个构造候补的每一者,对评价指标进行计算,其中,K为2以上的自然数,N为小于K且2以上的自然数,根据所述各构造候补的所述评价指标,将所述多个构造候补的任意者作为所述乐曲的构造区间的边界进行选择,所述评价指标的计算包含:第1解析处理,其是针对所述多个构造候补的每一者,根据所述音响信号的第1特征量而对表示该构造候补的所述N个解析点与所述乐曲的构造区间的边界相符的准确度的第1指标进行计算;第2解析处理,其是针对所述多个构造候补的每一者,根据将该构造候补的所述N个解析点作为边界的多个候补区间的每一者的持续长度,对表示该构造候补与所述乐曲的构造区间的边界相符的准确度的第2指标进行计算;以及指标合成处理,其是针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标和所述第2指标,对所述评价指标进行计算。此外,构成构造候补的解析点的个数N可以针对每个构造候补而不同。

根据以上方式,根据将构造候补的N个解析点作为边界的多个候补区间的每一者的持续长度,对第2指标进行计算,在用于对多个构造候补的任意者进行选择的评价指标反映出第2指标。即,考虑各候补区间的持续长度的妥当性而对乐曲的构造区间进行推定。因此,与仅根据与音响信号的音色相关的特征量对乐曲的构造区间进行推定的结构相比,能够高精度地对乐曲的构造区间进行推定。例如,能够降低针对构造区间的持续长度而在乐曲内解析的结果不相匹配的可能性。

在第1方式的一个例子(第2方式),所述评价指标的计算包含执行第3解析处理,该第3解析处理是针对所述多个构造候补的每一者,对第3指标进行计算,该第3指标与将该构造候补的所述N个解析点作为边界的所述多个候补区间的每一者的所述音响信号的第2特征量的分散度相对应,在所述指标合成处理,针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标、所述第2指标和所述第3指标,对所述评价指标进行计算。在以上方式,对与各候补区间的第2特征量的分散度(例如,分散)相对应的第3指标进行计算,在用于对多个构造候补的任意者进行选择的评价指标反映出第3指标。第3指标为候补区间内的音色的均匀性的指标。因此,能够基于在乐曲的1个构造区间内音色不会过度地变动这样的倾向而高精度地对乐曲的构造区间进行推定。

在第1方式或第2方式的一个例子(第3方式),在所述第1解析处理,根据通过将根据与所述K个解析点的每一者对应的所述第1特征量的时间序列而计算出的自相似矩阵和该第1特征量的时间序列输入至第1推定模型,从而针对所述K个解析点的每一者计算出的概率中的、针对所述N个解析点计算出的概率,对所述第1指标进行计算。根据以上方式,根据概率而对第1指标进行计算,该概率是由第1推定模型根据从第1特征量的时间序列计算出的自相似矩阵和该第1特征量的时间序列而推定的。因此,能够对考虑了乐曲内的各部分的第1特征量的时间序列的相似性(即旋律的反复性)的适当的第1指标进行计算。

在第1方式至第3方式中的任一个的例子(第4方式),在所述第2解析处理,利用对乐曲的多个构造区间的每一者的持续长度的倾向进行了学习的第2推定模型,针对所述多个构造候补的每一者,对第2指标进行计算。根据以上方式,利用对乐曲的各构造区间的持续长度的倾向进行了学习的第2推定模型。因此,能够基于实际的乐曲的各构造区间的持续长度的倾向而对适当的第2指标进行计算。此外,第2推定模型例如为N-gram模型或LSTM(长短期记忆)。

在第1方式至第4方式中的任一个例子(第5方式),在所述构造候补的选择,通过束搜索对所述多个构造候补的任意者进行选择。根据以上方式,通过束搜索对多个构造候补的任意者进行选择。因此,与将从K个解析点对N个解析点进行选择的所有的组合作为构造候补而执行评价指标的计算和构造候补的选择的结构相比,能够降低处理负荷。

本发明的一个方式(第6方式)涉及的乐曲解析装置具有:指标计算部,其针对由从乐曲的音响信号的K个解析点以不同的组合选择出的N个解析点构成的多个构造候补的每一者,对评价指标进行计算,其中,K为2以上的自然数,N为小于K且2以上的自然数;以及候补选择部,其根据所述各构造候补的所述评价指标,将所述多个构造候补的任意者作为所述乐曲的构造区间的边界进行选择,所述指标计算部包含:第1解析部,其针对所述多个构造候补的每一者,根据所述音响信号的第1特征量,对表示该构造候补的所述N个解析点与所述乐曲的构造区间的边界相符的准确度的第1指标进行计算;第2解析部,其针对所述多个构造候补的每一者,根据将该构造候补的所述N个解析点作为边界的多个候补区间的每一者的持续长度,对表示该构造候补与所述乐曲的构造区间的边界相符的准确度的第2指标进行计算;以及指标合成部,其针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标和所述第2指标,对所述评价指标进行计算。

本发明的一个方式(第7方式)涉及的程序使计算机作为如下功能部起作用:指标计算部,其针对由从乐曲的音响信号的K个解析点以不同的组合选择出的N个解析点构成的多个构造候补的每一者,对评价指标进行计算,其中,K为2以上的自然数,N为小于K且2以上的自然数;以及候补选择部,其根据所述各构造候补的所述评价指标,将所述多个构造候补的任意者作为所述乐曲的构造区间的边界进行选择,在该程序,所述指标计算部包含:第1解析部,其针对所述多个构造候补的每一者,根据所述音响信号的第1特征量,对表示该构造候补的所述N个解析点与所述乐曲的构造区间的边界相符的准确度的第1指标进行计算;第2解析部,其针对所述多个构造候补的每一者,根据将该构造候补的所述N个解析点作为边界的多个候补区间的每一者的持续长度,对表示该构造候补与所述乐曲的构造区间的边界相符的准确度的第2指标进行计算;以及指标合成部,其针对所述多个构造候补的每一者,根据针对该构造候补而计算出的所述第1指标和所述第2指标,对所述评价指标进行计算。

标号的说明

100…乐曲解析装置,11…控制装置,12…存储装置,13…显示装置,21…解析点确定部,22…特征提取部,23…指标计算部,24…候补选择部,31…第1解析部,311…解析处理部,312…推定处理部,313…概率计算部,32…第2解析部,33…第3解析部,34…指标合成部,Z1…第1推定模型,Z2…第2推定模型。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:动态地适配助理响应

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!