信息处理装置、方法以及程序

文档序号:1836230 发布日期:2021-11-12 浏览:9次 >En<

阅读说明:本技术 信息处理装置、方法以及程序 (Information processing apparatus, method, and program ) 是由 大迫庆一 光藤祐基 于 2020-04-14 设计创作,主要内容包括:本技术涉及使得能够更容易和更高速进行搜索的信息处理装置、方法以及程序。信息处理装置配备有控制单元,该控制单元指定该指定声源以及包括多个声源的声音的音频信号的指定区段,并且获得作为相似于指定声源信号的声源信号并且已经基于音频信号在指定区段中的指定声源的信号被搜索的搜索结果。本技术可以应用于信息处理装置。(The present technology relates to an information processing apparatus, method, and program that enable easier and faster searching. The information processing apparatus is provided with a control unit that specifies the specified sound source and a specified section of an audio signal including sounds of a plurality of sound sources, and obtains a search result that is a sound source signal similar to the specified sound source signal and that has been searched for based on a signal of the specified sound source in the specified section of the audio signal. The present technology can be applied to an information processing apparatus.)

信息处理装置、方法以及程序

技术领域

本技术涉及信息处理装置、方法以及程序,并且更具体地,涉及能够更容易和更高速进行搜索的信息处理装置、方法以及程序。

背景技术

在一段音乐的制作现场,通常使用预先单独录制并选录的多个声源,即音频信号,并且通过将它们组合在一起来创作一段音乐。

过去,通常有少量的声源,并且创作者简单地选择诸如具有不同音色的合成器和敲击乐器的声源。然而,近年来,可以使用的声源如弦乐器和音效的数量急剧增加。

例如,在声源数据库中,诸如乐器名称、诸如放大器的装置名称、效果器类型或调整参数的关键字被标记到每个声源。创作者指定关键字,并且能够在声源数据库中搜索到期望的声源。

另一方面,作为声源的搜索方法,还有通过对照(匹配法)在声源数据库中搜索与手头的声源相似的声源的方法。

通过使用这样的方法,创作者能够通过使用音乐或录声源找到与自己拥有的音乐或录声源相似的声源。

例如,作为与音频信号的对照相关的技术,已经提出了一种将音乐的音调转换为特征量,并且基于该特征量进行与数据库的对照以识别该音乐的技术(例如,参见专利文献1)。

此外,还提出了一种对用户通过麦克风输入的哼唱进行音高检测,并基于检测结果来搜索相似音乐的数据库的技术(例如,参见专利文献2)。在该技术中,通过搜索获得的音乐在用户的哼唱之后被再现。

引文列表

专利文献

专利文献1:日本专利第5732994号

专利文献2:日本专利申请公开第2013-117688号

发明内容

本发明要解决的问题是:

然而,在上述技术中,难以容易且高速地搜索期望声源的信号。

在声源数据库中通常存储数千个至数十万个声源的音频信号。因此,对于创作者等人基于关键字从所存储的声源找出相似声源的工作将花费较长时间。

在这种情况下,在进行搜索的创作者等人知道期望的声源与每个关键字之间的连接的情况下,可以在一定程度上缩小候选声源。

具体地,例如,在创作者等人期望通过搜索找到预定的吉他声音,并且创作者等人具有关于吉他的音色与每个关键字之间的关系的知识的情况下,创作者等人能够缩小成为候选的声源。

然而,创作者等人没有足够的知识来为创作者等人期望使用的所有声源指定适当的关键字。因此,考虑到创作者等人,常常难以找出与图像匹配的声源。

此外,吉他等声音中存在多种音色,即使可以在一定程度上缩小候选,也限制了提高搜索效率的效果。

此外,在通过使用创作者等人手中的音乐等与声源数据库对照来搜索期望的声源的情况下,手中的音乐等通常不仅包括期望的声源的声音,还包括各种声源的声音。

使用这样的多个声源的混合声音大大降低了与声源数据库对照的准确性,并且难以根据创作者等人找到与图像匹配的声源。

具体地,例如,在专利文献1中描述的技术中,提取音乐的音调分量作为特征量,但是该音乐的大部分音调分量是声乐旋律和音乐旋律的主要旋律。

因此,例如即使在使用专利文献1所记载的技术来与声源数据库对照的情况下,也难以通过使用手头的音乐等来找到除了声乐主旋律和音乐旋律之外的吉他等的声源。

而且,在这种情况下,难以对照吉他的音色等。因此,创作者等人必须针对通过搜索获得的每个声源再现声源,并确认声源是否与作为创作者等人脑中的图像的音色相匹配。

此外,例如,专利文献2中描述的技术可以用于搜索相似于已经输入的哼唱的旋律的声源。

然而,在专利文献2中描述的技术中,不能搜索和声或唯一音色的声源,并且另外,根据声源,例如敲击、声音效果和环境声音,可能难以进行哼唱输入。

本技术是鉴于上述情况而提出的,其目的在于能够更容易且更高速进行搜索。

问题的解决方案

根据本技术的一个方面的信息处理装置包括控制单元,控制单元被配置为指定包括多个声源的声音的音频信号的指定区段和指定声源,并且被配置为获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

根据本技术的一个方面的信息处理方法或程序包括指定包括如下步骤:指定包括多个声源的声音的音频信号的指定区段和指定声源,并且获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

根据本技术的一个方面,指定包括多个声源的声音的音频信号的指定区段和指定声源,并且获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

附图说明

[图1]是表示信息处理装置的配置示例的图示。

[图2]是用于描述声源搜索处理的流程图。

[图3]是示出显示屏示例的图示。

[图4]是示出显示屏示例的图示。

[图5]是示出显示屏示例的图示。

[图6]是示出显示屏示例的图示。

[图7]是示出显示屏示例的图示。

[图8]是示出显示屏示例的图示。

[图9]是示出显示屏示例的图示。

[图10]是表示信息处理装置的构造示例的图示。

[图11]是表示声源搜索处理的流程图。

[图12]是示出显示屏示例的图示。

[图13是表示信息处理装置的构造示例的图示。

[图14]是表示声源搜索处理的流程图。

[图15]是表示声源搜索系统的配置示例的图示。

[图16]是表示声源搜索系统的配置示例的图示。

[图17]是表示声源搜索系统的配置示例的图示。

[图18]是表示计算机的配置示例的图示。

具体实施方式

在下文中,将参考附图描述应用本技术的实施例。

<第一实施例>

<关于本技术>

在本技术中,使用包括乐器等的声源的声音的音乐来进行声源分离,乐器等的声源是创作者等人脑中的图像,从而可以容易且高速地在声源数据库中搜索与声源相似的声源的信号。

即,在本技术中,包括声源或录制的声音的音乐的音频信号(以下,也称为输入音频信号)用于与构成声源数据库的多个声源的声源信号对照,声源或录制的声音是用户希望搜索的创作者等人脑中的图像。

在这种情况下,从用户指定的输入音频信号中,通过声源分离提取用户期望作为搜索目标的期望声源的音频信号,并将其用于对照。

声源数据库包括:声源信号,为多个声源的音频信号,多个声源例如为吉他音、音效和环境音;以及元数据,元数据是关于每个声源的信息并且与每个声源信号相关联。

例如,构成声源数据库的声源信号是用于再现一个声源的声音(例如吉他声音)的大约几秒的短轨迹数据。

此外,元数据是指示如下的信息:诸如乐器的名称的声源的类型,诸如用于放大声源的声音的放大器的装置的名称,用于生成声源的效果器的类型,和弦名称(和声名称),诸如音色等调整参数,诸如此类。元数据还可以用于声源的关键字搜索。

作为用户的创作者日常接触各种音乐,并且易于准备包括创作者期望使用的声源的音乐。

因此,在创作者能够使用包括期望声源的音乐等的情况下,能够容易且高速地搜索与期望声源相似的声源的声源信号,从而能够大幅提高工作效率。

此外,作为搜索目标的声源不限于乐器,也可以是存在于通过录制日常生活或环境声音而获得的音频信号中的任何声音(声源)。即,创作者能够在声源数据库中搜索与创作者期望使用的任何声音相似的声音。

在存在创作者期望使用的声音的情况下,通常创作者必须在期望的声源附近安装麦克风以单独地采样和录制声音,以便仅录制期望的声音,即,防止不必要的声音进入。

然而,如在本技术中要进行的声源分离消除了对用于防止其他声音进入的录音工作的需要。因此,可以提供更有效的音乐的制作环境。

注意,以下,作为具体示例,对作为搜索对象的声音是吉他声音的情况进行说明。然而,作为搜索目标的声音可以是任何声源的声音。

例如,除了吉他声音之外,包括作为搜索目标的吉他声音的音乐还包括贝斯、鼓、合成器、声乐等的声音。在本技术中,通过声源分离提取期望的吉他声音,并将所提取的吉他声音与声源数据库进行对照。

<信息处理装置的配置示例>

因此,在下文中,将描述应用本技术的更具体的实施例。

图1是示出根据实施例的应用本技术的信息处理装置的配置示例的图示。

图1所示的信息处理装置11包括输入单元21、控制单元22、声源数据库保持单元23、显示单元24和再现单元25。

输入单元21包括例如鼠标、键盘、开关、按钮、触摸板等,并且根据诸如创作者的用户的操作向控制单元22提供信号。

控制单元22控制信息处理装置11的整体。

例如,控制单元22控制各种图像(屏幕)在显示单元24上的显示,并且控制声音在再现单元25上的再现。

另外,控制单元22响应于来自输入单元21的信号,针对要从区段中提取的输入音频信号或声源指定要裁剪的片段,并且使控制单元22的每个单元进行操作以进行与声源数据库的对照,并且获得对照结果。

控制单元22包括区段裁剪单元31、声源分离单元32和声源对照单元33。

区段裁剪单元31至声源对照单元33例如通过控制单元22执行构成音乐制作软件(DTM软件)的程序来实现。

区段裁剪单元31从作为提供给控制单元22的音乐等的音频信号的输入音频信号中,裁剪已经由控制单元22指定为搜索目标的区段(以下,也称为指定区段),设定为目标区段信号,并且向声源分离单元32提供目标区段信号。

这里,输入音频信号包括至少包括期望搜索的声源的一个或多个声源的声音。

声源分离单元32对从区段裁剪单元31提供的目标区段信号进行声源分离,以便分离由控制单元22指定的期望声源的信号(以下也称为指定声源),并将该信号提供给声源对照单元33。

注意,在下文中,已经通过声源分离而分离的信号也称为分离信号。在声源分离单元32中,通过声源分离获得输入音频信号的指定区段中的指定声源的分离信号。

声源对照单元33将从声源分离单元32供给的分离信号与声源数据库保持单元23所保持的声源数据库中的各声源的声源信号进行对照。

声源数据库保持单元23包括存储装置,例如存储器等,并且保持声源数据库,在该声源数据库中,作为多个声源中的每一个的音频信号的声源信号与元数据彼此关联。声源数据库保持单元23根据需要将声源信号和声源数据库中的元数据提供给声源对照单元33。

显示单元24例如包括液晶显示面板等,根据控制单元22的控制来显示DTM软件的显示屏幕等各种图像。

再现单元25包括例如扬声器等,并且基于诸如从控制单元22提供的声源信号的音频信号来输出声音。

注意,输入单元21、声源数据库保持单元23、显示单元24和再现单元25可以设置在信息处理装置11中,或者可以设置在信息处理装置11外部。

<声源搜索处理的描述>

接下来,将描述信息处理装置11的操作。

即,以下,参见图2的流程图,对由信息处理装置11进行的声源搜索处理进行说明。

在步骤S11中,控制单元22读取输入音频信号并根据从输入单元21提供的信号显示波形。

即,例如,当DTM软件被激活时,控制单元22使显示单元24显示图3所示的显示屏幕。

在图3的示例中,显示屏幕包括菜单显示区域R11、波形显示区域R12和再现系统按钮显示区域R13。

例如,在菜单显示区域R11中显示用于进行声源搜索等各种处理的按钮,在波形显示区域R12中显示所读取的输入音频信号的波形。另外,在再现系统按钮显示区域R13中,显示用于再现声源等的按钮。

用户通过显示在显示单元24上的这种显示屏幕来操作输入单元21,以指定例如:在波形显示区域R12中,包括用户想要搜索的声源的音乐文件等,或包括用户想要搜索的声源的音乐文件等,以便指示读取。

然后,根据从输入单元21提供的信号,控制单元22读取由用户指定的音乐等的文件,即,音乐等的音频信号,作为输入音频信号,并将输入音频信号提供给区段裁剪单元31。

此外,控制单元22指示显示单元24基于已经读取的输入音频信号来显示输入音频信号的波形(时间波形)。

然后,显示单元24根据来自控制单元22的指令显示输入音频信号的波形。通过这样的配置,显示单元24上显示的显示屏幕例如如图4所示被更新。注意,在图4中,与图3的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图4所示的示例中,在波形显示区域R12中显示已经被读取为输入音频信号的L通道和R通道的各个信号的时间波形。特别地,在波形显示区域R12中,水平方向表示图中的时间方向。

用户操作输入单元21,并且操作在再现系统按钮显示区域R13中提供的再现按钮BT11,以能够基于输入音频信号再现声音。因此,用户能够实际上听声音并确认用户期望的声音作为搜索目标。

在这种情况下,当操作再现按钮BT11时,控制单元22响应于从输入单元21提供的信号将输入音频信号提供给再现单元25,并且再现输入音频信号的声音。

返回图2的流程图的说明,在步骤S12中,区段裁剪单元31相对于已经提供的输入音频信号裁剪指定区段。

例如,当读取输入音频信号时,用户在收听输入音频信号的声音的同时操作输入单元21,并且将包括来自输入音频信号的所有区段的期望声源的声音的区段指定为指定区段作为搜索目标。

具体地,例如,用户将鼠标作为输入单元21进行操作,并拖动正在波形显示区域R12中显示的输入音频信号的波形的期望区段以指定该指定区段。

控制单元22基于指示从输入单元21提供的指定区段的信号来控制显示单元24,并且例如如图5所示更新显示屏幕。注意,在图5中,与图4的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图5的示例中,将作为波形显示区域R12的一部分的区段CR11设定为指定区段。以与其他部分不同的颜色显示这样的部分,即区段CR11,使得用户能够瞬时领会区段CR11处于选定状态,即被指定为指定区段。

注意,指定区段的指定不限于使用鼠标作为输入单元21的操作,并且可以通过使用键盘作为输入单元21的输入操作,使用触摸板作为输入单元21的指定操作等来进行。

此外,当响应于用户的操作从输入单元21向控制单元22提供指示指定区段的信号时,控制单元22基于已经从输入单元21提供的信号为区段裁剪单元31指定该指定区段。

响应于控制单元22对指定区段的指定,区段裁剪单元31裁剪输入音频信号中指定区段的信号以设置为目标区段信号。区段裁剪单元31将这样得到的目标区段信号提供给声源分离单元32。

在步骤S13中,控制单元22控制显示单元24在显示屏幕上显示声源列表。

例如,如图6所示,在显示单元24上正在显示显示屏幕的状态下,当用户操作输入单元21并操作菜单显示区域R11中提供的搜索按钮BT21时,作为搜索目标的候选乐器(声源)的列表的对话DG11被显示。注意,在图6中,与图5的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图6的示例中,在对话DG11中,将其中布置了指示多个预设乐器的项目的乐器列表显示为声源列表。由声源列表指示的这些乐器包括作为指定声源的候选声源,更具体地,声源的类型。

例如,用户操作输入单元21,并且指定其中显示指示吉他的字符“吉他”的项,以便能够将吉他指定为指定声源。

注意,尽管这里描述了事先确定对话DG11中列出的乐器(声源)的情况,但是可以在对话DG11中列出由针对输入音频信号的分析处理指定的乐器。

在这种情况下,当操作搜索按钮BT21时,控制单元22对已经由区段裁剪单元31获得的目标区段信号执行分析处理,并且识别(指定)乐器的类型,该乐器的声音被包括在指定区段中。

然后,控制单元22控制显示单元24在对话DG11中显示作为识别结果而获得的一个或多个乐器的列表作为声源列表。

对目标区段信号的分析处理,即,乐器识别处理可以是任何方法。

作为用于识别其声音包括在音频信号中的乐器的方法,可以采用例如在“TetsuroKitahara,Masataka Goto,Kazunori Komatani,Tetsuya Ogata和Hiroshi G.Okuno”,“复调音乐中的乐器识别:减少声音重叠影响的特征加权(Instrument Identification inPolyphonic Music:Feature Weighting to Minimize Influence of Sound Overlaps)”,欧洲信号处理进展杂志,基于信号处理的音乐信息检索特刊,Vol.2007,No.51979,pp.1.-15,2007”等中描述的方法。

除此之外,可以在声源列表的显示中使用输入音频信号等的元数据。

例如,假设指示作为一段音乐的类型的“摇滚”的信息被包括作为输入音频信号的元数据。

在这种情况下,控制单元22可以使得指示“声乐”,“吉他”,“贝斯”,“鼓”和“合成器”的信息在对话DG11中被列为声源列表,这些信息是已经为类型“摇滚”预先设置的声源(乐器)的类型。

返回到图2中的流程图的描述,当用户操作输入单元21以执行从声源列表中指定期望的声源(乐器)作为搜索目标以便成为指定的声源的操作时,将根据用户的操作的信号从输入单元21提供给控制单元22。

然后,响应于从输入单元21提供的信号,控制单元22为声源分离单元32指定该指定声源。

在步骤S14中,声源分离单元32根据由控制单元22指定的指定声源对从区段裁剪单元31提供的目标区段信号进行声源分离,将指定声源的分离信号与目标区段信号分离。

在声源分离中,例如,将诸如包括指定声源的一些乐器的声源的信号分离的神经网络用作声源分离器,并且分离包括指定声源的每一个或多个声源的分离信号。通过这样的配置,获得指定声源的分离信号,即,仅包括指定声源的声音的分离信号。

在例如“Naoya Takahashi和Yuki Mitsufuji,“用于声源分离的多音阶多频带密集集(Multi-scale Multi-band DenseNets for Audio Source Separation),”IEEE声学信号处理及应用国际会议(WASPAA),2017”等中详细描述了声源分离。

另外,在此,说明将声源分离用作从目标区段信号中提取指定声源的分离信号的技术的示例。然而,不限于此,可以使用诸如乐器提取、语音提取和事件声音提取的已知技术。

声源分离单元32将作为声源分离的结果而获得的指定声源的分离信号提供给声源对照单元33。

这里,将描述向声源对照单元33提供指定声源的分离信号本身的示例。然而,可以将从指定声源的分离信号获得的特征量提供给声源对照单元33,并且可以基于该特征量进行与声源数据库的对照。

在这种情况下,声源分离单元32中的声源分离的输出可以是指定声源的特征量,或者可以根据声源分离单元32或声源对照单元33中的分离信号来计算特征量。

在步骤S15中,声源对照单元33进行将从声源分离单元32提供的指定声源的分离信号与声源数据库保持单元23所保持的声源数据库进行对照的声源对照处理。

具体而言,针对构成声源数据库的各声源的声源信号,声源对照单元33计算声源信号与指定声源的分离信号的波形电平的平方误差最小距离。

然后,声源对照单元33从声源数据库中的多个声源以平方误差最小距离的升序顺序依次选择预定数目的声源,更具体地,声源的声源信号,并且获得指示已经选择的声源的信息作为对照结果。

可以说,对声源数据库中的每个声源与指定声源的每个组合计算的平方误差最小距离指示声源数据库中的指定声源的声音与声源的声音之间的相似度。

因此,可以说,选择具有小平方误差最小距离的声源作为声源对照处理的处理是基于指定声源的分离信号来搜索相似于指定声源的分离信号的声源信号的处理。

即,可以说,声源对照处理是对照指定声源的分离信号与构成声源数据库的多个声源信号中的每一个以从构成声源数据库的多个声源信号中搜索与指定声源的分离信号相似的声源信号的处理。

另外,在此,对预先设定作为对照结果而得到的声源的个数,即与指定声源同样的声源的个数的示例进行说明。然而,可以选择每个都具有等于或小于预定阈值的平方误差最小距离的所有声源,并且可以将指示已经被选择的声源的信息设置为对照结果。

此外,例如,可以基于从指定声源的分离信号获得的特征量来执行声源对照处理。

例如,从分离信号获得的特征量可以是任何类型,诸如分离信号的时频信号,或者分帧分离信号的幅度谱、音调、音调或频谱包络。另外,特征量可以是标量值或向量值(也可以是特征量向量)。

具体而言,例如,假定将分离信号的时频信号作为指定声源的分离信号的特征量提供给声源对照单元33。

在这种情况下,声源对照单元33基于声源数据库中声源的声源信号的特征量来估计每个声源和指定声源的窄带中的时间变化和谐波结构,以便将每个声源与指定声源对照,并基于已获得的评价值获得对照结果。

此外,声源数据库中的各声源的声源信号的特征量可以由声源对照单元33计算,也可以预先计算,并与声源数据库中的各声源的声源信号相关联地存储。

此外,这里已经给出了关于使用分离信号本身进行对照的示例以及基于特征量进行对照的示例的描述。然而,不限于此,声源数据库中的每个声源与指定声源之间的对照可以通过任何其他方法进行。

在一般的对照处理中,通常使用声源的信号本身。因此,在声源对照处理中使用指定声源的分离信号本身的情况下,存在这样的优点,即可以原样使用现有的声源数据库或声源对照处理块而不需要改变。

即,能够使构成声源分离单元32的模块和构成声源对照单元33的模块相互独立。这种配置能够改进系统的移动性和便携性。

另一方面,在作为声源分离的结果从声源分离单元32输出指定声源的特征量并且基于该特征量执行声源对照处理的情况下,存在可以高速执行声源对照处理的优点。

即,在该情况下,需要预先取得各声源信号的特征量,并将该特征量与声源信号相关联地存储在声源数据库中。然而,在声源对照处理开始时获得必要的特征量,因此可以在较小的处理时间内获得对照结果。通过这样的配置,能够减少用户的等待时间。

此外,在声源分离的输出是特征量的情况下,不必进行用于计算声源分离单元32或声源对照单元33中的特征量的时频转换,其逆转换等。因此,减少了冗余过程,并且能够以更高的速度获得对照结果。

在任何方法中,声源对照单元33基于由声源分离单元32获得的声源分离结果与声源数据库中的声源(声源信号)对照。因此,仅使用用户期望搜索的声源的成分来执行声源对照处理。

因此,在声源对照处理中,获得与指定声源的声音接近的音色、和声、音调等的声音作为对照结果(搜索结果)。即,作为对照结果,可获得用户期望的声源的声源信号,诸如具有与指定声源的声源信号相似的音色等的声源信号。

此外,控制单元22控制显示单元24以显示例如图7中所示的对话DG21,同时,声源对照单元33执行声源对照处理,即,同时搜索与指定声源相似的声源。注意,在图7中,与图6的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图7的示例中,在显示屏幕的中心显示对话框DG21,其中显示字符消息“搜索”以通知用户正在搜索声源,即正在处理搜索。因此,用户能够通过查看对话DG21来即时地掌握搜索处理的进程。

返回图2的流程图的说明,在声源对照单元33中取得对照结果(搜索结果)的情况下,控制单元22从声源对照单元33取得对照结果。

在步骤S16中,控制单元22控制显示单元24在显示屏幕上显示通过步骤S15中的声源对照处理获得的对照结果,并且声源搜索处理结束。即,控制单元22控制对照结果在显示单元24上的显示。

例如,当控制单元22从声源对照单元33获得在步骤S15中的声源对照处理中获得的对照结果时,控制单元22使显示单元24基于对照结果来显示图8所示的相似声源列表LT11。换言之,显示相似的声源列表LT11作为对照结果。

注意,在图8中,与图7的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图8的示例中,在图5所示的显示屏幕上叠加显示相同的声源列表LT11。在相似声源列表LT11中,分别表示声源数据库中的声源的声源信号的文件名以与指定声源相似的程度降序排列和显示,即,例如,在图中以如上所述的平方误差最小距离从上沿向下方向进行升序。

此外,用于分别再现文件名的声源信号的再现按钮显示在图中的各个文件名的左侧。

因此,用户能够操作再现按钮以实际听并确认每个声源的声音,并且能够容易地选择要使用的声源。

具体地,例如,当用户操作输入单元21并操作再现按钮BT31时,将根据用户操作的信号从输入单元21提供给控制单元22。

然后,控制单元22响应于来自输入单元21的信号,从声源数据库保持单元23读取文件名为“Guitar_00135_F.wav”的声源信号,向再现单元25提供声源信号,并使再现单元25基于声源信号再现声音。

另外,当用户操作输入单元21以指定相似声源列表LT11中的期望声源信号的文件名并给出在DTM软件上开发具有这种文件名的文件(声源信号)的指令时,控制单元22根据该指令读取从声源数据库保存单元23中指定的声源信号。这样,当在DTM软件上读取和开发期望声源的声源信号时,声源搜索处理结束。

另外,在图8中,对将声源信号的文件名以相似度降序排列的相似声源列表LT11作为对照结果显示的示例进行了说明。然而,不限于此,例如,可以仅显示具有最高相似度的声源信号的文件名作为对照结果。

除此之外,例如也可以在显示单元24上显示与图9所示的声源列表LT21同样的声源列表LT21,作为对照结果(也可以是搜索结果)。

在本例中,相似的声源列表LT21包括列表显示区域R31和链接显示区域R32,在列表显示区域R31中显示作为对照结果而获得的声源信号的文件名,在链接显示区域R32中显示与其他相关声源信号的链接按钮。

用户操作输入单元21以操作链接显示区域R32中的链接按钮,使得用户能够容易地访问作为对照结果而获得的声源信号相同的声源(乐器声音)的声音,该声源信号是与在相似声源列表LT21中显示的声源信号不同的和弦、音调、音阶等的声源信号。换言之,可以容易地访问音色相同但和弦、音调、音阶等不同的文件。

因此,用户能够容易地访问相关声源的文件(声源信号)并且容易地找到用户期望使用的声源的文件。

具体而言,在图9的示例中,在列表显示区域R31中显示以各种吉他演奏和弦“F”时的声音的文件名称(声源信号),作为与指定声源相似的声源的搜索结果(对照结果)。

在这种情况下,例如,假设用户操作链接按钮BT41,其中在链接显示区域R32中标记了字符“F7”。

然后,当和弦“F7”以与在列表显示区域R31中显示的各个文件名的文件的和弦相同的吉他播放时,控制单元22控制显示单元24在显示单元24上进一步显示声音的文件的列表,以及这些文件的再现按钮。

除此之外,例如,在用户以列表显示区域R31中指定的文件名“Guitar_00135_F.wav”操作链接按钮BT41时,当和弦“F7”以与文件名“Guitar_00135_F.wav”的文件相同的吉他播放时,控制单元22可以在显示单元24上显示声音的文件的文件名。

如上所述,信息处理装置11对输入的音频信号进行声源分离,并使用声源分离结果与声源数据库进行对照。

通过这样的方式使用声源分离结果与声源数据库的对照,能够更容易且更高速进行搜索。

即,用户仅指定用户期望搜索的乐器等,使得用户能够容易且高速地找到所期望的声源,更具体地,所期望的声源的声源信号,而无需逐个再现声源数据库中的每个声源信号。

特别地,在不知道用户期望搜索的声源与关键字等之间的连接等情况下,用户能够仅通过指定乐器等来容易地进行搜索。

另外,在信息处理装置11中,通过声源分离将输入音频信号分离为各个声源的信号。因此,以声源为单位即以乐器为单位的搜索是可实现的,这在传统上是困难的。利用这样的配置,可以容易地获得更适当的搜索结果(对照结果)。

因此,例如,对于环境声音中包括的个别声音,可以从声源数据库搜索相似的声音,而不需要单独地采样或记录声音。

另外,在声源分离中将声音分离成各个声源的信号。因此,在声源对照处理时,能够容易地估计指定声源的音高、音阶等。通过这样的配置,能够提高与声源数据库的对照精度。

特别地,即使在期望作为指定声源的乐器的旋律不同于输入音频信号的声乐主旋律等的情况下,信息处理装置11也能够获得仅包括期望作为指定声源的乐器的旋律的分离信号,并且因此能够以高精度进行对照。

<第二实施例>

<信息处理装置的配置示例>

这样,在显示成为指定声源的候补声源的声源列表的情况下,不显示预先设定的声源列表,而是对目标区段信号进行声源分离,能够显示实际包括目标区段信号的声音的声源的声源列表。

特别地,在第一实施例中,已经给出了关于其中对目标区段信号执行乐器的识别处理以识别其声音被包括在目标区段信号中的乐器的类型的示例的描述。然而,该识别处理可以用声源分离来代替。

例如,在声源分离中指定实际上在目标区段信号中包括声音的声源的情况下,如图10所示那样配置信息处理装置。注意,在图10中,与图1的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

图10所示的信息处理装置51包括输入单元21、控制单元22、声源数据库保持单元23、显示单元24和再现单元25。

另外,控制单元22具有区段裁剪单元31、声源分离单元32、声源选择单元61以及声源对照单元33。

信息处理装置51的配置与信息处理装置11的配置的不同之处在于,新设置了声源选择单元61,但是在其它方面与信息处理装置11的配置相同。

在信息处理装置51中,声源分离单元32对从区段裁剪单元31提供的目标区段信号进行声源分离,以便从目标区段信号中提取包括在目标区段信号中的每个声源的信号作为分离信号,并且将所有声源的分离信号提供给声源选择单元61。

声源选择单元61从由声源分离单元32提供的所有声源的分离信号中选择由控制单元22指定的指定声源的分离信号,并将分离信号提供给声源对照单元33。

因此,在信息处理装置51中,在声源分离之后,选择指定的声源,即,要搜索的声源的类型(指定)。

<声源搜索处理的描述>

接着,参见图11的流程图,对由信息处理装置51进行的声源搜索处理进行说明。

另外,步骤S41和S42的处理与图2的步骤S11和S12的处理相同,因此省略说明。

在步骤S43中,声源分离单元32对从区段裁剪单元31提供的目标区段信号进行声源分离,分离目标区段信号中包括的所有声源的信号作为分离信号,并将各个声源的分离信号提供给声源选择单元61。

在步骤S44中,控制单元22基于步骤S43中的声源分离的结果来控制显示单元24,并且使得在显示屏幕上显示声源列表,该声源列表是通过声源分离获得的各个分离信号的声源的列表。

利用这种配置,例如,在显示单元24上显示图12所示的对话DG41。注意,在图12中,与图6的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图12的示例中,对话DG41被显示为声源列表,并且该声源列表是已经通过声源分离而分离的各个分离信号的声源(乐器)的列表。

特别地,这里,将声乐“Vocal”,吉他“Guitar”,贝斯“Bass”和鼓“Drums”布置并显示为分别指示声源的乐器的名称,并且用户能够理解这些声源的声音被包括在指定区段中。注意,对于具有未知乐器名称的声源(声源的类型),显示可以理解这种情况的预定乐器名称。

此外,在对话DG41中,再现按钮被显示在附图中的乐器的各个名称的左侧,并且用户操作这些再现按钮以能够基于每个乐器(声源)的分离信号来再现声音。

具体地,例如,当用户操作设置在图中的吉他“Guitar”左侧的再现按钮时,根据用户操作的信号从输入单元21提供给控制单元22。

然后,响应于已经从输入单元21提供的信号,控制单元22向再现单元25提供吉他“Guitar”的分离信号,该吉他“Guitar”是从已经由声源分离单元32获得的各个声源的分离信号中由用户指定的声源,并且使再现单元25基于分离信号再现声音。通过这样的配置,再现单元25仅再现指定区段中的吉他的声音。

在信息处理装置51中,在对话DG41中显示不是已经预设的声源的类型,而是作为对目标区段信号实际进行声源分离的结果而获得的每个声源(乐器)的类型,并且实际上允许收听每个声源的声音。

因此,用户能够可靠地指定用户期望的声源,即,用户期望搜索的乐器。

返回到图11的流程图,在步骤S45中,声源选择单元61从由声源分离单元32提供的各个声源的分离信号中选择由控制单元22指定为指定声源的声源的分离信号,并且将选择的分离信号声源提供给对照单元33。

例如,当用户操作输入单元21并从显示单元24上显示的声源列表中指定用户希望成为指定声源的声源时,将根据用户操作的信号从输入单元21提供给控制单元22。然后,控制单元22响应于从输入单元21提供的信号,为声源选择单元61指定所述指定声源。

响应于控制单元22对指定声源的指定,声源选择单元61从各声源的分离信号中选择由控制单元22指定为指定声源的声源的分离信号。

如此选择指定声源的分离信号,然后进行步骤S46和S47的处理,声源搜索处理结束。但是,这些处理与图2的步骤S15和S16的处理相同,因此省略说明。

另外,在步骤S46中,也可以与图2的步骤S15的情况相似地,基于从分离信号得到的特征量进行声源对照处理。

如上所述,信息处理装置51在进行声源分离之后,选择指定声源,并基于指定声源的分离信号执行声源对照处理。

通过以这种方式配置,可以更容易和以更高的速度进行搜索。

具体地,在该示例中,将从声源分离结果获得的声源列表呈现给用户,并且从声源列表中指定该指定声源。

因此,即使在信息处理装置51中通过声源分离而分离的声源的种类未知的情况下,用户也能够将这种未知种类的声源指定为指定声源。因此,用户期望的适当声源的声源信号可通过搜索(对照)获得。

<第三实施例>

<信息处理装置的配置示例>

此外,为了进一步减少用户的等待时间,可以在后台进行声源分离。

在这种情况下,信息处理装置例如被配置为如图13所示。注意,在图13中,与图1的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

图13所示的信息处理装置91包括输入单元21、控制单元22、分离信号保持单元101、声源数据库保持单元23、显示单元24和再现单元25。

另外,信息处理装置91的控制单元22包括历史确认单元111、声源分离单元32、区段裁剪单元31和声源对照单元33。

信息处理装置91的配置与信息处理装置11的配置的不同之处在于,新设置了历史确认单元111和分离信号保持单元101,但是在其它方面与信息处理装置11的配置相同。

分离信号保持单元101例如包括存储器等存储装置,并且保持(存储)通过对输入音频信号进行声源分离而获得的分离信号。

更具体地,在分离信号保持单元101中,相对于输入音频信号通过声源分离获得的分离信号和与分离信号相关的元数据被彼此关联地保持。注意,可以生成包括与元数据相似的内容的管理文件,并且可以在管理文件中管理分离信号。

这里,分离信号的元数据包括例如指示分离信号的分离源的输入音频信号的音乐的名称的信息,指示分离信号的声源的信息,更具体地,声源的类型(乐器)等。

此外,在信息处理装置91中,控制单元22获得输入音频信号以及输入音频信号的元数据。

当获得输入音频信号及其元数据时,历史确认单元111基于在分离信号保持单元101中保持的输入音频信号的元数据和分离信号的元数据来指定输入音频信号过去是否已经被读取。

然后,在过去还没有读取输入音频信号的情况下,历史确认单元111指示声源分离单元32对输入音频信号进行声源分离。

<声源搜索处理的描述>

接着,参见图14的流程图,对由信息处理装置91进行的声源搜索处理进行说明。

另外,步骤S71的处理与图2的步骤S11的处理相同,因此省略说明。在步骤S71中,不仅读取用户指定的音乐等输入音频信号,而且读取输入音频信号的元数据。

在步骤S72中,历史确认单元111基于已经读取的输入音频信号的元数据和在分离信号保持单元101中保持的分离信号的元数据来确定是否存在过去已经读取输入音频信号的历史。即,确定输入音频信号是否是过去读取的信号。

例如,在存在与在步骤S71中已经读取的输入音频信号的元数据所指示的音乐的名称相同的音乐的名称的情况下,在由相应的多个分离信号的元数据所指示的音乐的名称中,历史确认单元111确定存在已经读取的历史。

在步骤S72中判定为没有历史的情况下,历史确认单元111指示声源分离单元32对在步骤S71中读取的输入音频信号进行声源分离。然后,进入步骤S73。

在步骤S73中,声源分离单元32对已经由控制单元22读取的输入音频信号进行声源分离,针对每个声源将输入音频信号分离成分离信号,并且将已经获得的分离信号提供给分离信号保持单元101。

在步骤S73中,声源分离单元32对整个输入音频信号即整个音乐进行声源分离。

然后,声源分离单元32向分离信号保持单元101提供作为声源分离的结果而获得的分离信号,以及关于每个分离信号的信息,诸如指示声源的类型的信息,指示分离信号的可听区段即分离信号的非静音区段的信息。

在步骤S74中,分离信号保持单元101存储从声源分离单元32提供的分离信号。

具体地,分离信号保持单元101从历史确认单元111获得输入音频信号的元数据,并且基于已经获得的元数据和关于从声源分离单元32提供的分离信号的信息,生成从声源分离单元32提供的每个分离信号的元数据。

例如,分离信号的元数据包括关于分离信号的各种类型的信息,诸如指示音乐的名称的信息,指示声源的类型的信息,以及指示可听区段的信息。

分离信号保持单元101将如上所述获得的元数据和分离信号彼此相关联地存储。

将分离信号与输入音频信号分离并以这种方式存储,然后该处理进行到步骤S75。

另一方面,在步骤S72中确定存在历史的情况下,与输入音频信号相对应的分离信号已经被存储在分离信号保持单元101中。因此,不执行步骤S73和S74的处理,进入步骤S75。

即,对于已经读取一次的音乐,已经存储了包括在该音乐中的每个声源的分离信号,并且在第二次以及随后的音乐被读取时没有特别地执行声源分离等的处理。

注意,步骤S72至S74中的处理在后台执行,而不接收来自用户的指令或通知用户该处理的执行。

在已经执行步骤S74的处理或者在步骤S72中确定存在历史的情况下,控制单元22在步骤S75中接收指定区段的指定。

当指定区段的接收开始时,用户操作输入单元21并执行如已经参考图5描述的拖拽操作等,例如,用于指定输入音频信号的指定区段。通过这样的配置,将根据用户操作的信号从输入单元21提供给控制单元22。

在步骤S76中,基于从输入单元21提供的信号(即,由用户指定的指定区段)以及从输入音频信号中分离的每个分离信号的元数据(其被保持在分离信号保持单元101中),控制单元22使得显示单元24显示声源列表。

例如,控制单元22基于每个声源的分离信号的元数据,从已经从在步骤S71中读取的输入音频信号中分离的分离信号中指定可听的,即,在指定区段内不静音的分离信号。

然后,控制单元22使显示单元24将已经指定的分离信号的声源的类型的列表显示为声源列表。

通过这样的配置,例如,在显示单元24上显示与图12所示的对话DG41相似的对话作为声源列表。

当显示声源列表时,用户根据需要操作再现按钮以基于分离信号再现声音,并从声源列表中指定期望的声源作为指定声源。

然后,从输入单元21向控制单元22提供与用户的操作相应的信号,即表示指定声源的信号。

根据从输入单元21提供的信号,针对用户指定的指定声源的分离信号,控制单元22指示区段裁剪单元31裁剪指定区段。即,控制单元22对区段裁剪单元31指定该指定区段和指定声源。

在步骤S77中,区段裁剪单元31根据控制单元22的指示,从分离信号保持单元101读取从输入音频信号中分离出的指定声源的分离信号。

在步骤S78中,区段裁剪单元31针对在步骤S77中读取的分离信号裁剪在步骤S75中指定的指定区段,并且向声源对照单元33提供作为结果而获得的信号。

如此裁剪指定声源的分离信号的指定区段的信号,然后进行步骤S79和S80的处理,声源搜索处理结束。但是,这些处理与图2的步骤S15和S16的处理相同,因此省略说明。

如上所述,信息处理装置91预先在后台进行声源分离,并基于用户指定的指定声源和指定区段,从指定声源的分离信号中裁剪指定区段的信号,执行声源对照处理。

另外,通过这样配置,与第一实施例和第二实施例同样地,能够更容易且更高速进行搜索。

此外,在这种情况下,在用户指定该指定声源或指定区段之前,对在后台中第一次读取的输入音频信号进行声源分离,而不对第二次和后续次读取的输入音频信号进行声源分离。

因此,在从用户指定该指定区段或指定声源的时间开始的期间,即,从用户指示搜索相似声源的时间到呈现对照结果(显示)的时间,不进行声源分离,并且仅执行声源对照处理。因此,能够大幅缩短加工时间。即,可以大大减少从用户指示搜索时到呈现对照结果时的等待时间。

<第四实施例>

<声源搜索系统的配置示例>

以上,对于在信息处理装置11、信息处理装置51、信息处理装置91等单一装置中进行相似的声源的搜索的全部处理的示例进行了说明。即,对在单一装置中进行声源搜索处理的示例进行了说明。

然而,声源搜索处理可以由多个装置来执行,例如,通过在云上实现构成上述信息处理装置11等的一些块(模块)来执行。

下面,作为示例,说明在构成云的服务器中设置图1所示的信息处理装置11的一些块的示例。然而,同样以相似的方式,可以在服务器中提供信息处理装置51或信息处理装置91的一些块。

例如,在信息处理装置11侧执行输入音频信号的指定区段的裁剪,并且在服务器(云)侧执行声源分离和声源对照处理的情况下,如图15所示配置执行声源搜索处理的声源搜索系统。注意,在图15中,与图1的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

在图15所示的示例中,声源搜索系统包括信息处理装置11和服务器141。

在本例中,信息处理装置11包括输入单元21、控制单元22、显示单元24、再现单元25和通信单元151,并且控制单元22包括区段裁剪单元31。

此外,服务器141包括通信单元161、控制单元162和声源数据库保持单元23,并且控制单元162包括声源分离单元32和声源对照单元33。

在声源搜索系统中,信息处理装置11在边缘侧,服务器141在云侧。

当信息处理装置11读取输入音频信号并且用户指定该指定区段时,区段裁剪单元31裁剪单元输入音频信号的指定区域的信号,并且控制单元22向通信单元151提供作为结果获得的目标区域信号。

此外,当用户将乐器等指定为搜索目标即指定声源时,控制单元22向通信单元151提供指示指定声源的指定声源信息。

然后,通信单元151将指定的声源信息和目标区段信号发送到服务器141,在服务器141中,通信单元161接收指定声源信息和目标区段信号,然后将指定声源信息和目标区段信号提供给控制单元162。

此外,在服务器141中,声源分离单元32基于指定声源信息进行声源分离,并且将指定声源的分离信号与目标区段信号分离。

此外,声源对照单元33基于声源数据库保持单元23中保持的声源数据库和从声源分离单元32提供的分离信号执行声源对照处理。

控制单元162向通信单元161提供通过声源对照处理获得的对照结果以及作为对照结果获得的声源的声源信号,并且通信单元161向信息处理装置11发送从控制单元162提供的对照结果和声源信号。

另外,在此,对由单一服务器141进行声源分离和声源对照处理的示例进行说明,但也可以由多个服务器共享并进行。

在信息处理装置11中,当通信单元151接收对照结果和声源信号,并将对照结果和声源信号提供给控制单元22时,控制单元22控制显示单元24在显示单元24上显示对照结果。

在这种情况下,在服务器141和信息处理装置11之间交换的主要数据根据对照结果包括目标区段信号和声源的声源信号。

上述目标区段信号和上述声源信号均为最长约两秒至三秒的短磁道,数据量约为数十至数百千字节。因此,在发送这些数据时不存在延迟等的影响,并且不会增加用户的等待时间。

在如上所述的声源搜索系统中,从用户的观点来看,与只有图1所示的信息处理装置11执行声源搜索处理的情况似乎没有差别。

在像图15所示的声源搜索系统那样形成云的情况下,具有能够使用更高性能的计算资源进行声源分离和声源对照处理,并且能够使用更大的声源数据库的优点。

即,根据图15的声源搜索系统,无论信息处理装置11的处理能力等如何,都能够快速地进行更高级的计算,并且能够获得更大的声源数据库。能够提高用户的工作效率。

<第四实施例的变形例1>

<声源搜索系统的配置示例>

另外,例如,如图16所示,在声源搜索处理中,可以在云端进行声源对照处理。注意,在图16中,与图15的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

图16所示的声源搜索系统包括信息处理装置11和服务器141。

在本示例中,信息处理装置11包括输入单元21、控制单元22、显示单元24、再现单元25和通信单元151,并且控制单元22包括区段裁剪单元31和声源分离单元32。

另外,服务器141包括通信单元161、控制单元162以及声源数据库保持单元23,并且控制单元162包括声源对照单元33。

因此,在本示例中,在信息处理装置11侧执行从针对输入音频信号裁剪指定区段到针对通过裁剪获得的目标区段信号分离声源的处理,并且通信单元151向服务器141发送通过声源分离获得的指定声源的分离信号。

然后,在服务器141侧,当通信单元161接收指定声源的分离信号时,控制单元162的声源对照单元33基于指定声源的分离信号执行声源对照处理。通信单元161向信息处理装置11发送声源对照处理的对照结果以及获得的声源的声源信号作为对照结果。

<第四实施例的变形例2>

<声源搜索系统的配置示例>

此外,例如,如图17所示,可以在声源搜索处理中对云端进行声源分离。注意,在图17中,与图15的情况对应的部分使用相同的附图标记,并且将适当地省略描述。

图17所示的声源搜索系统包括信息处理装置11和服务器141。

在本例中,信息处理装置11包括输入单元21、控制单元22、声源数据库保持单元23、显示单元24、再现单元25和通信单元151,并且控制单元22包括区段裁剪单元31和声源对照单元33。

此外,服务器141包括通信单元161和控制单元162,并且控制单元162包括声源分离单元32。

因此,在该示例中,首先,信息处理装置11相对于输入音频信号裁剪指定区段,并且通信单元151向服务器141发送作为结果而获得的目标区段信号以及指定声源信息。

然后,在服务器141中,声源分离单元32基于由通信单元161接收的目标区段信号和指定声源信息进行声源分离,并且通信单元161将作为结果而获得的分离信号传送到信息处理装置11。

然后,在信息处理装置11中,声源对照单元33基于由通信单元151接收的分离信号以及声源数据库保存单元23中保存的声源数据库执行声源对照处理。

如上所述,在由信息处理装置11和服务器141共享并执行声源搜索处理的情况下,根据信息处理装置11的处理能力、声源数据库的规模等,能够实现声源搜索系统的灵活管理。

<计算机的配置示例>

这样,上述系列的处理可以通过硬件来执行,也可以通过软件来执行。在由软件执行一系列处理的情况下,构成软件的程序安装在计算机上。这里,计算机包括并入专用硬件中的计算机,例如能够通过安装各种程序来执行各种功能的通用个人计算机等。

图18是示出计算机的硬件的配置示例的框图,该计算机利用程序执行上面已经描述的一系列处理。

在计算机中,中央处理器(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504彼此连接。

输入输出接口505还与总线504连接。输入单元506、输出单元507、存储单元508、通信单元509、驱动器510与输入输出接口505连接。

输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。存储单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器等可移动存储介质511。

在如上所述配置的计算机中,CPU 501经由输入输出接口505和总线504将存储在存储单元508中的程序加载到RAM 503上,并执行该程序以执行上述一系列处理。

计算机(CPU 501)执行的程序可以存储在可移动存储介质511中,可移动存储介质511例如可以作为封装介质等提供。此外,还可以经由有线或无线传输介质(例如局域网、互联网和数字卫星广播)来提供程序。

在计算机中,可移动存储介质511附接到驱动器510上,使得程序可经由输入输出接口505安装在存储单元508中。此外,通信单元509可以经由有线或无线传输介质接收该程序,然后可以将其安装在存储单元508中。除此之外,程序可以预先安装在ROM 502或存储单元508中。

注意,由计算机执行的程序可以是要根据本说明书中描述的顺序以时间序列顺序处理的程序,或者可以是要并行处理的程序,或者是在诸如进行调用等必要时刻处理的程序。

另外,本技术的实施例不限于上述实施例,在不脱离本技术的要旨的情况下可以进行各种改变。

例如,本技术可以采取云计算的配置,其中单个功能经由网络由多个装置共享,并且被协同处理。

此外,已经在上述流程图中描述的每个步骤可以由单个装置执行,或者可以由多个装置共享和执行。

此外,在单个步骤包括多个处理的情况下,包括在该单个步骤中的多个处理可以由单个装置执行或者由多个装置共享和执行。

此外,本技术可以具有以下配置。

(1)一种信息处理装置,包括:

控制单元,被配置为指定包括多个声源的声音的音频信号的指定区段和指定声源,并且被配置为获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

(2)根据(1)所述的信息处理装置,

其中,指定声源的信号包括通过对音频信号的指定区段的裁剪以及声源分离而获得的分离信号。

(3)根据(2)所述的信息处理装置,

其中,指定声源的信号包括通过声源分离将已经被指定为指定声源的声源的信号与音频信号分离而获得的分离信号。

(4)根据(3)所述的信息处理装置,

其中,控制单元显示作为指定声源的候选的多个候选声源的列表,并且将多个候选声源中已经由用户指定的候选声源指定为指定声源。

(5)根据(2)所述的信息处理装置,

其中,指定声源的信号包括由用户从通过声源分离获得的多个分离信号中指定的分离信号。

(6)根据(5)所述的信息处理装置,

其中,控制单元使得显示通过声源分离获得的多个分离信号的声源的列表,并且将用户从列表中指示的声源中指定的声源指定为指定声源。

(7)根据(1)至(6)中任一项所述的信息处理装置,

其中,控制单元从构成声源数据库的多个声源信号中,获取通过搜索与指定声源的信号相似的声源信号而获得的搜索结果。

(8)根据(1)至(7)中任一项所述的信息处理装置,

其中,控制单元获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是通过对照指定声源的信号与声源信号来搜索出的。

(9)根据(1)至(8)中任一项所述的信息处理装置,

其中,控制单元控制搜索结果的显示。

(10)一种通过信息处理装置执行的信息处理方法,该信息处理方法包括:

指定包括多个声源的声音的音频信号的指定区段和指定声源,并且获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

(11)一种用于使计算机执行处理的程序,该处理包括以下步骤:

指定包括多个声源的声音的音频信号的指定区段和指定声源,并且获得与指定声源的信号相似的声源信号的搜索结果,声源信号的搜索结果是基于音频信号在指定区段中的指定声源的信号被搜索出的。

参考符号列表

11 信息处理装置

21 输入单元

22 控制单元

23 声源数据库保持单元

24 显示单元

25 再现单元

31 区段裁剪单元

32 声源分离单元

33 声源对照单元

61 声源选择单元

101 分离信号保持单元

111 历史确认单元。

39页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:信息处理系统、信息处理方法和程序

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!