信息处理装置、信息处理方法及程序

文档序号：817233 发布日期：2021-03-26 浏览：9次 >En<

阅读说明：本技术 信息处理装置、信息处理方法及程序 (Information processing apparatus, information processing method, and program ) 是由村田直毅光藤祐基于 2019-06-28 设计创作，主要内容包括：一种信息处理设备具有：扬声器阵列,由多个扬声器构成,扬声器阵列通过使用多个扬声器的输出执行波前合成；以及呈现单元,用于呈现通过波前合成形成的波前的波外形的视觉信息,或呈现基于通过波前合成形成在不同于扬声器阵列的附近的虚拟声音图像的位置信息的视觉信息。(An information processing apparatus has: a speaker array constituted by a plurality of speakers, the speaker array performing wave front synthesis by using outputs of the plurality of speakers; and a presenting unit that presents visual information of a wave shape of a wave front formed by the wave front synthesis or visual information based on positional information of a virtual sound image formed in a vicinity different from the speaker array by the wave front synthesis.)

信息处理装置、信息处理方法及程序

技术领域

本公开涉及一种信息处理装置、信息处理方法及程序。

背景技术

已经描述了一种在显示器上显示已经通过声学系统设置的虚拟声音图像的装置(例如，参见专利文献1和2)。

现有技术文献

专利文献

专利文献1：日本专利申请公开号2013-051686

专利文献2：日本专利申请公开号2011-259298

发明内容

本发明要解决的问题

然而，在专利文献1和2中描述的技术中，在显示器或三维视频显示设备上显示虚拟声音图像，因此可提供至用户的视觉效果受到限制。

本公开的目的是提供一种能够向听众(用户)呈现具有更令人满意的真实感受等的听觉视觉效果的信息处理装置、信息处理方法及程序。

问题的解决方案

本公开是例如，

一种信息处理装置，包括：

扬声器阵列，包括多个扬声器，并通过使用多个扬声器的输出来执行波前合成；以及

呈现单元，呈现表示在波前合成中形成的波前的波的状态的视觉信息，或者呈现基于在波前合成中形成在与扬声器阵列附近不同的位置处的虚拟声音图像的位置信息的视觉信息。

本公开是例如，

一种信息处理方法，包括：

由包括多个扬声器的扬声器阵列通过使用多个扬声器的输出来执行波前合成；以及

由呈现单元呈现表示在波前合成中形成的波前的波的状态的视觉信息，或者呈现基于在波前合成中形成在与扬声器阵列的附近不同的位置处的虚拟声音图像的位置信息的视觉信息。

本公开是例如，

一种使计算机执行信息处理方法的程序，所述信息处理方法包括：

由包括多个扬声器的扬声器阵列通过使用多个扬声器的输出来执行波前合成；以及

附图说明

图1中的A和B是用于说明实现波前合成技术的信息处理装置中执行的处理的图。

图2中的A至C是用于说明波前合成技术的图。

图3是用于说明由于波前合成技术而获得的听众的体验的实例的图。

图4是用于说明实施方式的概要的图。

图5是示出根据第一实施方式的信息处理装置的配置实例的框图。

图6中的A和B是用于说明第二实施方式的概要的图。

图7是示出根据第二实施方式的信息处理装置的配置实例的框图。

图8是示出波前图像的实例的图。

图9是用于说明将声音数据分成帧的处理的图。

图10是示出连续波前图像的实例和以帧为单位的波前视频的实例的图。

图11是用于说明生成以帧为单位的波前视频的方法的实例的图。

图12是用于说明褪色处理的实例的图。

图13是示出根据第三实施方式的信息处理装置的配置实例的框图。

图14是示出波前图像的实例的图。

具体实施方式

以下，参照附图对本公开的实施方式等执行说明。注意，将按照下述顺序执行描述。

<波前合成技术>

<第一实施方式>

<第二实施方式>

<第三实施方式>

<变型例>

以下描述的实施方式等是本公开的优选具体实例，并且本公开的内容不限于这些实施方式等。

<波前合成技术>

首先，描述称为波前合成技术(以下也称为波前合成系统)的声学技术，以使本技术容易理解。近年来，通过使用包括多声道扬声器的扬声器阵列来实现新的声学体验的波前合成技术已经引起关注。该波前合成技术是一种用于通过控制扬声器阵列的扬声器中的每一个的振幅和相位来物理地控制空间中的声音的波前的技术。

参考图1中的A和B示意性地描述在实现波前合成技术的信息处理装置中执行的处理。声源数据被输入到信息处理装置。声源元数据包括声音数据本身和描述声音数据的再现位置等的元数据。这种声源数据还被称为对象音频，并且针对对应于声源的每个对象(例如，每个仪器、每个动物等)来指定。输入声源数据的信息处理装置计算再现信号。例如，信息处理装置实时地比较声源数据中包括的再现位置和扬声器阵列的位置，并且计算哪个扬声器将以什么振幅、什么相位等来再现每个单独对象的声音数据。因此，信息处理装置获得用于驱动扬声器的扬声器信号。所获得的扬声器信号由相应的扬声器再现。通过由扬声器再现的声音形成合成声场，并根据波前合成再现声音。

通过波前合成技术实现的声学体验的一个实例是听众可以感知从扬声器弹出的虚拟声音图像。这里，如图2中的A所示，调查期望从扬声器前面的位置(更靠近听众的位置)发出声音的情况。通常，在用作使用多声道扬声器的声学系统的实例的环绕声系统中，已经听到从扬声器发出的声音的听众自然感觉到声音已经从扬声器的位置发出。此外，如图2中的B所示，在使用两声道扬声器的立体声再现中，声音的波前彼此干扰，并形成不均匀的声场。注意，图2中B中的不同色调表示声压的差异，且较深颜色表示较高水平的声压。其他附图也同样。

然而，通过采用波前合成技术，适当地控制从每个扬声器发出的声音的信号的振幅和相位，从而能够物理地生成表示好像发出声音的对象(虚拟声音图像)存在于扬声器前面的波前。因此，如图2中的C中所示，听众感觉到声音好像是从扬声器前面的位置发出的。注意，波前合成技术还使得虚拟声音图像能够布置在扬声器后面。

通常，这种现象表达为“虚拟声音图像位于扬声器的前面”等。用于布置从不同于扬声器的实际位置的位置弹出的虚拟声音图像的技术是通过波前合成技术实现的体验的一个实例，且这种新声学体验可被视为开放艺术作品或娱乐设施的吸引力等的体验可能性。例如，如图3中示意性示出的，包括多声道扬声器的扬声器阵列SPA1至SPA4被布置为围绕多个听众L。从扬声器阵列SPA1至SPA4的各个扬声器发出的声音的信号的振幅和相位被实时控制，因此，虚拟声音图像VS可被定位在适当的位置使得听众L可以听到来自各个方向的声音。

波前合成技术使得能够生成声学空间，就好像发出声音的对象存在于物理上不存在任何东西的空间内的区域中。因此，波前合成技术也被称为声音全息术等。波前合成技术使有经验的人能够获得真实存在感觉和逼真感觉，使得在没有东西的空间中存在东西。可以认为，如果除了根据波前合成技术的声音再现之外还提供视觉效果，则可以进一步扩展由于波前合成技术而能够获取的诸如真实存在感觉的体验。例如，点亮虚拟声音图像的位置的效果使得听众能够进一步获取虚拟声音图像的定位感觉。此外，波前合成技术使用大量扬声器在视觉上再现(可视化)通过使用单个扬声器将不能产生的声波的状态，因此，听众可通过使用听觉和视觉来领悟虚拟声音图像。

可以认为，可视化声波的视觉效果不仅扩展听众的体验，而且在引入或安装波前合成系统中也是有用的。声波的可视化使得系统安装人员能够识别波前合成系统将产生什么波前，并且这有助于与校准等的安装相关的工作。

下面详细描述鉴于这些点创建的本技术的实施方式等。

<第一实施方式>

[概要]

接下来，描述第一实施方式。首先，参照图4描述实施方式的概要。注意，下述实施方式的概要可应用于第二实施方式和第三实施方式。

如图4所示，扬声器阵列SPA布置在特定空间中。听众L存在于扬声器阵列SPA的前面(在声音发射方向上)。通过扬声器阵列SPA根据波前合成技术再现声音，并使虚拟声音图像VS位于例如扬声器阵列SPA的前面(在更靠近听众L的方向上)。

在图4中示出的空间的上部中，例如，设置了执行投影显示的投影设备PR。投影设备PR例如通过在地板上执行视频的投影显示来向听众L呈现在波前合成中形成的波前的波的视频。听众L可观察已经在地板上显示的波前的波的视频。此外，可以结合由扬声器阵列SPA再现的声音(例如，音乐)获取上述的从未体验到的逼真感觉等。注意，波的视频是包括二维扩展的峰和底的视频。此外，可以根据声压分布将视频中的波显示为具有彩色、不同色调等。例如，声压较高的部分可显示成红色，并且显示为颜色随着声压减小而从黄色变为蓝色。此外，例如，声压较高的部分可以显示为更深的颜色，并且显示为颜色随着声压减小而变得更浅。

[信息处理装置的配置实例]

接下来，描述根据第一实施方式的信息处理装置(信息处理装置1)的配置实例。图5是示出信息处理装置1的配置实例的框图。信息处理装置1包括输入单元11、扬声器信号计算器12、视觉效果计算器13、视觉信息呈现单元14和扬声器阵列SPA。

输入单元11是设置在信息处理装置1与外部设备之间的接口。声源数据经由输入单元11输入。可将声源数据经由诸如互联网或局域网(LAN)的网络输入到输入单元11，或者可将声源数据经由诸如半导体存储器或光盘的记录介质输入到输入单元11。

在第一实施方施中，假设将包括描述每个对象的声源位置等的元数据的声源数据和每个对象的声音数据输入到输入单元11。

扬声器信号计算器12基于声源数据中包括的元数据的内容从包括在扬声器阵列SPA中的各个扬声器SP中计算并确定将再现声音数据的扬声器SP，或由扬声器SP再现的声音数据的振幅、相位等。换句话说，扬声器信号计算器12充当对象音频呈现器。扬声器信号计算器12将计算的扬声器信号的数字信号适当地转换成模拟信号，并将模拟信号提供至扬声器阵列SPA。扬声器信号驱动相应的扬声器SP，并且与对象的声音数据对应的声音通过扬声器阵列SPA根据波前合成技术再现。

视觉效果计算器13基于波前合成技术执行用于提供视觉效果的各种类型的计算。在第一实施方式中，将声源数据从输入单元11提供至视觉效果计算器13。视觉效果计算器13分析声源数据，并生成用于呈现每个对象的声音图像位置(即，与虚拟声音图像对应的位置的一部分)的控制信息。然后，视觉效果计算器13将控制信息提供至视觉信息呈现单元14。

视觉信息呈现单元14根据从视觉效果计算器13提供的控制信息，呈现基于在波前合成中形成在与扬声器阵列SPA附近不同的位置处的虚拟声音图像的位置信息的视觉信息。这里，视觉信息是能够被视觉识别的信息。此外，扬声器阵列SPA的附近是指扬声器阵列SPA本身，或者扬声器阵列SPA与虚拟声音图像之间的距离小于或等于预定值的范围。视觉信息呈现单元14可以是执行投影显示的设备，可以是包括多个发光二极管(LED)和控制多个LED的光发射的控制电路的设备，或者可以是显示设备。

扬声器阵列SPA包括多个扬声器SP(SP₁、SP₂、...、SP_n和SP_n+1)，并且通过使用来自多个扬声器SP的输出执行波前合成。注意，在不需要彼此区分各个扬声器的情况下，适当地使用术语“扬声器SP”。扬声器SP的数量可被设置为任意数量(例如，约500)。

[信息处理装置的操作实例]

接下来，描述信息处理装置1的操作实例。将声源数据提供至信息处理装置1的输入单元11。将声源数据提供至扬声器信号计算器12和视觉效果计算器13中的每一个。扬声器信号计算器12基于声源数据计算将由扬声器阵列SPA再现的扬声器信号。将扬声器信号提供至扬声器阵列SPA，并通过扬声器阵列SPA再现扬声器信号。通过这样做，虚拟声音图像位于由包括在声源数据中的元数据指定的三维位置。

另一方面，将声源数据从输入单元11提供至视觉效果计算器13。视觉效果计算器13分析声源数据的元数据以确定虚拟声音图像的位置，并生成用于呈现与虚拟声音图像对应的位置的一部分的控制信息。然后，视觉效果计算器13将控制信息提供至视觉信息呈现单元14。根据第一实施方式的视觉信息呈现单元14呈现基于在波前合成时形成在与扬声器阵列SPA的附近不同的位置处的虚拟声音图像的位置信息的视频。

这里，“基于虚拟声音图像的位置信息”是指基于虚拟声音图像的位置或者虚拟声音图像与扬声器阵列SPA之间的距离。因而，例如，通过呈现基于虚拟声音图像的位置信息的视觉信息而获得的视觉效果区别于下述视觉效果。

-视觉效果是固定的。换言之，无论虚拟声音图像的位置或者虚拟声音图像与扬声器阵列SPA之间的距离如何，呈现相同的视觉效果，与根据本实施方式获得的视觉效果不同。

-即使虚拟声音图像与扬声器阵列SPA之间的距离不为0，也呈现距离为0的视觉效果。具体地，使扬声器阵列SPA本身像虚拟声音图像的位置一样发光，意味着在假定距离为0的情况下呈现，这不同于根据本实施方式获得的视觉效果。

应注意，例如，如下所述，虚拟声音图像与扬声器阵列SPA之间的距离可以计算。例如，通过视觉效果计算器13执行下述作为实例的计算。例如，如在本实施方式中，在将元数据输入到信息处理装置1的情况下，基于扬声器阵列SPA和在元数据中描述的虚拟声音图像的三维位置数据计算虚拟声音图像与扬声器阵列SPA之间的距离。注意，可以适当地指定距离的具体内容。例如，从虚拟声音图像的位置到最接近的扬声器阵列SPA上的点的距离可被指定为虚拟声音图像与扬声器阵列SPA之间的距离。可替代地，扬声器阵列SPA上的指定部分(例如，扬声器阵列SPA的中心，其中，多个扬声器SP线性延伸)与虚拟声音图像之间的距离可被指定为虚拟声音图像与扬声器阵列SPA之间的距离。

此外，即使在元数据未输入至信息处理装置1的情况下，也可估计虚拟声音图像与扬声器阵列SPA之间的距离。下面描述该方法的实例。

将多个点布置为可布置虚拟声音图像的空间中的点。假设这些点是：

假设当在上述每个点处布置虚拟声音图像时从扬声器阵列SPA的几何布置计算的波前合成滤波器为：

注意，k表示频率的索引，Q表示扬声器的数量。

这里，当假设扬声器SP的驱动信号(扬声器信号)为：

然后，得到

(将x(1),x(2),…,x(K)的集合表示为X。)

这里，是向量X(k)的第1个元素。λ是适当设置的参数。该优化问题可以通过使用例如M-FOCUSS算法来解决。M-FOCUSS算法的详情在S.F.Cotter,B.D.Rao,K.Engan&K.Kreutz-Delgado,“Sparse solutions to linear inverse problems with multiplemeasurement vectors”,IEEE Transactions on Signal Processing,53(7),2477-2488,2005中公开了。

这里，假设：P_l＝∑_k|x_l，k|²。

当P₁以降序排列时，对应于P₁中的较大1的P₁(空间中的点)是虚拟声音图像的位置。在可认为存在多个虚拟声音图像的情况下，提取一些最大的P₁片段，并且因此可以估计多个虚拟声音图像的位置。可以根据虚拟声音图像的位置和扬声器阵列SPA的几何布置来计算虚拟声音图像与扬声器阵列SPA之间的距离。

[视觉信息的实例]

描述了根据本实施方式的视觉信息呈现单元14向听众L呈现的视觉信息的实例。将以下作为实例描述的视频呈现给听众L，因此可以实现诸如照亮虚拟声音图像的位置的视觉效果。注意，视觉信息呈现单元14具有与下述的实例对应的配置(LED等)。

在相对于扬声器阵列SPA的声音发射方向的上侧(例如，天花板)、下侧(例如，地板)或空间(例如，天花板与地板之间)的至少一个预定位置处呈现视觉信息。以下描述具体实例。

例如，将用作发光元件的实例的、诸如LED的灯二维地布置在地板和天花板上。接通与虚拟声音图像的位置对应的光，因此呈现视觉信息。

例如，将诸如LED的灯二维地布置在地板和天花板上。根据虚拟声音图像与扬声器阵列SPA之间的距离，改变照明光的位置，因此呈现视觉信息。

例如，将诸如LED的灯布置在地板和天花板上，并且根据虚拟声音图像的位置或者虚拟声音图像与扬声器阵列SPA之间的距离改变照明位置和光量。因此，从而呈现视觉信息。具体地，在虚拟声音图像的位置位于空间的情况下，接通位于虚拟声音图像的位置的向上/向下方向上的灯。此时，在虚拟声音图像的位置位于更靠近上侧的情况下，可增加上侧灯的亮度，并且可减小下侧灯的亮度。相反，在虚拟声音图像的位置更靠近下侧的情况下，可减小上侧灯的亮度，并且可增加下侧灯的亮度。通过这样做，听众L可容易地识别虚拟声音图像在空间中的位置。

例如，准备包括多个LED的串状的物体，将多个物体挂在天花板上。然后，根据虚拟声音图像的位置或虚拟声音图像与扬声器阵列之间的距离通过接通指定的LED来呈现视觉信息。通过这样做，可以呈现存在于空间中的虚拟声音图像的位置。

例如，通过使用投影仪，根据虚拟声音图像的位置或虚拟声音图像与扬声器阵列SPA之间的距离将特定对象投影并显示在地板和天花板上，从而呈现视觉信息。

例如，布置了在视觉信息呈现单元14的控制下而改变高度的单元(例如球形物体)。根据虚拟声音图像的位置或者虚拟声音图像与扬声器阵列SPA之间的距离增加或者减小单元的高度，从而呈现视觉信息。该单元可以发光，或者可以不发光。

例如，将发射激光束的多个设备布置在地板或天花板中的至少一个上。然后，根据虚拟声音图像的位置或者虚拟声音图像与扬声器阵列SPA之间的距离从预定装置发射激光束，从而呈现视觉信息。

注意，根据波前合成技术的虚拟声音图像的位置可实时改变。因而，待呈现的视觉信息的位置也可实时改变。此外，根据待再现的内容，在一些情况下包括多个对象(针对每个仪器或针对每个动物)。在这些情况下，可呈现基于每个对象的虚拟声音图像等的视觉信息。通过改变颜色、显示内容等，可区别地呈现基于每个对象的虚拟声音图像等的视觉信息。

根据上述第一实施方式，根据虚拟声音图像的位置或虚拟声音图像与扬声器阵列之间的距离执行呈现。因此，可以向听众提供具有逼真感觉的体验，并且可以创造新的声学体验。

<第二实施方式>

接下来，描述第二实施方式。注意，第一实施方式中描述的事项只要没有特别说明，就能够应用于第二实施方式。并且，适当省略与第一实施方式中描述的配置相同或类似的配置的重复说明。

[概要]

首先，参考图6描述第二实施方式的概要。在本实施方式中，考虑存在L个声源(对象)的情况。例如，如图6中的A所示，考虑声源是喇叭和吉他的情况。不用说，声源不限于乐器的声音，可以采用诸如动物的自然声音或叫声的任何声源。假设声源每次的声源位置为r_l(t)，每个声源的信号为s_l(t)。将表示声源位置的元数据和每个声源的声音数据包括在每个声源的声源数据中。

然后，如图6中的B所示，基于每个声源的声源数据生成表示波前的波状态的波前图像。例如，通过连续地再现所生成的波前图像来生成波前视频，并且将该波前视频作为表示在波前合成中形成的波前的波的状态的视觉信息呈现给听众L。

[信息处理装置的配置实例]

接下来，描述根据第二实施方式的信息处理装置(信息处理装置1A)的配置实例。图7是示出信息处理装置1A的配置实例的框图。除了输入单元11、扬声器信号计算器12、视觉信息呈现单元14和扬声器阵列SPA之外，信息处理装置1A还包括视觉效果计算器13A。

在第一实施方式中已经描述了输入单元11、扬声器信号计算器12、视觉信息呈现单元14和扬声器阵列SPA，因此，省略重复的描述。注意，在第二实施方式中，假设将各声源的声源数据输入到输入单元11的情况。

(视觉效果计算器)

描述了信息处理装置1A中的视觉效果计算器13A。视觉效果计算器13A包括波前图像生成器131和转换器132。波前图像生成器131基于声源的元数据生成波前图像。转换器132通过使用由波前图像生成器131生成的波前图像来生成波前视频。注意，转换器132还生成用于再现波前视频的控制信息。转换器132将波前视频和控制信息输出到视觉信息呈现单元14。视觉信息呈现单元14根据控制信息执行投影显示等来再现波前视频。

描述了由波前图像生成器131执行的用于生成波前图像的方法的实例。当获得每个声源的元数据{r_l(t)，s_l(t)}时，可根据下述公式1计算根据元数据生成的空间中的声压分布P(r,t)。

[公式1]

注意，已知波前合成系统不能再现整个频带中的声波。特别地，在高频带中，发生空间混叠，并且实际生成的波前完全不同于期望的波前。因此，在本实施方式中，设置频率阈值f_thr，并且仅生成小于或等于频率阈值的频带中的声波的波前图像。在公式1中，是通过使用频率阈值f_thr来限制带的声源的信号。

根据上述公式1获得的信息是空间中的声压分布。因此，可以通过执行声压的值或值的范围的彩色图显示(彩色显示)等来获得波前图像。如上所述，可从每个声源的元数据获得系统每次生成的波前图像。

图8是示出波前图像的实例的图。图8示出的波前图像是通过对从声源的元数据生成的空间中的声压分布执行彩色图显示而获得的图像。图8所示的波前图像的虚拟声音图像的位置为[0,-0.2,0]m，声源信号为1000Hz的正弦波。扬声器SP的数量为16，扬声器SP之间的元件间隔为0.2m。虚拟声音图像的位置越近，颜色越深。

[信息处理装置的操作实例]

接下来，描述根据第二实施方式的信息处理装置1A的操作实例。将声源数据提供至信息处理装置1A的输入单元11。将声源数据提供至扬声器信号计算器12和视觉效果计算器13中的每一个。扬声器信号计算器12基于声源数据计算将由扬声器阵列SPA再现的扬声器信号。将扬声器信号提供至扬声器阵列SPA，并通过扬声器阵列SPA再现扬声器信号。通过这样做，虚拟声音图像位于由包括在声源数据中的元数据指定的三维位置处。

另一方面，将声源数据从输入单元11提供至视觉效果计算器13A。视觉效果计算器13A的波前图像生成器131分析声源数据以生成波前图像。波前图像生成器131将所生成的波前图像提供至转换器132。转换器132例如通过组合波前图像来生成波前视频。然后，转换器132将所生成的波前图像提供至视觉信息呈现单元14。

通过视觉信息呈现单元14将波前视频呈现给听众L。例如，在地板或天花板中的至少一个中执行用作视觉信息的实例的波前视频的投影显示。注意，更具体地，在波前视频中，可以采用与声压分布相对应的呈现、诸如着色、不同色调、其组合、或振动强度的差异之类的适当方法。

根据以上描述的第二实施方式，能够使声波可视化。此外，可以改善听众在声音再现空间中的真实存在感或逼真感。

[第二实施方式的变型例]

描述了第二实施方式的变型例。如上所述，可以基于声源数据生成每次的波前图像。可通过连续再现生成的波前图像来生成波前视频。然而，存在仅通过连续再现波前图像所获得的波前视频将是听众难以识别的视频的可能性。这是因为声音的波前在空气中传播的速度约为340[m/s]，这对于人而言太高而不能视觉识别波前。

因而，作为实例，可执行下述处理。首先，如图9中示意性所示，将每个声源的声音数据分成帧。可将每个帧的长度设置为适当的值，但是在本实例中设置为200ms。假设帧的长度是T[s]。

图10是示出连续波前图像的实例的图。此外，图10是示出以帧为单位的波前视频的实例的图。如图10所示，以帧为单位生成波前视频。注意，为了防止复杂的图示，图10通过使用单个波前图像示出以帧为单位生成的波前视频。然而，以帧为单位生成的波前视频包括多个(例如，10个)波前图像。

描述了用于以帧为单位生成波前视频的方法的实例。如图11所示，考虑单个帧包括例如1024个样本的声音数据的实例。可生成对应于声音数据的一个样本的波前图像。因此，在本实例中，生成1024个波前图像。生成通过将一个帧中的视频乘以使听众L能够在再现中容易地识别一个帧中的视频的乘法率而获得的视频。例如，在1024个波前图像之中，使用前10个波前图像(约1/100倍(10/1024倍)的乘法率)，并且波前视频的一个帧单位包括10个波前图像。再现波前视频的一个帧单元。实际上，再现了1024个波前图像中的10个波前图像，因此执行慢再现。注意，乘法率可被设置为适当的值。假设波前视频的一个帧单元的长度是2T[s]。

此外，在本实施方式中，为了获得听众L容易感知并且流畅地组合的波前视频，执行褪色处理。如图12所示，将第n帧的波前视频乘以加权系数w(t)，将第(n+1)帧的波前视频乘以加权系数v(t)，并且将各波前视频相加，从而生成合成视频。生成的合成视频作为视觉信息呈现给听众L。

更详细地描述了用于生成合成视频的处理。例如，假设第q帧中的视频是Vq(t)(0≤t＜2T)。在这种情况下，合成视频再现如下：

V_sup((q-1)T+t)＝((1-t)/T)V_q-1(T+t)+(t/T)V_q(t)，(0≤t＜T)

通过将上述合成视频作为视觉信息呈现给听众L，波前视频可被呈现为由听众L容易地识别。

[第三实施方式]

接下来，描述第三实施方式。注意，除非另有说明，否则第一实施方式和第二实施方式中描述的事项可以应用于第三实施方式。此外，适当地省略与第一实施方式或第二实施方式中描述的配置相同或相似的配置的重复描述。

[信息处理装置的配置实例]

图13是示出根据第三实施方式的信息处理装置(信息处理装置1B)的配置实例的框图。除了输入单元11、扬声器信号计算器12、视觉信息呈现单元14和扬声器阵列SPA之外，信息处理装置1B还包括视觉效果计算器13B。在信息处理装置1B中，由扬声器信号计算器12计算的扬声器信号被输入到视觉效果计算器13B。

在第一实施方式中已经描述了输入单元11、扬声器信号计算器12、视觉信息呈现单元14和扬声器阵列SPA，因此，省略重复的描述。

视觉效果计算器13B包括波前图像生成器135和转换器136。在第三实施方式中，波前图像生成器135的功能不同于波前图像生成器131的功能。在第三实施方式中，假设没有将元数据输入到输入单元11的情况，即，仅输入声音数据的情况。未获得元数据的情形的可设想的实例包括波前合成系统首先不使用元数据的情况(麦克风阵列的信号直接转换成扬声器信号的情况和其他情况)，以及波前合成系统被形成为暗箱，并且元数据不能从外部访问的情况。

波前图像生成器135基于由扬声器信号计算器12计算出的扬声器信号生成波前图像。描述了该生成方法的实例。

假设每个扬声器的驱动信号是x_n(t)，并且通过使用频率阈值f_thr限制驱动信号的带宽而获得的信号是：

可以根据下述公式2计算空间中的声压分布P(r,t)。

[公式2]

通过使用公式2，可以基于每次每个扬声器SP的驱动信号来获得表示每次声压分布的波前图像。

图14示出通过对根据扬声器SP的驱动信号生成的空间中的声压分布执行彩色图显示而获得的波前图像的实例。在示出的实例中，虚拟声源的位置是[0,-0.2,0]m，声源信号是1000Hz的正弦波。扬声器SP的数量为16，扬声器SP之间的元件间隔为0.2m。虚拟声音图像的位置越近，颜色越深。

另一配置的操作类似于根据第二实施方式的信息处理装置1A中的操作。示意性地描述，转换器136基于由波前图像生成器131生成的波前图像来生成波前视频。视觉信息呈现单元14执行用于呈现波前视频的处理。

注意，尽管虚拟声源与声源信号的位置相同，但是在第二实施方式中描述的图8与图14之间生成的波前图像稍微不同。具体地，在图14中，波前未被正确再现的部分生成为弯曲弧形。在根据扬声器信号生成波前图像的情况下，正确地生成波前的区域根据扬声器信号计算器12的计算误差、扬声器SP的数量(元件的数量)等改变。在图14中示出的实例中，在扬声器阵列SPA的中心前面的区域(坐标[0,-1.0,0]m附近)中生成正确的波前，但是在接近预定扬声器SP的区域(例如，坐标[-1.5,-0.25,0]m附近)中未生成正确的波前。

在这种情况下，可执行用于参考周边声压分布并对波前未被正确再现的部分中的声压执行插值的校正处理。作为校正处理，可应用其他已知的处理。视觉效果计算器13A和13B可包括执行该校正处理的校正处理单元。

此外，可根据波前合成系统的目的来选择是否执行校正处理。例如，在波前合成系统的用户期望检查根据波前合成系统的声压分布的轮廓的情况下，不必再现如此精确的声压分布。因而，可省略校正处理。相反，在波前合成系统用于娱乐以将声压分布可视地呈现给听众L的情况下，优选再现精确的声压分布。在这种情况下，执行校正处理。

根据上述第三实施方式，即使在仅获得扬声器SP的驱动信号的情况下，也可以基于扬声器SP的驱动信号生成波前图像。然后，可呈现基于波前图像的波前视频。例如，在棒球体育场等中，通过使用多声道麦克风等收集声音，并获得声音数据。扬声器信号计算器12基于获得的声音数据计算扬声器信号。通过基于扬声器信号呈现波前视频，还可以呈现棒球体育场等中的声压分布如何。这种情况下的声压分布可以经由网络传输，并且可以显示在被布置为远离棒球体育场的显示器上。在广播期间，声压分布可被重叠地显示在棒球中继广播等上。

<变型例>

上面已经详细描述了本公开的多个实施方式。然而，本公开的内容不限于上述实施方式，并且可基于本公开的技术构思做出各种变型。下面描述变型例。

在上述第二实施方式和第三实施方式中，可执行与根据第一实施方式的处理类似的处理，即，基于虚拟声音图像的位置信息的视觉信息的呈现。

在上述实施方式中，包括在声源数据中的元数据可描述其他信息。例如，在声音数据是平面波的情况下，元数据可描述平面波的方向。

可存储在根据上述实施方式的处理中获得的视觉信息，或者可以经由网络等传输视觉信息本身。例如，可将视觉信息与直播视频一起记录在记录介质中，并且视觉信息可以与实况视频的再现同时呈现。

本公开还可通过装置、方法、程序、系统等来实现。例如，可以下载用于实现上述实施方式中描述的功能的程序，并且不具有实施方式中描述的功能的装置下载并安装该程序。这使得该装置能够执行实施方式中描述的控制。本公开还可通过分发这样的程序的服务器来实现。此外，可以适当地组合在各实施方式或变型例中描述的事项。此外，本公开的内容不应被解释为受这里作为实例描述的效果的限制。

本公开还可采用下述的配置。

(1)

一种信息处理装置，包括：

扬声器阵列，包括多个扬声器，并通过使用多个扬声器的输出来执行波前合成；以及

呈现单元，呈现表示在波前合成中形成的波前的波的状态的视觉信息，或呈现基于在波前合成中形成在与扬声器阵列附近不同的位置处的虚拟声音图像的位置信息的视觉信息。

(2)

根据(1)所述的信息处理装置，

其中，表示在波前合成中形成的波前的波的状态的视觉信息包括波前的波的视频。

(3)

根据(2)所述的信息处理装置，

其中，波前的波的视频通过使用波前的波的多个图像来生成，多个图像基于声源中包括的元数据生成。

(4)

根据(2)所述的信息处理装置，

其中，波前的波的视频通过使用波前的波的多个图像来生成，多个图像基于声源中包括的声音数据生成。

(5)

根据(4)所述的信息处理装置，还包括：

校正处理单元，对波前的波的多个图像中的每一个图像执行校正处理。

(6)

根据(2)至(5)中任一项所述的信息处理装置，

其中，波前的波的视频通过组合各自以预定帧单位生成的、波前的波的视频来生成。

(7)

根据(6)所述的信息处理装置，

其中，各自已经以预定帧单位生成的波前的波的视频中的每个通过缓慢地再现波前的波的多个图像而生成，所述多个图像以所述预定帧单位生成。

(8)

根据(6)或(7)所述的信息处理装置，

其中，波前的波的视频通过组合各自通过对已经以预定帧单位生成的波前的波的视频进行加权和相加获得的视频而生成。

(9)

根据(1)至(9)中任一项所述的信息处理装置，

其中，虚拟声音图像的位置信息包括虚拟声音图像的位置或者虚拟声音图像与扬声器阵列之间的距离，并且

呈现单元呈现对应于虚拟声音图像的位置的视觉信息或对应于虚拟声音图像与扬声器阵列之间的距离的视觉信息。

(10)

根据(9)所述的信息处理装置，

其中，呈现单元在相对于扬声器阵列的声音发射方向的上侧、下侧和空间中的至少一个预定位置处呈现视觉信息。

(11)

根据(9)所述的信息处理装置，

其中，呈现单元通过执行投影显示或者使预定的发光元件发光来呈现视觉信息。

(12)

根据(1)至(11)中任一项所述的信息处理装置，还包括：

输入单元，声源被输入到输入单元。

(13)

一种信息处理方法，包括：

由包括多个扬声器的扬声器阵列通过使用多个扬声器的输出来执行波前合成；以及

(14)

一种使计算机执行一种信息处理方法的程序，信息处理方法包括：

由包括多个扬声器的扬声器阵列通过使用多个扬声器的输出来执行波前合成；以及

符号说明

1、1A、1B 信息处理装置

11 输入单元

12 扬声器信号计算器

13、13A、13B 视觉效果计算器

14 视觉信息呈现单元

131、135 波前图像生成器

132、136 转换器

SP 扬声器

SPA 扬声器阵列。

29页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：使用深度信息净化声音的方法和系统以及计算机可读介质

信息处理装置、信息处理方法及程序

相关技术

网友询问留言