个人听力装置、外部声音处理装置及相关计算机程序产品

文档序号：1784978 发布日期：2019-12-06 浏览：18次 >En<

阅读说明：本技术 个人听力装置、外部声音处理装置及相关计算机程序产品 (Personal hearing device, external sound processing device and related computer program product ) 是由许云旭陈柏儒于 2018-05-29 设计创作，主要内容包括：本发明提供了个人听力装置、外部声音处理装置及相关计算机程序产品。一种个人听力装置,包含：一麦克风,用以接收一输入声音信号,其中该输入声音信号混合有一第一声音来源所发出的声音与其他声音来源所发出的声音；一扬声器；以及一声音处理电路,用以自动地从该输入声音信号区分出该第一声音来源所发出的声音与该其他声音来源所发出的声音；其中,该声音处理电路还将该输入声音信号进行处理,以将该第一声音来源所发出的声音以及该其他声音来源所发出的声音进行不同的调整,藉此产生一输出声音信号于该扬声器播放给使用者。(The invention provides a personal hearing device, an external sound processing device and a related computer program product. A personal hearing device, comprising: a microphone for receiving an input audio signal, wherein the input audio signal is mixed with sound emitted by a first audio source and sound emitted by other audio sources; a speaker; and a sound processing circuit for automatically distinguishing the sound emitted from the first sound source from the sound emitted from the other sound sources; the sound processing circuit also processes the input sound signal to adjust the sound emitted by the first sound source and the sound emitted by the other sound sources differently, so as to generate an output sound signal to be played by the loudspeaker to a user.)

技术领域

本发明大体而言关于个人听力装置。特别地，关于一种个人听力装置，其可检测使用者需要关注的声音信息，并根据使用者的听力需求进行适当的处理。

背景技术

现有的个人听力装置例如数字助听器，可针对使用者的听力衰减曲线对各自不同频率进行增益补偿。其他现有的个人听力装置例如主动式抗噪耳机，为了让使用者在音乐之外还是能够听见外部环境中的人声，也可仅针对特定的频率成分(例如100Hz-1kHz的环境与车辆噪音)进行降噪。

其他关于个人听力装置的现有技术时，可参考例如美国专利公开号US Pub.2018/0115840、US Pub.2014/0023219或是US 8965016。

发明内容

本发明体认到，在现实生活中，大部分的声音对使用者是无意义的。例如在街上，车辆所发出的噪音以及陌生人的交谈声，一般来说其中并没有与使用者相关或使用者会感兴趣的资讯。换言之，大部分的声音都不是本文中所谓需要使用者关注的声音信息。另一方面，举例来说，现有技术中的降噪耳机针对车辆噪音分布的频段进行过滤，即无法过滤掉陌生人的交谈声，但若连人声的频段都进行过滤的话，则连亲人或朋友说话的声音也被过滤掉。可想见的，这并不是个理想的结果。

本发明因此体认到，现有技术中的个人听力装置对从外界环境所接收到的声音，并无判断其中是否可能含有使用者需要关注的声音信息。相反地，纵使外界环境声音的来源并非单一，但现有技术的作法是将所从外界接收到的声音(即实际上是将来自不同来源而被混合过的声音)视为一整体来进行处理或优化，例如将所接收到的混合声音中特定的频段或频率成分全部过滤掉。然而，这种作法不是针对与使用者需要关注的个别声音信息进行处理，因此虽然可以针对整体的频率成分进行过滤，但也会让使用者所需要听到的声音信息失真，即会发生例如上述若要将陌生人交谈声以人声分布的频段加以过滤，则连熟人朋友说话的声音也会受到影响的状况。特别是对于听力有障碍的使用者而言，这种状况会造成生活上的困扰。

有鉴于此，本发明一方面提出一种个人听力装置，其可自动检测与使用者较相关或使用者会感兴趣的声音信息，并根据使用者的需求进行适当的处理后，再播放给使用者听。由于本发明的作法能够保留声音信息的完整性，因此可减少声音信息失真的情况。

而针对判断从外界环境所接收到的声音其中是否可能含有与使用者相关的资讯的作法，本发明所提出的作法之一在于使用声纹分析。举例来说，可通过声纹分析判断声音中是否包含有特定的词句(例如使用者的名字)。亦或是可判断是否含有可供识别出特定声音来源的声纹特征。特定声音来源可例如是使用者预先指定的亲人或朋友，或是特定的装置(例如消防警报)，而可理解的，亲人或朋友所发出的声音或是消防警报大多是使用者需要关注或反应的声音信息。

从另一个层面来看，与现有技术相较之下，本发明一方面所提出的个人听力装置乃是将所接收到的声音，以声音来源进行区分，而不是单纯以频段进行区分，进而可对个别来源所发出的声音加以识别，并抽取出来单独处理或优化。因此，除了通过利用声纹特征来识别出声音来源，也可通过声音的方位来对声音来源进行识别。除此之外，其他能够识别出个别声音来源的作法都在本发明所欲涵盖的内容中。

根据本发明一实施例，提出一种个人听力装置，包含：

●一麦克风，用以接收一输入声音信号，其中该输入声音信号混合有一第一声音来源所发出的声音与一第二声音来源所发出的声音；

●一扬声器；以及

●一声音处理电路，用以自动地从该输入声音信号区分出该第一声音来源所发出的声音；

●其中，该声音处理电路还将该输入声音信号进行处理，以将该第一声音来源所发出的声音以及该第一声音来源所发出的声音以外的声音进行不同的调整，藉此产生一输出声音信号于该扬声器播放给使用者。

根据本发明另一实施例，提出一种个人听力装置，包含：

●一麦克风，用以接收一输入声音信号，其中该输入声音信号混合有一第一声音来源所发出的声音与一第二声音来源所发出的声音；

●一扬声器；以及

●一声音处理电路，用以自动地区分出该第一声音来源与其他声音来源(例如该第二声音来源)；

根据本发明另一实施例，提出一种个人听力装置，与一外部声音处理装置无线连结，该个人听力装置包含：

●一麦克风，用以接收一输入声音信号，其中该输入声音信号混合有一第一声音来源所发出的声音与一第二声音来源所发出的声音；

●一扬声器；以及

●一通信电路，用以将该输入声音信号无线传送给该外部声音处理装置，该外部声音处理装置自动地从该输入声音信号区分出该第一声音来源所发出的声音；

●其中，该外部声音处理装置还将该输入声音信号进行处理，以将该第一声音来源所发出的声音以及该第一声音来源所发出的声音以外的声音进行不同的调整，藉此产生一输出声音信号，并由该通信电路接收并由该扬声器播放给使用者。

在其他实施例中，本发明还提出一种外部声音处理装置，与上述的个人听力装置无线连结，并提供所需的协作。此外，本发明还提出一种计算机程序产品，可运作在前述的外部声音处理装置，以提供上述的个人听力装置所需的协作。

本说明书中所提及的特色、优点、或类似表达方式并不表示，可以本发明实现的所有特色及优点应在本发明的任何单一的具体实施例内。而是应明白，有关特色及优点的表达方式是指结合具体实施例所述的特定特色、优点、或特性包含在本发明的至少一具体实施例内。因此，本说明书中对于特色及优点、及类似表达方式的论述与相同具体实施例有关，但也非必要。

参考以下说明及随附申请专利范围或利用如下文所提的本发明的实施方式，即可更加明了本发明的这些特色及优点。

附图说明

为了立即了解本发明的优点，请参考如附图所示的特定具体实施例，详细说明上文简短叙述的本发明。在了解这些图示仅描绘本发明的典型具体实施例并因此不将其视为限制本发明范畴的情况下，参考附图以额外的明确性及细节来说明本发明，图式中：

图1是依据本发明具体实施例的个人听力装置。

图2是依据本发明另一实施例的个人听力装置。

图3是依据本发明具体实施例所例示的使用情境。

具体实施方式

本说明书中“一具体实施例”或类似表达方式的引用是指结合该具体实施例所述的特定特色、结构、或特性是包括在本发明的至少一具体实施例中。因此，在本说明书中，“在一具体实施例中”及类似表达方式的用语的出现未必指相同的具体实施例。

本领域的普通技术人员当知，本发明可实施为计算机系统/装置、方法或作为计算机程序产品的计算机可读介质。因此，本发明可以实施为各种形式，例如完全的硬件实施例、完全的软件实施例(包含韧体、常驻软件、微程序码等)，或者也可实施为软件与硬件的实施形式，在以下会被称为“电路”、“模块”或“系统”。此外，本发明也可以任何有形的介质形式实施为计算机程序产品，其具有计算机可使用程序码储存于其上。

一个或更多个计算机可使用或可读取介质的组合都可以利用。举例来说，计算机可使用或可读取介质可以是(但并不限于)电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置、设备或传播介质。更具体的计算机可读取介质实施例可以包括下列所示(非限定的例示)：由一个或多个连接线所组成的电气连接、可携式的计算机磁片、硬盘机、随机存取存储器(RAM)、只读存储器(ROM)、可抹除程序化只读存储器(EPROM或快闪存储器)、光纤、可携式光盘片(CD-ROM)、光学储存装置、传输介质(例如因特网(Internet)或内部网路(intranet)的基础连接)、或磁储存装置。需注意的是，计算机可使用或可读取介质还可以为纸张或任何可用于将程序列印于其上而使得该程序可以再度被电子化之适当介质，例如藉由光学扫描该纸张或其他介质，然后再编译、解译或其他合适的必要处理方式，然后可再度被储存于计算机存储器中。在本文中，计算机可使用或可读取介质可以是任何用于保持、储存、传送、传播或传输程序码的介质，以供与其相连接的指令执行系统、装置或设备来处理。计算机可使用介质可包括其中储存有计算机可使用程序码的传播资料信号，不论是以基频(baseband)或是部分载波的型态。计算机可使用程序码的传输可以使用任何适体的介质，包括(但并不限于)无线、有线、光纤缆线、射频(RF)等。

用于执行本发明操作的计算机程序码可以使用一种或多种程序语言的组合来撰写，包括面向对象程序语言(例如Java、Smalltalk、C++或其他类似者)以及传统程序程序语言(例如C程序语言或其他类似的程序语言)。

于以下本发明的相关叙述会参照依据本发明具体实施例的系统、装置、方法及计算机程序产品的流程图及/或方块图来进行说明。当可理解每一个流程图及/或方块图中的每一个方块，以及流程图及/或方块图中方块的任何组合，可以使用计算机程序指令来实施。这些计算机程序指令可供通用型计算机或特殊计算机的处理器或其他可程序化资料处理装置所组成的机器来执行，而指令经由计算机或其他可程序化资料处理装置处理以便实施流程图及/或方块图中所说明的功能或操作。

这些计算机程序指令也可被储存在计算机可读取介质上，以便指示计算机或其他可程序化资料处理装置来进行特定的功能，而这些储存在计算机可读取介质上的指令构成一制成品，其内包括的指令可实施流程图及/或方块图中所说明的功能或操作。

计算机程序指令也可被载入到计算机上或其他可程序化资料处理装置，以便于计算机或其他可程序化装置上进行一系统操作步骤，而于该计算机或其他可程序化装置上执行该指令时产生计算机实施程序以达成流程图及/或方块图中所说明的功能或操作。

其次，请参照图1至图3，在图式中显示依据本发明各种实施例的装置、方法及计算机程序产品可实施的架构、功能及操作的流程图及方块图。因此，流程图或方块图中的每个方块可表示一模块、区段、或部分的程序码，其包含一个或多个可执行指令，以实施指定的逻辑功能。另当注意者，某些其他的实施例中，方块所述的功能可以不依图中所示的顺序进行。举例来说，两个图示相连接的方块事实上也可以皆执行，或依所牵涉到的功能在某些情况下也可以依图示相反的顺序执行。此外也需注意者，每个方块图及/或流程图的方块，以及方块图及/或流程图中方块的组合，可藉由基于特殊目的硬件的系统来实施，或者藉由特殊目的硬件与计算机指令的组合，来执行特定的功能或操作。

<个人听力装置>

以下是以助听器为例来说明本发明的个人听力装置，但应知本发明并不欲局限于听障人士所使用的助听器。举例来说，本发明的个人听力装置也可实现供在特定声音场所工作所使用的耳机，或一般在交通工具中所使用的耳机。

图1显示一实施例中助听器100的方块图。在此实施例中，助听器100包括一声音输入级110、一声音处理电路120、以及一声音输出级130。声音输入级110包括一麦克风111及一模拟数字转换器(analog-to-digital converter，ADC)112。麦克风111用以接收一输入声音信号10(例如是一模拟声音信号)，并该将该输入声音信号10转换为一输入电性信号11，模拟数字转换器112将该输入电性信号11转换为一输入数字信号12做为声音处理电路120的输入。此外，麦克风111可以内建式或是外接式。

声音处理电路120对该输入数字信号12进行声音处理以产生一输出数字信号14。其中处理的细节将详述于后。在一些实施例中，声音处理电路120可以是一微控制器(microcontroller)、一处理器、一数字信号处理器(DSP)、或是应用导向的集成电路(ASIC)，但本发明并不限于此。

声音输出级130例如包括一数字模拟转换器132与一扬声器134。数字模拟转换器132用以将声音处理电路120所产生的输出数字信号14转换为输出电性信号15。扬声器(又可称为接收器(receiver))134则可将输出电性信号15转换为输出声音信号16(例如是一模拟声音信号)并进行播放以供使用者听取输出声音信号16。

助听器100中其他与本发明无直接关联的部分，可参考现有的数字助听器，例如GNHearing A/S或是Interton公司所生产的数字助听器产品，在此不加赘述。

图2显示另一实施例中助听器200的方块图。与图1中助听器100相同的是，助听器200也同样具有一声音输入级210与一声音输出级230，其与图1中的声音输入级110以及声音输出级130基本上类似，因此不再赘述。助听器200与图1中助听器100的主要差异在于，助听器200可省略助听器100中的声音处理电路120，反之助听器200具有通信电路250，因此可将声音输入级210所产生的输入数字信号22通过无线通信，传送给一外部声音处理装置300进行处理。

如同图1的声音处理电路120，外部声音处理装置300可产生输出数字信号24，且进一步可再通过无线通信，将输出数字信号24传回给助听器200的声音输出级230。

此外，应可知助听器200与外部声音处理装置300之间的无线通信方式并无特别限制，例如可通过蓝牙、红外线、或是Wi-Fi。同时助听器200与外部声音处理装置300之间的通信也不限制为直接点对点通信，在某些实施例中，还可通过区域网路、移动电话网路、或是因特网。

外部声音处理装置300可例如是一专用的声音处理装置，其中具有特制的微处理器310或应用导向的集成电路(ASIC)。或者优选地，外部声音处理装置300可通过现有的智能型手机(例如Apple公司的产品iPhone)加以实施。智能型手机中的处理器310可执行作业系统内建的应用程序或是通过额外下载的应用程序(APP)来实现所需的声音处理功能(细节将详述于后)。在另外的实施例中，外部声音处理装置300还可通过个人计算机或是设置在云端的服务器加以实施。换言之，只要具有声音处理的能力且能够与助听器200进行无线通信的装置，皆可实施为外部声音处理装置300。

需说明的是，图1与图2的作法并不互相冲突，也可将两者结合共同实施。

<声音处理>

以下说明针对图1中声音处理电路120或是图2中外部声音处理装置300所进行的声音处理加以说明。本案中的声音处理主要又可分为识别阶段与调整阶段，以下将分别详述。

识别阶段

为了要判断从外界环境所接收到的声音其中是否可能含有与使用者相关的资讯的作法，又可进一步区分为采用声纹分析与非声纹分析两大类。

在采用声纹特征分析的一实施例中，乃是将声音转换为频谱声纹，然后根据声纹特征来进行识别。特别是对于人说话的声音，由于每个人的发音器官的尺寸以及肌肉使用方式的不同，每个人说话也都有独特可供辨识的声纹特征。关于声纹辨识的技术目前已经是成熟的技术，例如可参考US 8036891，且声纹辨识也有产业的标准，例如中国的《自动声纹识别(说话人识别)技术规范》(编号SJ/T11380-2008)，以及《安防声纹确认应用算法技术要求和测试方法》(编号GA/T 1179-2014)，因此在此不予赘述。一般来说，说话人声纹识别技术可先将人声与环境噪音加以区分，之后再对人声进行识别。但需要注意的是，若后续还需要从声纹资料中将特定的声音信息进行回复、抽取或分离，以对其进行个别的调整，则优选使用适当的声纹特征分析演算法，例如STFT(short-time Fourier transform、短时距傅立叶转换)，此部分可参考US 5473759。

上述实施例乃是利用说话人独有的声纹特征进行识别。相较之下，在采用声纹分析的另一实施例中，乃是根据特定词语或声音片段(例如自己手机的电话铃声或是消防警报声)的声纹特征进行识别。此部分也属于成熟的技术，例如可参考现有技术中的语音转文字的输入技术(voice to text input)。但同样的，若后续还需要从声纹资料中将特定的声音信息进行回复、抽取或分离以进行个别的调整，则需使用适当的声纹特征分析演算法，优选是STFT。

此外，在进行声纹特征分析之前，需要对声纹分析的演算法进行训练。一般常用的训练方法，皆可应用于本发明，例如可参考例如US5850627以及US9691377。需要说明的是，对特定词语或声音片段(例如消防警报声)的声纹特征进行识别(或称为注册)，并不一定需要使用者提供样本才能进行训练，而可以使用通用的样本。但若是不限定特定词语而是要采用对说话人独有的声纹特征进行识别的作法，由于所要识别的对象因人而异，因此通常需要使用者提供样本才能进行训练。但对一般的助听器使用者而言，要针对相关的说话人(例如亲朋好友)累积大量样本并不容易。因此优选的方式是通过单样本学习(one shotlearning)的训练，因为仅需要收集其亲朋好友少量的说话样本及足以进行辨识。

另一方面，非声纹分析的作法中意味着并非从声纹或频率成分分析找出声音来源独有的特征进行识别，此独有特征可与声音相关或无关。在一非声纹分析但与声音相关的实施例中，是根据声音来源所发出的声音的方位来识别出不同的声音来源。在此实施例中，如图1所示的麦克风111可具有左右声道，因此可以根据左右声道接收同一声音(可仍然利用声纹来判断是否为同一声音来源所发出的声音)的时间差来定位出声音来源的方位。通过时间差来定位声音来源也属成熟的技术，因此在此不予以赘述。除此之外，若配备有摄影镜头(未图示)，也可以利用影像识别的方式来定位出声音来源的方位,对此可参考例如Ariel Ephrat,Inbar Mosseri,Oran Lang,Tali Dekel,Kevin Wilson,AvinatanHassidim,William T.Freeman,Michael Rubinstein所著标题为“Looking to Listen atthe Cocktail Party:A Speaker-Independent Audio-Visual Model for SpeechSeparation”的文章。

需说明的是，上述各种声纹分析的作法与非声纹分析的作法并不互相冲突，也可结合一并使用。

调整阶段

在判断出从外界环境所接收到的声音含有与使用者相关的资讯(或含有使用者需关注的声音信息)之后，声音处理的下一个阶段乃是将所辨识出的声音信息从整体所接收到的声音抽取出来并加以个别调整，以符合使用者的听力需求。在一实施例中，乃是将所辨识出而被抽取的声音信息音量增大，或是将所辨识出的声音信息以外其他的声音减少或滤除。但若为了特殊的需求，例如要刻意忽略针对特定的声音信息，也可以将所辨识出的声音信息音量减小或滤除，或是将所辨识出的声音信息以外的声音增大。除了音量，也可针对所辨识出而被抽取的声音信息的频率进行调整(即移频)，例如把说话人原本较尖锐的语调降频为较低沉的语调，但其他的声音保持其原有的频率。

此外，对声音信息的调整也可根据识别结果而有所不同。举例来说，当辨识出是使用者自己手机的电话铃声时，则可将使用者自己手机的电话铃声的音量放大，但当辨识出是隔壁同事桌上的电话铃声时，则可将同事桌上的电话铃声的音量降低或滤除。

或在另一例中，对声音信息所要进行的调整有不同的模式，使用者可通过指令在不同的模式间自行切换。举例来说，在一种模式下，当辨识出声音信息是来自朋友A，则将朋友A的声音信息的音量放大，但当辨识出声音信息是来自同事B，则将同事B的声音信息的音量降低或滤除。当使用者切换到另一种模式，则使得当辨识出声音信息是来自朋友A，则将朋友A的声音信息的音量降低或滤除，但当辨识出声音信息是来自同事B，则将同事B的声音信息的音量放大。

<使用流程>

图3是本发明一例示性实施例的流程图，配合图1或图2所例示个人听力装置来说明本发明。

步骤30：对个人听力装置中所用来进行声音处理的演算法进行训练，也就是赋予个人听力装置对声音信息进行辨识的能力。对于通用不涉及个人化的声音信息识别，训练的部分可在个人听力装置出厂时即完成，但在一些情况下，特别是为了进行个人化的声音信息识别，使用者仍须自行提供声音样本给个人听力装置进行训练。

步骤32：使用个人听力装置接收外界的声音。在一般情况下，外界环境充斥各式各样的声音来源，而这些声音来源所发出的众多声音将一并被个人听力装置上的麦克风接收。

步骤34：通过图1中声音处理电路120或是图2中外部声音处理装置300来判断从外界环境所接收到的声音其中是否可能含使用者需关注(或要刻意忽略)的声音信息。判断的方法可参考前述识别阶段的说明。简要来说，除了可通过根据特定词语或声音片段(例如自己手机的电话铃声或是消防警报声)的声纹特征来判断是否为使用者需关注的声音信息之外，还可通过识别出声音来源的方式来进行判断，而此部分可通过该声音来源独有的声纹特征或是该声音来源的方位来进行识别。举例来说，亲人或朋友所发出的声音大多是使用者需要关注或反应的声音信息，或者位于使用者正前方的说话者所发出的声音大多也是使用者需要关注或反应的声音信息。此外，使用时可能出现从外界环境所接收到的声音同时含有多个使用者需关注的声音信息的情况，而对此可在训练阶段即对声音信息或是声音来源设定优先次序，因此可将所识别出但优先次序较低的声音信息予以忽略而不进行到后续步骤36或38，但在其他实施例中，也可将所辨识的多个声音信息皆进行到后续步骤36或38。

步骤36：在识别出使用者需关注(或要刻意忽略)的声音信息之后，此步骤乃是将声音信息从整体所接收到的声音抽取出来并加以调整，例如相对于其他未被抽取出的声音增加或减小音量，或甚至滤除，再播放给使用者听。此部分可参考前述调整阶段的说明。值得说明的是，在另一实施例中，使用可通过指令切换不同的调整模式，而对所识别出的不同声音信息进行调整，或是对同一声音信息进行不同的调整。

步骤38(选择性步骤)：图1中助听器100还可包含一功能模块180，其与声音处理电路120电性连结。当声音处理电路120识别出使用者需关注的声音信息是属于使用者预先指定的声音来源，还可发出驱动信号18给功能模块180，以驱动功能模块180执行一预定功能，优选但不限于用来提醒使用者注意。举例来说，功能模块180可具有一震动器(未图示)，而使用者通过训练声音处理电路120而预先指定触发条件为“家人C”或是自己的名字，而当声音处理电路120识别出家人C的声音信息或是识别出使用者的名字(即有人在呼喊使用者)，则其发出驱动信号18给功能模块180，功能模块180中的震动器可产生轻微震动以提醒使用者注意。值得一提的是，在另一实施例中，步骤38前可略过步骤36，也就是说步骤38并非要以步骤36为前提。

在不脱离本发明精神或必要特性的情况下，可以其他特定形式来体现本发明。应将所述具体实施例各方面仅视为解说性而非限制性。因此，本发明的范畴如随附申请专利范围所示而非如前述说明所示。所有落在申请专利范围的等效意义及范围内的变更应视为落在申请专利范围的范畴内。

符号说明

输入声音信号10

输入电性信号11

输入数字信号12

输出数字信号14

输出电性信号15

输出声音信号16

驱动信号18

输入数字信号22

输出数字信号24

助听器100

声音输入级110

麦克风111

模拟数字转换器112

声音处理电路120

声音输出级130

数字模拟转换器132

扬声器134

功能模块180

助听器200

声音输入级210

声音输出级230

通信电路250

外部声音处理装置300

处理器310。

14页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种用于发声装置的导电膜以及发声装置

个人听力装置、外部声音处理装置及相关计算机程序产品

相关技术

网友询问留言