用于识别语音和文本的设备和方法

文档序号：1467489 发布日期：2020-02-21 浏览：31次 >En<

阅读说明：本技术 用于识别语音和文本的设备和方法 (Apparatus and method for recognizing speech and text ) 是由沙布霍吉特·查科拉达于 2014-07-04 设计创作，主要内容包括：一种用于识别语音和文本的设备和方法，所述方法包括：接收包含多种语言的语音作为输入，通过使用与预设主要语言相匹配的语音识别算法，来识别语音的第一语音，识别包括在多种语言中的预设主要语言和不同于预设主要语言的非主要语言，基于上下文信息确定所述非主要语言的类型，通过将与确定的非主要语言的类型相匹配的语音识别算法应用于第二语音，来识别所述非主要语言的语音的第二语音，输出基于识别第一语音的结果和识别第二语音的结果的识别语音的结果。(An apparatus and method for recognizing speech and text, the method comprising: receiving a voice including a plurality of languages as an input, recognizing a first voice of the voice by using a voice recognition algorithm matched with a preset primary language, recognizing a preset primary language included in the plurality of languages and a non-primary language different from the preset primary language, determining a type of the non-primary language based on context information, recognizing a second voice of the non-primary language by applying a voice recognition algorithm matched with the determined type of the non-primary language to the second voice, and outputting a result of recognizing the voice based on a result of recognizing the first voice and a result of recognizing the second voice.)

用于识别语音和文本的设备和方法

本申请是申请日为2014年7月4日，申请号为“201410318864.8”，发明名称为“用于识别语音和文本的设备和方法”的发明专利申请的分案申请。

技术领域

本公开总体上涉及一种用于识别语音的设备和方法，更具体地，涉及一种用于识别包含多种语言的语音的设备和方法。

背景技术

随着交通和通信的进步，存在碰到外语语音的快速增长。然而，那些不熟练外语的人可能遇到听懂外语的困难。就此而言，用于识别外语语音并将识别外语语音的结果转换为文本的方法已被开发并取得进展。

在根据现有技术的用于识别语音的方法中，以音素为单位分割输入语音，随后将每个分割的音素与数据库进行比较，从而确定语音与哪个文本或单词相匹配。

同时，因为特定国家的人居住在外国的情况经常发生，所以有必要对同时包含多种语言的语音进行处理。例如，可能存在特定国家的人主要使用特定国家的语言，但混合着来自于在另一国家使用的语言的单词的情况。因此，需要开发一种用于识别包含多种语言的语音的设备和方法。

例如在根据现有技术的用于识别包含多种语言的语音的方法中，各种国家的语言共有的用于交流的单词或惯用的句子被定义为代码，随后各种国家的语言被分别映射为代码。就此而言，以上方法是不利的，因为只要未指定与设置为主要语言的语言不同的语言的类型，就必须在所有语言上执行映射，因此计算量迅速增加。

具体地，不能实时执行的用于识别语音的方法具有低程度的利用率，因此，在用于识别语音的方法中计算量的减少是开发技术所需的重要需求之一。

因此，当识别包含主要语言和非主要语言的语音时，需要一种能够快速识别与主要语言不同的非主要语言的类型，并能够实时识别包含多种语言的语音的设备和方法。

以上信息仅作为背景信息被呈现以协助对本公开的理解。至于以上的任何内容是否可应用为针对本公开的现有技术，尚未做出声明。

发明内容

为解决以上讨论的缺陷，主要目标在于提供一种当识别包含主要语言和非主要语言的语音时，能够快速识别不同于主要语言的非主要语言的类型，并实时识别包含多种语言的语音的设备和方法。

根据本公开的一方面，提供了一种识别语音的方法。所述方法包括：接收包含多种语言的语音作为输入，通过使用与预设主要语言相匹配的语音识别算法，来识别语音的第一语音，识别包括在多种语言中的预设主要语言和不同于预设主要语言的非主要语言，基于上下文信息确定所述非主要语言的类型，通过将与确定的非主要语言的类型相匹配的语音识别算法应用于第二语音，来识别所述非主要语言的语音的第二语音，输出基于识别第一语音的结果和识别第二语音的结果的识别语音的结果。

根据本公开的另一方面，提供了一种识别语音的设备。所述设备包括麦克风、存储单元、控制器和显示单元，其中，麦克风接收包含包括预设主要语言和与预设主要语言不同的非主要语言的多种语言的语音作为输入，存储单元存储与预设主要语言相匹配的语音识别算法和与非主要语言相匹配的语音识别算法，控制器通过使用与预设主要语言相匹配的语音识别算法识别语音的第一语音，识别包括在多种语言中的预设主要语言和不同于预设主要语言的非主要语言，基于上下文信息确定非主要语言的类型，并通过将与确定的非主要语言的类型相匹配的语音识别算法应用于第二语音，来识别非主要语言的语音的第二语音，显示单元输出基于识别第一语音的结果和识别第二语音的结果的识别语音的结果。

根据本公开的另一方面，提供了一种识别文本的方法。所述方法包括：接收包括多种语言的字符的文本作为输入；通过使用与预设主要语言相匹配的文本识别算法识别文本的第一文本；识别包括在多种语言中的预设主要语言和不同于预设主要语言的非主要语言；基于上下文信息确定非主要语言的类型；通过将与确定的非主要语言的类型相匹配的文本识别算法应用于第二文本，来识别非主要语言的文本的第二文本；将基于识别第一文本的结果和识别第二文本的结果的识别文本的结果转换为语音；输出转换的语音。

根据本公开的另一方面，提供了一种识别文本的设备。所述设备包括输入单元、控制器和输出单元，其中，输入单元接收包括多种语言的字符的文本作为输入，控制器通过使用与预设主要语言相匹配的文本识别算法识别文本的第一文本，识别包括在多种语言中的预设主要语言和不同于预设主要语言的非主要语言，基于上下文信息确定非主要语言的类型，通过将与确定的非主要语言的类型相匹配的文本识别算法应用于第二文本，来识别非主要语言的文本的第二文本，并将基于识别第一文本的结果和识别第二文本的结果的识别文本的结果转换为语音，输出单元输出转换的语音。

在开始下面的本发明的

具体实施方式

之前，阐述在本专利文档中始终使用的特定词汇和短语的定义会是有利的：术语“包括”和“包含”及其派生词表示包括而非限制；术语“或”是包括在内，表示和/或；短语“与…相关”和“与其相关”及其派生词可表示包括，被包括在内，与...互相连接、包含、被包含在…内、连接至…或与…连接，接合至…或与…接合、与…可通信、与…协作、交错、并列、接近于…、被结合至或与…结合、具有、具有…属性等；术语“控制器”表示控制至少一个操作的任何装置、系统或其部件，这样的装置可以以硬件、固件或软件来实现，或者以硬件、固件、软件中的至少两个的一些组合来实现。应该注意，不论是本地还是远程，与任何特定控制器相关的功能都可以是集中式或分布式。贯穿本专利文档，提供了特定词汇和短语的定义，本领域的普通技术人员应该理解在多数(如果不是大多数)实例中，这样的定义应用于对这样定义的词汇和短语的现在及未来的使用中。

附图说明

为更彻底的理解本公开和它的优点，现在参照结合附图进行的下面的描述，其中相同的标号表示相同的部分：

图1是示出根据本公开的实施例的用于识别语音的方法的流程图；

图2A至图2D是示出根据本公开的实施例的用于识别包含主要语言和非主要语言的语音的处理的概念示图；

图3A和图3B均是示出根据本公开的各种实施例的用于识别语音的设备的配置的框图；

图4是示出根据本公开的实施例的用于识别语音的方法的流程图；

图5是详细示出根据本公开的实施例的用于识别语音的方法的流程图；

图6A至图6F是示出根据本公开的实施例的用于识别语音的方法的用于识别语言的设备的概念示图；

图7是示出根据本公开的另一实施例的用于识别语音的方法的流程图；

图8是示出根据本公开的实施例的用于在用于识别语音的方法中基于各条上下文信息确定非主要语言的类型的处理的流程图；

图9是示出根据本公开的实施例的用于识别包含多种语言的语音的方法的流程图；

图10是示出根据本公开的实施例的文本到语音(TTS)方法的流程图。

在整个附图中，应该注意相同的标号被用于表示相同或相似的元件、特征和结构。

具体实施方式

以下讨论的图1到图10以及该专利文件中用于描述本公开的原理的各种实施例，仅意在说明而不应该被以任何方式解释来限制本公开的范围。本领域技术人员将理解本公开的原理可在任何适当布置的电子装置中实现。

图1是示出根据本公开的实施例的用于识别语音的方法的流程图。另外，图2A至图2D是示出根据本公开的实施例的用于识别语音的方法的概念示图。以下将参照图2A至图2D更详细地描述如图1所示的用于识别语音的方法。

参照图1，在步骤S101，用于识别语音的设备接收包含多种语言的语音作为输入。多种语言可包括主要语言和非主要语言。这里，主要语言可以是占输入语音的较大部分的语言。相反，非主要语言是与主要语言的类型不同的类型，并可以是占输入语音的较小部分的语言。主要语言占输入语音的较大部分，因而在用于识别语音的设备中被设置为具有将被识别的语言的类型。换言之，在用于识别语音的设备中已被预先设置用于语音识别的语言可被称为“主要语言”。在用于识别语音的设备中没有被预先设置为将要识别的语言的语言可被称为“非主要语言”。

在本示例中，考虑了主要讲第一语言的用户也间歇地讲第二语言的情况。因为用户主要讲第一语言，所以在用于识别语音的设备中第一语言被设置为将被识别的语言。相反，第二语言被相对间歇地讲，因而没有被设置为将被识别的语言。因此，第一语言为主要语言，第二语言为非主要语言。

图2A是示出根据本公开的实施例的包含主要语言和非主要语言的语音的概念示图。

图2A示出输入了表达“How was your Chuseok holiday？”的语音200的情况。在如图2A所示的本公开的实施例中，英语单词“How”、“was”、“your”和“holiday”指主要语言，韩语单词“Chuseok”指非主要语言。具体地，用于识别语音的设备将英语设置为了主要语言，而没有针对韩语执行专门的设置。

再参照图1，在步骤S103，用于识别语音的设备从输入语音200中识别非主要语言。例如，用于识别语音的设备通过使用用于识别声学模型的方法，以音素为单位分割已如图2A所示接收到的语音200。用于识别语音的设备可将语音200分割为音素“h”、“au”、“w”、“a”、“z”、“yo”、“rr”、“ch”、“u”、“s”、“aw”、“k”、“h”、“aw”、“l”、“i”、“d”、“e”和“i”。

或者，用于识别语音的设备可通过使用用于识别语言模型的方法，以单词为单位分割输入语音200。用于识别语音的设备可将语音200分割为第一单词201到第五单词205。

本领域的技术人员将容易地理解本公开的技术理念不被用于识别声学模型或语言模型的方法的类型所限制。

用于识别语音的设备将每个分割的音素与音素数据库进行匹配，从而确定它们之间的相似度。例如，用于识别语音的设备如图2B所示识别单独的音素或音素集211与音素数据库212之间的匹配关系。

参照图2B，用于识别语音的设备识别第一音素P1与音素数据库212中第一单词Word 1到第n单词Word N之间的匹配关系，从而确定它们之间的相似度。另外，用于识别语音的设备将第二音素P2添加到第一音素P1，并识别添加到第一音素P1的第二音素P2与第一单词Word 1到第n单词Word N之间的匹配关系，从而确定它们之间的相似度。按照与如上所述的方式类似的方式，用于识别语音的设备可将至少一个音素211与音素数据库212进行匹配，从而可确定它们之间的相似度。用于识别语音的设备确定具有大于或等于预设阈值的相似度的单词为识别出的单词。就此而言，当存在均具有大于或等于预设阈值的相似度的多个单词时，用于识别语音的设备确定多个单词中具有最大相似度的单词为识别出的单词。

图2C是示出用于将音素“w”、“a”和“z”识别为单词“was”的处理的概念示图。参照图2C，用于识别语音的设备检测匹配的结果和分割的音素“w”的相似度，检测匹配的结果以及音素“w”和“a”的相似度，并检测匹配的结果以及三个音素“w”、“a”和“z”的相似度。如图2C所示，用于识别语音的设备识别三个音素“w”、“a”和“z”与音素数据库212的单词“was”之间的相似度具有最大值，并大于或等于阈值。因此，用于识别语音的设备识别三个音素“w”、“a”和“z”与单词“was”相应。

同时，图2D是示出识别“Chuseok”的处理的概念示图。参照图2D，用于识别语音的设备检测匹配的结果和分割的音素“ch”的相似度，检测匹配的结果以及音素“ch”和“u”的相似度，检测匹配的结果以及音素“ch”、“u”和“s”的相似度，检测匹配的结果以及音素“ch”、“u”、“s”和“aw”的相似度，并检测匹配的结果以及音素“ch”、“u”、“s”、“aw”和“k”的相似度。就此而言，用于识别语音的设备可识别与每个音素项(即“ch”，“ch”和“u”，“ch”、“u”和“s”，“ch”、“u”、“s”和“aw”，“ch”、“u”、“s”、“aw”和“k”)匹配的单词不存在。或者，用于识别语音的设备可识别每个相似度均小于预设阈值。因此，用于识别语音的设备确定与“Chuseok”相应的单词不存在。以上所述的处理可被命名为“置信度测量”。

就此而言，用于识别语音的设备可执行分离操作。在如图2C和图2D所示的本公开的实施例中，用于识别语音的设备识别三个音素“w”、“a”和“z”与单词“was”相应，并且与音素“ch”、“u”、“s”、“aw”和“k”相应的单词不存在。因此，用于识别语音的设备识别三个音素“w”、“a”和“z”属于英语，音素“ch”、“u”、“s”、“aw”和“k”属于英语以外的其他语言。用于识别语音的设备确定音素“ch”、“u”、“s”、“aw”和“k”属于非主要语言，确定除了音素“ch”、“u”、“s”、“aw”和“k”以外剩下的音素属于主要语言，随后将剩下的音素与音素“ch”、“u”、“s”、“aw”和“k”分离，并识别非主要语言。

同时，以上描述的处理可被相似地应用于接收到包含三种或更多种不同语言的语音的情况。在本示例中，用于识别语音的设备接收包含第一语言、第二语言和第三语言的语音作为输入。用于识别语音的设备将第一语言设置为主要语言。用于识别语音的设备基于与第一语言相匹配的语音识别算法确定音素或音素集的相似度。用于识别语音的设备确定具有小于第一阈值的相似度的音素或音素集属于不同于第一语言的语言。另外，用于识别语音的设备基于与第二语言相匹配的语音识别算法确定音素或音素集的相似度。用于识别语音的设备确定具有小于第二阈值的相似度的音素或音素集属于不同于第二语言的语言。另外，用于识别语音的设备通过使用与第三语言相匹配的语音识别算法识别剩下的语音。如上所述，用于识别语音的设备识别包含多种语言的语音。

再参照图1，在步骤S105，用于识别语音的设备基于上下文信息确定非主要语言的类型。在如图1所示的本公开的实施例中，上下文信息包括语音中是否存在国家的名称、关于用于识别语音的设备所在的地方的信息、对话历史信息和更新的非主要语言数据库中的至少一个。例如，当确定了用于识别语音的设备所在的地方为韩国时，用于识别语音的设备确定非主要语言的类型为韩语。以下将更详细地描述确定与每个上下文信息相匹配的非主要语言的类型的境况。

同时，用于识别语音的设备可显示确定的非主要语言的类型。用户可识别非主要语言的类型，并可输入关于识别的非主要语言的类型的肯定的反馈或否定的反馈。用于识别语音的设备可响应于输入的反馈确定非主要语言的类型。例如，当用户输入肯定的反馈时，用于识别语音的设备可最后定下来确定的非主要语言的类型。相反，当用户输入否定的反馈时，用于识别语音的设备可确定非主要语言的类型为另一语言。或者，用于识别语音的设备可提供用户界面(UI)，该UI提供其他语言的列表，并允许用户选择非主要语言的类型。

在步骤S107，用于识别语音的设备通过使用预设类型的语言识别算法识别主要语言，并通过使用用于识别确定的类型的语言的语音的算法来识别非主要语言。例如，用于识别语音的设备将用于识别韩语语音的算法应用于音素“ch”、“u”、“s”、“aw”和“k”，从而识别出音素“ch”、“u”、“s”、“aw”和“k”与单词“Chuseok”相应。

用于识别语音的设备基于上下文信息确定非主要语言的类型，从而可大大减小将非主要语言与所有语言进行匹配以便识别出非主要语言所需的计算量。

图3A是示出根据本公开的实施例的用于识别语音的设备的配置的框图。

参照图3A，用于识别语音的设备300包括麦克风362、控制器310、存储单元375和显示单元390。

麦克风362接收包含多种语言的语音作为输入，将输入语音转换为电信号，并输出电信号。例如，麦克风362执行模数(A/D)转换，将输入的模拟语音转换为数字电信号，并输出数字电信号。

控制器310将输入语音分离为主要语言和非主要语言，并识别非主要语言。例如，控制器310以音素为单位分割输入语音。控制器310从存储单元375读取用于识别被设置为主要语言的类型的语言的语音的算法和主要语言的音素的数据库。控制器310通过将至少一个音素与主要语言的一个单词进行匹配，来识别所述至少一个音素。同时，控制器310确定与主要语言的单词不匹配(即，不存在于主要语言的音素的数据库中)的音素或音素集属于非主要语言。如上所述，控制器310针对从麦克风362接收的作为输入的语音来识别主要语言和非主要语言。

另外，控制器310基于上下文信息确定非主要语言的类型，并通过使用与确定的非主要语言的类型相匹配的语音识别算法，来识别非主要语言。

控制器310将识别主要语言的结果加到识别非主要语言的结果，并控制显示单元390显示识别结果。或者，在文本到语音(TTS)的情况下，控制器310可控制扬声器363以语音的形式输出识别结果。

图3B是示出根据本公开的实施例的用于识别语音的设备的配置的更详细的框图。

参照图3B，用于识别语音的设备300包括控制器310、移动通信模块320、子通信模块330、多媒体模块340、相机模块350、全球定位系统(GPS)模块355、输入/输出模块360、传感器模块370、存储单元375、电源单元380、显示单元390和显示单元控制器395。在本公开的该实施例中，具体地，显示单元390被实现为触摸屏。

根据本公开的实施例，可通过使用移动通信模块320、子通信模块330和连接器365将用于识别语音的设备300连接到外部装置(未示出)。外部装置的示例可包括另一装置(未示出)、移动电话(未示出)、智能电话(未示出)、平板PC(未示出)和服务器(未示出)。

根据本公开的实施例，子通信模块330包括无线局域网(LAN)模块331和短距离通信模块332(例如近场通信(NFC)通信模块)中的至少一个。例如，子通信模块330可包括无线LAN模块331和短距离通信模块332中的一个或两者。

根据本公开的实施例，多媒体模块340包括广播通信模块341、音频再现模块342和运动图像再现模块343中的至少一个。

根据本公开的实施例，相机模块350包括第一相机351和第二相机352中的至少一个。

根据本公开的实施例，输入/输出模块360包括至少一个按钮361、麦克风362、扬声器363、振动马达364、连接器365和键盘366。

控制器310可包括中央处理单元(CPU)311、只读存储器(ROM)312和随机存取存储器(RAM)313，其中，ROM 312存储用于控制用于识别语音的设备300的控制程序，RAM 313存储从用于识别语音的设备300的外部接收的信号或数据，或被用作由用于识别语音的设备300执行的任务的存储区域。CPU 311可包括多个处理器。例如，CPU 311可包括单核处理器、双核处理器、三核处理器、四核处理器等。CPU 311、ROM 312和RAM 313可通过内部总线互相连接。

控制器310控制移动通信模块320、子通信模块330、多媒体模块340、相机模块350、GPS模块355、输入/输出模块360、传感器模块370、存储单元375、电源单元380、显示单元390和显示单元控制器395。

根据控制器310的控制，移动通信模块320通过使用至少一个天线或多个天线(未示出)，通过移动通信允许用于识别语音的设备300被连接到外部装置。移动通信模块320将用于语音呼叫、视频呼叫、短消息服务(SMS)消息、多媒体消息服务(MMS)消息等的无线信号发送到电话号码被输入到用于识别语音的设备300的移动电话(未示出)、智能电话(未示出)、平板PC或另一装置(未示出)，并从所述移动电话(未示出)、智能电话(未示出)、平板PC或另一装置(未示出)接收所述无线信号。

根据控制器310的控制，可在安装了无线接入点(AP)的地方将无线LAN模块331连接到互联网。无线LAN模块331支持无线LAN标准(例如电气和电子工程师协会(IEEE)的IEEE802.11x)。根据控制器310的控制，短距离通信模块332使用于识别语音的设备300能够执行与图像形成装置(未示出)的近距离无线通信。短距离通信方案可包括蓝牙、红外线数据协会(IrDA)等。

根据本公开的变化的实施例，用于识别语音的设备300可包括移动通信模块320、无线LAN模块331和短距离通信模块332中的至少一个，或它们的任何组合。另外，移动通信模块320、无线LAN模块331和短距离通信模块332的组合可被称为“通信模块”。

多媒体模块340可包括广播通信模块341、音频再现模块342和/或运动图像再现模块343。根据控制器310的控制，广播通信模块341通过广播通信天线(未示出)接收由广播站发送的广播信号(例如，TV广播信号、无线电广播信号或数据广播信号等)和额外的广播信息(例如，电子节目指南(EPG)或电子服务指南(ESG))。根据控制器310的控制，音频再现模块342再现存储的或接收的数字音频文件(例如，具有mp3、wma、ogg或wav文件扩展名的文件)。根据控制器310的控制，运动图像再现模块343再现存储的或接收的数字运动图像文件(例如，具有mpeg、mpg、mp4、avi、mov或mkv文件扩展名的文件)。运动图像再现模块343也可再现数字音频文件。

根据本公开的实施例，多媒体模块340可包括音频再现模块342和运动图像再现模块343，而不包括广播通信模块341。根据本公开的另一实施例，多媒体模块340的音频再现模块342或运动图像再现模块343可被包括在控制器310中。

相机模块350包括均用于根据控制器310的控制捕获静止图像或运动图像的第一相机351和第二相机352中的至少一个。另外，第一相机351或第二相机352可包括提供当捕获图像时将被使用的额外光的辅助光源(诸如闪光灯(未示出))。第一相机351可被安装在用于识别语音的设备300的前表面，第二相机352可被安装在用于识别语音的设备300的后表面上。或者，第一相机351和第二相机352可被彼此相邻地布置(例如，第一相机351和第二相机352之间的距离可以是大于1cm并且小于8cm)，并且按照这样的配置，第一相机351和第二相机352可捕获三维静止图像或三维运动图像。

GPS模块355从地球轨道上的多个GPS卫星中的每个GPS卫星(未示出)接收信号，并通过使用从每个GPS卫星(未示出)到用于识别语音的设备300的到达时间(TOA)，来计算用于识别语音的设备300的位置。如下详细所述，控制器310通过使用用于识别语音的设备300的位置，来确定非主要语言的类型。

输入/输出模块360包括至少一个输入/输出装置，诸如多个按钮361、麦克风362、扬声器363、振动马达364、连接器365和键盘366中的至少一个。

按钮361可被形成在用于识别语音的设备300的壳体的前表面、侧表面或后表面上，并可包括电源/锁定按钮(未示出)、音量按钮(未示出)、菜单按钮、主屏按钮、返回按钮和搜索按钮中的至少一个。

根据控制器310的控制，麦克风362接收语音或声音作为输入，并根据接收到的输入产生电信号。

根据控制器310的控制，扬声器363将与来自于移动通信模块320、子通信模块330、多媒体模块340和相机模块350的各种信号(例如，无线信号、广播信号、数字音频文件、数字运动图像文件和拍摄)相匹配的声音输出到用于识别语音的设备300的外部。扬声器363可输出与用于识别语音的设备300执行的功能相匹配的声音(例如，按钮操作的声音或与电话呼叫相匹配的回铃音)。用于识别语音的设备300可包括多个扬声器。扬声器363或多个扬声器可被布置在用于识别语音的设备300的壳体的一个或多个合适的位置，以便直接输出声音。

根据控制器310的控制，振动马达364将电信号转换为机械振动。例如，当用于识别语音的设备300在振动模式下从另一装置(未示出)接收到语音呼叫时，用于识别语音的设备300的振动马达364可进行操作。用于识别语音的设备300可包括多个振动马达。振动马达364或多个振动马达可被安装在用于识别语音的设备300的壳体中。振动马达364可响应于触摸显示单元390的用户的触摸动作和在显示单元390上的触摸的持续移动而操作。

连接器365被用作用于将用于识别语音的设备300连接到外部装置(未示出)或电源(未示出)的接口。根据控制器310的控制，通过连接到连接器365的有线线缆，用于识别语音的设备300将存储在用于识别语音的设备300的存储单元375中的数据发送到外部装置(未示出)和/或从外部装置(未示出)接收数据。另外，通过连接到连接器365的有线线缆，用于识别语音的设备300可被从电源(未示出)供电或可通过使用电源为电池(未示出)充电。

键盘366从用户接收按键输入以便控制用于识别语音的设备300。键盘366包括安装在用于识别语音的设备300的前表面上的物理键盘(未示出)和/或由显示单元390显示的虚拟键盘(未示出)。根据本公开的实施例，可省略安装在用于识别语音的设备300的前表面上的物理键盘(未示出)。

传感器模块370包括用于检测用于识别语音的设备300的状态的至少一个传感器。例如，传感器模块370可包括接近传感器、照度传感器(未示出)、运动传感器(未示出)等，其中，接近传感器用于检测用户是否靠近用于识别语音的设备300，照度传感器用于检测用于识别语音的设备300周围的光量，运动传感器用于检测用于识别语音的设备300的运动(例如，用于识别语音的设备300的旋转、应用于用于识别语音的设备300的加速度或振动)。至少一个传感器可检测用于识别语音的设备300的状态，可产生与检测相匹配的信号，并可将产生的信号发送到控制器310。根据用于识别语音的设备300的性能，可将传感器添加到传感器模块370或从传感器模块370中移除传感器。

根据控制器310的控制，存储单元375可存储响应于移动通信模块320、子通信模块330、多媒体模块340、相机模块350、GPS模块355、输入/输出模块360、传感器模块370和显示单元390中的每个的操作而输入/输出的信号或数据。存储单元375可存储用于控制用于识别语音的设备300的控制程序或用于控制器310的控制程序和应用。

术语“存储单元”可指存储单元375、控制器310中的ROM 312和RAM 313、或安装在用于识别语音的设备300上的诸如安全数字(SD)卡或记忆棒的存储卡(未示出)中的任何一个或它们的组合。存储单元可包括非易失性存储器、易失性存储器、硬盘驱动器(HDD)、固态驱动器(SSD)等。

根据控制器310的控制，电源单元380可向布置在用于识别语音的设备300的壳体中的一个或多个电池(未示出)提供电能。所述一个或多个电池(未示出)向用于识别语音的设备300提供电能。另外，电源单元380可通过连接到连接器365的有线线缆，将由外部电源(未示出)提供的电能提供给用于识别语音的设备300。

显示单元390将与各种服务(例如，电话呼叫、数据传输、广播和拍摄)相匹配的用户界面提供给用户。显示单元390将与输入到用户界面的至少一个触摸相匹配的模拟信号发送到显示单元控制器395。显示单元390可从用户身体(例如，手指、拇指等)或能够进行触摸的输入部件(例如，触控笔)接收至少一个触摸作为输入。另外，显示单元390可接收关于至少一个触摸的一个触摸的持续移动作为输入。显示单元390可将与输入触摸的持续移动相匹配的模拟信号发送到显示单元控制器395。

根据本公开的实施例，触摸不限于用户的身体或能够在显示单元390上进行触摸的输入部件的触摸，而可包括非接触触摸(例如，显示单元390和用户的身体或能够进行触摸的输入部件之间的可检测距离小于或等于1mm)。在显示单元390中，可检测距离可根据用于识别语音的设备300的性能或结构而改变。

根据本公开的实施例，显示单元390例如包括第一触摸面板390a和第二触摸面板390b。第一触摸面板390a可测量用户身体的一部分的触摸或接近。例如，第一触摸面板390a可被实现为电阻触摸屏、电容触摸屏、红外触摸屏、表面声波触摸屏等。

同时，第二触摸面板390b可测量输入部件(诸如，触控笔)的触摸或接近。例如，可以以电磁辐射(EMR)测量方案来实现第二触摸面板390b。

显示单元控制器395将从显示单元390接收到的模拟信号转换为数字信号(例如，X和Y坐标)，并将数字信号提供给控制器310。控制器310通过使用从显示单元控制器395接收到的数字信号，来控制显示单元390。例如，控制器310可响应于触摸来控制显示单元390选择或执行在显示单元390上显示的快捷图标(未示出)。根据本公开的实施例，显示单元控制器395可被包括在控制器310中。显示单元控制器395例如包括控制第一触摸面板390a的第一触摸面板控制器395a和控制第二触摸面板390b的第二触摸面板控制器395b。

同时，控制器310检测由相机模块350、输入/输出模块360、传感器模块370等以及显示单元390接收的各种用户输入。用户输入的示例可包括输入到用于识别语音的设备300的各种形式的多条信息，诸如用户的触摸、用户的手势、用户的语音、用户眼睛的瞳孔的移动、用户的生物医学信号等。控制器310大体上控制用于识别语音的设备300执行与检测到的用户输入相匹配的预定操作或功能。

图4是示出根据本公开的实施例的用于识别语音的方法的流程图。

参照图4，在步骤S401，用于识别语音的设备基于上下文信息确定非主要语言的类型。在步骤S403，用于识别语音的设备通过使用与确定的非主要语言的类型相匹配的语音识别算法，来识别非主要语言的语音。同时，在步骤S405，用于识别语音的设备通过使用识别语音的结果，来更新上下文信息和语音识别算法中的至少一个。

例如，如上所述，在如图1和图2A至图2D所示的本公开的实施例中，将音素“ch”、“u”、“s”、“aw”和“k”识别为韩语“Chuseok”，并且更新非主要语言数据库。当音素“ch”、“u”、“s”、“aw”和“k”作为输入被接收时，用于识别语音的设备立即将用于识别韩语语音的算法应用于接收到的音素“ch”、“u”、“s”、“aw”和“k”。或者，当音素“ch”、“u”、“s”、“aw”和“k”作为输入被接收时，用于识别语音的设备可立即将接收到的音素“ch”、“u”、“s”、“aw”和“k”识别为韩语“Chuseok”。如上所述，本公开的实施例可提供用于识别具有每个用户的特征的语音的方法。在本示例中，描述了不熟悉韩语的美国人没有将“Chuseok”发音为音素“ch”、“u”、“s”、“aw”和“k”，而是发音为音素“ch”、“u”、“s”、“o”和“k”的情况。在这种情况下，用于识别语音的设备以参照图1所述的方法，将音素“ch”、“u”、“s”、“o”和“k”识别为“Chuseok”，并且音素“ch”、“u”、“s”、“o”和“k”与“Chuseok”相应的信息被用于更新非主要语言数据库。此后，即使当同一用户再次输入音素“ch”、“u”、“s”、“o”和“k”时，用于识别语音的设备也可立即将用于识别韩语语音的算法应用于音素“ch”、“u”、“s”、“o”和“k”，或可立即将音素“ch”、“u”、“s”、“o”和“k”识别为韩语“Chuseok”。因此，在根据本公开的实施例的用于识别语音的方法中，用于识别语音的设备快速确定对于每个用户不同的发音属于非主要语言，并识别对于每个用户不同的发音。

图5是详细示出根据本公开的实施例的用于识别语音的方法的流程图。以下将参照图6A至6F更详细地描述如图5所示的本公开的实施例。图6A至图6F是示出根据本公开的实施例的用于识别语音的方法的用于识别语音的设备的概念示图。

参照图5，在步骤S501，用于识别语音的设备基于上下文信息确定非主要语言的类型。在步骤S503，用于识别语音的设备通过使用与确定的非主要语言的类型相匹配的语音识别算法，来识别非主要语言的语音。

在步骤S511，用于识别语音的设备接收包含多种语言的语音作为输入，并输出识别语音的结果。

例如，如图6A所示，用于识别语音的设备300通过麦克风362接收包含多种语言的语音601作为输入。在本示例中，语音601包括音素“h”、“au”、“w”、“a”、“z”、“yo”、“rr”、“ch”、“u”、“s”、“aw”、“k”、“h”、“aw”、“l”、“i”、“d”、“e”和“i”。

随后，如图6B所示，用于识别语音的设备将与输入语音相应的文本显示在显示单元上。参照图6B，用于识别语音的设备显示识别结果为“How was your two sunholiday？”。如图6B所示，用于识别语音的设备300将音素“ch”、“u”、“s”、“aw”和“k”错误识别为英语单词“two sun”，并在与音素“ch”、“u”、“s”、“aw”和“k”相匹配的位置处输出英语单词“two sun”。

在步骤S513，用于识别语音的设备接收关于识别结果的用户反馈作为输入。这里，用户反馈可以是指示识别的结果合适还是不合适的用户反馈。响应于如图6B所示的错误识别的结果，用户输入指示识别的结果不合适的用户反馈。例如，如图6C所示，用户输入触摸显示单元两次的手势610，从而输入指示识别的结果不合适的用户反馈。同时，描述触摸显示单元两次的手势610仅用于示出性的目的，并且本领域技术人员将容易地理解不存在对用于输入用户反馈的方法的限制。

或者，用户可仅指示被错误识别的部分。例如，用户可在显示“two sun”的屏幕的部分处输入拖动手势。用于识别语音的设备识别出错误发生在识别与“two sun”相匹配的音素“ch”、“u”、“s”、“aw”和“k”中，其中，在“two sun”上用户反馈已被输入。

用于识别语音的设备在步骤S515基于输入的用户反馈来更新上下文信息和语音识别算法中的至少一个。例如，在图6C中，用于识别语音的设备基于关于在将音素“ch”、“u”、“s”、“aw”和“k”识别为英语单词“two sun”中的错误的信息，来更新上下文信息和语音识别算法中的至少一个。

同时，用于识别语音的设备可重新识别输入语音，并例如可显示如图6D所示的重新识别的结果。参照图6D，用于识别语音的设备显示识别的结果为“How was your Chuseokholiday？”。参照图6E，用户可通过如由标号620表示的触摸显示单元一次，来输入识别的结果合适的用户反馈。响应于输入的用户反馈，用于识别语音的设备可如图6F所示最后确定并显示识别的结果。

用于识别语音的设备基于将音素“ch”、“u”、“s”、“aw”和“k”识别为韩语单词“Chuseok”合适的信息，来更新上下文信息和语音识别算法中的至少一个。因此，此后，当音素“ch”、“u”、“s”、“aw”和“k”被作为输入接收时，在从识别的结果中排除英语单词“twosun”的同时，用于识别语音的设备立即将音素“ch”、“u”、“s”、“aw”和“k”识别为韩语单词“Chuseok”，并提供已从音素“ch”、“u”、“s”、“aw”和“k”识别出的韩语单词“Chuseok”。

如上所述，用于识别语音的设备基于识别语音的结果来更新非主要语言数据库。用于识别语音的设备可基于用户反馈来更新非主要语言数据库。相反，用于识别语音的设备可无需基于用户反馈而更新非主要语言数据库。

图7是示出根据本公开的另一实施例的用于识别语音的方法的流程图。

在步骤S701，用于识别语音的设备基于上下文信息确定非主要语言的类型并识别输入的语音。在步骤S703，用于识别语音的设备输出识别的结果。在步骤S705，用于识别语音的设备接收指示识别的结果合适还是不合适的用户反馈作为输入。当用户反馈指示识别的结果合适(在步骤S707中的是)时，在步骤S711，用于识别语音的设备基于相关识别的结果来更新非主要语言数据库。当用户反馈指示识别的结果不合适(在步骤S707中的否)时，在步骤S709，用于识别语音的设备从非主要语言数据库中排除相关识别的结果，并重新识别输入的语音。

上述处理能够实现用于识别具有每个用户的特征的语音的方法。用于识别语音的设备可为每个用户不同地设置用于识别语音的方法。或者，用于识别语音的设备可将用于识别具有特定用户的特征的语音的方法，发送到用于识别语音的另一设备。因此，即使当特定用户使用用于识别语音的另一设备时，特定用户也可使用用于识别具有特定用户的特征的语音的方法，而无需任何改变。或者，用于识别语音的设备可从外部接收用于识别具有特定用户的特征的语音的方法，并可使用它。换言之，用于识别语音的方法可将非主要语言数据库发送到外部，或可从外部接收非主要语言数据库。

图8是示出根据本公开的实施例的在用于识别语音的方法中基于各条上下文信息确定非主要语言的类型的处理的流程图。在下文中，将参照图8描述用于基于各条上下文信息确定非主要语言的类型的处理。

在步骤S801，用于识别语音的设备从输入的语音中识别主要语言和非主要语言。

在步骤S803，用于识别语音的设备确定是否在一个句子中提及了国家的名称。当用于识别语音的设备确定国家的名称被提及时(在步骤S803中的是)时，在步骤S811，用于识别语音的设备可确定相关国家的语言为非主要语言类型。

在本示例中，描述了用户将说“Are there any direct flights from Incheon,South Korea to Reykjavik,Iceland？”的用户语音输入到用于识别语音的设备的情况。另外，用于识别语音的设备将英语设置为主要语言。用于识别语音的设备识别“Incheon”和“Reykjavik”属于非主要语言。同时，用于识别语音的设备确定在输入的语音中提及了国家名称“South Korea”和国家名称“Iceland”。因此，用于识别语音的设备确定与“SouthKorea”邻近的“Incheon”所属的非主要语言的类型为韩语，并确定与“Iceland”邻近的“Reykjavik”所属的非主要语言的类型为冰岛语。在步骤S805，用于识别语音的设备确定全球定位系统(GPS)坐标或位置信息是否存在。当GPS坐标或位置信息存在(在步骤S805中的是)时，在步骤S811，用于识别语音的设备基于GPS坐标或位置信息确定非主要语言的类型。同时，终端装置可将输入的语音发送到服务器，并且随后服务器可识别输入的语音。在此示例中，服务器可接收终端装置的GPS坐标。另外，服务器可基于接收到的终端装置的GPS坐标确定非主要语言的类型。

例如，用于识别语音的设备通过使用GPS坐标识别用于识别语音的设备所在的国家。当识别出的国家的语言未被设置为主要语言时，用于识别语音的设备确定识别出的国家的语言为非主要语言。另外，用于识别语音的设备通过使用用于识别语音的设备所在的地方的特点，来确定用于识别语音的设备位于哪个地方。例如，当用于识别语音的设备所在的地方为法国餐馆时，用于识别语音的设备确定非主要语言为法语。用于识别语音的设备可通过使用GPS坐标识别位置信息，或可基于由子通信模块330识别出的Wi-Fi信道特性、标识符等识别位置信息。

在步骤S807，用于识别语音的设备确定对话历史是否包括语言指示物。当对话历史包括语言指示物(在步骤S807中的是)时，在步骤S811，用于识别语音的设备基于对话历史来确定非主要语言的类型。更具体地，用于识别语音的设备确定对话历史是否包括特定国家的名称。当与特定国家的名称相匹配的语言不是主要语言时，用于识别语音的设备确定与特定国家的名称相匹配的语言与非主要语言的类型相应。

例如，用户与用于识别语音的设备进行对话。用于识别语音的设备提供与用户已输入的语音相匹配的输出。具体地，用户可输入说“Which city will hold the winterOlympics in 2018？”的用户的语音。用于识别语音的设备识别输入的语音，并分析输入的语音表示的意思。用于识别语音的设备提供与用户已输入的语音相匹配的输出，例如可提供输出“Pyeongchang,the Republic of Korea”。用于识别语音的设备可提供以文本的形式显示的“Pyeongchang,the Republic of Korea”。或者，用于识别语音的设备可基于TTS以语音的形式提供“Pyeongchang,the Republic of Korea”。用于识别语音的设备存储它本身与用户之间的对话历史。具体地讲，用于识别语音的设备存储包括单词“the Republicof Korea”和单词“Pyeongchang”的一个句子，并存储与“the Republic of Korea”相应的音素和与“Pyeongchang”相应的音素。

此后，当用于识别语音的设备接收具有作为非主要语言的音素的与“Pyeongchang”相应的音素的语音作为输入时，用于识别语音的设备确定“Pyeongchang”所属的非主要语言的类型为韩语，并将识别韩语语音的算法应用于“Pyeongchang”。

在步骤S809，用于识别语音的设备确定更新的非主要语言数据库是否存在。当更新的非主要语言数据库存在(在步骤S809中的是)时，在步骤S811，用于识别语音的设备基于更新的非主要语言数据库确定非主要语言的类型。更具体地，用于识别语音的设备确定在非主要语言数据库中是否存在识别非主要语言的历史。当在非主要语言数据库中存在识别非主要语言的历史时，用于识别语音的设备立即基于与历史相应的识别的结果识别非主要语言，并输出识别非主要语言的结果。相反，当更新的非主要语言数据库不存在(在步骤S809中的否)时，在步骤S813，用于识别语音的设备以单种语言(即，主要语言)对语音进行解码。

已参照图5描述了用于基于更新的非主要语言数据库确定非主要语言的类型的方法。如上所述，根据本公开的实施例的用于识别语音的方法可被实现为具有每个用户的特征的语音识别方法。具体地讲，根据本公开的实施例的用于识别语音的方法可被实现为基于每个用户的声音、语法/语言模式和行为模式中的至少一个并具有每个用户的特征的语音识别方法。

例如，用户的声音与语音特征相关，并通过对每个用户发音的独立的音素模型或者音素的发生概率进行建模来判定。另外，语法/语言模式通过识别最终解码的文本的语法来判定。另外，行为模式可与每个用户讲多种语言的方式相关。

如上所述，根据本公开的实施例的用于识别语音的方法基于各条上下文信息检测非主要语言的类型。

图9是示出根据本公开的实施例的用于识别包含多种语言的语音的方法的流程图。

参照图9，在步骤S901，用于识别语音的设备接收包含多种语言的语音作为输入。在如图9所示的本公开的实施例中，语音涵盖第一语言和第二语言。用于识别语音的设备将第一语言设置为主要语言。在步骤S903，用于识别语音的设备通过使用第一语音识别算法来识别输入语音的第一语音，其中，第一语音识别算法是与已被设置为主要语言的第一语言相匹配的语音识别算法。

在步骤S905，用于识别语音的设备基于识别第一语音的结果来识别主要语言和非主要语言。例如，如上所述，用于识别语音的设备基于每个音素的相似度(每个音素的相似度基于第一语音识别算法)，来确定具有小于预设阈值的相似度的每个音素属于非主要语言。

用于识别语音的设备在步骤S907确定非主要语言的类型，例如确定非主要语言的类型是第二语言。在步骤S909用于识别语音的设备通过使用与第二语言相匹配的第二语音识别算法，来识别输入语音的第二语音。在步骤S911，用于识别语音的设备输出基于识别第一语音的结果和识别第二语言的结果的识别语音的结果。

图10是示出根据本公开的实施例的文本到语音(TTS)方法的流程图。

在步骤S1001，用于识别文本的设备接收包括多种语言的字符的文本作为输入。在如图10所示的本公开的实施例中，文本包括第一语言的字符和第二语言的字符。用于识别文本的设备将第一语言设置为主要语言。在步骤S1003，用于识别文本的设备通过使用第一文本识别算法识别输入文本的第一文本，其中，第一文本识别算法是与已被设置为主要语言的第一语言相匹配的文本识别算法。

在步骤S1005，用于识别文本的设备基于识别第一文本的结果来识别主要语言和非主要语言。例如，用于识别文本的设备基于每个字符的相似度(每个字符的相似度基于第一文本识别算法)，来确定具有小于预设阈值的相似度的每个字符属于非主要语言。

用于识别文本的设备在步骤S1007确定非主要语言的类型，例如确定非主要语言的类型是第二语言。用于识别文本的设备与如上所述的用于识别语音的方法相似地确定非主要语言的类型。例如，用于识别文本的设备可基于输入文本是否包括特定国家的名称，文本记录历史是否包括语言指示物、上下文信息和/或GPS/位置信息，来确定非主要语言的类型。

在步骤S1009，用于识别文本的设备通过使用与第二语言相匹配的第二文本识别算法，来识别输入文本的第二文本。在步骤S1011，用于识别文本的设备输出基于识别第一文本的结果和识别第二文本的结果的识别文本的结果。具体地讲，用于识别文本的设备以语音的形式输出识别第一文本的结果和识别第二文本的结果。

可理解本公开的实施例可在软件、硬件或它们的组合中实现。任何这样的软件可例如被存储在易失性或非易失性存储装置(诸如ROM)、存储器(诸如RAM、存储芯片、存储器件、或存储器IC)或可记录光学或磁介质(诸如CD、DVD、磁盘或磁带)中，而不考虑它的将被删除的能力或它的将被重记录的能力。另外，将理解可通过包括控制单元和存储器的计算机或便携式终端实现本公开的示例性实施例，其中，存储器可以是可由适于存储包括用于实现本公开的示例性实施例的一个或更多个程序的机器读取的存储介质的示例。因此，本公开包括用于实现在本说明书的权利要求中描述的设备和方法的代码的程序和用于存储所述程序的机器(计算机等)可读存储介质。此外，可通过任意介质(诸如通过线缆或无线连接传输的通信信号)来电传输如上所述的程序，并且本公开适当地包括等同于所述介质的事物。

此外，所述装置可从无线地或通过线缆连接到装置的程序提供设备接收程序，并存储接收到的程序。所述程序提供设备可包括程序、存储器、通信单元和控制单元，其中，程序包括用于执行本公开的示例性实施例的指令，存储器存储本公开的示例性实施例所需的信息等，通信单元执行与电子设备的有线或无线通信，控制单元响应于来自于电子设备的请求或自动地将相应程序发送到发送/接收设备。

尽管已参照示例性实施例描述了本公开，但是各种改变和修改可被建议给本领域技术人员。意在使本公开包含落在权利要求的范围内的这样的改变和修改。

31页详细技术资料下载

用于识别语音和文本的设备和方法

相关技术

网友询问留言