学习辅助工具

文档序号：817235 发布日期：2021-03-26 浏览：14次 >En<

阅读说明：本技术 学习辅助工具 (Learning aid ) 是由艾德里安·德维特于 2019-07-16 设计创作，主要内容包括：描述了一种用于学习阅读文本的方法。该方法包括：接收包括有声文本的音频；检测有声文本中包括的不正确的发声；以及提供一个或更多个视觉标记以指示已检测到的不正确的发声,从而学会阅读文本。该方法可以进一步包括通过一个或更多个计算机网络发送接收到的音频和/或通过一个或更多个计算机网络提供正确的发声。该检测可以使用个人计算设备或使用远程计算机进行。另外,该方法可以进一步包括提供体现正确的发声的声音。还描述了用于学习阅读文本的设备、计算机系统和计算机程序产品。(A method for learning to read text is described. The method comprises the following steps: receiving audio comprising voiced text; detecting an incorrect utterance included in the voiced text; and providing one or more visual indicia to indicate that an incorrect utterance has been detected to learn to read the text. The method may further include transmitting the received audio over one or more computer networks and/or providing the correct utterance over one or more computer networks. The detection may be performed using a personal computing device or using a remote computer. Additionally, the method may further comprise providing a sound embodying the correct utterance. An apparatus, computer system and computer program product for learning to read text are also described.)

学习辅助工具

技术领域

本发明涉及学习辅助工具。更具体地，本发明涉及用于学习阅读文本的学习辅助工具。可以阅读文本以学习阅读或学习语言。

背景技术

一个人一旦具有阅读能力，便可以获取信息并学习许多其他东西。当单词的书面字符没有按照发音来发音或发声时，阅读会变得更加困难。

授予玛丽·安·科利亚诺(MaryAnn Cogliano)的美国专利6405167和授予同一发明人并转让给Dreamations LLS的美国专利7110945和7366664公开了交互式电子书。电子书包括麦克风、语音识别单元和突出显示设备。当特定单词正确发音时，突出显示设备(例如发光二极管)会亮起。还可以提供单词的音频输出。该突出显示设备被陈述为具有通过口头对单词的一部分进行发音并同时突出显示该部分来辅助儿童对单词之一的发音的能力。

仍然需要改进的或替代性的学习辅助工具。

在本说明书中对任何现有技术的引用不是也不应被认为是对现有技术形成公知常识的一部分的承认或任何形式的暗示。

发明内容

通常，本发明的实施例涉及学习辅助工具。本发明针对用于学习阅读文本的方法和设备。

在广义上，本发明涉及检测文本的不正确的发声并提供正确的发声。

在第一形式中，尽管其不需要是唯一的或实际上最广泛的形式，但是本发明在于一种用于学习阅读文本的方法，该方法包括：

接收包括有声文本的音频；

检测有声文本中包括的不正确的发声；以及

提供一个或更多个视觉标记以指示已检测到的不正确的发声，从而学会阅读文本。

该方法可以进一步包括：通过一个或更多个计算机网络发送接收到的音频和/或通过一个或更多个计算机网络提供正确的发声。

根据第一形式的检测可以使用个人计算设备或使用远程计算机。个人计算设备可以包括接收音频、检测不正确的发声并提供一个或更多个视觉标记的设备。个人计算设备可以包括用于检测的一个或更多个处理器。

第一方面的方法可以进一步包括：显示要发声的文本。该显示可以在屏幕上。

第一方面的方法可以进一步包括：通过扬声器提供体现正确的发声的声音。扬声器可以包括在个人计算设备上。

在第二种形式中，本发明提供了一种用于学习阅读文本的设备，该设备包括：

用于显示要阅读的文本的屏幕；

用于接收要阅读的文本的发声的输入；

一个或更多个计算机处理器，用于检测接收到的发声中包括的不正确的发声；以及

视觉输出，用于提供一个或更多个视觉标记以指示已检测到不正确的发声。

第二形式的设备可以进一步包括：检测设备上的不正确的发声。该检测可以使用一个或更多个处理器。

第二形式的设备可以进一步包括一个或更多个发射器、收发器或接收器，以通过一个或更多个计算机网络传达文本的发声和/或文本的正确的发声。

第二形式的设备可以包括音频输出，该音频输出用于产生体现与检测到的不正确发声相关联的文本的正确发声的声音。

第二方面的设备可以包括个人计算设备。个人计算设备可以包括智能电话或平板计算机。该个人计算设备可以包括：Android家庭设备；iOS(或iPhone OS)设备；MicrosoftWindows Phone设备；虚拟现实设备，例如Microsoft Hololens虚拟现实设备；数字媒体播放器设备，例如Apple TV设备，Android TV设备或ROKU设备；微型控制台，例如NexusPlayer；SHIELD Android TV，Apple TV。平板计算机可以包括诸如Galaxy笔记本的Android平板计算机，或者诸如iPad的iOS平板计算机。智能电话可以包括诸如Galaxy智能电话的Android家庭智能电话，或者诸如iPhone的iOS智能电话。个人计算设备可以将要阅读的文本投影到例如纸质书籍或其他表面上，或将照相机与书籍一起使用。

在第三形式中，本发明提供了一种用于学习阅读文本的计算机系统，该计算机系统包括：

一个或更多个个人计算设备，包括：屏幕，用于显示要阅读的文本；输入，用于接收要阅读的文本的发声；以及视觉输出，用于提供一个或更多个视觉标记以指示已检测到不正确的发声；以及

一个或更多个服务器计算机，包括一个或更多个计算机处理器，该一个或更多个计算机处理器用于从一个或更多个个人计算设备接收文本的发声并检测接收到的发声中包括的不正确的发声。

第三形式的一个或更多个服务器计算机可以进一步提供文本的所述正确的发声。

第三形式的一个或更多个个人计算设备可以进一步包括音频输出，用于产生体现与检测到的不正确的发声相关联的文本的正确的发声的声音。

第三形式的计算机系统可以包括一个或更多个数据库，该一个或更多个数据库包括文本的正确发声。

在第四形式中，本发明提供一种计算机程序产品，包括：

计算机可用介质和体现在所述计算机可用介质上的用于学习阅读文本的计算机可读程序代码，计算机可读程序代码包括：

计算机可读程序代码设备(i)，被配置为使个人计算设备接收包括有声文本的音频；

计算机可读程序代码设备(ii)，被配置为使个人计算设备检测有声文本中包括的不正确的发声；以及

计算机可读程序代码设备(iii)，被配置为使个人计算设备产生一个或更多个视觉标记，以指示已检测到不正确的发声。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(iv)，被配置为使个人计算设备提供与检测到的不正确发声相关联的文本的正确发声。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(v)，被配置为使个人计算设备通过一个或更多个计算机网络发送接收到的音频。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(vi)，被配置为使个人计算设备使用一个或更多个处理器来处理接收到的音频，以检测不正确的发声。一个或更多个处理器可以包括在个人计算设备中，该一个或更多个处理器接收音频、检测不正确的发声并引起一个或更多个视觉标记的产生。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(vii)，被配置为使个人计算设备通过一个或更多个计算机网络提供和/或接收正确的发声。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(viii)，被配置为使个人计算设备显示要发声的文本。该显示可以在屏幕上。

根据第四形式的计算机程序产品可以进一步包括：

计算机可读程序代码设备(ix)，被配置为使个人计算设备通过扬声器提供正确的发声。

根据以上任一方面，对不正确的发声的检测可以包括流式方法(streamedmethod)、唤醒词或停用词方法或音素声音方法(phoneme sound method)。

流式方法可以包括：检测语音词与有声文本中的下一个词之间的同音异义词匹配。

流式方法可以包括：匹配一个或更多个最小对立体(minimal pair)。

流式方法可以进一步包括策划的不匹配列表。该列表可以用于控制严格度。

唤醒词方法可以包括轮流唤醒词。轮流唤醒词可以包括用文本中的下一个唤醒替换当前唤醒词。唤醒词可以包括唤醒音节、唤醒声音、唤醒声音组或唤醒句子。当唤醒声音包括唤醒音节时，唤醒音节可以包括多个声音以解释不同的口音。

唤醒词检测可以包括与线性化文本的比较。线性化文本可以表示为一个或更多个标志(token)。比较可以包括将接收到的音频与线性化文本进行比较的预测模型。比较可以与概率阈值进行比较。可以调整概率阈值。如果音频与线性化文本不匹配，则可以提供一个或更多个视觉标记。如果音频与线性化文本匹配，则可以从线性化文本中获取下一个标志以进行比较。

流式检测可以包括将接收到的音频转换成文本数据输出。文本数据输出可以包括接收到的音频的多种解释。

流式检测可以进一步包括将文本数据输出与线性化的文本进行匹配。匹配可以包括在多种解释内的匹配。如果文本数据输出与线性化文本不匹配，则可以提供一个或更多个视觉标记。如果文本数据输出与线性化文本匹配，则将下一个接收到的音频转换为文本数据输出。

音素声音方法可以包括音素声音的分类。可以通过神经网络进行分类。音素声音可以基于音素字母。在特定实施例中，音素声音可以基于ARPABET音素字母。分类可以包括将接收到的音频与一个或更多个音素标签以及音素的概率进行分类。该分类可以进一步包括查询包括单词及其音素的查找表。在查找表中，单词可能具有多个音素字符串。这些多个字符串可以对应于具有不同口音或其他不同发声的单词的各种发音。

音素声音方法可以进一步包括：使用接收到的音频中包括的下一个单词来查询查找表。随着对音素进行发声和分类，接收到的音频中包括的每个音素可以与音素字符串匹配。一旦单词音素字符串之一与发声音素匹配，就可以读取该单词。然后可以查找下一个要读取的单词。

音素声音方法可以进一步包括：查找当前区域或多个区域的口音和发音的变化。

根据以上任一方面，一个或更多个计算机处理器可以包括远程计算机处理器，该远程计算机处理器通过计算机网络连接到输入、视觉输出和/或音频输出。远程计算机处理器可以包括在服务器计算机中。

根据以上任一方面，输入可以包括一个或更多个麦克风。

根据以上任一方面，音频输出可以包括一个或更多个扬声器。

根据以上任一方面，不正确的发声可以包括发音错误、不合规的带口音的发声、不正确的单词和/或不正确的音调。不合规的带口音的发声可能包括不是文本的正确发声的口音中的发声。文本的正确的发声可以包括以选定的口音发声。不正确的音调可能包含在诸如普通话、粤语、另一种汉语方言或越南语的音调语言中。

选定的口音可以包括美国人、英国人、澳大利亚人、新西兰人、加拿大人、南非人或英国人的口音。选定的口音可能包括高德语、标准日语(hyoujungo)或标准普通话。

根据上述方面中的任一方面，所显示的文本可以包括母语显示和转换后的显示。转换后的显示可能在原始显示之上或之下。原始显示可以包括一个或更多个母语字符。一个或更多个母语字符可以包括一个或更多个字母或象形文字。一个或更多个象形文字可以包括中文、日语或另一种语言字符。在一个实施例中，母语显示可以包括一个或更多个中文字符以及相应的罗马化。相应的罗马化可以包括拼音(汉语拼音罗马化)。转换后的显示可能会指示音调。

根据以上任一方面，一个或更多个视觉标记可以包括突出显示与检测到的不正确的发声相关联的文本。与检测到的不正确的发声相关联的文本可以包括一个或更多个单词。一个或更多个单词可以包括一个或更多个字符。一个或更多个字符可以包括一个或更多个字母或象形文字。一个或更多个象形文字可以包括中文、日语或另一种语言字符。

根据以上任一方面，学习阅读文本可以是学习阅读或学习语言。阅读的学习可以是儿童通常所进行的阅读书面文本的初始学习。学习语言可以是可能能够阅读其母语的人对第二语言或其他语言的学习。

根据以上任一方面，文本可以是从另一种语言的翻译。

根据以上任一方面，屏幕可以包括触摸屏。

根据以上任一方面，触摸突出显示的显示器可以启动声音的产生，包括文本的正确发声。声音可以产生一、二、三、四、五、六、七、八、九、十或十或更多次。在一个实施例中，声音可以产生三次。

如果触摸了突出显示的显示器，则突出显示的单词、术语或短语的期望发音的记录被播放一次或多次。文本可以是书籍或可以从库中选择的其他著作的一部分或全部。该库中可能装有原始的、免费可获取的或许可的作品。可以基于兴趣、水平或有针对性的学习向用户进行推荐。

根据以上任一方面，可以包括筛选器以确定用户的水平。筛选器可以包括标准化文本或变化的难度水平的集合或子集。

还根据以上任一方面，可以提供一个或更多个贴纸、奖励、徽标或徽章。可以在句子、页面、章节、书籍或书籍数量完成时提供一个或更多个贴纸、奖励、徽标或徽章。

根据以上任一方面，可以跟踪用户的进度。

根据以上任一方面，可以包括库。该库可以包括在通过计算机网络连接到一个或更多个个人计算设备和/或服务器计算机的数据库中。库可以包括多本书。库可以进一步包括每本书的线性化文本。

根据以下详细描述，本发明的其他方面和/或特征将变得显而易见。

附图说明

为了使本发明易于理解并付诸实践，现在将参考关于附图的本发明的实施例，其中相同的附图标记指代相同的元件。这些附图仅作为示例提供，其中：

图1A、1B和1C是示出根据本发明的方法的一个实施例的流程图。

图1D是示出根据本发明的一种检测不正确的发声的方法的流程图。

图1E是示出根据本发明的另一种检测不正确的发声的方法的流程图。

图2A是示出根据本发明的个人计算设备的一个实施例和计算机系统的一个实施例的框图。

图2B是示出根据本发明的一个实施例的计算机处理器和存储器的框图。

技术人员将理解，附图中的元件是为了简单和清楚而示出的，并且不一定按比例绘制。例如，附图中一些元件的相对尺寸可以被扭曲以帮助提高对本发明的实施例的理解。

具体实施方式

本发明的实施例涉及一种学习辅助工具，其可以用于学习阅读文本。本发明具有显著的优势，因为它可以用于学习阅读但也可以学习语言，例如第二语言。

本发明至少部分地基于意外发现，即语音到文本转换的问题是日常语音中存在不可见或无法常规检测到的歧义。这些歧义的例子包括各种口音(例如，新西兰人说五后的数字为“六(six)”或“吸(sucks)”)、同音异义词以及句子中一组声音可能被误解为不同单词的统计概率，因为声音中没有间隙，就像书面语中有空格一样。人可以理解机器无法理解的语音的原因是该人拥有并应用了上下文。人们对所讲的内容具有记忆力和理解力，能够根据讲话者的口音进行调整。

一种可能的口音资源是语音口音档案库，可以在http://accent.gmu.edu/browse_language.php上在线查看。

尽管将主要参考英语进行解释，但是本发明也可以应用于其他语言，包括普通话、粤语和日语。实际上，本发明可以应用于具有书面形式的任何语言。

这突出了本发明的另一个优点，即它可以被应用于学习或学习语言。阅读的学习可以是儿童通常所进行的阅读书面文本的初始学习。学习语言可以是可能能够阅读其母语的某人对第二语言或另一语言的学习，例如以普通话为母语的人学习英语。

本发明在应用于英语时是特别有利的，英语由于不是表音式语言并且具有公认规则的许多例外而对学习者提出了特殊的挑战。

当应用于使用诸如英语和中文以及其他亚洲语言和方言之类的非表音字母的语言时，本发明还具有特别的优势。

在一个实施例中，本发明使用语音识别来帮助用户阅读。用户触摸电子书或其他电子文本显示中的一行，该行突出显示，其余页面变暗。用户大声读出该行，并且电子书仅通过突出显示该行中未被正确读取的部分来做出响应。如果用户对单词发音错误或单词发声不正确，则会进一步突出显示该单词以帮助用户专注于该单词。

本发明可以使用多种语音识别方法或者它们的组合。第一种是采用口语单词，然后以流式方法将其转换为文本。此方法同时具有多个转换。它将具有高概率的单词和句子，以及具有较低概率的单词和句子的额外数据。第二种方法是使用所谓的“停用词”或“唤醒词”。例如，有人说“嘿Siri”，然后就发出了语音识别开始信号；之后的任何单词都将使用前一个系统进行转换。通常，唤醒词系统比流式方法使用更少的处理。通常，唤醒词系统需要三个音节才能识别出已经说过的话。第三种是使用音素字母的音素声音方法。

在一个实施例中，唤醒词方法对于本发明可能是最兼容的。但是，现有的现成唤醒词系统的词汇量有限。

唤醒词方法可以包括轮流的唤醒词，当单词被读取时，新的唤醒词被书中的下一个单词替换。

在唤醒词方法中，可以起诉不同的原子性或惯例。例如，可能有唤醒音节、唤醒声音、唤醒声音组或唤醒句子。唤醒音节将具有多种声音来说明口音。

在另一个实施例中，使用流式方法。可以使用其他技术增强流式方法，以提高准确性和限制。

通过流是指首先使用具有两个流的常规语音识别。音频数据流作为到语音处理器的输入，以及语音文本数据的输出。文本数据的输出是单词，可以从音素字符串中进行处理。文本的输出可以具有已识别语音的解释的变化。该处理可以通过互联网或在计算设备中发生。

流式方法可以包括检测语音单词和下一个单词之间的同音异义词匹配。然后可以匹配最小对立体。

最小对立体是指特定语言中的一对单词或短语，其仅在一个语音要素(例如音素、调位或时态)上不同，并且具有不同的含义。最小对立体可以用来证明两个音(不同的语音、声音或手势)是该语言中的两个单独的音素。

流式方法还可以包括手工策划的不匹配列表。手工策划的不匹配列表可用于设置期望的严格度。之所以使用这种方法，是因为有时需要在两个接近的单词之间进行区分。最小对立体允许一个声音更改，例如，“她(she)”变为“他(he)”或“海(sea)”或“看见(see)”或“奇(chi)”。策划的不匹配的一个例子是“她”和“他”。这样做是因为读者可能会混淆这些单词，因此期望某些单词具有更高的严格度。另一个常见错误是“坐(sit)”或“坐下(sits)”。学习者在阅读“坐下”时可能会读“坐”。出于这个原因，在英语中，许多最小对立体将在单词的末尾包含“s”。出于这个原因，许多将是不匹配的，但由于例外并非所有都是不匹配的。

图1A示出了根据本发明的方法100的一个实施例。方法100包括接收110包括有声文本的音频。然后检测120有声文本中包括的不正确的发声。在提供130指示已检测到的不正确的发声的一个或更多个视觉标记之前，从而学习阅读文本。

检测120可以与用户的个人计算设备201一起或由远程服务器计算机291进行。

如图1B所示，方法100可以进一步包括通过一个或更多个计算机网络发送140所接收的音频和/或通过一个或更多个计算机网络提供正确的发声。

如图1C所示，方法100可进一步包括通过扬声器提供150体现正确的发声的声音。

还没有示出要被发声的文本的显示器160。显示器可以在诸如触摸屏的屏幕上。

不正确的发声的检测120可以包括流式方法或唤醒词或停用词方法。有利地，流式方法可以进一步包括策划的不匹配列表，该不匹配列表提供两个接近单词之间的区别。

图1D示出了包括唤醒词方法170的检测120的一个实施例，该唤醒词方法170包括具有线性化文本的比较172。比较可以包括将接收到的音频与线性化文本进行比较174的预测模型。线性化文本可以被表示176为一个或更多个标志。

比较174可以与概率阈值178进行比较。概率阈值可以被调整或是可调节的180(未示出)。如果音频与线性化文本不匹配，则可以提供130一个或更多个视觉标记。如果音频与线性化文本匹配，则可以从线性化文本中获取182下一个标志以进行比较170。

音素声音方法可以包括音素声音的分类。可以通过神经网络进行分类。音素声音可以基于音素字母，例如在以下统一资源定位符(URL)中描述的ARPABET音素字母：https://en.wikipedia.org/wiki/ARPABET。根据本文的教导和示例，技术人员可以容易地选择其他合适的音素字母。

该分类可以包括将接收到的音频与一个或更多个音素标签以及该音素的概率进行分类。该分类可以进一步包括查询包括单词及其音素的查找表。在查找表中，一个单词可能有多个音素字符串。这些多个字符串可以对应于具有不同口音或其他不同发声的单词的各种发音。

然后，使用接收到的音频中包含的下一个单词来查询查找表。随着对音素进行发声和分类，接收到的音频中包括的每个音素可以与音素字符串匹配。一旦单词音素字符串之一与发声因素匹配，就可以读取该单词。然后可以查找下一个要读取的单词。

音素声音方法可以进一步包括查找当前区域或多个区域的口音和发音的变化。

图1E示出了包括流式检测184的检测120的另一实施例，流式检测184包括将接收到的音频转换186为文本数据输出。文本数据输出可以包括接收到的音频的多种解释。

流式检测可以进一步包括将文本数据输出与线性化文本进行匹配188。匹配188可以包括多种解释内的匹配。如果文本数据输出与线性化文本不匹配，则可以提供130一个或更多个视觉标记。如果文本数据输出与线性化文本匹配，则将下一个接收到的音频转换186为文本数据输出。

一个或更多个计算机处理器可以包括远程计算机处理器，该远程计算机处理器通过计算机网络连接到输入、视觉输出和/或音频输出。远程计算机处理器可以包括在服务器计算机中。

不正确的发声可能包括发音错误、不合规的带口音的发声、不正确的单词或不正确的音调。不合规的带口音的发声可能包括不是文本的正确的发声的口音中的发声。文本的正确的发声可以包括以选定的口音发声。不正确的音调可能包括在诸如普通话、粤语、另一种汉语方言或越南语的音调语言中。

选定的口音可以包括美国人、英国人、澳大利亚人、新西兰人、加拿大人、南非人或英语人的口音。选定的口音可能包括高德语、标准日语(hyoujungo)或标准普通话。

显示的文本可以包括母语显示和转换后的显示。转换后的显示可能在原始显示之上或之下。原始显示可以包括一个或更多个母语字符。一个或更多个母语字符可以包括一个或更多个字母或象形文字。一个或更多个象形文字可以包括中文、日语或另一种语言字符。在一个实施例中，母语显示可以包括一个或更多个中文字符以及相应的罗马化。相应的罗马化可以包括拼音(汉语拼音罗马化)。转换后的显示可能会指示音调。

触摸突出显示的显示器可以启动声音的产生，包括文本的正确的发声。声音可以产生一、二、三、四、五、六、七、八、九、十或十或更多次。在一个实施例中，声音可以产生三次。

可以提供筛选器以确定用户的水平。筛选器可以包括标准化文本或变化的难度水平的集合或子集。

可以提供一个或更多个贴纸、奖励、徽标或徽章。可以在句子、页面、章节、书籍或书籍数量完成时提供一个或更多个贴纸、奖励、徽标或徽章。

可以跟踪用户的进度。

尽管未示出，但是可以例如在通过计算机网络连接到一个或更多个个人计算设备和/或服务器计算机的数据库中包括库。库可以包括多本书。库可以进一步包括每本书的线性化文本。

在图2A和图2B中示出了适用于本发明的计算机系统200和个人计算设备201的一个实施例。

在图2A和图2B中所示的实施例中，计算机系统200包括个人计算设备201，个人计算设备201包括输入设备和输出设备；输入设备诸如键盘202、鼠标指针设备203、扫描仪226、外部硬盘驱动器227和麦克风280；输出设备包括打印机215、显示设备214和扬声器217。在一些实施例中，视频显示器214可以包括触摸屏。

调制器-解调器(调制解调器)收发器设备216可被个人计算设备201用于经由连接221与通信网络220进行通信。网络220可以是广域网(WAN)，例如因特网、蜂窝电信网络或专用WAN。通过网络220，个人计算设备201可以连接到其他类似的个人设备290或服务器计算机291。在连接221是电话线的情况下，调制解调器216可以是传统的“拨号”调制解调器。可替代地，在连接221是大容量(例如，电缆)连接的情况下，调制解调器216可以是宽带调制解调器。无线调制解调器也可以用于与网络220的无线连接。

个人计算设备201通常包括至少一个处理器205和例如由半导体随机存取存储器(RAM)和半导体只读存储器(ROM)形成的存储器206。个人计算设备201还包括多个输入/输出(I/O)接口，包括：耦接到视频显示器214、扬声器217和麦克风280的音频-视频接口207；用于键盘202、鼠标203、扫描仪226和外部硬盘驱动器227的I/O接口213；以及用于外部调制解调器216和打印机215的接口208。在一些实施方式中，调制解调器216可以被并入个人计算设备201内，例如在接口208内。个人计算设备201还具有本地网络接口211，该本地网络接口211经由连接223许可个人设备200到称为局域网(LAN)的本地计算机网络222的耦接。

如还示出的，本地网络222还可以经由连接224耦接到广域网220，该连接224通常将包括所谓的“防火墙”设备或具有类似功能的设备。接口211可以由以太网电路卡、蓝牙无线装置或IEEE 802.11无线装置或其他合适的接口形成。

I/O接口208和213可以提供串行和并行连接中的一者或两者，前者通常根据通用串行总线(USB)标准来实现并且具有对应的USB连接器(未示出)。

提供了存储设备209，它们通常包括硬盘驱动器(HDD)210。也可以使用其他存储设备，例如外部HD 227、磁盘驱动器(未示出)和磁带驱动器(未示出)。通常提供光盘驱动器212以用作数据的非易失性源。诸如光盘(例如：CD-ROM、DVD、蓝光光盘)、USB-RAM、外部硬盘驱动器和软盘之类的便携式存储设备例如可以用作到个人设备200的适当数据源。至少一个服务器计算机291通过网络220向个人设备200提供另一数据源。

个人计算设备201的组件205至213通常以导致个人设备200的常规操作模式的方式经由互连总线204传达。在图2A和图2B所示的实施例中，处理器205通过连接218耦接到系统总线204。类似地，存储器206和光盘驱动器212通过连接219耦接到系统总线204。可以在其上实践所描述的布置的个人设备200的示例包括：IBM-PC及其兼容产品、Sun Sparc工作站、Apple计算机；智能手机；平板计算机或类似的包括计算机模块的设备，例如个人计算设备201。应理解，当个人设备200包括智能电话或平板计算机时，显示设备214可以包括触摸屏，而其他输入以及输出设备，诸如鼠标指针设备203、键盘202、扫描仪226和打印机215，可能不被包括。

图2B是处理器205和存储器234的详细示意性框图。存储器234表示包括存储设备209和半导体存储器206在内的所有存储模块的逻辑集合，其可以由图2A中的个人计算设备201访问。

可以使用个人设备200来实现本发明的方法，其中该方法可以被实现为在个人计算设备201内可执行的一个或更多个软件应用程序233。特别地，本发明的方法的步骤可以通过在个人计算设备201内执行的软件中的指令231来实现。

软件指令231可以形成为一个或更多个代码模块，每个代码模块用于执行一个或更多个特定任务。软件233也可以分为两个单独的部分，其中第一部分和相应的代码模块执行本发明的方法，第二部分和相应的代码模块管理第一部分和用户之间的图形用户接口。

软件233可以存储在计算机可读介质中，包括本文描述的类型的存储设备中。该软件从计算机可读介质或通过网络221或223加载到个人设备200中，然后由个人设备200执行。在一个示例中，软件233存储在由光盘驱动器212读取的存储介质225上。软件233通常存储在HDD 210或存储器206中。

具有记录在其上的这种软件233或计算机程序的计算机可读介质是计算机程序产品。个人设备200中计算机程序产品的使用优选地影响用于实现本发明的方法的设备或装置。

在某些情况下，软件应用程序233可以被供应给用户，该软件应用程序233在诸如CD-ROM、DVD或蓝光光盘的一个或更多个磁盘存储介质225上编码，并且经由相应的驱动器212读取，或者也可以由用户从网络220或222读取。此外，该软件还可以从其他计算机可读介质加载到个人设备200中。计算机可读存储介质是指将记录的指令和/或数据提供给个人计算设备201或个人设备200以执行和/或处理的任何非暂时性有形存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘或例如PCMCIA卡的计算机可读卡等，无论此类设备是在个人计算设备201的内部还是外部。也可以参与到个人计算设备201的软件应用程序233、指令231和/或数据的供应的暂时或非有形的计算机可读传输介质的示例包括到另一台计算机或联网设备290、291的无线电或红外传输通道和网络连接221、223、334，以及因特网或内联网，内联网包括记录在网站等上的电子邮件传输和信息。

上述应用程序233的第二部分和相应的代码模块可以被执行以实现要在显示器214上呈现或以其他方式表示的一个或更多个图形用户接口(GUI)。通常，通过操纵键盘202、鼠标203和/或屏幕214(包括触摸屏)时，个人设备200的用户和本发明的方法可以以功能上适合的方式操纵接口，以向与GUI相关联的应用程序提供控制命令和/或输入。也可以实现其他形式的功能适应性用户接口，例如利用经由扬声器217输出的语音提示和经由麦克风280输入的用户发声命令的音频接口。这些操作包括鼠标单击、屏幕触摸、可以经由网络220或222发送的语音提示和/或用户发声命令。

当个人计算设备201最初被上电时，可以执行上电自检(POST)程序250。POST程序250通常存储在半导体存储器206的ROM 249中。诸如ROM 249的硬件设备有时被称为固件。POST程序250检查个人计算设备201内的硬件，以确保其正常运行，并且通常检查处理器205、存储器234(209、206)和通常也存储在ROM 249中的基本输入输出系统软件(BIOS)模块251，用于正确操作。一旦POST程序250成功运行，BIOS 251就会激活硬盘驱动器210。硬盘驱动器210的激活会导致驻留在硬盘驱动器210上的引导加载程序252经由处理器205执行。这会将操作系统253加载到RAM存储器206中，操作系统253在RAM存储器206上开始操作。操作系统253是可由处理器205执行的系统级应用程序，以实现各种高级功能，包括处理器管理、存储器管理、设备管理、存储管理、软件应用程序接口和通用用户接口。

操作系统253管理存储器234(209、206)，以确保在个人计算设备201上运行的每个进程或应用程序都具有足够的执行内存，而不会与分配给另一个进程的内存冲突。此外，必须适当地使用个人设备200中可用的不同类型的存储器，以便每个进程可以有效地运行。因此，聚合存储器234并非旨在示出存储器的特定段是如何分配的，而是旨在提供个人计算设备201可访问的存储器的总体视图以及如何使用存储器。

处理器205包括多个功能模块，这些功能模块包括控制单元239、算术逻辑单元(ALU)240以及局部或内部存储器248，有时称为高速缓冲存储器。高速缓冲存储器248通常包括在存储数据247的寄存器部分中的多个存储寄存器244、245、246。一个或更多个内部总线241在功能上互连这些功能模块。处理器205通常还具有一个或更多个接口242，用于使用连接218经由系统总线204与外部设备进行通信。存储器234通过连接219连接至总线204。

应用程序233包括指令序列231，该指令序列231可以包括条件分支和周期指令。程序233还可以包括用于执行程序233的数据232。指令231和数据232分别存储在存储器位置228、229、230和235、236、237中。取决于指令231的相对大小和存储器位置228-230，如在存储器位置230中所示的指令所描绘的那样，可以将特定指令存储在单个存储器位置中。可替换地，可以将指令分段为多个部分，如存储器位置228和229中所示的指令段所描绘的那样，每个部分都存储在单独的存储器位置中。

通常，处理器205被给予在其中执行的一组指令243。然后，处理器205等待随后的输入，处理器205通过执行另一组指令来对随后的输入作出反应。可以从多个源中的一个或更多个提供每个输入，包括：当包括触摸屏时由输入设备202、203或214中的一个或更多个生成的数据，通过网络220、222之一从外部源接收的数据，从存储设备206、209之一中检索的数据，或从插入相应读取器212中的存储介质225中检索的数据。在某些情况下，一组指令的执行可能导致数据的输出。执行还可以涉及将数据或变量存储到存储器234。

所公开的布置使用输入变量254，该输入变量254被存储在存储器234中的相应的存储器位置255、256、257、258中。所描述的布置产生输出变量261，该输出变量261被存储在存储器234中的相应的存储器位置262、263、264、265中。中间变量268可以存储在存储器位置259、260、266和267中。

处理器205的寄存器部分244、245、246，算术逻辑单元(ALU)240和控制单元239一起工作，以执行执行用于组成程序233的指令集中的每个指令的“提取、解码和执行”周期所需的微操作序列。每个提取、解码和执行周期包括：

(a)提取操作，其从存储器位置228、229、230提取或读取指令231；

(b)解码操作，其中控制单元239确定已经提取了哪个指令；以及

(c)执行操作，其中控制单元239和/或ALU 240执行指令。

此后，可以执行下一条指令的进一步提取、解码和执行周期。类似地，可以执行存储周期，控制单元239通过该存储周期将值存储或写入到存储器位置232。

本发明的方法中的每个步骤或子进程可以与程序233的一个或更多个段相关联，并且可以由处理器205中的寄存器部分244-246、ALU 240和控制单元239来执行，处理器205中的寄存器部分244-246、ALU 240和控制单元239协同工作，以针对程序233的标注段的指令集中的每个指令执行提取、解码和执行周期。

如图2A所示，一个或更多个其他计算机290可以连接到通信网络220。每个这样的计算机290可以具有与个人计算设备201和相应的外围设备相似的配置。

一个或更多个其他服务器计算机291可以连接到通信网络220。这些服务器计算机291响应来自个人设备或其他服务器计算机的请求以提供信息。

方法100可以可替代地在诸如执行所描述方法的功能或子功能的一个或更多个集成电路的专用硬件中实现。这样的专用硬件可以包括图形处理器、数字信号处理器或一个或更多个微处理器和相关联的存储器。

将理解，为了实践如上所述的本发明的方法，处理机的处理器和/或存储器不必物理地位于同一地理位置。即，本发明中使用的每个处理器和存储器可以位于地理上不同的位置并且被连接，以便以任何合适的方式进行传达。另外，将理解，每个处理器和/或存储器可以由不同的物理设备组件组成。因此，处理器不必在一个位置是一个单件设备，并且存储器在另一位置是另一个单件设备。即，可以预期，处理器可以是位于两个不同物理位置的两件设备。可以以任何合适的方式连接两个不同的设备组件。另外，存储器可以在两个或更多个物理位置中包括存储器的两个或更多个部分。

为了进一步说明，如上所述的处理由各种部件和各种存储器执行。然而，将理解，根据本发明的另一实施例，如上所述，由两个不同的部件执行的处理可以由单个部件执行。此外，如上所述，由一个不同的部件执行的处理可以由两个不同的部件执行。以类似的方式，根据本发明的另一实施例，如上所述，由两个不同的存储器部分执行的存储器存储可以由单个存储器部分执行。此外，如上所述，由一个不同的存储器部分执行的存储器存储可以由两个存储器部分执行。

此外，可以使用各种技术来提供各种处理器和/或存储器之间的通信，以及允许本发明的处理器和/或存储器与任何其他实体传达，即，以便例如获得进一步的指令或访问远程存储器和使用远程存储器。用于提供这种通信的这种技术可以包括例如网络、因特网、内联网、外联网、LAN、以太网、电信网络(例如，蜂窝或无线网络)或提供通信的任何客户端服务器系统。这样的通信技术可以使用任何合适的协议，例如TCP/IP、UDP或OSI。

在一个实施例中，用于学习阅读文本的个人计算设备201包括：用于显示要阅读的文本的屏幕214，用于接收要阅读的文本的发声的输入216，用于检测包括在接收到的发声中的不正确的发声的一个或更多个计算机处理器205，以及用于提供一个或更多个视觉标记以指示检测到的不正确的发声的视觉输出214。

在图2A和图2B所示的实施例中，由调制解调器216提供一个或更多个发射器、收发器或接收器，调制解调器216通过一个或更多个计算机网络221、223传达文本的发声和/或文本的正确的发声。

音频输出由扬声器217提供，扬声器217产生体现与检测到的不正确的发声相关联的文本的正确的发声的声音。

个人计算设备201可以是智能电话或平板计算机的形式。该个人计算设备可以包括：Android家庭设备；iOS(或iPhone OS)设备；Microsoft Windows Phone设备；虚拟现实设备，例如Microsoft Hololens虚拟现实设备；数字媒体播放器设备，例如Apple TV设备、Android TV设备或ROKU设备；微型控制台，例如Nexus Player；SHIELD Android TV，AppleTV。平板计算机可以包括诸如Galaxy笔记本的Android平板计算机，或者诸如iPad的iOS平板计算机。智能电话可以包括诸如Galaxy智能电话的Android家庭智能电话，或者诸如iPhone的iOS智能电话。个人计算设备可以将要阅读的文本投影到例如纸质书籍或其他表面上，或将照相机与书籍一起使用。

在一个实施例中，用于学习阅读文本的计算机系统200包括一个或更多个个人计算设备201和一个或更多个服务器计算机291，该服务器计算机291包括一个或更多个计算机处理器，用于接收来自一个或更多个个人计算设备的文本的发声并检测包含在接收到的发声中的不正确的发声。

一个或更多个服务器计算机291可以进一步提供文本的所述正确的发声。

计算机系统200可以包括一个或更多个数据库(未示出)，该数据库包括文本的正确的发声。

本发明还提供一种计算机程序产品，其包括计算机可用介质和体现在所述计算机可用介质上的用于学习阅读文本的计算机可读程序代码，计算机可读程序代码包括：计算机可读程序代码设备(i)，其被配置为使个人计算设备201接收包括发声文本的音频；计算机可读程序代码设备(ii)，其被配置为使个人计算设备201检测到发声文本中包括的不正确的发声；以及计算机可读程序代码设备(iii)，其被配置为使个人计算设备201产生一个或更多个视觉标记以指示已检测到不正确的发声。

该计算机程序产品可以进一步包括计算机可读程序代码设备(iv)，其被配置为使个人计算设备201提供与检测到的不正确的发声相关联的文本的正确的发声。

该计算机程序产品可以进一步包括计算机可读程序代码设备(v)，其被配置为使个人计算设备201通过一个或更多个计算机网络发送接收到的音频。

该计算机程序产品可以进一步包括：计算机可读程序代码设备(vi)，其被配置为使个人计算设备201通过一个或更多个计算机网络提供和/或接收正确的发声。

该计算机程序产品可以进一步包括计算机可读程序代码设备(vii)，其被配置为使个人计算设备201显示要发声的文本。该显示可以在屏幕上。

该计算机程序产品可以进一步包括计算机可读程序代码设备(viii)，其被配置为使个人计算设备201通过扬声器提供正确的发声。

有利地，本发明通过收听发音错误的单词并在检测到发音错误的单词时对其进行突出显示来增强学习者的自信心。

在本说明书中，术语“包括”、“包含”或类似术语旨在表示非排他性的包括，使得包括一系列元件的装置不仅仅包括那些元件，而是可以包括其他未列出的元件。

在整个说明书中，目的是描述本发明，而不将本发明限制于任何一个实施例或特征的特定集合。相关领域的技术人员可以认识到来自特定实施例的变型，但是这些变型将落入本发明的范围内。

22页详细技术资料下载

学习辅助工具

相关技术

网友询问留言