一种多源信息融合的生词库自动构建方法

文档序号：1544889 发布日期：2020-01-17 浏览：19次 >En<

阅读说明：本技术 一种多源信息融合的生词库自动构建方法 (Automatic construction method of multi-source information fusion new word library ) 是由李吉平古万荣朱凯于 2019-08-19 设计创作，主要内容包括：本发明公开了一种多源信息融合的生词库自动构建方法,包括生词自动识别和生词库自动更新两个过程；将生词划分为阅读生词和语音生词；将生词库分为短时记忆、长时记忆两个多级生词库；本发明将用户操作、口型、语音、记忆等信息相融合,进行生词的自动识别和生词库的动态更新,实现了生词库构建过程的完全自动化,同以往用户先自行判断再手动确认的方式相比,可以提高学习效率；将生词划分为阅读生词和语音生词,同以往局限于对不认识或不熟悉的词进行记忆的方式相比,可同时对阅读能力和听说水平的提高起到促进作用；将生词库分为短时记忆、长时记忆两个多级生词库,为个性化记忆规律的研究提供了手段。(The invention discloses an automatic construction method of a new word stock of multi-source information fusion, which comprises two processes of automatic new word identification and automatic new word stock updating; dividing the new words into reading new words and voice new words; dividing the word generation library into two multi-level word generation libraries of short-term memory and long-term memory; the invention fuses information such as user operation, mouth shape, voice, memory and the like, performs automatic identification of the new words and dynamic update of the new word library, realizes the full automation of the new word library construction process, and can improve the learning efficiency compared with the prior mode that a user firstly judges by himself and then confirms manually; the new words are divided into reading new words and voice new words, and compared with the prior mode of limiting to memorize unknown or unfamiliar words, the method can simultaneously play a role in promoting the improvement of reading capability and listening and speaking level; the word generation library is divided into two multilevel word generation libraries of short-term memory and long-term memory, and a means is provided for the research of the personalized memory law.)

一种多源信息融合的生词库自动构建方法

技术领域

本发明涉及计算机应用技术领域，具体涉及一种多源信息融合的生词库自动构建方法。

背景技术

国际化是社会发展的一个重要特征。在日常生活、工作中，人们越来越多的需要用外语进行沟通交流。背生词是提高外语能力的一种有效手段，市场上也有很多辅助生词记忆的软件工具，这些工具的不足主要表现在以下几点：

(1)生词库中的单词首先需要用户自己判断是否为生词，然后再通过手动确认的方式实现生词库的更新，影响学习效率的提高；

(2)对“生词”的理解局限在不认识或不熟悉的词，对这类生词进行记忆，有利于阅读能力的提升，但对听说能力没有直接促进作用；

(3)依据艾宾浩斯记忆遗忘曲线的共性群体规律进行生词复习，忽略了记忆遗忘速度的个体差异。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种多源信息融合的生词库自动构建方法，该方法根据用户操作信息，自动识别阅读生词；根据用户口型、语音等信息，自动识别语音生词；依据记忆遗忘规律，对多级生词库进行自动动态更新。

本发明的目的通过下述技术方案实现：

一种多源信息融合的生词库自动构建方法，生词包括阅读生词和语音生词两类，生词库分为短时记忆和长时记忆两个多级生词库，该方法包括下述步骤：

S1，生词自动识别；

S11，根据用户操作信息，自动识别阅读生词；

所述用户操作信息包括操作反应时间和操作是否正确的信息，如果用户在规定时间内未做出操作或操作错误，则单词被识别为阅读生词；

S12，根据用户口型、语音的信息，自动识别语音生词；

S2，生词库自动更新；

S21，识别的阅读生词、语音生词分别自动存入阅读生词库和语音生词库；

S22，多级生词库的自动动态更新。

优选地，所述S12还包括如下步骤：

S121，如果语音识别设备在规定时间内未接收到用户语音或接收到错误的用户语音，但口型识别设备识别到用户的发音口型是正确的，则提示用户再读一遍；

S122，如果语音识别设备在规定时间内未接收到用户语音或接收到错误的用户语音，同时，口型识别设备识别到用户的发音口型也是错误的，则单词被识别为语音生词。

优选地，所述S22中多级生词库是根据记忆遗忘的一般规律划分的，可作为个性化记忆规律研究的基础，S22还包括如下步骤：

S221，初次识别的生词自动存入需要在最短时间内进行复习的生词库；

S222，生词在记忆周期内完成正确记忆，自动转入下一级记忆周期更长的生词库；

S223，生词在记忆周期内未完成正确记忆，自动转入上一级记忆周期更短的生词库；

S224，记忆周期最长的生词库中的生词在记忆周期内完成正确记忆后，从生词库中删除。

本发明与现有技术相比具有以下的有益效果：

(1)本发明将用户操作、口型、语音、记忆等信息相融合，进行生词的自动识别和生词库的动态更新，实现了生词库构建过程的完全自动化，同以往用户先自行判断再手动确认的方式相比，可以提高学习效率；

(2)本发明将生词划分为阅读生词和语音生词，同以往局限于对不认识或不熟悉的词进行记忆的方式相比，可同时对阅读能力和听说水平的提高起到促进作用；

(3)本发明将生词库分为短时记忆和长时记忆两个多级生词库，为个性化记忆规律的研究提供了手段。

附图说明

图1为本发明的流程示意图；

图2为本发明的多源信息获取装置示意图；

图3为本发明的生词自动识别流程示意图；

图4为本发明的阅读生词自动识别界面示意图；

图5为本发明的语音生词自动识别界面示意图；

图6为本发明的生词库结构示意图；

图7为本发明的生词库自动更新流程示意图；

图8为本发明的多级生词库的自动动态更新流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明提出了一种多源信息融合的生词库自动构建方法，包括生词自动识别和生词库自动更新两个过程；该方法面向文献阅读和语音交流两类用途，将生词划分为阅读生词和语音生词；依据记忆遗忘规律，将生词库分为短时记忆和长时记忆两个多级生词库；该方法根据用户操作信息，自动识别阅读生词；根据用户口型、语音等信息，自动识别语音生词；依据记忆遗忘规律，对多级生词库进行自动动态更新。

具体来说，如图1～8所示，一种多源信息融合的生词库自动构建方法，生词包括阅读生词和语音生词两类，生词库分为短时记忆和长时记忆两个多级生词库，该方法包括下述步骤：

步骤一，生词自动识别。

(1)根据用户操作信息，自动识别阅读生词。

所述用户操作信息包括操作反应时间和操作是否正确的信息，如果用户在规定时间内未做出操作或操作错误，则单词被识别为阅读生词。

(2)根据用户口型、语音的信息，自动识别语音生词。

如果语音识别设备在规定时间内未接收到用户语音或接收到错误的用户语音，但口型识别设备识别到用户的发音口型是正确的，则提示用户再读一遍；如果语音识别设备在规定时间内未接收到用户语音或接收到错误的用户语音，同时，口型识别设备识别到用户的发音口型也是错误的，则单词被识别为语音生词。

步骤二，生词库自动更新。

(1)识别的阅读生词、语音生词分别自动存入阅读生词库和语音生词库。

(2)多级生词库的自动动态更新。

多级生词库是根据记忆遗忘的一般规律划分的，可作为个性化记忆规律研究的基础，其中：

初次识别的生词自动存入需要在最短时间内进行复习的生词库；生词在记忆周期内完成正确记忆，自动转入下一级记忆周期更长的生词库；生词在记忆周期内未完成正确记忆，自动转入上一级记忆周期更短的生词库；记忆周期最长的生词库中的生词在记忆周期内完成正确记忆后，从生词库中删除。

如图1所示，本实施例提出了一种多源信息融合的生词库自动构建方法100，包括生词自动识别300和生词库自动更新700两个过程。

所述多源信息包括用户操作、口型、语音、记忆等信息。如图2所示，多源信息获取装置200，包括但不限于摄像头201、触摸屏202、扬声器203、麦克风204以及用于计算和数据存储的软硬件系统。其中，摄像头201用于获取口型信息，触摸屏202用于获取用户操作信息，麦克风204用于获取语音信息。记忆信息随着时间的推移会逐渐遗忘，并且遵循先快后慢的一般规律。设置不同记忆周期的多级生词库，可以记录用户个性化记忆信息，为分析个性化记忆特点，形成个性化记忆规律提供了有效途径。

本发明面向文献阅读和语音交流两类用途，将生词划分为阅读生词和语音生词两类。如图3所示，生词自动识别300包括：根据用户操作信息，自动识别阅读生词301；根据用户口型、语音等信息，自动识别语音生词302等步骤。

如图4所示，为阅读生词自动识别信息的获取界面400，包括单词401、选项一403、选项二404、选项三405、选项四406。单词401和403、404、405、406四个选项之间的关系类似单项选择题，有且只有一个选项是正确的。当单词401是中文时，四个选项403、404、405、406是外文；当单词401是外文时，四个选项403、404、405、406是中文。单词401随机从单词库中抽取，并显示在屏幕上，对应的四个选项分别出现在403、404、405、406四个选项所示位置。界面400还可以包括提示信息402，用于显示选择是否正确、所用时长等用户操作信息；相关提示信息也可通过扬声器203播放出来。当单词401在屏幕上出现时，如果用户在规定时间内从403、404、405、406四个选项中做出正确选择，则402出现选择正确和所用时长等提示信息；如果用户在规定时间内未作出选择或选择错误，则402出现选择错误或超时的提示信息，单词401被识别为阅读生词。

本发明对用户选择操作的规定时间不做限制，可以是10秒以内的某个时长，也可以是根据用户个性化记忆特点计算得到的时长。

界面400还可以包括游戏人物407，用游戏的娱乐性克服单词记忆的枯燥性。用户连续做出3次正确选择，游戏人物407开始跳舞；否则，游戏人物407停止跳舞。

如图5所示，为语音生词自动识别信息的获取界面500，包括单词401。单词401随机从单词库中抽取，并显示在屏幕上。界面500还可以包括提示信息402，用于显示发音是否正确、是否需要重新朗读、所用时长等信息；相关提示信息也可通过扬声器203播放出来。如果麦克风204在规定时间内接收到用户正确的单词朗读语音，则402出现发音正确和所用时长等提示信息；如果麦克风204在规定时间内未接收到用户语音或接收到错误的用户语音，但摄像头201识别到用户的发音口型是正确的，则402出现重新朗读的提示信息，计时重新开始；如果麦克风204在规定时间内未接收到用户语音或接收到错误的用户语音，同时，摄像头201识别到用户的发音口型也是错误的，则402出现发音错误或超时的提示信息，单词401被识别为语音生词。

本发明对麦克风204接收到用户正确单词朗读语音的规定时间不做限制，可以是10秒以内的某个时长，也可以是根据用户个性化记忆特点计算得到的时长。

界面500还可以包括游戏人物407，用游戏的娱乐性克服单词记忆的枯燥性。用户连续做出3次正确发音，游戏人物407开始跳舞；否则，游戏人物407停止跳舞。

本发明对语音、口型识别方法不做限定，可以利用人工智能方法，通过音频、口型比对，判断单词发音、发音口型是否正确。

如图6所示，生词库600包括阅读生词库601和语音生词库602。由于记忆的保持在时间上是不同的，有短时记忆和长时记忆两种。输入信息在经过人的注意过程的学习后，便成为了人的短时记忆，但是如果不经过及时复习，这些记忆就会遗忘，而经过了及时的复习，这些短时记忆就会成为了人的一种长时记忆，在大脑中保存着很长的时间。因此，本发明将601、602分别细分为多级短时记忆生词库603和多级长时记忆生词库604。

本发明对多级生词库的级数不做限定，依据记忆遗忘一般规律，短时记忆多级生词库可以包括5分钟生词库、30分钟生词库和12小时生词库；长时记忆多级生词库可以包括1天生词库、2天生词库、4天生词库、7天生词库和15天生词库。

如图7所示，生词库自动更新700包括：识别的阅读生词、语音生词分别自动存入阅读生词库和语音生词库701；多级生词库的自动动态更新800等步骤。

如图8所示，多级生词库的自动动态更新800包括：初次识别的生词自动存入需要在最短时间内进行复习的生词库801；生词在记忆周期内完成正确记忆，自动转入下一级记忆周期更长的生词库802；生词在记忆周期内未完成正确记忆，自动转入上一级记忆周期更短的生词库803、记忆周期最长的生词库中的生词在记忆周期内完成正确记忆后，从生词库中删除804等步骤。例如，初次识别的生词自动存入5分钟生词库，存入时刻为t，如果用户在t+5分钟内完成正确记忆，则该生词由5分钟生词库转入30分钟生词库；如果用户在t+30分钟内完成正确记忆，则该生词由30分钟生词库转入12小时生词库；否则，该生词由30分钟生词库调整回5分钟生词库。一般而言，当一个生词在15天内，经过3级短时记忆生词库和5级长时记忆生词库共计8次正确记忆，则该生词对用户而言不再是生词，最终从15天生词库中删除。

本发明对一种多源信息融合的生词库自动构建方法的生词自动识别和生词库自动更新过程作了进一步说明，不涉及用户个性化记忆规律的获取方法。但是，将生词库分为短时记忆、长时记忆两个多级生词库，可以为用户个性化记忆规律的研究提供支撑。例如：初次识别的生词自动存入5分钟生词库，存入时刻为t。用户A在t+5分钟内没进行记忆，则该生词保留在5分钟生词库中；如果用户A在[t+5,t+30]分钟范围内进行了记忆，但不正确，则该生词保留在5分钟生词库中。用户B在t+5分钟内没进行记忆，则该生词保留在5分钟生词库中；如果用户B在[t+5,t+30]分钟范围内进行了正确记忆，则该生词由5分钟生词库直接转入12小时生词库。如果上述情况发生的概率足够高，可以得出结论：用户B的短时记忆力比用户A的好。当用户A在t+5分钟范围内进行了正确记忆，则所记生词由5分钟生词库转入30分钟生词库；如果用户B在t+5分钟范围内进行了正确记忆，则所记生词可以由5分钟生词库直接转入12小时生词库。这样，最终把个性化记忆规律的差别体现到多级生词库的动态更新中，可以进一步提高学习效率。

本发明将用户操作、口型、语音、记忆等信息相融合，进行生词的自动识别和生词库的动态更新，实现了生词库构建过程的完全自动化，同以往用户先自行判断再手动确认的方式相比，可以提高学***的提高起到促进作用；将生词库分为短时记忆和长时记忆两个多级生词库，为个性化记忆规律的研究提供了手段。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于五定技术的语音监控在线考试方法及其装置

一种多源信息融合的生词库自动构建方法

相关技术

网友询问留言