控制方法、移动终端及存储介质

文档序号:106576 发布日期:2021-10-15 浏览:50次 >En<

阅读说明:本技术 控制方法、移动终端及存储介质 (Control method, mobile terminal and storage medium ) 是由 史中雨 于 2021-06-16 设计创作,主要内容包括:本申请提供控制方法、移动终端及存储介质。本申请提出的技术方案中,移动终端采集第一语音信息后,利用移动终端中的第一意图识别模型,获取第一语音信息所指示的第一用户意图信息,判断第一用户意图信息是否包含移动终端的预设控制指令以外的指令,若不包含,则根据第一用户意图信息控制移动终端;否则,向语言处理服务器发送该第一语音信息,语言处理服务器使用第二意图识别模型获取第一语音信息所指示的第二用户意图信息,并向移动终端发送该第二用户意图信息,移动终端根据该第二用户意图信息控制移动终端。本申请提出的技术方案可以提高用户的意图识别准确率和/或优化用户使用偏好,进而提高用户体验。(The application provides a control method, a mobile terminal and a storage medium. According to the technical scheme, after the mobile terminal collects first voice information, first user intention information indicated by the first voice information is obtained by using a first intention recognition model in the mobile terminal, whether the first user intention information contains instructions except a preset control instruction of the mobile terminal is judged, and if not, the mobile terminal is controlled according to the first user intention information; otherwise, the first voice information is sent to a language processing server, the language processing server obtains second user intention information indicated by the first voice information by using a second intention recognition model, the second user intention information is sent to the mobile terminal, and the mobile terminal controls the mobile terminal according to the second user intention information. The technical scheme provided by the application can improve the intention recognition accuracy of the user and/or optimize the use preference of the user, and further improve the user experience.)

控制方法、移动终端及存储介质

技术领域

本申请涉及移动终端技术领域,具体涉及控制方法、移动终端及存储介质。

背景技术

随着电子信息技术的发展,智能终端在人们生活中逐渐地普及,一般情况 下,用户输入语音,智能终端可以自动理解并执行用户意图。在构思及实现本 申请过程中,发明人发现至少存在如下问题:智能终端大部分只适用于一些欧、 美、亚洲的国家语言,对于欧、美、亚洲母语以外的用户,由于说话口音不标 准会导致语音识别率下降,进而导致用户的意图识别准确率较低,对智能终端 的使用体验差。

前面的叙述在于提供一般的背景信息,并不一定构成现有技术。

发明内容

针对上述问题,本申请提出了一种控制方法、移动终端及存储介质,以提 高用户的意图识别准确率和/或优化用户使用偏好。

第一方面,本申请提供一种控制方法,所述方法应用于移动终端,所述方 法包括:采集第一语音信息,可选地,所述第一语言可以为非洲语言;利用第 一意图识别模型,获取所述第一语音信息所指示的第一用户意图信息;判断所 述第一用户意图信息是否包含所述移动终端的预设控制指令以外的指令,所述 第一用户意图信息不包含所述移动终端的预设控制指令以外的指令的情况下, 根据所述第一用户意图信息控制所述移动终端;和/或,所述第一用户意图信息 包含所述移动终端的预设控制指令以外的指令的情况下,向语言处理服务器发 送所述第一语音信息,所述语言处理服务器用于使用第二意图识别模型获取所 述第一语音信息所指示的第二用户意图信息,所述第二意图识别模型用于基于 所述第一语言的语音信息获取所述语音信息所指示的用户意图信息;接收来自 所述语言处理服务器的第二用户意图信息;根据所述第二用户意图信息控制所 述移动终端。

本方法中,移动终端通过自身或者与语言处理服务器之间的交互合作,实 现对用户使用第一语言输入的语音信息进行识别处理,得到用户意图信息并根 据该意图信息控制该移动终端,可选地,第一语言可以为非洲语言,也就是说 该移动终端可以识别非洲用户输入的非洲语言的语音信息,减少了非洲用户受 到不会英语、或者英语发音不标准导致语音识别率低的困扰,有效改善了非洲 用户对于移动终端的语音操控方式。

需要说明的是,非洲语言只是作为一种示例,第一语言的种类不限于此。

可选地,利用第一意图识别模型,获取所述第一语音信息所指示的第一用 户意图信息,包括:使用所述第一意图识别模型中的语音识别子模型获取所述 第一语音信息对应的第一文本信息,所述语音识别子模型用于将所述第一语言 的语音信息转化为所述第一语言的文本信息;使用所述第一意图识别模型中的 语义识别子模型获取所述第一文本信息对应的用户意图信息,得到所述第一用 户意图信息,所述语义识别子模型用于获取所述第一语言的文本信息中的用户 意图信息。

本方法中,利用第一意图识别模型中的语音识别子模型对接收到的语音信 息进行处理,得到对应的第一文本信息,再利用语义识别子模型对该第一文本 信息进行处理,得到第一用户意图信息,可选地,语义识别子模型中包括利用 非洲语言训练得到的语义识别模型,所以可以准确地识别非洲用户的语音信息, 提高用户的意图识别率。

可选地,根据所述第一用户意图信息控制所述移动终端,还包括:输出所 述第二文本信息。

本方法中,语言处理服务器将语音识别子模型获取到的第一语音信息对应 的第一文本信息发送给移动终端,供移动终端输出,可选地,输出的方式可以 是显示,也可以是语音播报等。

可选地,根据所述第二用户意图信息控制所述移动终端,包括:根据所述 第二用户意图信息控制所述移动终端上的音乐播放软件播放所述第一语音信息 指示的歌曲;或,根据所述第二用户意图信息控制所述移动终端上的通讯软件 发送所述第一语音信息指示的消息;或,根据所述第二用户意图信息控制所述 移动终端上的新闻软件展示所述第一语音信息指示的新闻消息。

例如,本申请可以通过语音直接播放在线流媒体播放器(boomplay)的媒 体库音乐,boomplay是非洲主流音乐播放器;可以通过语音发送whatsapp消息, whatsapp是非洲乃至整个海外的主流社交软件,也即通讯软件;可以通过语音 阅读新闻应用(scooper)的内容,scooper是在非洲有一定的市占率的一个新闻 软件,可以展示很多新闻资讯,极大方便了非洲用户的生活、工作和学习等。

可选地,在采集第一语音信息之前,可选地,所述第一语言可以为非洲语 言,所述方法还包括:接收指令;根据所述指令将所述移动终端的系统和/或应 用语言设置为所述第一语言。

本实施例中,通过提前设置好移动终端的系统语言,可以使得移动终端更 精准的识别用户输入的语音信息。

可选地,执行向语言处理服务器发送所述第一语音信息的情况下,所述方 法还包括:接收来自所述语言处理服务器的第二文本信息,所述第二文本信息 为与所述第一语音信息对应的文本信息;输出所述第二文本信息,可选地,输 出的方式可以是显示,也可以是语音播报等。

本方法中,移动终端接收来自所述语言处理服务器的第二文本信息,然后 以非洲文字的形式显示给用户,提高了用户体验。

可选地,所述非洲语言包括斯瓦西里语、豪萨语和阿拉伯语。

本申请中,非洲国家常用的三大语种包括瓦西里语、豪萨语和阿拉伯语, 以常用的这三种语言训练语义识别模型,可以丰富语义识别模型库。

本申请还提供了一种控制方法,所述方法应用于移动终端或所述移动终端 中的芯片,所述方法包括以下步骤:

S22,采集第一语音信息,可选地,采集用户使用第一语言输入的第一语音 信息,可选地,所述第一语言可以为非洲语言,可选地,所述非洲语言可以是 斯瓦西里语、或者豪萨语,还可以是阿拉伯语等;

S23,利用第一意图识别模型,获取所述第一语音信息所指示的第一用户意 图信息;

S24,判断所述第一用户意图信息是否包含所述移动终端的预设控制指令以 外的指令,若不包含则执行S25步骤;

S25,根据所述第一用户意图信息控制所述移动终端。

可选地,所述S23步骤包括:

使用所述第一意图识别模型中的语音识别子模型获取所述第一语音信息对 应的第一文本信息,可选地,所述语音识别子模型用于将所述第一语言的语音 信息转化为所述第一语言的文本信息;

获取所述第一文本信息对应的用户意图信息,得到所述第一用户意图信息, 可选地,使用所述第一意图识别模型中的语义识别子模型获取所述第一文本信 息对应的用户意图信息,可选地,所述语义识别子模型用于获取所述第一语言 的文本信息中的用户意图信息。

可选地,在所述S22步骤之前,所述方法还包括:

S20,接收指令,可选地,所述指令可以是由用户输入,也可以是根据用户 使用习惯或设定或大数据分析等自动确定或生成;

S21,根据所述指令将所述移动终端的系统和/或应用语言设置为所述第一语 言。

可选地,所述S25步骤还包括:

输出所述第一文本信息,可选地,输出的方式可以是显示,也可以是语音 播报等。

可选地,所述S24步骤还包括:

若包含,则执行S26至S28步骤:

S26,向语言处理服务器发送所述第一语音信息,可选地,所述语言处理服 务器用于使用第二意图识别模型获取所述第一语音信息所指示的第二用户意图 信息,可选地,所述第二意图识别模型用于基于所述第一语言的语音信息获取 所述语音信息所指示的用户意图信息;

S27,接收来自所述语言处理服务器的第二用户意图信息;

S28,根据所述第二用户意图信息控制所述移动终端。

可选地,所述S28步骤包括以下至少一种:

根据所述第二用户意图信息控制所述移动终端上的音乐播放软件播放所述 第一语音信息指示的歌曲;

根据所述第二用户意图信息控制所述移动终端上的通讯软件发送所述第一 语音信息指示的消息;

根据所述第二用户意图信息控制所述移动终端上的新闻软件展示所述第一 语音信息指示的新闻消息。

可选地,所述方法还包括:

S29,接收来自所述语言处理服务器的第二文本信息,可选地,所述第二文 本信息为与所述第一语音信息对应的文本信息;

S30,输出所述第二文本信息,可选地,输出的方式可以是显示,也可以是 语音播报等。

第二方面,本申请提供一种控制装置,所述装置包括:采集模块,用于采 集第一语音信息,可选地,所述第一语言可以为非洲语言,可选地,所述非洲 语言包括斯瓦西里语、豪萨语和阿拉伯语;获取模块,用于利用第一意图识别 模型,获取所述第一语音信息所指示的第一用户意图信息;判断模块,用于判 断所述第一用户意图信息是否包含所述移动终端的预设控制指令以外的指令, 若所述第一用户意图信息不包含所述移动终端的预设控制指令以外的指令的情 况下,则根据所述第一用户意图信息控制所述移动终端;和/或,所述第一用户 意图信息包含所述移动终端的预设控制指令以外的指令的情况下,根据第二用 户意图信息控制所述移动终端;控制模块,用于根据所述第一用户意图信息控 制所述移动终端;发送模块,用于向语言处理服务器发送所述第一语音信息, 所述语言处理服务器用于使用第二意图识别模型获取所述第一语音信息所指示 的第二用户意图信息,所述第二意图识别模型用于基于所述第一语言的语音信 息获取所述语音信息所指示的用户意图信息;接收模块,用于接收来自所述语 言处理服务器的第二用户意图信息;

可选地,所述控制模块,还用于根据所述第二用户意图信息控制所述移动 终端。

可选地,所述获取模块,还用于:使用所述第一意图识别模型中的语音识 别子模型获取所述第一语音信息对应的第一文本信息,所述语音识别子模型用 于将所述第一语言的语音信息转化为所述第一语言的文本信息;使用所述第一 意图识别模型中的语义识别子模型获取所述第一文本信息对应的用户意图信息, 得到所述第一用户意图信息,所述语义识别子模型用于获取所述第一语言的文 本信息中的用户意图信息。

可选地,所述控制模块,还用于控制输出所述第二文本信息。

可选地,所述控制模块,还用于:根据所述第二用户意图信息控制所述移 动终端上的音乐播放软件播放所述第一语音信息指示的歌曲;或,根据所述第 二用户意图信息控制所述移动终端上的通讯软件发送所述第一语音信息指示的 消息;或,根据所述第二用户意图信息控制所述移动终端上的新闻软件展示所 述第一语音信息指示的新闻消息。

可选地,所述采集模块,用于采集第一语音信息,可选地,所述第一语言 可以为非洲语言,所述装置还包括:接收模块,用于接收指令;设置模块,用 于根据所述指令将所述移动终端的系统和/或应用语言设置为所述第一语言。

可选地,所述接收模块,还用于接收来自所述语言处理服务器的第二文本 信息,所述第二文本信息为与所述第一语音信息对应的文本信息,输出所述第 二文本信息。

本申请还提供一种控制装置,所述装置包括:与存储器耦合的处理器,其 中,所述存储器上存储有程序,所述程序被所述处理器执行时实现上述方法。

本申请还提供一种移动终端,其特征在于,所述移动终端包括上述的控制 装置。

本申请还提供一种移动终端,包括:存储器和处理器,其中,所述存储器 上存储有程序,所述程序被所述处理器执行时实现上述方法。

本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序, 所述计算机程序被处理器执行时实现上述方法。

本申请还提供了一种包含指令的计算机程序产品,当该计算机程序产品在 计算机上运行时,使得计算机执行上述方法。

如上所述,本实施例提供的控制方法,通过丰富了移动终端和语言处理服 务器中的语义识别子模型库,即利用第一语言训练了语义识别模型,第一语言 可以为非洲语言,使得移动终端和语言处理服务器可以识别并处理非洲用户的 语音指令,改善了非洲用户对于智能移动终端的语音操控方式;而且非洲用户 可以直接通过母语进行语音交互,而不必受到不会英语、或者英语发音不标准 导致识别率低的困扰,极大提高了非洲用户生活、工作、学习等场景下的便利; 此外,由于第一语言还可以包括欧美亚洲母语以外的其他语言,所以本申请的 方法可以提高用户的意图识别准确率和/或优化用户使用偏好。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请 的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请 实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍, 显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。

图1为实现本申请各个实施例的一种移动终端的硬件结构示意图;

图2为本申请实施例的系统架构图;

图3为本申请一个实施例示出的终端设备的控制方法的流程示意图;

图4为申请实施例提供的装置的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。 通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些 附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参 考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描 述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方 式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一 致的装置和方法的例子。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种 过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包 括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置 中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、 特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该 具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息, 但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。 例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地, 第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可以 被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中所使 用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反 的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操 作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、 操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的 术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任 一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、 B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才 会出现该定义的例外。

应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指 示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的 顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段, 这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻 执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的 子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在…… 时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境, 短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确 定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检 测(陈述的条件或事件)”。

需要说明的是,在本文中,采用了诸如S301、S302等步骤代号,其目的是 为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人 员在具体实施时,可能会先执行S302后执行S301等,但这些均应在本申请的 保护范围之内。

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定 本申请。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后 缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件” 或者“单元”可以混合地使用。

移动终端可以以各种形式来实施。例如,本申请中描述的移动终端可以包 括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personal digital assistant,PDA)、便捷式媒体播放器(portable media player,PMP)、导航装置、 可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等 固定终端。

后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除 了特别用于移动目的的元件之外,根据本申请的实施方式的构造也能够应用于 固定类型的终端。

请参阅图1,其为实现本申请各个实施例的一种移动终端的硬件结构示意图, 该移动终端100可以包括:射频(radio frequency,RF)单元101、WiFi模块102、 音频输出单元103、音频/视频(A/V)输入单元104、传感器105、显示单元106、 用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部 件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终 端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件, 或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍:

射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的, 将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基 站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦 合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与 网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不 限于全球移动通讯系统(global system of mobilecommunication,GSM)、通用分 组无线服务(general packet radio service,GPRS)、码分多址2000(code division multiple access 2000,CDMA2000)、宽带码分多址(widebandcode division multiple access,WCDMA)、时分同步码分多址(time division-synchronous code division multiple access,TD-SCDMA)、频分双工长期演进(frequency division duplexing-long term evolution,FDD-LTE)和分时双工长期演进(time division duplexing-long term evolution,TDD-LTE)等。

WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户 收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联 网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动 终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、 记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi 模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出 为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能 相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元 103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括 图形处理器(graphics processing unit,GPU)1041和麦克风1042,图形处理器 1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的 静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106 上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介 质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在 电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收 声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动 通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法 以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及 其他传感器。可选地,光传感器包括环境光传感器及接近传感器,可选地,环 境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可 在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器 的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止 时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、 相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至 于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺 仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元 106可包括显示面板1061,可以采用液晶显示器(liquid crystal display,LCD)、 有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板 1061。

用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终 端的用户设置以及功能控制有关的键信号输入。可选地,用户输入单元107可 包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏, 可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的 物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设 定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制 器两个部分。可选地,触摸检测装置检测用户的触摸方位,并检测触摸操作带 来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的 命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多 种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括 其他输入设备1072。可选地,其他输入设备1072可以包括但不限于物理键盘、 功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种 或多种,具体此处不做限定。

可选地,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在 其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处 理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在 图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终 端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板 1061集成而实现移动终端的输入和输出功能,具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。 例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器) 端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端 口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可 以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输 入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外 部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存 储程序区和存储数据区,可选地,存储程序区可存储操作系统、至少一个功能 所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存 储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储 器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少 一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终 端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以 及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从 而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的, 处理器110可集成应用处理器和调制解调处理器,可选地,应用处理器主要处 理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可 以理解的是,上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的, 电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统 实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。

基于上述移动终端硬件结构,结合图2至图4提出本申请各个实施例。

图2为本申请实施例的系统架构图。如图2所示,本申请的系统架构包括 用户201、搭载语言理解功能的移动终端202和语言处理服务器203。

搭载语言理解功能的移动终端202可以通过其麦克风或者触摸屏接收用户 201输入的语音指令,也可以通过显示屏或者扬声器为用户201展示或者输出一 些信息;搭载语言理解功能的移动终端202中还设置有一些系统控制指令库, 当搭载语言理解功能的移动终端202接收到用户201输入的语音指令后,会先 利用移动终端内部的意图识别模型获取与语音指令对应的用户意图信息,将该 用户意图信息与搭载语言理解功能的移动终端202中的系统控制指令库匹配, 若该用户意图信息和系统控制指令库中的指令完全不相关,那该指令就不是系 统指令,此时,需要将该语音指令发送给语言处理服务器203。

例如,系统控制指令可以是打开手电筒、打开蓝牙等;如果指令是在线播 放音乐、讲笑话等,则移动终端需要将该指令发送给语言处理服务器去处理。

搭载语言理解功能的移动终端202和语言处理服务器203之间可以进行通 信,语言处理服务器203中部署的有意图识别模型,该意图识别模型包括语音 识别子模型和语义识别子模型,可选地,语音识别子模型中用到了自动语音识 别技术(automatic speechrecognition,ASR),将语音指令转换为对应的文本信 息,可选地,ASR是一个多学科交叉的领域,它与声学、语音学、语言学、数 字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的 多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或 者说只能应用于某些特定的场合。语义识别子模型中用到了自然语言处理技术(natural language processing,NLP),NLP是人工智能(artificial intelligence, AI)领域的一个分支,结合了推测学、几率和统计等方法对自然语言进行处理。

可选地,语义识别子模型中包括利用非洲语言例如阿拉伯语、瓦斯西里语、 豪萨语训练得到的语义识别模型,可以准确地识别由非洲用户输入的语音指令 转换出对应的非洲文字。

可选地,语言处理服务器中还包括文本到语音模块,该模块利用了文本到 语音(text to speech,TTS)技术,该技术是人机对话的一部分,让机器能够说 话。TTS是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通 过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进 行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文 本输出的语音音律流畅。

图3为本申请一个实施例示出的终端设备的控制方法的流程示意图。图3 所示的方法可以由图1所示的移动终端或与语言处理服务器交互来实现。如图3 所示,该方法包括以下步骤:

S301,采集第一语音信息,可选地,第一语言可以为非洲语言。

该步骤中可以通过图1所示移动终端设备中的用户输入单元107,例如触控 面板1071和其他输入设备1072中的麦克风来实现。

可选地,移动终端通过用户点击触控面板发出控制指令信息后,开始采集 第一语音信息,例如使用社交软件发送语音消息时,需要用户通过终端的触摸 屏长按语音输入键才会采集用户的语音信息。

可选地,终端设备直接通过麦克风来采集用户的语音信息输入,该语音信 息中用户使用的是第一语言,第一语言可以为非洲语言,可选地,非洲语言主 要指的是非洲国家常用的三大语种:阿拉伯语、斯瓦西里语和豪萨语。

需要说明的是,第一语言可以为非洲语言只是一种示例,第一语言的种类 不限于此,第一语言也可以包括欧美亚洲母语以外的其他语言。

作为一种可选的实现方式,在S301之前,还可以包括接收指令,根据该指 令将移动终端的系统和/或应用语言设置为第一语言。将所述移动终端的系统和/ 或应用语言设置为所述第一语言。也就是说,用户在首次使用终端设备时,需 要进行国家、语言等相关必要选择,可以选择将系统和/或应用语言设置为第一 语言,以便后续使用。

S302,利用移动终端中的第一意图识别模型,获取第一语音信息所指示的 第一用户意图信息,判断第一用户意图信息是否包含移动终端的预设控制指令 以外的指令,若不包含,则根据第一用户意图信息控制移动终端,否则执行S303 至S306

作为一种可选的实施方式,移动终端在采集第一语音信息后,会在内部作 一个判断,具体如下所述:

本实施例的移动终端内部预设有系统控制指令库,且移动终端内部包括AI 处理核心,AI处理核心包括第一意图识别模型,通过第一意图识别模型可以获 取到第一语音信息所指示的第一用户意图信息,然后将该第一用户意图信息与 移动终端的预设控制指令作匹配,如果第一用户意图信息不包含移动终端的预 设控制指令以外的指令,则根据第一用户意图信息控制移动终端,否则,执行 S303至S306。

可选地,该语言处理服务器为图2中介绍的语言处理服务器。

可选地,使用第一意图识别模型获取第一语音信息所指示的第一用户意图 信息的一种可实现方式为:使用意图识别模型中的语音识别子模型获取第一语 音信息对应的第一文本信息,语音识别子模型用于将第一语言的语音信息转化 为第一语音的文本信息;使用意图识别模型中的语义识别子模型获取第一文本 信息对应的用户意图信息,得到第一用户意图信息,语义识别子模型用于获取 第一语言的文本信息中的用户意图信息。

可选地,此处语音识别子模型获取到的第一语音信息对应的第一文本信息 为对应的非洲文字;语义识别子模型中包括利用非洲语言训练的语义识别模型, 所以可以准确地识别非洲文字。

需要说明的是,语义识别子模型不限于利用非洲语言文字对应的文本信息 训练得到的,此处只是作为一种示例。

可选地,在根据第一用户意图信息控制移动终端的同时,移动终端还会显 示第一文本信息。

S303,移动终端向语言处理服务器发送第一语音信息。相应地,语言处理 服务器接收移动终端发送的第一语音信息。

该步骤可以通过图1所示移动终端设备中的射频单元101来实现。

S304,使用第二意图识别模型获取第一语音信息所指示的第二用户意图信 息,可选地,第二意图识别模型用于基于第一语言的语音信息获取语音信息所 指示的用户意图信息。

本方法中,利用语言处理服务器中的第二意图识别模型获取第一语音信息 所指示的第二用户意图信息,可选地,利用第二意图识别模型得到第二用户意 图信息的一种可实现方式同使用第一意图识别模型获取第一语音信息所指示的 第一用户意图信息,此处不再赘述。

S305,语言处理服务器向所述移动终端发送所述第二用户意图信息。相应 地,移动终端接收来自所述语言处理服务器的第二用户意图信息。

S306,根据第二用户意图信息控制所述移动终端。

该步骤可以通过图1所示移动终端设备中的处理器110来实现。

作为一种可选的实施方式,移动终端接收到来自所述语言处理服务器的第 二用户意图信息后,处理器110作为移动终端的控制中心,会根据该第二用户 意图信息判断其所指示的领域,进而去控制调用合适的软件等。

需要理解的是,移动终端会根据用户使用时的设置信息判断该移动终端的 用户所述的国家,例如通过用户初次使用移动终端时设置的系统语言、用户使 用地图软件时所定位的区域等来判断用户所述的国家。移动终端中根据不同的 国家用户也就是不同的用户市场会和一些软件之间存在一些映射关系,例如针 对非洲用户市场,在线流媒体播放器(boomplay)和非洲用户市场之间就会有 一个固定调用的关系,当非洲用户利用语音控制播放音乐时,移动终端会固定 调用boomplay这个软件。

可选地,移动终端根据第二用户意图信息控制移动终端上的音乐播放软件 播放第一语音信息指示的歌曲。

作为一种示例,在线流媒体播放器(boomplay)是非洲主流音乐播放器, 主要面向非洲用户,提供全球正版音乐及视频的在线播放和下载服务,本实施 例的移动终端可以通过语音直接控制终端播放boomplay媒体库的音乐,极大的 丰富了非洲用户的生活。

可选地,移动终端根据第二用户意图信息控制移动终端上的通讯软件发送 第一语音信息指示的消息。

作为一种示例,whatsapp是非洲乃至整个海外的主流社交软件,也即通讯 软件,该软件借助推送通知服务,可以即刻接收亲友和同事发送的信息,可免 费从发送手机短信转为使用whatsapp程序,以发送和接收信息、图片、音频文 件和视频信息;本实施例的移动终端可以通过语音发送whatsapp消息,极大方 便了用户的生活、工作和学习等。

可选地,移动终端根据第二用户意图信息控制移动终端上的新闻软件展示 第一语音信息指示的新闻消息。

作为一种示例,新闻应用(scooper)是在非洲有一定的市占率的一个新闻 软件,可以展示很多新闻资讯,本实施例的移动终端可以通过语音阅读scooper 新闻内容,给非洲用户带来了很大的方便。

可选地,移动终端接收来自语言处理服务器的第二文本信息。

可以理解的是,移动终端接收来自语言处理服务器的第二文本信息,然后 以非洲文字的形式显示给用户。

作为另一种示例,移动终端在控制移动终端执行用户指令时,有时也会给 用户反馈一个相应的信息,例如用户发出“播放音乐”的指令,移动终端会在 屏幕上显示反馈信息“好的”,同时利用TTS技术将该文本信息转换为语音,利 用扬声器等设备同步反馈给用户,提高了用户体验。

综上所述,本实施例提供的控制方法,通过丰富了移动终端和语言处理服 务器中的语义识别模型库,即利用第一语言训练了语义识别模型,第一语言可 以为非洲语言,使得移动终端或者语言处理服务器可以识别并处理非洲用户的 语音指令,改善了非洲用户对于智能移动终端的语音操控方式;而且非洲用户 可以直接通过母语进行语音交互,而不必受到不会英语、或者英语发音不标准 导致识别率低的困扰,极大提高了非洲用户生活、工作、学习等场景下的便利; 此外,由于第一语言还可以包括欧美亚洲母语以外的其他语言,所以本申请的 方法可以提高用户的意图识别准确率和/或优化用户使用偏好。

可选地,本申请提供的控制方法可以单独由移动终端实现,不用发给语言 处理服务器,或者移动终端自身完全不理解,直接发给语言理解服务器来处理。

本申请实施例还提供了一种控制方法,所述方法应用于移动终端或所述移 动终端中的芯片,所述方法包括以下步骤:

S22,采集第一语音信息,可选地,采集用户使用第一语言输入的第一语音 信息,可选地,所述第一语言可以为非洲语言,可选地,所述非洲语言可以是 斯瓦西里语、或者豪萨语,还可以是阿拉伯语等;

S23,利用第一意图识别模型,获取所述第一语音信息所指示的第一用户意 图信息;

S24,判断所述第一用户意图信息是否包含所述移动终端的预设控制指令以 外的指令,若不包含则执行S25步骤;

S25,根据所述第一用户意图信息控制所述移动终端。

可选地,所述S23步骤包括:

使用所述第一意图识别模型中的语音识别子模型获取所述第一语音信息对 应的第一文本信息,可选地,所述语音识别子模型用于将所述第一语言的语音 信息转化为所述第一语言的文本信息;

获取所述第一文本信息对应的用户意图信息,得到所述第一用户意图信息, 可选地,使用所述第一意图识别模型中的语义识别子模型获取所述第一文本信 息对应的用户意图信息,可选地,所述语义识别子模型用于获取所述第一语言 的文本信息中的用户意图信息。

可选地,在所述S22步骤之前,所述方法还包括:

S20,接收指令,可选地,所述指令可以是由用户输入,也可以是根据用户 使用习惯或设定或大数据分析等自动确定或生成;

S21,根据所述指令将所述移动终端的系统和/或应用语言设置为所述第一语 言。

可选地,所述S25步骤还包括:

输出所述第一文本信息,可选地,输出的方式可以是显示,也可以是语音 播报等。

可选地,所述S24步骤还包括:

若包含,则执行S26至S28步骤:

S26,向语言处理服务器发送所述第一语音信息,可选地,所述语言处理服 务器用于使用第二意图识别模型获取所述第一语音信息所指示的第二用户意图 信息,可选地,所述第二意图识别模型用于基于所述第一语言的语音信息获取 所述语音信息所指示的用户意图信息;

S27,接收来自所述语言处理服务器的第二用户意图信息;

S28,根据所述第二用户意图信息控制所述移动终端。

可选地,所述S28步骤包括以下至少一种:

根据所述第二用户意图信息控制所述移动终端上的音乐播放软件播放所述 第一语音信息指示的歌曲;

根据所述第二用户意图信息控制所述移动终端上的通讯软件发送所述第一 语音信息指示的消息;

根据所述第二用户意图信息控制所述移动终端上的新闻软件展示所述第一 语音信息指示的新闻消息。

可选地,所述方法还包括:

S29,接收来自所述语言处理服务器的第二文本信息,可选地,所述第二文 本信息为与所述第一语音信息对应的文本信息;

S30,输出所述第二文本信息,可选地,输出的方式可以是显示,也可以是 语音播报等。

图4为本申请各个实施例提供的控制装置的结构示意图。图4所示的装置 可以用于实现前述任意一个实施例所述的方法。如图4所示,本实施例的控制 装置400可以包括:采集模块401、发送模块402、获取模块403、接收模块404、 控制模块405、设置模块406和判断模块407。

本实施例中的采集模块401、发送模块402、获取模块403、接收模块404、 控制模块405、设置模块406和判断模块407各个模块可以通过软件或硬件的方 法实现。可选地,通过软件实现的模块可以运行在处理器中以实现相应的功能, 通过硬件实现的模块可以包含于处理器中。

在一种示例中,图4所示的装置可以用于实现图3所述的方法。例如,采 集模块401可以用于实现S301,获取模块403可以用于实现S302和S304,判 断模块407可以用于执行S302,发送模块402可以用于实现S303,接收模块404 可以用于实现S305,控制模块405可以用于实现S306。

本申请实施例还提供一种控制装置,所述装置包括:采集模块,用于采集 第一语音信息,可选地,所述第一语言可以为非洲语言,可选地,所述非洲语 言包括斯瓦西里语、豪萨语和阿拉伯语;获取模块,用于利用第一意图识别模 型,获取所述第一语音信息所指示的第一用户意图信息;判断模块,用于判断 所述第一用户意图信息是否包含所述移动终端的预设控制指令以外的指令,若 所述第一用户意图信息不包含所述移动终端的预设控制指令以外的指令的情况 下,则根据所述第一用户意图信息控制所述移动终端;和/或,所述第一用户意 图信息包含所述移动终端的预设控制指令以外的指令的情况下,根据第二用户 意图信息控制所述移动终端;控制模块,用于根据所述第一用户意图信息控制 所述移动终端;发送模块,用于向语言处理服务器发送所述第一语音信息,所 述语言处理服务器用于使用第二意图识别模型获取所述第一语音信息所指示的 第二用户意图信息,所述第二意图识别模型用于基于所述第一语言的语音信息 获取所述语音信息所指示的用户意图信息;接收模块,用于接收来自所述语言 处理服务器的第二用户意图信息;

可选地,所述控制模块,还用于根据所述第二用户意图信息控制所述移动 终端。

可选地,所述获取模块,还用于:使用所述第一意图识别模型中的语音识 别子模型获取所述第一语音信息对应的第一文本信息,所述语音识别子模型用 于将所述第一语言的语音信息转化为所述第一语言的文本信息;使用所述第一 意图识别模型中的语义识别子模型获取所述第一文本信息对应的用户意图信息, 得到所述第一用户意图信息,所述语义识别子模型用于获取所述第一语言的文 本信息中的用户意图信息。

可选地,所述控制模块,还用于控制输出所述第二文本信息。

可选地,所述控制模块,还用于:根据所述第二用户意图信息控制所述移 动终端上的音乐播放软件播放所述第一语音信息指示的歌曲;或,根据所述第 二用户意图信息控制所述移动终端上的通讯软件发送所述第一语音信息指示的 消息;或,根据所述第二用户意图信息控制所述移动终端上的新闻软件展示所 述第一语音信息指示的新闻消息。

可选地,所述采集模块,用于采集第一语音信息,可选地,所述第一语言 可以为非洲语言,所述装置还包括:接收模块,用于接收指令;设置模块,用 于根据所述指令将所述移动终端的系统和/或应用语言设置为所述第一语言。

可选地,所述接收模块,还用于接收来自所述语言处理服务器的第二文本 信息,所述第二文本信息为与所述第一语音信息对应的文本信息,输出所述第 二文本信息。

本申请还提供一种移动终端,移动终端包括存储器、处理器,存储器上存 储有程序,该程序被处理器执行时实现上述任一实施例中的控制方法。

本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计 算机程序,计算机程序被处理器执行时实现上述任一实施例中的控制方法。

在本申请提供的移动终端和计算机可读存储介质的实施例中,包含了上述 移动终端控制方法各实施例的全部技术特征,说明书拓展和解释内容与上述方 法的各实施例基本相同,在此不做再赘述。

本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程 序代码,当计算机程序代码在计算机上运行时,使得计算机执行如上各种可能 的实施方式中的方法。

本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计 算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的 设备执行如上各种可能的实施方式中的方法。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。

在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述, 一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未 再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或 相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细 描述。

在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或 记载的部分,可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本申请记载的范围。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方 案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来, 该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被 控终端,或者网络设备等)执行本申请每个实施例的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实 现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算 机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可 以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指 令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一 个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、 服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心 进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是 包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质 可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者 半导体介质(例如固态存储盘Solid State Disk(SSD))等。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利 用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种便携式实时反馈语言学习系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!