语音可视化方法、装置、投影设备及计算机可读存储介质

文档序号：50809 发布日期：2021-09-28 浏览：22次 >En<

阅读说明：本技术 语音可视化方法、装置、投影设备及计算机可读存储介质 (Voice visualization method and device, projection equipment and computer readable storage medium ) 是由李禹� 曹琦王骁逸张聪胡震宇于 2021-06-23 设计创作，主要内容包括：本公开提供一种语音可视化方法、装置、投影设备及计算机可读存储介质。本公开包括：获取用户的采集数据,并将所述采集数据中的用户语音数据转换为文字信息；获取与所述采集数据对应的目标情绪类别；根据所述目标情绪类别,获取所述用户语音数据对应的目标文字特效；根据所述目标文字特效对所述文字信息进行可视化处理,并将可视化处理后得到的投影信息展示在投影面中。可见,本公开实施例中的语音可视化方法可以将文字信息可视化,并且可以根据用户实时的目标情绪类别设定文字信息可视化后的特效,增强了投影时用户的沉浸感,增加投影时的灵活性。(The disclosure provides a voice visualization method and device, a projection device and a computer readable storage medium. The present disclosure includes: acquiring collected data of a user, and converting user voice data in the collected data into text information; acquiring a target emotion category corresponding to the acquired data; acquiring a target character special effect corresponding to the user voice data according to the target emotion category; and performing visualization processing on the character information according to the target character special effect, and displaying projection information obtained after visualization processing in a projection surface. Therefore, the voice visualization method in the embodiment of the disclosure can visualize the text information, and can set the special effect after the text information visualization according to the real-time target emotion category of the user, thereby enhancing the immersion feeling of the user during projection and increasing the flexibility during projection.)

技术领域

本公开涉及语音数据处理领域，具体涉及一种语音可视化方法、装置、投影设备及计算机可读存储介质。

背景技术

随着互联网的普及，以及数字音频的迅速流行，用户可以通过手机、平板电脑等投影设备播放各种各样的音频数据(比如有声小说、歌曲等)。为了提高音频数据播放过程中显示信息的多样性，相关技术中通过提取音频数据的特征，并通过图像渲染的方式，将音频特征可视化的表示出来，从而达到画面随音频数据的变化而变化的效果，即利用图像语言来解释音乐感受。

现有的投影设备将语音进行文字可视化后，无法根据实际场景实时改变文字的可视化特效，展现的画面较为单调，并且不够灵活。

发明内容

本公开提供一种语音可视化方法、装置、投影设备及计算机可读存储介质，旨在解决现有的投影设备将语音进行文字可视化后，无法根据实际场景实时改变文字的可视化特效，展现的画面较为单调，并且不够灵活的问题。

第一方面，本公开提供一种语音可视化方法，所述方法包括：

获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息；

获取与所述采集数据对应的目标情绪类别；

根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效；

根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述获取与所述采集数据对应的目标情绪类别，包括以下方法中一种或多种：

分析所述采集数据中的用户图像数据，得到所述目标情绪类别；

分析所述采集数据中的用户生理参数，根据所述用户生理参数确定所述目标情绪类别；

分析所述用户语音数据，得到所述目标情绪类别，其中，所述用户语音数据中包含音量、音调和语速中的至少一个音频参数；

提取所述文字信息中的情绪关键词，并根据所述情绪关键词确定所述目标情绪类别。

在一些实施例中，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之前，还包括：

提取所述文字信息中的目标图形关键词；

确定所述目标图形关键词对应的目标图形特效，其中，所述目标图形特效包括天气特效和动作特效中的至少一种；

所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

根据所述目标文字特效和所述目标图形特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之前，还包括：

提取所述文字信息中的目标声音关键词；

确定所述目标图形关键词对应的目标声音特效；

所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

根据所述目标文字特效和所述目标声音特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之前，还包括：

检测麦克风功能是否启用；

若所述麦克风功能启用，则获取所述用户语音数据中的文字信息，并联网查询所述文字信息对应的文章或歌词；

所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

根据所述目标文字特效，对所述文章或所述歌词进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

检测麦克风功能是否启用；

若所述麦克风功能启用，则获取所述用户语音数据中的文字信息，并联网查询所述文字信息对应的文章或歌词；

根据所述目标文字特效，对所述文章或所述歌词进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述获取用户语音数据，包括：

获取原始音频数据，并提取所述原始音频数据中的目标声纹数据；

查询预设的历史声纹数据库，判断是否存在与所述目标声纹数据匹配的历史声纹数据；

若所述历史声纹数据库中存在与所述目标声纹数据匹配的历史声纹数据，则将所述原始音频数据作为用户语音数据；

第二方面，本公开提供一种语音可视化装置，所述语音可视化装置包括：

获取单元，用于获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息；

情绪获取单元，用于获取与所述采集数据对应的目标情绪类别；

特效获取单元，用于根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效；

展示单元，用于根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，情绪获取单元还用于实现以下方法中的一种或多种：

分析所述采集数据中的用户图像数据，得到所述目标情绪类别；

分析所述采集数据中的用户生理参数，根据所述用户生理参数确定所述目标情绪类别；

分析所述用户语音数据，得到所述目标情绪类别，其中，所述用户语音数据中包含音量、音调和语速中的至少一个音频参数；

提取所述文字信息中的情绪关键词，并根据所述情绪关键词确定所述目标情绪类别。

在一些实施例中，所述语音可视化装置还包括目标图形特效确定单元，目标图形特效确定单元用于：

提取所述文字信息中的目标图形关键词；

确定所述目标图形关键词对应的目标图形特效，其中，所述目标图形特效包括天气特效和动作特效中的至少一种；

所述展示单元还用于：

根据所述目标文字特效和所述目标图形特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述语音可视化装置还包括目标声音特效确定单元，目标声音特效确定单元还用于：

提取所述文字信息中的目标声音关键词；

确定所述目标图形关键词对应的目标声音特效；

所述展示单元还用于：

根据所述目标文字特效和所述目标声音特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，语音可视化装置还包括指令执行单元，指令执行单元用于：

查询预设指令集合，判断所述预设指令集合中是否存在与所述文字信息匹配的目标指令；

若所述预设指令集合中存在与所述文字信息匹配的目标指令，则执行所述目标指令文字信息所对应的目标指令；

当所述目标指令执行完成时，停止展示所述投影信息。

在一些实施例中，语音可视化装置还包括联网获取单元，联网获取单元用于：

检测麦克风功能是否启用；

若所述麦克风功能启用，则获取所述用户语音数据中的文字信息，并联网查询所述文字信息对应的文章或歌词；

所述展示单元还用于：

根据所述目标文字特效，对所述文章或所述歌词进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，获取单元还用于：

获取原始音频数据，并提取所述原始音频数据中的目标声纹数据；

查询预设的历史声纹数据库，判断是否存在与所述目标声纹数据匹配的历史声纹数据；

若所述历史声纹数据库中存在与所述目标声纹数据匹配的历史声纹数据，则将所述原始音频数据作为用户语音数据。

第三方面，本公开还提供一种投影设备，所述投影设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本公开提供的任一种语音可视化方法中的步骤。

第四方面，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的语音可视化方法中的步骤。

综上所述，本公开包括：获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息；获取与所述采集数据对应的目标情绪类别；根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效；根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。可见，本公开实施例中的语音可视化方法可以将文字信息可视化，并且可以根据用户实时的目标情绪类别设定文字信息可视化后的特效，增强了投影时用户的沉浸感，增加投影时的灵活性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的语音可视化方法的应用场景示意图；

图2是本公开实施例中提供的语音可视化方法的一种流程示意图；

图3是本公开实施例中提供的获取投影信息的一种流程示意图；

图4是本公开实施例中提供的获取投影信息的另一种流程示意图；

图5是本公开实施例中提供的执行目标指令的一种流程示意图；

图6是本公开实施例中提供的根据联网得到的信息，获取投影信息的一种流程示意图；

图7是本公开实施例中提供的语音可视化装置的一个实施例结构示意图；

图8是本公开实施例中提供的投影设备的一个实施例结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本公开实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本公开，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本公开。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本公开实施例的描述变得晦涩。因此，本公开并非旨在限于所示的实施例，而是与符合本公开实施例所公开的原理和特征的最广范围相一致。

本公开实施例提供一种语音可视化方法、装置、投影设备和计算机可读存储介质。其中，该语音可视化装置可以集成在投影设备中。

首先，在介绍本公开实施例之前，先介绍下本公开实施例关于应用背景的相关内容。

投影机，又称投影仪，是一种可以将图像或视频投射到幕布上的设备。随着技术的发展，为了增强用户与投影的互动性，投影机上逐渐增加了麦克风、摄像头等外接装置，以智能获取用户自定义的输入信息，从而将输入信息作为图像或视频投射到幕布上。为了提高投射内容的趣味性，可以为投射内容中的元素增加特效，在生成特效时，与特效相关的动态生成参数可以包括变化周期和变化幅度，其中变化周期是指特效每完成一个周期所需要的时间。为了方便说明，下面举例说明变化幅度。例如投射内容是投影到幕布上的一副图像，图像中的元素包括三个文字“大”、“家”和“好”，假设元素的特效设定为在一个周期内向左平移n厘米之后向右平移n厘米回到原位，则变化幅度是指n厘米。

本公开实施例语音可视化方法的执行主体可以为本公开实施例提供的语音可视化装置，或者集成了该语音可视化装置的服务器设备、物理主机或者用户设备(UserEquipment，UE)等不同类型的投影设备，其中，语音可视化装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该投影设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式。

参见图1，图1是本公开实施例所提供的语音可视化系统的场景示意图。其中，该语音可视化系统可以包括投影设备100，投影设备100中集成有语音可视化装置。

另外，如图1所示，该语音可视化系统还可以包括存储器200，用于存储数据，如存储文本数据。

需要说明的是，图1所示的语音可视化系统的场景示意图仅仅是一个示例，本公开实施例描述的语音可视化系统以及场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着语音可视化系统的演变和新业务场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本公开实施例提供的语音可视化方法，本公开实施例中以投影设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体。

参照图2，图2是本公开实施例提供的语音可视化方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该语音可视化方法具体可以包括以下步骤201-204，其中：

201、获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息。

其中，采集数据是指投影设备通过采集外设采集到的用户数据。示例性地，采集数据可以包括用户语音数据、用户生理参数和用户的图像数据等。例如，采集数据可以通过蓝牙连接的手环采集得到用户的心跳、血压等生理数据，还可以通过蓝牙连接的外接摄像头得到用户的图像数据。

以下具体描述用户语音数据的获取方式和含义：

投影设备开启后，通过外接的采集设备采集用户语音数据。本公开实施例对采集设备不进行限制，投影设备可以预先外接动圈式、电容式、驻极体或最近新兴的硅微传声器等类型的麦克风，并通过麦克风采集用户说话时发出的声音。麦克风采集到声音后，将声音作为用户语音数据传输至投影设备中进行分析和存储。

用户语音数据中，可以包含音频参数、文字信息等多种信息。

音频参数是指与声音相关的特征，例如用户语音数据中可以包含用户说话时的音量，也可以包含用户说话时的音调，还可以同时包含多个与声音相关的特征。通过对不同音频参数的分析，可以获取用户不同的状态，因此在需要获取不同的状态时，可以根据实际的应用场景对用户语音数据进行分析，得到不同的音频参数。

另一方面，文字信息是指对用户语音数据进行语音识别得到的对应文字，例如用户在使用摄影设备所外接的麦克风唱歌时，唱出的是某首歌的歌词“大家好”，则此时投影设备可以得到“大家好”对应的音频参数“dajiahao”，通过对音频参数进行文字识别后，可以得到文字信息“大家好”。具体地，投影设备可以通过自动语音识别技术(AutomaticSpeech Recognition)模块对用户语音数据中的“dajiahao”进行智能文字识别，根据用户语音数据中音频参数之间的关系和语境等确定用户语音数据中的文字信息是“大家好”，而不是“大架号”等错误的文字信息。

进一步地，为了避免投影设备将周围环境噪音误认为用户语音数据而影响投影的结果，可以在采集用户语音数据时，根据声音的音量首先进行分辨和筛选。例如，在采集用户语音数据时，将采集到的声音中音量低于预设分贝值的声音筛除。由于人正常说话时的分贝是40分贝-60分贝，因此可以将音量低于30分贝的声音当作误采集到的周围环境噪音滤除，将音量大于或等于30分贝的声音作为用户语音数据。

此外，投影设备中还可以预先设置不同的筛选模式，不同的筛选模式中筛除噪音的分贝阈值不同，以方便用户根据不同场景对滤除的分贝阈值进行调整。其中，筛除噪音的分贝阈值用于在采集用户语音数据时，将低于当前筛选模式设定的分贝阈值的声音判定为噪音。例如可以预先设置分贝阈值分别为60分贝、40分贝和30分贝的高分贝、中分贝和低分贝三种筛选模式。当处于KTV或者其他周围环境噪音音量较大的场景时，用户可以将筛选模式调整为高分贝模式，此时投影设备在采集用户语音数据时会将音量低于60分贝的声音当做误采集到的周围环境噪音滤除，因此即使周围环境噪音的音量高，投影设备也不会将周围环境噪音误认为用户语音数据。

采用分贝区分噪音和用户语音数据的方法容易受用户讲话习惯和周边环境影响，因此可以根据用户的声纹对用户语音数据和噪音进行区分。为了方便理解，本实施例中给出了一种投影设备根据声纹过滤噪音的具体场景，步骤201可以具体通过以下方式实现：

(1)获取原始音频数据，并提取所述原始音频数据中的目标声纹数据。

其中，原始语音数据是指投影设备获取后，未经过处理的语音数据。在原始语音数据中，包括用户语音数据和周围环境噪音中的至少一者。因此为了区分用户语音数据和周围环境噪音，投影设备可以首先通过预设的声纹提取模块对原始音频数据进行声纹提取，以得到目标声纹数据。

(2)查询预设的历史声纹数据库，判断是否存在与所述目标声纹数据匹配的历史声纹数据。

(3)若所述历史声纹数据库中存在与所述目标声纹数据相同的历史声纹数据，则将所述原始音频数据作为用户语音数据。

为了判断目标声纹数据是否来自于用户语音数据，投影设备可以查询历史声纹数据库中存储的历史声纹数据，若历史声纹数据中存在与目标声纹数据匹配的数据，则说明目标声纹数据来自于用户语音数据，投影设备对该原始音频数据进行后续的可视化步骤。若历史声纹数据中不存在与目标声纹数据匹配的数据，则说明目标声纹数据来自于周围环境噪音，投影设备不对该原始音频数据进行处理。

具体地，用户在初次使用投影设备时，可以录入自己的声音，录入后投影设备提取出录入声音中的声纹，并将声纹存储在历史声纹数据库中。此外，投影设备还可以将更新后的历史声纹数据库联网上传至云端中，更新云端中的数据。通过上传云端，即使用户录入和使用的投影设备不同，使用的投影设备也可以滤除周围环境噪音。录入之后每次使用时，投影设备都可以根据历史声纹数据库对目标声纹数据进行判断。

需要说明的是，如果用户从未录入自己的声音，投影设备将无法区分用户语音数据和周围环境噪音。因此如果投影设备检测到本设备从未录入过声音，可以发出提示音或提示信号，以提醒用户录入声音。

202、根据所述采集数据，得到目标情绪类别。

其中，目标情绪类别可以包括根据用户语音数据、用户生理参数以及用户图像数据等采集数据中的一种或多种，所得到的情绪类别。

示例性地，目标情绪类别可以包含根据用户语音数据所得到的情绪类别。用户处于不同情绪时，用户语音数据中的音频参数不同。例如，用户处于愤怒的情绪时，用户语音数据中的音量会比正常说话时的音量大，并且音调会比正常说话时的音调高。因此投影设备可以根据用户语音数据中包含的不同音频参数，判断用户所处的目标情绪类别，目标情绪类别是预设的开心、伤心、愤怒等常见情绪类别中的一种，也可以是其中的多种情绪。具体地，投影设备接收到麦克风传输的用户语音数据后，对用户语音数据进行特征提取、分类预测等处理，得到目标情绪类别。

为了方便理解，本实施例中给出了一种投影设备根据所述用户语音数据，得到目标情绪类别的具体场景，步骤202可以具体通过以下方式实现：

调用预设的第一情绪识别模型对用户语音数据进行预测处理，得到目标情绪类别。

本公开实施例中，第一情绪识别模型是通过预先采集大量的语音数据和其对应标签训练得到的。语音数据中包含了处于各种情绪下人发出的声音，例如语音数据中可以包含处于愤怒、冷静等情绪下采集到人的声音，对于不同的声音事先打上对应的情绪标签，如对于音量极大，音调极高的语音数据打上愤怒的标签，对于音量处于40-50分贝，音调起伏较小的语音数据打上冷静的标签。经过训练后，第一情绪识别模型可以根据用户语音数据中的信息预测用户所处的目标情绪类别。

进一步地，第一情绪识别模型可以包括卷积神经网络(Convolutional NeuralNetwork，CNN)，其中以卷积层、池化层以及全连接层实现特征提取和分类预测等各种功能，例如，通过卷积层对用户语音数据进行卷积操作，得到特征向量，利用池化层对特征向量进行池化操作，通过全连接层对池化后的特征向量进行计算，得到用户的目标情绪类别。

为了提高目标情绪类别判断的精度，在一些实施例中还可以同时根据用户语音数据和用户生理参数预测目标情绪类别。为了方便理解，本实施例中给出了一种投影设备根据用户语音数据和用户生理参数预测目标情绪类别的具体场景，步骤202可以具体通过以下方式实现：

(1)调用预设的第二情绪识别模型中的语音处理子模型对用户语音数据进行预测处理，得到语音情绪类别。

(2)获取用户生理参数，并调用预设的第二情绪识别模型中的生理数据处理子模型对用户生理参数进行预测处理，得到生理情绪类别。

(3)调用预设的第二情绪识别模型中的情绪融合子模型将语音情绪类别和生理情绪类别进行情绪融合，得到目标情绪类别。

具体地，投影设备首先调用第二情绪识别模型中的语音处理子模型对用户语音数据进行预测，得到根据用户语音数据得到的语音情绪类别，具体的说明可以参考上文中采用第一情绪识别模型对用户语音数据进行预测的说明，在此不再进行赘述。

在本公开实施例中，除了麦克风以外，投影设备还与如手环、摄像头等能够采集到表情、血压、心跳等用户生理参数的外接设备相连。用户生理参数与用户语音数据一样，也可以表征用户的情绪。例如人在慌乱时人脸和眼睛的活动幅度较大，而人在平静时人脸和眼睛的活动幅度较小。又如人在慌乱时心跳的次数会明显增加，而人在平静时心跳的次数会处于60次/分-90次/分的范围之中。因此投影设备也可以根据用户生理参数预测用户所处的生理情绪类别。

进一步地，若用户生理参数中包括用户图像，还可以对用户图像进行预处理以增强确定目标情绪类别时的准确性。例如可以通过滤波等方法对用户图像进行去噪、对比度增强等预处理。

具体地，投影设备可以调用第二情绪识别模型中的生理数据处理子模型对用户生理参数进行预测处理，以得到生理情绪类别。生理数据处理子模型同样是经过大量携带标签的数据训练得到的。示例性地，可以预先采集处于不同情绪时人的生理数据，然后对不同的生理数据打上情绪标签。例如对于130次/分的心跳打上慌乱的情绪标签，对于70次/分的心跳打上冷静的情绪标签。经过训练后，生理数据处理子模型可以根据用户生理参数中的信息预测用户所处的生理情绪类别。

进一步地，生理数据处理子模型同样可以包括卷积神经网络，在此不再进行赘述。

在得到生理情绪类别和语音情绪类别后，投影设备可以调用第二情绪识别模型中的情绪融合子模型分别获取语音情绪类别和生理情绪类别的情绪特征向量，然后分别赋予两个情绪特征向量对应的权重值，以完成特征向量的组合，得到目标特征向量，最终根据目标特征向量预测目标情绪类别。

由于本公开实施例结合了用户生理参数和用户语音数据，因此相较只根据用户语音数据的方法，目标情绪类别的判断准确性更高。

为了减少计算量，还可以采用一个识别模型对用户生理参数和用户语音数据进行预测处理，得到目标情绪类别。

具体地，识别模型同样需要经过大量携带标签的数据训练得到，在此不再进行赘述。得到用户生理参数和用户语音数据后，投影设备调用识别模型分别提取用户生理参数和用户语音数据的特征向量，然后分别赋予两个向量以相应的权重值，以完成特征向量的组合，得到目标特征向量，最终根据目标特征向量预测目标情绪类别。

为了进一步提高目标情绪类别判断的准确性，在一些实施例中，投影设备还可以同时根据文字信息中与情绪相关的情绪关键词以及音频参数，得到语音情绪类别。为了方便理解，本实施例中给出了一种投影设备同时根据文字信息中与情绪相关的情绪关键词以及音频参数，得到语音情绪类别的具体场景：

(1)对用户语音数据进行文字识别处理，得到文字信息。

(2)对文字信息进行语义提取处理，得到情绪关键词。

投影设备可以通过NLP(Natural Language Processing)模块对文字信息中的情绪关键词进行提取。具体地，可以采用TextRank、TF-IDF等算法，根据文字信息中每个字或词的重要性判断是否为情绪关键词，重要性越高，则字和词与预设的与情绪相关的字词越接近。因此投影设备可以提取出重要性高的字或词作为情绪关键词。

(3)提取所述用户语音数据中的音频参数，其中，所述音频参数包括语速、音量以及音调中的至少一种。

音频参数的解释可以参考上文中的解释，在此不再进行赘述。

具体地，投影设备可以接收麦克风发送的用户语音数据，然后获取用户语音数据的频谱曲线、时域曲线等信息，并以此获取语速、音量及音调中的至少一种。

(4)调用预设的第二情绪识别模型中的语音处理子模型对所述情绪关键词、所述音频参数进行预测处理，得到语音情绪类别。

投影设备可以调用语音处理子模型分别获取情绪关键词和音频参数的特征向量，然后分别赋予两个特征向量对应的权重值，以完成特征向量的组合，得到语音特征向量，最终根据语音特征向量预测语音情绪类别。

结合情绪关键词和音频参数得到的语音情绪类别相比直接根据音频参数得到语音情绪类别的方法而言，预测的准确性更高，进而使得到的目标情绪类别更加准确。

需要说明的是，投影设备可以根据用户生理参数，用户图像数据，用户语音数据和情绪关键词中的一个确定目标情绪类别，还可以同时根据多个确定目标情绪类别，具体实现方式可以参考根据用户生理参数和用户语音数据得到目标情绪类别的方法，以及根据用户语音数据得到目标情绪类别的方法，在此不进行具体描述。

203、根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效。

其中，目标文字特效是指可视化后文字投影时的特征。示例性地，目标文字特效可以包括文字颜色，文字大小和动态特效等特效。例如，用户语音数据对应的目标文字特效可以包括文字颜色的特效：红色，文字大小的特效：18磅，以及动态特效：跃动。以红色和18磅的目标文字特效进行可视化后，投影出的文字大小为18磅，文字颜色为红色，并且文字进行跃动。

其中，投影设备可以根据目标情绪类别查找对应的特效模型，以获取目标文字特效，也可以根据目标情绪类别修改预设的原始特效模型，以获取目标文字特效。

一方面，投影设备根据目标情绪类别查找对应的特效模型时，可以在多个分别与情绪类别对应的预设模型中查找目标情绪类别对应的模型，以获取目标文字特效。具体可以通过以下方式实现：

(1)获取预设模型集合。

(2)查询预设模型集合，获取所述目标情绪类别对应的目标文字特效生成模型。

投影设备之中预先设定有与情绪类别对应的预设模型集合，例如研发人员可以在投影设备之中设定有与高兴的情绪类别对应的预设模型，同时还可以设定有与平静的情绪类别对应的预设模型，预设模型集合可以包括预设模型中的至少一个。

当进行可视化时，投影设备在预设模型集合中查询与目标情绪类别对应的目标文字特效生成模型。例如目标情绪类别是高兴时，则投影设备遍历预设模型集合中的每个预设模型，确定每个预设模型对应的情绪类别，然后将与目标情绪类别对应的预设模型作为目标文字特效生成模型。

另一方面，投影设备可以根据目标情绪类别对预设的原始特效模型中的动态生成参数进行调整。例如目标情绪类别是高兴时，可以将变化周期减小，同时将变化幅度增大，呈现字符快速进行大幅度变化的特效，从而营造出欢快的氛围。

在一些实施例中，可以根据用户的用户图像数据调整动态生成参数，以得到特定的目标文字特效生产模型。为了方便理解，本实施例中给出了一种调整动态生成参数的具体场景，此时所述根据所述目标情绪类别，对预设的初始特效生成模型中的动态生成参数进行调整，得到目标文字特效生成模型，包括：

(1)采集用户的用户图像数据。

投影设备可以通过外接的摄像头等图像采集装置采集到的图像或视频，然后将采集到的图像或视频作为用户图像数据。

(2)根据所述用户图像数据，得到用户的用户变化幅度和用户身高。

投影设备可以根据用户图像数据中包含用户全身的图像或视频帧得到用户身高。具体地，投影设备可以根据图像检测模型检测图像或视频帧中人体在图像中的高度，然后根据图像与现实的放缩比例，对图像中的高度进行放大，得到用户身高。

另一方面，投影设备可以根据多个图像序列或视频中人体部位的移动幅度得到用户变化幅度。具体地，投影设备可以采用光流法等图像检测方法检测如手臂或者头部等部位在图像中的移动幅度，然后根据图像与现实的放缩比例，对图像中的移动幅度进行放大，得到用户变化幅度。

(3)根据预设的变化幅度对应关系和所述用户身高，得到所述用户变化幅度对应的特效变化幅度。

(4)调整预设的初始特效生成模型中与变化幅度相关的目标动态生成参数，得到目标文字特效生成模型，其中，所述目标文字特效生成模型所生成文字的变化幅度为所述特效变化幅度。

投影设备在得到用户变化幅度和用户身高后，可以根据变化幅度对应关系得到动态文字投影后在屏幕、幕布等展示设备上的特效变化幅度。参考上文中对变化幅度进行解释时举的例子，n厘米即为特效变化幅度。因此投影设备得到特效变化幅度后，能够计算出使动态文字的变化幅度达到特效变化幅度时，目标动态生成参数应达到的值，进而针对性地调整目标动态生成参数。

进一步地，可以采用式(1)的变化幅度对应关系：

Z＝(C/H)*N 式(1)

其中，Z为特效变化幅度，C为出厂时，对文字信息进行可视化后动态文字的默认文字高度，H为用户身高，N为用户变化幅度。

因此投影设备通过获取用户图像数据，根据用户图像数据调整动态生成参数，可以根据用户的人体移动幅度和用户高度智能调整目标动态生成参数，对于同一个人，人体移动幅度大时动态文字的变化幅度大。对于不同的人，用户身高越高则动态文字的变化幅度越大。

204、根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在得到目标文字特效后，投影设备可以根据目标文字特效对文字信息进行可视化处理，以得到投影信息。例如投影设备可以将文字信息输入至目标情绪类别对应的特效生成模型中，以得到包含动态文字的投影信息。

其中，动态文字由文字字符与动态效果组成。文字字符与用户语音数据中的文字信息一致。例如当用户语音数据中的文字信息是“大家好”，即用户说出了“大家好”时，动态文字为包含了动态效果的“大家好”。动态效果在投影设备中预先设置好，可以包括如文字跳跃、文字闪烁等效果，本公开实施例对此不作限制。

在本公开实施例中，投影设备可以调用预设的特效生成模型生成包含动态文字的投影信息，将文字信息输入特效生成模型后，特效生成模型将文字信息中的字符确定为文字字符，并根据动态生成参数控制文字字符的运动，得到动态文字，形成投影信息，其中，动态生成参数可以是每个时间段内的变化周期以及文字字符在每个变化周期内的变化幅度等。

综上所述，本公开实施例包括：获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息；获取与所述采集数据对应的目标情绪类别；根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效；根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。可见，本公开实施例中的语音可视化方法可以将文字信息可视化，并且可以根据用户实时的目标情绪类别设定文字信息可视化后的特效，增强了投影时用户的沉浸感，增加投影时的灵活性。

为了进一步增强投影时用户的沉浸感，投影设备还可以根据文字信息中的关键词，为投影信息加上特效。参考图3，此时，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之前，还包括：

301、提取所述文字信息中的目标图形关键词。

其中，目标图形关键词是多个预设图形关键词中的一个。示例性地，投影设备中可以设置有与天气和动作等类别的预设图形关键词，当投影设备执行步骤301时，可以通过预设的NLP模块提取目标图形关键词，具体可以参考上文中提取情绪关键词时的过程。例如预设关键词中包含“下雨”时，如果用户说了“下雨”，即文字信息中存在“下雨”，则投影设备可以将“下雨”提取出作为目标图像关键词。

302、确定所述目标图形关键词对应的目标图形特效，其中，所述目标图形特效包括天气特效和动作特效中的至少一种。

根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

303、根据所述目标文字特效和所述目标图形特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

投影设备可以遍历预设的特效数据库，确定特效数据库中每个预设图形特效所对应的预设图形关键词，并提取其中目标图形关键词对应的目标图形特效，以将目标图形特效添加到投影信息中。例如特效数据库中关键词“下雨”对应的预设图形特效是雨滴落下的动态效果，当目标图形关键词是下雨时，投影设备将该动态效果从特效数据库中提取出来，作为目标图形特效。又例如，特效数据库中关键词“流血”对应的预设图形特效是红色的液体落下的动态效果，当目标图形关键词时流血时，投影设备将对应的动态效果从特效数据库中提取出，作为目标图形特效。

在投影设备将目标图形特效添加到投影信息中时，可以有多种添加方式。示例性地，投影设备可以将目标图形特效添加至可视化后的文字上，或者投影设备可以将目标图形特效作为投影信息中的背景特效。例如，投影设备可以将下雨的动态效果添加在动态的文字字符上，在文字字符上形成雨滴落下的效果。投影设备还可以将下雨的动态效果作为投影信息中的背景。本公开实施例不对添加的方式进行限制。

进一步地，除了天气特效和动作特效以外，投影设备还可以根据文字信息中的不同目标图形关键词，为投影信息添加更多不同的特效。示例性地，不同的特效可以包括与地点相关的特效，还可以包括和动物相关的特效等。例如投影设备还可以提取文字信息中与目标地点相关的目标图形关键词，然后生成展示目标地点的目标图形特效，并将该特效添加到投影信息中。或者投影设备可以提取文字信息中与目标动物相关的目标图形关键词，然后生成包含目标动物的目标图形特效，并将该特效添加到投影信息中。

因此为投影信息加上目标图形特效可以进一步丰富投影信息，且实时根据用户提到的目标图形关键词改变投影信息也增加了投影的灵活性。

除了目标图形特效以外，投影设备还可以为投影信息添加声音特效，参考图4，此时根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之后，还包括：

401、提取所述文字信息中的目标声音关键词。

402、确定所述目标声音关键词对应的目标声音特效。

根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中，包括：

403、根据所述目标文字特效和所述目标声音特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

其中，目标声音关键词是多个预设声音关键词中的一个。示例性地，投影设备中可以设置有与环境音或动物叫声等类别的预设声音关键词，当投影设备执行步骤301时，可以通过预设的NLP模块提取目标图形关键词，具体可以参考上文中提取情绪关键词时的过程。例如预设关键词中包含“风声”时，如果用户说了“一起听风声”，即文字信息中存在“风声”，则投影设备可以将“风声”提取出作为目标图像关键词。

投影设备确定目标声音特效以及添加目标声音特效的方式可以参考步骤302，具体不再进行阐述。

有时用户说话是为了实现语音控制投影设备，参考图5，所述根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中之后，还包括：

501、查询预设指令集合，判断所述预设指令集合中是否存在与所述文字信息匹配的目标指令。

其中，文字信息与目标指令匹配可以指目标指令中包含的指令文字信息与用户语音数据中的文字信息相同，因此判断预设指令集合中是否存在与文字信息匹配的目标指令时，需要比对文字信息和指令文字信息。

投影设备比对文字信息和指令文字信息时，不仅可以比对文字信息包含的全部信息与指令文字信息，还可以比对文字信息中包含的部分信息与指令文字信息。例如文字信息是“今天天气好，我想打开XX音乐软件”时，若投影设备比对文字信息包含的全部信息与指令文字信息，则为了实现语音控制需要预先设置大量的预设指令，以避免文字信息中包含指令文字信息，但还有其他信息时，无法匹配的情况，因此会占用大量的存储空间，且比对时间较长。若投影设备首先提取文字信息中与指令相关的指令关键词，再进行比对，则可以省下存储空间，且减少比对时间，效率更高。例如文字信息同样是“今天天气好，我想打开XX音乐软件”时，投影设备可以首先提取指令关键词“打开XX音乐软件”，然后判断文字信息和指令文字信息是否相同。

进一步地，投影设备还可以对指令关键词进行同义词拓展，得到多个同义关键词，然后将指令关键词和同义关键词分别与指令文字信息进行对比，以提高判断的精确性。示例性地，投影设备提取指令关键词后，还可以通过网络或者预先设置的词库对指令关键词进行同义词扩展，形成多个扩展关键词，再将指令关键词和每个扩展关键词分别与指令文字信息进行比对，避免用户说法不同导致无法实现语音控制。例如指令关键词是“打开XX音乐软件”时，可以进行同义词扩展，形成包括“开启XX音乐软件”、“启动XX音乐软件”等多个扩展关键词，然后将“打开XX音乐软件”、“开启XX音乐软件”、“启动XX音乐软件”以及其他扩展关键词分别与指令文字信息进行比对。可以理解的是，在提取其他关键词，如情绪关键词或天气关键词时，同样可以采用同义词扩展的方法，以提高投影设备的智能化。

502、若所述预设指令集合中存在与所述文字信息匹配的目标指令，则执行所述目标指令文字信息所对应的目标指令。

在比对时，投影设备遍历预设指令集中的所有预设指令，确定预设指令所包含的指令文字信息，当查找到与文字信息相同的目标指令文字信息时，执行目标指令文字信息对应的目标指令。

为了提高语音控制的智能化，投影设备还可以将与文字信息的匹配程度高于预设阈值的预设指令判定为目标指令。例如可以设定一个匹配阈值90％，当查找到与文字信息有90％的字符相同的目标指令文字信息，即文字信息与目标指令的匹配度达到90％时，执行目标指令。

503、当所述目标指令执行完成时，停止展示所述投影信息。

当用户在唱歌或阅读时，为了方便听众或用户自身预先查看下一句内容，或者为了方便复查已经唱过或读过的内容，可以将歌词和文章全部投影在幕布或屏幕上。参考图6，此时，所述根据所述目标情绪类别，对所述用户语音数据中的文字信息进行可视化处理，得到包含动态文字的动态投影信息，包括：

601、检测麦克风功能是否启用。

检测麦克风功能是否启用的方法有多种，一种最简单的方法是检测麦克风接口的状态。示例性地，投影设备可以检测设置在投影设备上的麦克风接口是否处于导通状态，即麦克风的插头是否插入了麦克风接口，若麦克风接口处于导通状态，则说明麦克风功能启用，投影设备接收到的用户语音数据是用户从麦克风输入的语音数据。

602、若所述麦克风功能启用，则获取所述用户语音数据中的文字信息，并联网查询所述文字信息对应的文章或歌词。

如果麦克风功能启用，则说明用户可能处于唱歌或者阅读文章的状态，为了方便听众或用户自身预先查看下一句内容，或者为了方便复查已经唱过或读过的内容，可以预先查询歌词或文章的全部内容，既可以方便听众，又可以作为用户的提词器，避免出现忘记内容等状态。查询的方法包括但不仅限于联网查询，例如投影设备可以通过网络上的搜索引擎，搜索包括文字信息的文章或歌词。

此外，投影设备还可以根据搜索后得到信息的浏览数和所处位置确定文字信息对应的文章或歌词。由于包括文字信息的文章或歌词可能有多种，例如包括某一句歌词的可能是歌曲，也可能是评述文章，因此投影设备可以将搜索引擎中位于最前列的信息，或者是浏览数最多的信息作为文字信息对应的文章或歌词。

603、根据所述目标文字特效，对所述文章或所述歌词进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

如果文字信息对应的是歌词，投影设备还可以在投影信息中添加对应歌手的信息。示例性地，投影设备可以获取歌词所对应歌手的图像或视频，并将歌手的图像或视频作为动态投影信息中的背景。

在投影时，如果动态投影信息中投影声音的投影分贝值过大，则有可能会掩盖用户的声音，导致用户语音数据是误采集的投影声音。为了避免这种情况的出现，在播放投影信息时可以根据用户语音数据的分贝值调整投影时的分贝值，具体可以采取以下的步骤对投影的分贝值进行调整：

(1)提取动态投影信息中的投影分贝值和用户语音数据中的用户分贝值。

(2)比对投影分贝值与用户分贝值。

(3)若投影分贝值与用户分贝值的差大于预设分贝值，则将默认分贝值作为投影分贝值，并播放投影信息。

为了判断投影分贝值是否过大，投影装置从控制芯片或存储芯片中提取投影分贝值，并从用户语音数据中提取用户分贝值，即用户说话时的音量。

为了比对投影分贝值与用户分贝值之间的大小关系，可以设定一个预设分贝值以判断投影时的声音是否会掩盖用户的声音。若投影分贝值与用户分贝值的差大于预设分贝值，则说明投影分贝值过高，可能会掩盖用户的声音，此时，投影设备将默认分贝值作为投影分贝值，即使投影信息中投影声音的分贝值为默认分贝值，其中，默认分贝值可以是出厂时设定的分贝值。为了避免调整后投影分贝值仍然会掩盖用户的声音，可以将默认分贝值设置为一个较低的分贝值，例如可以将默认分贝值设置为40分贝，即人轻声说话时的分贝值。

此外投影设备还可以根据不同用户的声纹，对各用户设置不同的默认分贝值。以下具体说明：

投影设备在获取到用户语音数据后，可以对用户语音数据中的声纹进行识别，之后投影设备在根据包含不同声纹的用户语音数据进行可视化处理和播放时，分别收集播放时间最长的分贝值。例如对于包含不同的声纹A和声纹B的用户语音数据A和用户语音数据B。例如对于在根据用户语音数据A进行可视化处理和播放时，投影设备播放时的分贝值情况为：以60分贝共计播放了60分钟，以40分贝共计播放20分钟，以80分贝共计播放了5分钟，因此声纹A对应用户的偏好为60分贝，可以将60分贝设置为默认分贝值。而对于在根据用户语音数据B进行可视化处理和播放时，投影设备播放时的分贝值情况为：以20分贝共计播放了55分钟，以40分贝共计播放20分钟，以80分贝共计播放了5分钟，因此声纹B对应用户的偏好为20分贝，可以将20分贝设置为默认分贝值。在经过多次收集后，可以得到不同用户的分贝值偏好，因此如果投影设备再次识别到声纹A，可以在投影分贝值与用户分贝值的差大于预设分贝值时，将60分贝作为投影分贝值，并播放投影信息。而投影设备再次识别到声纹B，可以在投影分贝值与用户分贝值的差大于预设分贝值时，将20分贝作为投影分贝值，并播放投影信息。

为了更好实施本公开实施例中语音可视化方法，在语音可视化方法基础之上，本公开实施例中还提供一种语音可视化装置，如图7所示，为本公开实施例中语音可视化装置的一个实施例结构示意图，该语音可视化装置700包括：

获取单元701，用于获取用户的采集数据，并将所述采集数据中的用户语音数据转换为文字信息；

情绪获取单元702，用于获取与所述采集数据对应的目标情绪类别；

特效获取单元703，用于根据所述目标情绪类别，获取所述用户语音数据对应的目标文字特效；

展示单元704，用于根据所述目标文字特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，情绪获取单元702还用于实现以下方法中的一种或多种：

分析所述采集数据中的用户图像数据，得到所述目标情绪类别；

分析所述采集数据中的用户生理参数，根据所述用户生理参数确定所述目标情绪类别；

分析所述用户语音数据，得到所述目标情绪类别，其中，所述用户语音数据中包含音量、音调和语速中的至少一个音频参数；

提取所述文字信息中的情绪关键词，并根据所述情绪关键词确定所述目标情绪类别。

在一些实施例中，所述语音可视化装置700还包括目标图形特效确定单元705，目标图形特效确定单元705用于：

提取所述文字信息中的目标图形关键词；

确定所述目标图形关键词对应的目标图形特效，其中，所述目标图形特效包括天气特效和动作特效中的至少一种；

所述展示单元704还用于：

根据所述目标文字特效和所述目标图形特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，所述语音可视化装置700还包括目标声音特效确定单元706，目标图形声音确定单元706用于：

提取所述文字信息中的目标图形关键词；

确定所述目标图形关键词对应的目标图形特效，其中，所述目标图形特效包括天气特效和动作特效中的至少一种；

所述展示单元704还用于：

根据所述目标文字特效和所述目标图形特效对所述文字信息进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，语音可视化装置700还包括指令执行单元707，指令执行单元707用于：

查询预设指令集合，判断所述预设指令集合中是否存在与所述文字信息匹配的目标指令；

若所述预设指令集合中存在与所述文字信息匹配的目标指令，则执行所述目标指令文字信息所对应的目标指令；

当所述目标指令执行完成时，停止展示所述投影信息。

在一些实施例中，语音可视化装置700还包括联网获取单元708，联网获取单元708用于：

检测麦克风功能是否启用；

若所述麦克风功能启用，则获取所述用户语音数据中的文字信息，并联网查询所述文字信息对应的文章或歌词；

根据所述目标文字特效，对所述文章或所述歌词进行可视化处理，并将可视化处理后得到的投影信息展示在投影面中。

在一些实施例中，获取单元701还用于：

获取原始音频数据，并提取所述原始音频数据中的目标声纹数据；

查询预设的历史声纹数据库，判断是否存在与所述目标声纹数据匹配的历史声纹数据；

若所述历史声纹数据库中存在与所述目标声纹数据匹配的历史声纹数据，则将所述原始音频数据作为用户语音数据。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由于该语音可视化装置可以执行本公开任意实施例中语音可视化方法中的步骤，因此，可以实现本公开任意实施例中语音可视化方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本公开实施例中语音可视化方法，在语音可视化方法基础之上，本公开实施例还提供一种投影设备，参阅图8，图8示出了本公开实施例投影设备的一种结构示意图，具体的，本公开实施例提供的投影设备包括处理器801，处理器801用于执行存储器802中存储的计算机程序时实现任意实施例中语音可视化方法的各步骤；或者，处理器801用于执行存储器802中存储的计算机程序时实现如图7对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器802中，并由处理器801执行，以完成本公开实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

投影设备可包括，但不仅限于处理器801、存储器802。本领域技术人员可以理解，示意仅仅是投影设备的示例，并不构成对投影设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子备还可以包括输入输出设备、网络接入设备、总线等，处理器801、存储器802、输入输出设备以及网络接入设备等通过总线相连。

处理器801可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是投影设备的控制中心，利用各种接口和线路连接整个投影设备的各个部分。

存储器802可用于存储计算机程序和/或模块，处理器801通过运行或执行存储在存储器802内的计算机程序和/或模块，以及调用存储在存储器802内的数据，实现计算机装置的各种功能。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据投影设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的语音可视化装置、投影设备及其相应单元的具体工作过程，可以参考任意实施例中语音可视化方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本公开实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本公开任意实施例中语音可视化方法中的步骤，具体操作可参考任意实施例中语音可视化方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本公开任意实施例中语音可视化方法中的步骤，因此，可以实现本公开任意实施例中语音可视化方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本公开实施例所提供的一种语音可视化方法、装置、投影设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

24页详细技术资料下载

语音可视化方法、装置、投影设备及计算机可读存储介质

相关技术

网友询问留言