基于即时通讯的语音消息处理方法、装置和计算机设备

文档序号：195651 发布日期：2021-11-02 浏览：30次 >En<

阅读说明：本技术 基于即时通讯的语音消息处理方法、装置和计算机设备 (Voice message processing method and device based on instant messaging and computer equipment ) 是由洪湧陈国疆郝莹莹于 2021-06-28 设计创作，主要内容包括：本申请涉及一种基于即时通讯的语音消息处理方法、装置、计算机设备和存储介质。所述方法包括：展示即时通讯界面；响应于针对所述即时通讯界面的预设触发动作,进入消息选择模式；在所述消息选择模式下,接收在所述即时通讯界面中输入的消息选择操作；对所述消息选择操作所选择的多条目标语音消息进行文本转换,得到转换后的文本消息；在所述即时通讯界面中,展示转换后的所述文本消息。采用本方法能够提高语音消息转为文本消息的效率。(The application relates to a voice message processing method and device based on instant messaging, computer equipment and a storage medium. The method comprises the following steps: displaying an instant communication interface; responding to a preset trigger action aiming at the instant communication interface, and entering a message selection mode; receiving message selection operation input in the instant messaging interface in the message selection mode; performing text conversion on the plurality of target voice messages selected by the message selection operation to obtain converted text messages; and displaying the converted text message in the instant messaging interface. By adopting the method, the efficiency of converting the voice message into the text message can be improved.)

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于即时通讯的语音消息处理方法、装置和计算机设备。

背景技术

随着计算机技术的发展，即时通讯在人们的生活中变得越来越重要。人们可以通过即时通讯应用程序随时随地以多种消息类型进行一对一或一对多的在线聊天。对于发送者而言，发送语音消息较发送文本要便捷，而对于接收者而言，若语音消息有很多条的情况下，逐条播放语音消息不如全部转为文字来获知到对方所发送的信息快。

然而，目前如果想将多条语音消息转为文本，只能分别重复地对各条语音消息逐条进行语音转文本操作。重复的语音转文本操作降低了即时通讯语音转文本的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高即时通讯语音转文本的效率的基于即时通讯的语音消息处理方法、装置、计算机设备和存储介质。

一种基于即时通讯的语音消息处理方法，所述方法包括：

展示即时通讯界面；

响应于针对所述即时通讯界面的预设触发动作，进入消息选择模式；

在所述消息选择模式下，接收在所述即时通讯界面中输入的消息选择操作；

对所述消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息；

在所述即时通讯界面中，展示转换后的所述文本消息。

在其中一个实施例中，所述对所述消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息，包括：

确定所述消息选择操作所选定的消息选择区域；

获取所述消息选择区域中所包括的消息的消息类型；

将所述消息类型发送至服务器，并接收所述服务器返回的多条目标语音消息的语音数据；所述目标语音消息，是属于所述消息类型中语音消息类型的消息；

对所述语音数据进行文本转换，得到转换后的文本消息。

在其中一个实施例中，所述确定所述消息选择操作所选定的消息选择区域，包括：

当所述消息选择操作为作用于所述即时通讯界面上的滑动操作时，则获取所述滑动操作的滑动轨迹；

依据所述滑动轨迹，确定消息选择区域。

在其中一个实施例中，所述依据所述滑动轨迹，确定消息选择区域，包括：

获取所述滑动轨迹中的起始点和终止点，并将所述起始点和所述终止点作为角点，生成预设形状的区域，得到消息选择区域；或，

根据所述滑动轨迹的路径生成闭合区域，并将所述闭合区域确定为消息选择区域。

在其中一个实施例中，所述对所述语音数据进行文本转换，得到转换后的文本消息，包括：

若同一用户标识对应的多条目标语音消息满足预设合并条件，则

获取满足预设合并条件的多条目标语音消息分别对应的文本内容；每条目标语音消息对应的所述文本内容，是由所述目标语音消息对应的语音数据进行文本转换后得到；

合并所述多条文本内容，得到与所述用户标识对应的转换后的文本消息。

在其中一个实施例中，所述方法还包括：

在同一用户标识对应于连续的多条目标语音消息、且所述连续的多条目标语音消息中相邻的目标语音消息之间的时间间隔不超过预设时长的情况下，则判定连续的多条目标语音消息满足预设合并条件。

在其中一个实施例中，所述在同一用户标识对应于连续的多条目标语音消息、且所述连续的多条目标语音消息中相邻的目标语音消息之间的时间间隔不超过预设时长的情况下，则判定连续的多条目标语音消息满足预设合并条件，包括：

从位于所述消息选择区域内的第二条消息起选取当前消息，将所述当前消息与上一条消息进行属性信息比对；

若比对结果表示所述当前消息与所述上一条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长，则判定所述当前消息与上一条消息属于满足预设合并条件的目标语音消息；

将所述当前消息的下一条消息作为当前消息，返回执行所述将所述当前消息与上一条消息进行属性信息比对，直至所述当前消息为所述消息选择区域内的最后一条消息为止，得到满足预设合并条件的连续的多条目标语音消息。

一种基于即时通讯的语音消息处理装置，所述装置包括：

展示模块，用于展示即时通讯界面；

响应模块，用于响应于针对所述即时通讯界面的预设触发动作，进入消息选择模式；

接收模块，用于在所述消息选择模式下，接收在所述即时通讯界面中输入的消息选择操作；

转换模块，用于对所述消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息；

所述展示模块，还用于在所述即时通讯界面中，展示转换后的所述文本消息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

展示即时通讯界面；

响应于针对所述即时通讯界面的预设触发动作，进入消息选择模式；

在所述消息选择模式下，接收在所述即时通讯界面中输入的消息选择操作；

对所述消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息；

在所述即时通讯界面中，展示转换后的所述文本消息。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

展示即时通讯界面；

响应于针对所述即时通讯界面的预设触发动作，进入消息选择模式；

在所述消息选择模式下，接收在所述即时通讯界面中输入的消息选择操作；

对所述消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息；

在所述即时通讯界面中，展示转换后的所述文本消息。

上述基于即时通讯的语音消息处理方法、装置、计算机设备和存储介质，用户只需要在即时通讯界面做预设触发动作，终端就可以响应于用户针对所述即时通讯界面的预设触发动作，进入消息选择模式。在消息选择模式下，用户可以随意选择多条想要转换为文本消息的目标语音消息，终端在接收到所述即时通讯界面中输入的消息选择操作，直接将多条目标语音消息转换为文本消息并展示在所述即时通讯界面中。通过上述方法，用户仅需要在做预设触发动作后，选中多条目标语音消息，就可以将多条目标语音消息直接一键转换为对应的文本消息，在接收到的语音消息比较多的情况下，相较于将所有消息都转换为文本消息，能够有效避免将非目标语音消息也转为文本消息造成的资源浪费，而相较于对多条目标语音消息逐条进行语音转文本的操作，又能够提高语音消息转为文本消息的效率。

附图说明

图1为一个实施例中基于即时通讯的语音消息处理方法的流程示意图；

图2为一个实施例中消息选择模式示意图；

图3为一个实施例中滑动轨迹示意图；

图4为另一个实施例中滑动轨迹示意图；

图5为另一个实施例中文本消息示意图；

图6为另一个实施例中基于即时通讯的语音消息处理方法的流程示意图；

图7为一个实施例中基于即时通讯的语音消息处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于即时通讯的语音消息处理方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，展示即时通讯界面。

其中，即时通讯界面，是即时通讯应用程序的界面。即时通讯界面可以用于展示多对多聊天的群消息，也可以用于展示一对一聊天的消息。可以理解的是，即时通讯应用程序和只能录音不能通讯的录音程序不同，即时通讯界面也和录音界面不同。

具体地，终端可以在用户启动即时通讯应用程序时，展示即时通讯界面。终端也可以在后台运行即时通讯应用程序，并在用户触发消息查看操作时，从后台将即时通讯界面展示在屏幕上。

步骤104，响应于针对即时通讯界面的预设触发动作，进入消息选择模式。

其中，消息选择模式，是使得用户可以选择即时通讯界面上的消息的模式。预设触发动作，预先设置的触发动作。

具体地，在即时通讯界面显示的消息中包括多条语音消息，用户在想要从中选择进行文本转换的多条目标语音消息时，可以针对即时通讯界面进行预设触发动作，终端响应于用户针对即时通讯界面的预设触发动作，并进入消息选择模式。其中，目标语音消息，是属于消息类型中语音消息类型的消息。

在一个实施例中，即时通讯界面显示的多条语音消息中可以包括已读和未读中的至少一种。即，本申请实施例对语音消息是否被读取的状态不作限定。

可以理解，即时通讯界面显示的消息中除了包括语音消息，还可以包括其他消息类型的消息，比如，文本消息、图片消息、链接消息、视频消息、以及表情消息等中的至少一种。

在一个实施例中，预先设置的触发动作，可以是预先设置的双击屏幕动作，也可以是预先设置的长按屏幕动作，还可以是预先设置的摇晃手机动作。比如，用户针对即时通讯界面进行双击屏幕动作，终端响应于用户双击屏幕动作，进入消息选择模式。

在一个实施例中，长按屏幕动作，是指连续按压屏幕达到预设时长。比如，连续按压屏幕5秒，则可以进入消息选择模式，供用户选择消息。

参考图2示出的消息选择模式示意图，在用户针对即时通讯界面进行预设触发动作后，终端响应于用户针对即时通讯界面的预设触发动作，进入消息选择模式，并提示用户“选择消息”。

步骤106，在消息选择模式下，接收在即时通讯界面中输入的消息选择操作。

其中，消息选择操作，是选择即时通讯界面展示的消息的操作。可以理解的是，消息选择操作可以选择多条目标语音消息。若即时通讯界面中有各种类型的消息，包括语音消息、图片、文字、表情以及视频等中的一种或多种，在用户针对即时通讯界面，只做一次预设触发动作即完成多条目标语音消息的选择的条件下，可以同时选择到非语音类型的消息。

具体地，在消息选择模式下，用户可以通过一次消息选择操作来从即时通讯界面中选择多条目标语音消息。在用户完成消息选择操作后，终端可以接收用户输入的消息选择操作。

在一个实施例中，消息选择操作可以是作用于屏幕的滑动操作。在消息选择模式下，用户可以在屏幕上进行滑动操作，以选择多条目标语音消息。比如，用户可以在屏幕从下往上滑动，也可以在屏幕从上往下滑动，还可以在屏幕将上画圈，以选择多条目标语音消息。终端在接收到用户从下往上滑动、从上往下滑动或画圈的多种消息选择操作中的一种，确定一个消息选择区域。

在一个实施例中，用户可以通过屏幕进行滑动操作，直接选择多条目标语音消息，即，将作用于屏幕的滑动操作的滑动轨迹所经过的语音消息，确定为被选择的目标语音消息。在另一个实施例中，用户可以通过屏幕进行滑动操作，以确定一个消息选择区域，将消息选择区域中的至少部分语音消息，确定为目标语音消息。

步骤108，对消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息。

具体地，终端可以在确定消息选择操作所选择的多条目标语音消息后，获取多条目标语音消息的语音数据，使用语音识别技术将语音数据进行文本转换，得到转换后的文本消息。其中，语音消息对应的语音数据可以存储在终端本地，如已读的语音消息对应的语音数据。语音消息对应的语音数据也可以从服务器下载并存储在终端本地，比如未读的语音消息对应的语音数据。

在一个实施例中，在接收到用户输入的消息选择操作后，终端可以根据消息选择操作确定一个消息选择区域，并从消息选择区域中筛选出多条目标语音消息，根据筛选出的多条目标语音消息获取对应的语音数据，并将语音数据进行文本转换。

在一个实施例中，终端对消息选择操作所选择的多条目标语音消息进行文本转换后，可以对转换后的文本内容进行整理后，得到转换后的文本消息。比如，终端可以对转换后的文本内容进行合并，也可以去除文本内容之间的空白区域，还可以对文本内容添加标点符号。其中，文本内容，是多条目标语音消息转换后得到的文字形式的内容。

步骤110，在即时通讯界面中，展示转换后的文本消息。

具体地，终端在多条目标语音消息将语音数据转换成文本消息后，在即时通讯界面中，展示文本消息。文本消息，是属于消息类型中文本消息类型的消息。

在一个实施例中，在即时通讯界面中，终端可以将多条目标语音消息的文本内容全部合并成一条文本消息进行展示。

在一个实施例中，在即时通讯界面中，终端也可以将部分目标语音消息的文本内容合并成一条文本消息，并与未合并的部分目标语音消息的文本内容对应的文本消息一起展示。

在一个实施例中，终端也可以将所有多条目标语音消息的语音数据转为文本内容后，将每条文本内容分别作为一条文本消息，从而将多条文本消息在即时通讯界面中一一展示。即，目标语音消息与文本消息一一对应，每条目标语音消息进行文本转换后生成一条对应的文本消息。

上述基于即时通讯的语音消息处理方法中，用户只需要在即时通讯界面做预设触发动作，终端就可以响应于用户针对即时通讯界面的预设触发动作，进入消息选择模式。在消息选择模式下，用户可以随意选择多条想要转换为文本消息的目标语音消息，终端在接收到即时通讯界面中输入的消息选择操作，直接将多条目标语音消息转换为文本消息并展示在即时通讯界面中。通过上述方法，用户仅需要在做预设触发动作后，选中多条目标语音消息，就可以将多条目标语音消息直接一键转换为对应的文本消息，在接收到的语音消息比较多的情况下，相较于将所有消息都转换为文本消息，能够有效避免将非目标语音消息也转为文本消息造成的资源浪费，而相较于对多条目标语音消息逐条进行语音转文本的操作，又能够提高语音消息转为文本消息的效率。

在一个实施例中，对消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息，包括：确定消息选择操作所选定的消息选择区域；获取消息选择区域中所包括的消息的消息类型；将消息类型发送至服务器，并接收服务器返回的多条目标语音消息的语音数据；目标语音消息，是属于消息类型中语音消息类型的消息；对语音数据进行文本转换，得到转换后的文本消息。

可以理解的是，消息选择区域，具体可以是从用户选择的首条消息起到最后一条消息之间的区域，也可以是从用户选择的首条语音消息起到最后一条语音消息之间的区域。消息选择区域除了包含有语音消息之外，语音消息和语音消息之间可以参夹多种消息类型的消息。比如，两条语音消息之后跟着一张图片，图片后再跟一条语音消息。

具体地，在消息选择模式下，终端可以在接收到用户在即时通讯界面中输入的消息选择操作后，确定消息选择操作所选定的消息选择区域。终端可以在确定的消息选择区域中，提取出消息的消息类型，并将消息类型发送至服务器。服务器再接受到终端发送的消息类型后，可以从消息类型筛选出属于语音消息类型的所有语音消息，并从数据库中查找筛选出的所有语音消息对应的语音数据。服务器可以将查找到的语音数据返回至终端。终端在接收到服务器返回的多条目标语音消息的语音数据，可以对语音数据进行文本转换，得到转换后的文本消息。

在一个实施例中，终端可以将消息类型中的消息所对应的数据标识、以及消息类型发送至服务器，服务器可以根据消息类型筛选出属于语音消息类型的所有语音消息，再根据对应的数据标识查找语音消息对应的语音数据并返回至终端。

在一个实施例中，终端可以将消息类型、用户标识以及通讯时间一并发送至服务器。可以理解，这种情况下，消息类型、用户标识以及通讯时间即为对消息起唯一标识作用的一组属性信息。服务器可以根据消息类型筛选出属于语音消息类型的所有语音消息，再根据用户标识以及通讯时间查找语音消息对应的语音数据并返回至终端。本实施例中，在消息选择模式下，可以将消息选择操作所选择的多条目标语音消息一次性转换为文本消息，相较于逐条将目标语音消息转换为文本消息的方式，以及将全部未读的语音消息都转为文本消息的方式，节约了资源，提高了系统性能，提升了效率。而且，在有将多条语音消息全部转为文本消息的需求下，相教育目前要么只能将单条语音消息转为文本消息的方法，要么就是将全部语音消息都转为文本消息的方法，用户可以随意选择多条目标语音消息，灵活性更好。而且现有方法将在对多条目标语音消息进行转换的时候，若遇到非语音消息类的消息时，会被打断，无法连贯转换，本实施例的方法，即时多条目标语音消息中间可以参夹有非语音消息类的消息时，仍然可以将所有目标消息连贯转换为文本消息。

在一个实施例中，确定消息选择操作所选定的消息选择区域，包括：当消息选择操作为作用于即时通讯界面上的滑动操作时，则获取滑动操作的滑动轨迹；依据滑动轨迹，确定消息选择区域。

其中，滑动轨迹，是作用于即时通讯界面上的滑动操作留下的轨迹。

具体地，在消息选择模式下，当用户作用于即时通讯界面进行滑动操作时，终端可以获取滑动操作的滑动轨迹。在用户结束滑动操作时，终端可以依据滑动轨迹，确定消息选择区域。

在一个实施例中，用户可以作用于即时通讯界面画圆圈，也可以作用于即时通讯界面画框，还可以作用于即时通讯界面画条线。在用户的作用于即时通讯界面进行滑动操作结束时，终端可以根据用户的滑动操作后留下的滑动轨迹进行分析，以确定滑动轨迹所能形成的最大面积的区域，并将最大面积的区域确定为消息选择区域。

在一个实施例中，在用户作用于即时通讯界面进行滑动操作时，若用户所需要选择的目标语音消息的消息选择范围，超出即时通讯界面的显示范围，终端可以滚动显示即时通讯界面，使得用户可以完成目标语音消息的选择。

本实施例中，在消息选择模式下，用户可以通过创新的交互方式手势，一次性选择需要转为文本消息的所有语音消息，以在后续将选中的多条目标语音消息转换为文本消息，较目前需要接收消息的用户逐条选中目标语音消息在进行文本转换的方式，提高了用户选择目标语音消息的效率，免去了重复选择语音消息的繁琐操作，提高了获知发送者发送的通讯信息的效率。而且，只要通过简单的这种新的手势交互方式，就可以选中多条目标语音消息，提高了用户选择多条目标语音消息的效率。

在一个实施例中，依据滑动轨迹，确定消息选择区域，包括：获取滑动轨迹中的起始点和终止点，并将起始点和终止点作为角点，生成预设形状的区域，得到消息选择区域；或，根据滑动轨迹的路径生成闭合区域，并将闭合区域确定为消息选择区域。

其中，预设形状，是预先设置的形状。比如，预设形状，是一个矩形框，那么，终端可以将起始点和终止点作为角点，即矩形框的两个对角点。

在一个实施例中，在用户作用于即时通讯界面进行滑动操作后，得到的滑动轨迹是一条直线，终端可以将直线两个端点作为两个对角点生成相应的矩形框，矩形框即所需要得到的消息选择区域。

参考图3示出的滑动轨迹示意图，用户作用于即时通讯界面从左上角向右下角进行滑动操作时，留下的滑动轨迹是一条对角线。终端可以将对角线两个端点作为两个对角点生成相应的矩形框，矩形框即所需要得到的消息选择区域。

参考图4示出的滑动轨迹示意图，在用户作用于即时通讯界面进行滑动操作后，根据留下的滑动轨迹确定一个闭合区域。终端可以将闭合区域确定为消息选择区域。

在一个实施例中，在用户作用于即时通讯界面进行滑动操作后，得到的滑动轨迹是一个闭合的区域，终端可以直接将闭合区域确定为消息选择区域。

在一个实施例中，在用户作用于即时通讯界面进行滑动操作后，得到的滑动轨迹是一条弯曲的线，终端可以根据弯曲的线的所碰到的消息所在的区域作为消息选择区域。

本实施例中，在消息选择模式下，用户只需要在屏幕上滑动一下，就可以选中多条目标语音消息，相较于选中一条语音消息在转为文本消息的方式，能够免去重复选择语音消息的繁琐操作，使得用户可以轻松快速选中多条目标语音消息。

在一个实施例中，对语音数据进行文本转换，得到转换后的文本消息，包括：若同一用户标识对应的多条目标语音消息满足预设合并条件，则获取满足预设合并条件的多条目标语音消息分别对应的文本内容；每条目标语音消息对应的文本内容，是由目标语音消息对应的语音数据进行文本转换后得到；合并多条文本内容，得到与用户标识对应的转换后的文本消息。

其中，预设合并条件，是预先设置合并目标语音消息的文本内容的条件。

具体地，终端可以对同一用户标识对应的多条目标语音消息是否满足预设合并条件进行判断，若满足，则可以获取满足预设合并条件的多条目标语音消息进行本文转换得到对应的文本内容后，将文本内容进行合并，得到与用户标识对应的转换后的文本消息。

在一个实施例中，终端可以将多条目标语音消息转换成文本内容后，再判断同一用户标识对应的多条目标语音消息是否满足预设合并条件，若满足，则将多条目标语音消息分别对应的文本内容进行合并，得到与用户标识对应的转换后的文本消息。

在一个实施例中，终端可以先判断同一用户标识对应的多条目标语音消息是否满足预设合并条件，若满足，再将多条目标语音消息转换成文本内容并合并，得到与用户标识对应的转换后的文本消息。

在一个实施例中，服务器可以将多条目标语音消息对应的目标语音数据进行文本转换后，将各条目标语音消息对应的文本内容返回至终端。终端可以先判断同一用户标识对应的多条目标语音消息是否满足预设合并条件，若满足，再将多条目标语音消息对应的文本内容之间的空隙去除，使得多条目标语音消息转换后，以一条文本消息的形式在即时通讯界面上展示。

比如，在即时通讯界面上，展示的是展示多对多聊天的群消息，其中一个用户标识A对应的多条消息中有两条语音消息。终端判断到用户标识A对应的两条语音消息满足预设合并条件，则将用户标识A对应的两条语音消息的文本内容合并，并即时通讯界面上展示对应的一条文本消息。

本实施例中，将同一用户标识对应的满足预设合并条件的多条目标语音消息合并为一条文本消息展示，有利于用户对同一个用户标识对应的相关的文本内容进行连贯性的阅读，有利于接收消息的用户快速获知发送者传输的通讯信息。

在一个实施例中，方法还包括：在同一用户标识对应于连续的多条目标语音消息、且连续的多条目标语音消息中相邻的目标语音消息之间的时间间隔不超过预设时长的情况下，则判定连续的多条目标语音消息满足预设合并条件。

其中，预设时长，预先设置的时长。

具体地，终端对多条目标语音消息是否能够合并进行判断，若对应于同一用户标识的多条目标语音消息是连续的、且相邻的目标语音消息之间的时间间隔不超过预设时长，则判定连续的多条目标语音消息满足预设合并条件，并将多条目标语音消息对应的文本内容进行合并，得到与用户标识对应的转换后的文本消息。

在一个实施例中，预设时长根据不同的用户活跃度即时通讯应用程序可以不同。“*云”公司的即时通讯应用程序可以根据用户活跃度来设置预设时长。若用户活跃度高，预设时长可以设置成1min，即连续的且相邻的目标语音消息之间的时间间隔不超过一分钟，判断这个条件下得到的多条目标语音消息对应的文本内容属于同一件事情，可以进行合并成一条文本消息。若用户的活跃度低，可判定为发通知或者发课件情况，预设时长可以设置成20min。

本实施例中，若对应于同一用户标识的多条目标语音消息是连续的、且相邻的目标语音消息之间的时间间隔不超过预设时长，则将多条目标语音消息对应的文本内容进行合并，得到与用户标识对应的转换后的文本消息，能够使得用户连贯性阅读同一事件对应的文本消息，有利于接收消息的用户快速获知发送者传输的通讯信息

在一个实施例中，在同一用户标识对应于连续的多条目标语音消息、且连续的多条目标语音消息中相邻的目标语音消息之间的时间间隔不超过预设时长的情况下，则判定连续的多条目标语音消息满足预设合并条件，包括：从位于消息选择区域内的第二条消息起选取当前消息，将当前消息与上一条消息进行属性信息比对；若比对结果表示当前消息与上一条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长，则判定当前消息与上一条消息属于满足预设合并条件的目标语音消息；将当前消息的下一条消息作为当前消息，返回执行将当前消息与上一条消息进行属性信息比对，直至当前消息为消息选择区域内的最后一条消息为止，得到满足预设合并条件的连续的多条目标语音消息。

其中，当前消息，是当前需要与上一条相邻的消息进行合并判断的消息。属性信息，是属于消息的信息，包括用户标识、消息类型以及通讯时间等中的一种或多种。

具体地，终端在确定消息选择区域后，可以将位于消息选择区域内的第二条消息作为当前消息选取，以和上一条消息进行属性信息比对。比对后，若得到的比对结果表示当前消息和上一条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长，终端则判定当前消息与上一条消息属于满足预设合并条件的目标语音消息。终端再将当前消息的下一条消息作为当前消息，返回执行将当前消息与上一条消息进行属性信息比对，直至当前消息为消息选择区域内的最后一条消息为止，终端可以将满足预设合并条件的连续的多条目标语音消息对应的文本内容进行合并，得到合并后的文本消息。其中，不满足和预设合并条件的目标语音消息，直接转为文本消息单独展示在即时通讯界面上。

在一个实施例中，如图5(a)所示，假设消息选择区域内包含有7条消息，其中，目标语音消息为选择区域内的第1、3、4以及第6条消息。第2条和第5条非语音类型的消息。终端在确定消息选择区域后，可以从位于消息选择区域内的第2条消息(即文本消息1)开始依次选取为当前消息，和上一条消息进行属性信息比对，比如，将第2条消息作为当前消息和第1条消息进行属性信息比对，判定二者不满足预设合并条件(即第2条消息和第1条消息不满足对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长这一预设合并条件)，再将第3条消息作为当前消息与第2条消息进行比对，依次类推，迭代地进行循环比对。比对后，得到的比对结果表示第3条消息和第4条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长，则将第3条和第4条消息对应的文本内容进行合并，得到合并后的文本消息将合并后的文本消息、第1和6条语音消息对应的文本消息、以第2条和第5条非语音类型的消息在即时通讯界面进行展示，具体如如图5(b)所示。

本实施例中，遍历消息选择区域满足预设合并条件的目标语音消息，在对满足预设合并条件的目标语音消息合并后，相比于将所有目标语音消息都单条展示，可以提高阅读文本消息的文本内容的效率。

在另一个实施例中，参考图6所示的基于即时通讯的语音消息处理的流程图。具体包括以下步骤：

步骤602，终端响应于用户长按屏幕任意位置的预设触发动作，进入消息选择模式。

步骤604，在消息选择模式下，终端可以根据用户的上滑或者下滑的消息选择操作，确定消息选择区域。

步骤606，终端可以获取消息选择区域中所包括的消息的消息类型。

步骤608，终端可以判断本地是否有目标语音消息的语音数据。若是，则执行步骤612，若否，则执行步骤610。

步骤610，终端可以将消息类型、用户标识以及通讯时间发送至服务器，并接收服务器返回的多条目标语音消息的语音数据。

步骤612，终端可以从本地获取目标语音消息的语音数据。

步骤614，终端对语音数据进行文本转换。

步骤616，从位于消息选择区域内的第二条消息起选取当前消息，将所述当前消息与上一条消息进行属性信息比对。

可以理解的是，可以将下一条消息作为当前消息返回执行将当前消息的下一条消息作为当前消息，返回执行当前消息与上一条消息进行属性信息比对，直至当前消息为消息选择区域内的最后一条消息位置。

步骤618，终端可以判断比对结果是否表示当前消息与上一条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长。若是，则执行步骤620，若否，则执行步骤622。

可以理解，当前消息与上一条消息对应于同一用户标识、二者皆属于语音消息类型、且相互间的时间间隔不超过预设时长，是一个预设合并条件。相当于若比对结果表示当前消息与上一消息满足该预设合并条件，则执行步骤620，若不满足该预设条件，则执行步骤622。

步骤620，判定当前消息与上一条消息属于满足预设合并条件的目标语音消息。

步骤622，判定当前消息与上一条消息属于不满足预设合并条件的消息。

步骤624，比对完毕后，得到满足预设合并条件的连续的多条目标语音消息，并合并为一条文本消息。

步骤626，比对完毕后，得到不满足预设合并条件的消息，并按照默认的方式展示。

步骤628，在即时通讯界面中，展示转换后的文本消息。

应该理解的是，虽然上述各个实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各个实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种基于即时通讯的语音消息处理装置700，包括：展示模块702、响应模块704、接收模块706和转换模块708，其中：

展示模块702，用于展示即时通讯界面；

响应模块704，用于响应于针对即时通讯界面的预设触发动作，进入消息选择模式；

接收模块706，用于在消息选择模式下，接收在即时通讯界面中输入的消息选择操作；

转换模块708，用于对消息选择操作所选择的多条目标语音消息进行文本转换，得到转换后的文本消息；

展示模块702，还用于在即时通讯界面中，展示转换后的文本消息。

在一个实施例中，转换模块708，还用于确定消息选择操作所选定的消息选择区域；获取消息选择区域中所包括的消息的消息类型；将消息类型发送至服务器，并接收服务器返回的多条目标语音消息的语音数据；目标语音消息，是属于消息类型中语音消息类型的消息；对语音数据进行文本转换，得到转换后的文本消息。

在一个实施例中，转换模块708，还用于当消息选择操作为作用于即时通讯界面上的滑动操作时，则获取滑动操作的滑动轨迹；依据滑动轨迹，确定消息选择区域。

在一个实施例中，转换模块708，还用于获取滑动轨迹中的起始点和终止点，并将起始点和终止点作为角点，生成预设形状的区域，得到消息选择区域；或，根据滑动轨迹的路径生成闭合区域，并将闭合区域确定为消息选择区域。

在一个实施例中，转换模块708，还用于若同一用户标识对应的多条目标语音消息满足预设合并条件，则获取满足预设合并条件的多条目标语音消息分别对应的文本内容；每条目标语音消息对应的文本内容，是由目标语音消息对应的语音数据进行文本转换后得到；合并多条文本内容，得到与用户标识对应的转换后的文本消息。

在一个实施例中，转换模块708，还用于在同一用户标识对应于连续的多条目标语音消息、且连续的多条目标语音消息中相邻的目标语音消息之间的时间间隔不超过预设时长的情况下，则判定连续的多条目标语音消息满足预设合并条件。

在一个实施例中，转换模块708，还用于从位于消息选择区域内的第二条消息起选取当前消息，将当前消息与上一条消息进行属性信息比对；若比对结果表示当前消息与上一条消息对应于同一用户标识、皆属于语音消息类型、且相互间的时间间隔不超过预设时长，则判定当前消息与上一条消息属于满足预设合并条件的目标语音消息；将当前消息的下一条消息作为当前消息，返回执行将当前消息与上一条消息进行属性信息比对，直至当前消息为消息选择区域内的最后一条消息为止，得到满足预设合并条件的连续的多条目标语音消息。

关于基于即时通讯的语音消息处理装置的具体限定可以参见上文中对于基于即时通讯的语音消息处理方法的限定，在此不再赘述。上述基于即时通讯的语音消息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于即时通讯的语音消息处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：语音播放方法和装置、存储介质及电子装置

基于即时通讯的语音消息处理方法、装置和计算机设备

相关技术

网友询问留言