一种基于视频通讯的语音转文字方法

文档序号：1579903 发布日期：2020-01-31 浏览：7次 >En<

阅读说明：本技术 一种基于视频通讯的语音转文字方法 (method for converting voice into character based on video communication ) 是由沈梦超裘昊文志平何志明沈德欢于 2019-10-29 设计创作，主要内容包括：本发明公开了一种基于视频通讯的语音转文字方法。它针对一般的视频会议系统,具体包括如下步骤：(1)在数据采集端,把音频数据和视频数据采集到了之后,送去编码器编码,同时保留一定时间的音频数据,进行文字识别处理,两者整合完毕后,一起发送给媒体服务器；(2)媒体服务器把收到的音视频数据包进行转发给客户端,同时对音视频数据包进行持久化保存下来；(3)客户端在收到音视频数据后,将其送入解码器解码,之后对音频进行播放以及视频进行渲染,把收到的文字信息渲染到视频上,显示到用户指定的区域上。本发明的有益效果是：给视频会议使用者提供更加直观的感受,提高语言听力上的容错率；使用文字形式记录视频会议的内容。(The invention discloses a method for converting voice into text based on video communication, which aims at a video conference system and specifically comprises the following steps of (1) collecting audio data and video data at a data collecting end, sending the audio data and the video data to an encoder for encoding, reserving time-fixed audio data, carrying out text recognition processing, sending data to a media server after the audio data and the video data are integrated, (2) forwarding the received audio and video data packets to a client by the media server, and storing the audio and video data packets in a persistence manner, (3) sending the audio and video data to a decoder for decoding after the client receives the audio and video data, then playing audio and rendering video, rendering the received text information to the video and displaying the video on an area designated by a user.)

一种基于视频通讯的语音转文字方法

技术领域

本发明涉及视频通讯相关技术领域，尤其是指一种基于视频通讯的语音转文字方法。

背景技术

随着音视频技术的不断发展，音频的质量也在不断提高。在正常使用视频通讯进行通话过程中，已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下，比如地铁公交车或者广场等声音嘈杂的区域，有时候听不清对方的声音会降低音视频通话的体验。

在现代音视频通讯的视频和音频，一般都可以做到保存。如果在一些开会的场景中，视频通讯时中保存了领导的重要讲话。当想要回看某个点(或者回看确认某个数据)时，去回看整个视频效率是比较低的。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种提高容错率的基于视频通讯的语音转文字方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于视频通讯的语音转文字方法，针对一般的视频会议系统，具体包括如下步骤：

(1)在数据采集端，把音频数据和视频数据采集到了之后，送去编码器编码，同时保留一定时间的音频数据，进行文字识别处理，两者整合完毕后，一起发送给媒体服务器；

(2)媒体服务器把收到的音视频数据包进行转发给客户端，同时对音视频数据包进行持久化保存下来；

(3)客户端在收到音视频数据后，将其送入解码器解码，之后对音频进行播放以及视频进行渲染，把收到的文字信息渲染到视频上，显示到用户指定的区域上。

本发明聚焦于解决视频通讯中语音数据表现的问题，由于声音受外部环境影响较大，只要略微有点噪音，就会造成声音听不清楚的情况。这样就需要对方再次说话，才能听清楚。为了解决这个问题，本发明将音频进行文字识别，把识别出来的文字通过服务端进行转发，然后再又客户端进行画面合成，没有在媒体服务器端做太多工作，客户端同时收到音视频以及文字消息，这样多元化的数据类型，可以给视频会议使用者提供更加直观的感受，文字字幕辅助音频的形式，可以提高语言听力上的容错率(声音听不清，可以观看字幕来进行弥补)。

作为优选，在步骤(1)中，由于文字的数据量不会太大，所以不需要加入编码器编码，可以直接使用文字编码格式编码，然后按照时间戳的先后顺序加入到音视频编码后的数据帧中，整合完毕后，一起发送给媒体服务器。

作为优选，在步骤(1)中，整合过程如下：语音分割并识别，将连续不断的语音，输出为分段的文字帧，文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容，将分段完成后并且带有时间戳的文字帧立即进行传输，并且文字包优先级提高，这样可以降低文字的时延。

作为优选，在步骤(2)中，媒体服务器在收到音频、视频和音频转换而来的文字时，一方面把文字按照一定规则进行持久化保存到数据库；另一方面，把音频、视频以及文字转发给客户端。

作为优选，在步骤(2)中，根据需要把文字与视频进行合成，然后再录制下来保存到数据库，合成过程如下：在服务端对视频进行录制时，需要先等待文字帧的到来，将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染。

作为优选，在步骤(3)中，音频使用系统扬声器播放，视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

作为优选，步骤(3)中，视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要媒体服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。

作为优选，在步骤(3)中，在客户端如果想对本次视频会议的文字内容进行查看，可以请求服务端接口，来调取视频会议的文字记录。本发明可以使用文字形式记录视频会议的内容，使得文字作为更书面化更正式的信息载体得以很方便的来记录，当视频会议结束后，想要再次查阅会议内容时，文本查询就是最方便快捷的查询方式。

本发明的有益效果是：可以给视频会议使用者提供更加直观的感受，文字字幕辅助音频的形式，可以提高语言听力上的容错率；可以使用文字形式记录视频会议的内容，使得文字作为更书面化更正式的信息载体得以很方便的来记录。

附图说明

图1是本发明的方法流程图；

图2是语音转文字的过程图；

图3是媒体服务端文字合成的过程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种基于视频通讯的语音转文字方法，针对一般的视频会议系统，具体包括如下步骤：

(1)在数据采集端，把音频数据和视频数据采集到了之后，送去编码器编码，同时保留一定时间的音频数据，一般保留3-5s(这个时间长度根据实际情况而定)音频，进行文字识别处理，两者整合完毕后，一起发送给媒体服务器；由于文字的数据量不会太大，所以不需要加入编码器编码，可以直接使用文字编码格式如“utf-8”等编码格式编码，然后按照时间戳的先后顺序加入到音视频编码后的数据帧中，整合完毕后，一起发送给媒体服务器；

如图2所示，整合过程如下：语音分割并识别，将连续不断的语音，输出为分段的文字帧，文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容，文字帧的内容格式具体为，“start:1569307050000,end:1569307051000,body:这是我们会议的开始”，其中：“start”字段表示文字分段时间戳的起点，“end”字段表示文字分段时间戳的终点，“body”字段表示识别后的文字内容；将分段完成后并且带有时间戳的文字帧立即进行传输，并且文字包优先级提高，这样可以降低文字的时延；

(2)媒体服务器把收到的音视频数据包进行转发给客户端，同时对音视频数据包进行持久化保存下来；媒体服务器在收到音频、视频和音频转换而来的文字时，一方面把文字按照一定规则进行持久化保存到数据库，方便以后查询使用；另一方面，把音频、视频以及文字转发给客户端；根据需要把视频和音频录制下来，或者把文字与视频进行合成，然后再录制下来保存到数据库；如图3所示，合成过程如下：在服务端对视频进行录制时，需要先等待文字帧的到来，将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染；

(3)客户端在收到音视频数据后，将其送入解码器解码，之后对音频进行播放以及视频进行渲染，把收到的文字信息渲染到视频上，显示到用户指定的区域上；音频使用系统扬声器播放，视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要媒体服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上；在客户端(包括手机端、web端或其他客户端)如果想对本次视频会议的文字内容进行查看，可以请求服务端接口，因为之前已经对文字进行了持久化保存到了数据库，所以这里可以很方便的来调取视频会议的文字记录。

6页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于网络状况调节手机视频通话动态码率的方法

一种基于视频通讯的语音转文字方法

相关技术

网友询问留言