基于人工智能ai的音视频的传输控制方法及相关设备

文档序号：1077194 发布日期：2020-10-16 浏览：23次 >En<

阅读说明：本技术 基于人工智能ai的音视频的传输控制方法及相关设备 (Audio and video transmission control method based on artificial intelligence AI and related equipment ) 是由余强于 2020-06-23 设计创作，主要内容包括：本发明涉及人工智能技术领域,提供一种基于人工智能AI的音视频的传输控制方法,包括：向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接；向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流；通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流；将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。本发明还涉及区块链技术,可以将所述RTSP流上传至区块链。本发明可应用于智慧政务/智慧社区场景中,从而推动智慧城市的建设。(The invention relates to the technical field of artificial intelligence, and provides an audio and video transmission control method based on artificial intelligence AI, which comprises the following steps: sending a building request to the virtual image platform, and building hypertext transfer protocol (HTTP) connection with the virtual image platform; sending a text dialect to the virtual image platform so that the virtual image platform generates real-time audio and video stream according to the text dialect and a real person virtual image synthesis algorithm; through a real-time streaming protocol RTSP, pulling the real-time audio and video stream from the virtual image platform to obtain an RTSP stream; and transmitting the RTSP stream to an external server in a Transmission Control Protocol (TCP) mode so as to transmit the RTSP stream to a user terminal through the external server. The invention also relates to a block chain technology, and the RTSP stream can be uploaded to the block chain. The method can be applied to a smart government affair/smart community scene, so that the construction of a smart city is promoted.)

基于人工智能AI的音视频的传输控制方法及相关设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能AI的音视频的传输控制方法及相关设备。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的兴起，AI的应用越来越广泛，其中，基于AI的人机对话场景越来越受欢迎。在目前的人机对话场景中，通常是根据文本预先生成MP4文件，然后在播放MP4文件。然而，这种方式却不能满足人机对话中的音视频实时交互要求。

因此，如何控制音视频的传输，以满足实时交互的要求是一个亟待解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种基于人工智能AI的音视频的传输控制方法及相关设备，能通过HTTP+RTSP流方式，实现了控制服务器和虚拟形象平台之间的音视频流对接，能够满足用户在人机对话场景中的实时交互要求。

本发明的第一方面提供一种基于人工智能AI的音视频的传输控制方法，应用于控制服务器，所述方法包括：

向虚拟形象平台发送建立请求，并与虚拟形象平台建立超文本传输协议HTTP连接；

向所述虚拟形象平台发送文本话术，以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流；

通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流；

将所述RTSP流以传输控制协议TCP方式传输至对外服务器，以通过所述对外服务器将所述RTSP流传输至用户终端中。

在一种可能的实现方式中，所述方法还包括：

接收所述虚拟形象平台返回的RTSP的统一资源定位符URL地址；

所述通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流包括：

根据所述URL地址，从所述虚拟形象平台，通过实时流传输协议RTSP拉取所述实时音视频流，获得RTSP流。

在一种可能的实现方式中，所述方法还包括：

将检测到用户终端上的音视频流被关闭时，向所述虚拟形象平台发送HTTP的DELETE请求，所述DELETE请求中携带有音视频流标识streamID，所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。

在一种可能的实现方式中，所述方法还包括：

检测所述文本话术是否存在结束关键词；

若所述文本话术存在结束关键词，当接收到所述虚拟形象平台发送的关于所述文本话术的最后一帧的音视频流时，向所述虚拟形象平台发送HTTP的DELETE请求，所述DELETE请求中携带有音视频流标识streamID，所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。

本发明的第二方面提供一种基于人工智能AI的音视频的传输控制方法，应用于虚拟形象平台，所述方法包括：

接收控制服务器发送的建立请求，并与所述控制服务器建立超文本传输协议HTTP连接；

接收所述控制服务器发送的文本话术；

根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流；

将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流，发送给所述控制服务器，以播放所述RTSP流。

在一种可能的实现方式中，所述方法还包括：

接收所述控制服务器发送的音视频流设置信息，所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小；

所述根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流包括：

根据所述文本话术以及真人虚拟形象合成算法，按照所述音视频流格式、所述音视频流大小以及所述像素大小生成实时音视频流，所述实时音视频流采用所述streamID标识。

在一种可能的实现方式中，所述方法还包括：

根据所述文本话术的接收时间以及所述实时音视频流的生成时间，计算文本响应时长；

获取日志标准时长；

判断所述文本响应时长是否大于所述日志标准时长；

若所述文本响应时长大于所述日志标准时长，抓取所述实时音视频流的实时传输协议RTP包，以获取所述RTP包的音视频文件，并对所述音视频文件进行分析。

本发明的第三方面提供一种控制服务器，所述控制服务器包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现所述的基于人工智能AI的音视频的传输控制方法。

本发明的第四方面提供一种虚拟形象平台，所述虚拟形象平台包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现所述的基于人工智能AI的音视频的传输控制方法。

本发明的第五方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于人工智能AI的音视频的传输控制方法。

在上述技术方案中，通过HTTP+RTSP流方式，实现了控制服务器和虚拟形象平台之间的音视频流对接，能够满足用户在人机对话场景中的实时交互要求。同时，虚拟形象平台在生成实时音视频流后，能够主动对实时音视频流的响应时长进行校验，有利于降低响应时长，提高交互的实时性，此外，虚拟形象平台播完最后一帧音视频流，能够及时准确地向控制服务器发送MRCP消息，有利于控制服务器及时地收音，保证了交互时效。

附图说明

图1是本发明公开的一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。

图2是本发明公开的另一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。

图3是本发明公开的一种传输控制装置的较佳实施例的功能模块图。

图4是本发明公开的另一种传输控制装置的较佳实施例的功能模块图。

图5是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的控制服务器的结构示意图。

图6是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的虚拟形象平台的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

其中，控制服务器可以是指能对网络中其它设备(如虚拟形象平台、用户终端)提供服务的计算机系统。

所述虚拟形象平台是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。

所述用户终端包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理PDA等。

请参见图1，图1是本发明公开的一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。其中，该基于人工智能AI的音视频的传输控制方法应用于控制服务器，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S11、向虚拟形象平台发送建立请求，并与虚拟形象平台建立超文本传输协议HTTP连接。

其中，当控制服务器检测到用户在用户终端的APP上呼入时，控制服务器可以向虚拟形象平台发送建立请求(比如HTTP的POST请求)，并与虚拟形象平台建立HTTP连接。

其中，控制服务器主要用于处理上行网络用户侧的音视频流，以及下行网络虚拟形象平台的音视频流对接。本案重点关注控制服务器是如何与虚拟形象平台的音视频对接的。

其中，所述建立请求携带有音视频流设置信息，所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小。

视频格式如下：

视频编码	H.264AVC
		AVC分辨率	640x480
帧率	15per second
		I帧间隔	1-2秒一个I帧
Profile	BaseLine Profile
		Level	3.1
NAL/SLICE	每一帧单SLICE,单NAL

音频格式如下：

音频编码	PCMA
		采样率	8K
通道数	单声道

S12、向所述虚拟形象平台发送文本话术，以使虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流。

其中，控制服务器可以从其他设备(比如对话管理平台)获取文本话术，其中，其他设备可以识别出不同用户的不同场景，不同用户在不同场景下的文本话术是不同的。

其中，该实时音视频流是根据当前的文本话术来生成的，不同用户在不同场景下的实时音视频是不同的，可以满足实时交互的要求。

其中，虚拟形象平台建立一通视频后，通过虚拟形象平台的HTTP交互容器接收外部关联系统发送的文本，HTTP交互容器将播报的文本发送给编解码容器，编解码器生成包含音频和视频的RTP包，HTTP交互容器接收到包含音频和视频的RTP包后，在发送到RTSP合成容器，将RTP包按照前端格式要求进行编解码操作，打包生成RTSP流，即实时音视频流。

具体的，所述向所述虚拟形象平台发送文本话术包括：

向所述虚拟形象平台发送针对所述streamID的文本话术。

其中，可以发送HTTP的PUT请求，该PUT请求中携带有所述streamID的以及文本话术。不同的streamID，对应不同的文本话术，有利于区分不同用户的音视频流。

S13、通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流。

其中，RTSP(Real Time Streaming Protocol，实时流传输协议)是双向的，使用RTSP时，客户机和服务器都可以发出请求。RTSP是用来控制声音或影像的多媒体串流协议，并允许同时多个串流需求控制，传输时所用的网络通讯协定并不在其定义的范围内，服务器端可以自行选择使用TCP或UDP来传送串流内容。

所述方法还包括：

接收所述虚拟形象平台返回的RTSP的统一资源定位符URL地址；

所述通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流包括：

根据所述URL地址，从所述虚拟形象平台，通过实时流传输协议RTSP拉取所述实时音视频流，获得RTSP流。

其中，在与虚拟形象平台建立HTTP连接的时候，虚拟形象平台就会返回URL地址，以便后续跟进URL地址找到对应的音视频的存储位置。其中，URL(Uniform ResourceLocator,统一资源定位符)，即网络地址，它是WWW的统一资源定位标志。

S14、将所述RTSP流以传输控制协议TCP方式传输至对外服务器，以通过所述对外服务器将所述RTSP流传输至用户终端中。

其中，传输控制协议(TCP，Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议。

当RTSP流传输至用户终端中，用户终端的APP就开始播放该RTSP流，从而实现了音视频流的实时交互。

可选的，所述方法还包括：

将所述RTSP流上传至区块链。

其中，为了确保数据的私密性和安全性，可以将所述RTSP流上传至区块链进行保存。

可选的，所述方法还包括：

将检测到用户终端上的音视频流被关闭时，向虚拟形象平台发送HTTP的DELETE请求，所述DELETE请求中携带有所述streamID，所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。

可选的，所述方法还包括：

检测所述文本话术是否存在结束关键词；

若所述文本话术存在结束关键词，当接收到所述虚拟形象平台发送的关于所述文本话术的最后一帧的音视频流时，向虚拟形象平台发送HTTP的DELETE请求，所述DELETE请求中携带有所述streamID，所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。

在图1所描述的方法流程中，通过HTTP+RTSP流方式，实现了控制服务器和虚拟形象平台之间的音视频流对接，能够满足用户在人机对话场景中的实时交互要求。

请参见图2，图2是本发明公开的另一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。其中，该基于人工智能AI的音视频的传输控制方法应用于虚拟形象平台，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S21、接收控制服务器发送的建立请求，并与所述控制服务器建立超文本传输协议HTTP连接。

S22、接收所述控制服务器发送的文本话术。

S23、根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流。

所述方法还包括：

接收控制服务器发送的音视频流设置信息，所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小；

所述根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流包括：

根据所述文本话术以及真人虚拟形象合成算法，按照所述音视频流格式、音视频流大小以及像素大小生成实时音视频流，所述实时音视频流采用所述streamID标识。

所述方法还包括：

根据所述文本话术的接收时间以及所述实时音视频流的生成时间，计算文本响应时长；

获取日志标准时长；

判断所述文本响应时长是否大于所述日志标准时长；

本案中，在实时交互过程中，对生成流的速度要求快，即发送一个文本，需要在几百毫秒内播放文本的首帧。

其中，日志标准时长也即预先设置的标准时长，如果文本响应时长是否大于所述日志标准时长，表明虚拟形象平台响应较慢，这会严重影响实时交互过程，影响用户体验。为了降低文本响应时长，需要抓取所述实时音视频流的实时传输协议(Real-timeTransport Protocol，RTP)包，以获取所述RTP包的音视频文件，并对所述音视频文件进行分析，并采取相应的措施。其中，抓取RTP包，分析音视频文件的技术属于现有技术，在此不再赘述。

本案中，虚拟形象平台在生成音视频流后，也对该音视频流的文本响应时长进行校验，有利于及时的发现问题，降低响应时长，同时，提高文本响应的实时性。

S24、将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流，发送给控制服务器，以播放所述RTSP流。

所述方法还包括：

当文本话术的最后一帧音视频流被播报完后，向控制服务器发送媒体资源控制协议MRCP通知消息，所述MRCP通知消息用于指示播报结束。

其中，当虚拟形象平台播完文本话术的最后一帧音视频流后，向控制服务器发送媒体资源控制协议MRCP通知消息，有利于控制服务器及时地收音，实现了对收音的精确控制，避免了漏音和完全丢音的问题。

在图2所描述的方法流程中，虚拟形象平台在生成实时音视频流后，能够主动对实时音视频流的响应时长进行校验，有利于降低响应时长，提高交互的实时性，此外，虚拟形象平台播完最后一帧音视频流，能够及时准确地向控制服务器发送MRCP消息，有利于控制服务器及时地收音，保证了交互时效。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

请参见图3，图3是本发明公开的一种传输控制装置的较佳实施例的功能模块图。在一些实施例中，所述传输控制装置运行于控制服务器中。所述传输控制装置可以包括多个由程序代码段所组成的功能模块。所述传输控制装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图1所描述的基于人工智能AI的音视频的传输控制方法中的部分或全部步骤，具体请参见图1中的相关描述，在此不再赘述。

本实施例中，所述传输控制装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：发送模块301、建立模块302及拉取模块303。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

发送模块301，用于向虚拟形象平台发送建立请求。

建立模块302，用于与虚拟形象平台建立超文本传输协议HTTP连接。

所述发送模块301，还用于向所述虚拟形象平台发送文本话术，以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流；

拉取模块303，用于通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流。

所述发送模块301，还用于将所述RTSP流以传输控制协议TCP方式传输至对外服务器，以通过所述对外服务器将所述RTSP流传输至用户终端中。

在图3所描述的传输装置中，通过HTTP+RTSP流方式，实现了控制服务器和虚拟形象平台之间的音视频流对接，能够满足用户在人机对话场景中的实时交互要求。

请参见图4，图4是本发明公开的另一种传输控制装置的较佳实施例的功能模块图。在一些实施例中，所述传输控制装置运行于虚拟形象平台中。所述传输控制装置可以包括多个由程序代码段所组成的功能模块。所述传输控制装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图2所描述的基于人工智能AI的音视频的传输控制方法中的部分或全部步骤，具体请参见图2中的相关描述，在此不再赘述。

本实施例中，所述传输控制装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：接收模块401、建立模块402、生成模块403及发送模块404。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

接收模块401，用于接收控制服务器发送的建立请求。

建立模块402，用于与所述控制服务器建立超文本传输协议HTTP连接。

所述接收模块401，还用于接收所述控制服务器发送的文本话术。

生成模块403，用于根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流。

发送模块404，用于将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流，发送给所述控制服务器，以播放所述RTSP流。

在图4所描述的传输装置中，在生成实时音视频流后，能够主动对实时音视频流的响应时长进行校验，有利于降低响应时长，提高交互的实时性，此外，虚拟形象平台播完最后一帧音视频流，能够及时准确地向控制服务器发送MRCP消息，有利于控制服务器及时地收音，保证了交互时效。

如图5所示，图5是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的控制服务器的结构示意图。所述控制服务器5包括存储器51、至少一个处理器52、存储在所述存储器51中并可在所述至少一个处理器52上运行的计算机程序53及至少一条通讯总线54。

本领域技术人员可以理解，图5所示的示意图仅仅是所述控制服务器5的示例，并不构成对所述控制服务器5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述控制服务器5还可以包括输入输出设备、网络接入设备等。

所述至少一个处理器52可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器52可以是微处理器或者该处理器52也可以是任何常规的处理器等，所述处理器52是所述控制服务器5的控制中心，利用各种接口和线路连接整个控制服务器5的各个部分。

所述存储器51可用于存储所述计算机程序53和/或模块/单元，所述处理器52通过运行或执行存储在所述存储器51内的计算机程序和/或模块/单元，以及调用存储在存储器51内的数据，实现所述控制服务器5的各种功能。所述存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据控制服务器5的使用所创建的数据(比如音频数据)等。此外，存储器51可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

结合图1，所述控制服务器5中的所述存储器51存储多个指令以实现一种基于人工智能AI的音视频的传输控制方法，所述处理器52可执行所述多个指令从而实现：

向虚拟形象平台发送建立请求，并与虚拟形象平台建立超文本传输协议HTTP连接；

向所述虚拟形象平台发送文本话术，以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流；

通过实时流传输协议RTSP，从所述虚拟形象平台拉取所述实时音视频流，获得RTSP流；

将所述RTSP流以传输控制协议TCP方式传输至对外服务器，以通过所述对外服务器将所述RTSP流传输至用户终端中。

具体地，所述处理器52对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在图5所描述的控制服务器5中，通过HTTP+RTSP流方式，实现了控制服务器和虚拟形象平台之间的音视频流对接，能够满足用户在人机对话场景中的实时交互要求。

如图6所示，图6是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的虚拟形象平台的结构示意图。所述虚拟形象平台6包括存储器61、至少一个处理器62、存储在所述存储器61中并可在所述至少一个处理器62上运行的计算机程序63及至少一条通讯总线64。

本领域技术人员可以理解，图6所示的示意图仅仅是所述虚拟形象平台6的示例，并不构成对所述虚拟形象平台6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述虚拟形象平台6还可以包括输入输出设备、网络接入设备等。

所述至少一个处理器62可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器62可以是微处理器或者该处理器62也可以是任何常规的处理器等，所述处理器62是所述虚拟形象平台6的控制中心，利用各种接口和线路连接整个虚拟形象平台6的各个部分。

所述存储器61可用于存储所述计算机程序63和/或模块/单元，所述处理器62通过运行或执行存储在所述存储器61内的计算机程序和/或模块/单元，以及调用存储在存储器61内的数据，实现所述虚拟形象平台6的各种功能。所述存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据虚拟形象平台6的使用所创建的数据(比如音频数据)等。此外，存储器61可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

结合图2，所述虚拟形象平台6中的所述存储器61存储多个指令以实现一种基于人工智能AI的音视频的传输控制方法，所述处理器62可执行所述多个指令从而实现：

接收控制服务器发送的建立请求，并与所述控制服务器建立超文本传输协议HTTP连接；

接收所述控制服务器发送的文本话术；

根据所述文本话术以及真人虚拟形象合成算法，生成实时音视频流；

将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流，发送给所述控制服务器，以播放所述RTSP流。

具体地，所述处理器62对上述指令的具体实现方法可参考图2对应实施例中相关步骤的描述，在此不赘述。

在图6所描述的虚拟形象平台6中，在生成实时音视频流后，能够主动对实时音视频流的响应时长进行校验，有利于降低响应时长，提高交互的实时性，此外，虚拟形象平台播完最后一帧音视频流，能够及时准确地向控制服务器发送MRCP消息，有利于控制服务器及时地收音，保证了交互时效。

所述控制服务器5/虚拟形象平台6集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM，Read-OnlyMemory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。系统权利要求中陈述的多个单元或装置也可以通过软件或者硬件来实现。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

17页详细技术资料下载

基于人工智能ai的音视频的传输控制方法及相关设备

相关技术

网友询问留言