一种基于ai技术的实时对讲干预与告警平台

文档序号:156108 发布日期:2021-10-26 浏览:27次 >En<

阅读说明:本技术 一种基于ai技术的实时对讲干预与告警平台 (Real-time talkback intervention and alarm platform based on AI technology ) 是由 谢建华 张伟雄 戴东旭 蔡存忠 陈秋林 于 2021-01-27 设计创作,主要内容包括:本发明提供了一种基于AI技术的实时对讲干预与告警平台包括通讯服务器、媒体资源控制服务器和AI语音训练与识别平台,通讯服务器用于提供通信服务,并将通信内容实时转化成音频媒体流,发送到媒体资源控制服务器;媒体资源控制服务器用于将音频媒体流转换成文本内容发送到AI语音训练与识别平台;AI语音训练与识别平台用于识别文本内容中涉及的敏感信息,以及识别文本内容中涉及的音频进行分类,发送告警信息至通讯服务器,启动通讯服务器中的干预模块。本发明用于识别多个业务场景中出现的敏感词、暴力恐吓、求救声、异常声音等风险信息,启动对应的干预动作,以达到净化会话环境,及时处理意外事件发生的目的。(The invention provides a real-time talkback intervention and alarm platform based on AI technology, which comprises a communication server, a media resource control server and an AI voice training and recognition platform, wherein the communication server is used for providing communication service, converting communication contents into audio media streams in real time and sending the audio media streams to the media resource control server; the media resource control server is used for converting the audio media stream into text content and sending the text content to the AI voice training and recognition platform; the AI speech training and recognition platform is used for recognizing sensitive information related to text content, recognizing audio related to the text content, classifying, sending alarm information to the communication server, and starting an intervention module in the communication server. The method and the system are used for identifying risk information such as sensitive words, violent scares, distress sounds, abnormal sounds and the like appearing in a plurality of service scenes and starting corresponding intervention actions so as to achieve the purposes of purifying conversation environment and timely processing accidents.)

一种基于AI技术的实时对讲干预与告警平台

技术领域

本发明属于对讲干预与告警技术领域,具体来说,涉及一种基于 AI技术的实时对讲干预与告警平台。

背景技术

日常生活中,通信无处不在,通讯方式也多种多样。在特定场景下,通话过程中即使在有管理员监听状态下,也很难实时反应通话中的敏感信息并做出干预。

发明内容

为了解决上述现有技术的不足之处,本发明的目的在于提供一种基于AI技术的实时对讲干预与告警平台,以克服现有技术中的缺陷。

为了实现上述目的,本发明提供了一种基于AI技术的实时对讲干预与告警平台,包括通讯服务器、媒体资源控制服务器和AI语音训练与识别平台,其中,通讯服务器与媒体资源控制服务器电连接和信号连接,通讯服务器包括MRCP客户端、用户代理、会话通讯组件和干预模块;其中,用户代理用于接入若干用户终端,会话通讯组件用于实时获取所述用户终端的通信内容转化成音频媒体流,MRCP客户端用于实时拉取音频媒体流发送到媒体资源控制服务器;媒体资源控制服务器与AI语音训练与识别平台电连接和信号连接,媒体资源控制服务器用于将音频媒体流转换成文本内容发送到AI语音训练与识别平台;AI语音训练与识别平台与通讯服务器电连接和信号连接, AI语音训练与识别平台包括语音识别引擎、训练模块和告警模块;其中,语音识别引擎用于接收媒体资源控制服务器的文本内容,训练模块用于通过语音识别模型识别文本内容中涉及的敏感信息,以及通过声音分类模型识别文本内容中涉及的音频进行分类,告警模块用于生成对应类别的带有消息编码的告警信息发送至通讯服务器;通讯服务器中的干预模块根据带有消息编码的告警信息启动对应的干预动作。

通过上述技术方案,在用户终端双方会话时,实时将会话内容转化成音频流并进行敏感词识别,当检测到有敏感信息时,可以识别当前音频是哪种声音,或者是什么状态或场景的声音,发送对应类别的告警信息到通讯服务器,并做到及时干预,可以用于识别多个业务场景中出现的敏感词、求救声、异常声音等风险信息,启动对应的干预动作,以达到净化会话环境,及时处理意外事件发生的目的。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,媒体资源控制服务器包括主服务器和多个从服务器,MRCP客户端与主服务器进行通信,主服务器与多个从服务器进行通信,以使MRCP客户端向主服务器发送用户终端的IP地址和端口号,主服务器控制空闲的从服务器与MRCP客户端建立通信连接。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,语音识别引擎包括分词模块和语义分析模块;分词模块用于将文本内容根据分词集划分为词向量集并传输至语义分析模块,语义分析模块用于对词向量集进行语义分析,初步确定词向量集对应的分类类别,并传输至训练模块。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,告警模块包括编码器、告警信息生成模块和告警信息发射模块;训练模块与编码器连接,编码器与告警信息生成模块连接,告警信息生成模块与告警信息发射模块连接,告警信息发射模块与干预模块连接;其中,编码器用于接收训练模块的敏感信息和音频分类结果并生成对应的消息编码发送至告警信息生成模块,告警信息生成模块用于在接收到消息编码后生成带有消息编码的告警信息,告警信息发射模块用于将带有消息编码的告警信息发送至干预模块。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,干预模块包括告警信息接收模块、解码器、中断干预模块、提醒干预模块和关键字消音模块;告警信息发射模块与告警信息接收模块连接,告警信息接收模块与解码器连接,解码器分别与中断干预模块、提醒干预模块和关键字消音模块连接;其中,告警信息接收模块用于接收告警信息发射模块的带有消息编码的告警信息并发送至解码器,解码器用于解析消息编码并根据消息编码启动中断干预模块、提醒干预模块或关键字消音模块,中断干预模块用于切断用户终端的通话,提醒干预模块用于向用户终端发出文字警告或插入语音,关键字消音模块用于对用户终端的通信内容中的敏感词进行消音处理。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,AI语音训练与识别平台包括数据库模块,数据库模块用于存储敏感词数据集和音频分类数据集,为训练模块提供训练集和测试集的模型训练数据。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,通讯服务器、媒体资源控制服务器和AI语音训练与识别平台之间通过实时媒体流传输连接。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,通讯服务器通过SIP协议与媒体资源控制服务器进行通信。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,所述语音识别模型和所述声音分类模型部署在私有CPU/GPU服务器上。

通过上述技术方案,在内网或无网环境下使用模型,确保数据隐私。

作为对本发明所述的基于AI技术的实时对讲干预与告警平台的进一步说明,优选地,所述语音识别模型和所述声音分类模型为基于 PaddlePaddle Fluid与Kaldi的语音识别系统DeepASR。

通过上述技术方案,DeepASR利用Fluid框架完成语音识别中声学模型的配置和训练,并集成Kaldi的解码器,实现声学模型的快速、大规模训练,并利用Kaldi完成复杂的语音数据预处理和最终的解码过程。

本发明的有益效果:本发明提供了一个支持实时对讲的干预与告警平台,通过通讯服务器可以接入多个不同用户终端,在用户终端双方会话时,通过通讯服务器与媒体资源控制服务器、AI语音训练与识别平台之间建立的通信连接,实现实时将会话内容转化成音频流并进行敏感词识别,当检测到有敏感信息时,可以识别当前音频是哪种声音,或者是什么状态或场景的声音,发送对应类别的告警信息到通讯服务器,并做到及时干预,可以用于识别多个业务场景中出现的敏感词、求救声、异常声音等风险信息,启动对应的干预动作,以达到净化会话环境,及时处理意外事件发生的目的。

附图说明

图1是本发明的基于AI技术的实时对讲干预与告警平台的结构示意图。

图2是本发明的媒体资源控制服务器的结构示意图。

图3是本发明的语音识别引擎的结构示意图。

图4是本发明的告警模块和干预模块的结构示意图。

具体实施方式

为了能够进一步了解本发明的结构、特征及其他目的,现结合所附较佳实施例附以附图详细说明如下,本附图所说明的实施例仅用于说明本发明的技术方案,并非限定本发明。

首先,请参考图1,图1是本发明的基于AI技术的实时对讲干预与告警平台的结构示意图。基于AI技术的实时对讲干预与告警平台包括通讯服务器1、媒体资源控制服务器2和AI语音训练与识别平台 3。

通讯服务器1与媒体资源控制服务器2电连接和信号连接,通讯服务器用于提供通信服务,通讯服务器1包括MRCP客户端11、用户代理12、会话通讯组件13和干预模块14;其中,用户代理12用于接入若干用户终端,会话通讯组件13与用户代理12连接,会话通讯组件13用于实时获取所述用户终端的通信内容转化成音频媒体流, MRCP客户端11与会话通讯组件13连接,MRCP客户端11与媒体资源控制服务器2连接,MRCP客户端11用于实时拉取音频媒体流发送到媒体资源控制服务器2。

媒体资源控制服务器2与AI语音训练与识别平台3电连接和信号连接,媒体资源控制服务器2用于将音频媒体流转换成文本内容发送到AI语音训练与识别平台3。其中,如图2所示,媒体资源控制服务器2包括主服务器21和多个从服务器22,MRCP客户端11与主服务器21进行通信,主服务器21与多个从服务器22进行通信,以使 MRCP客户端11向主服务器21发送用户终端的IP地址和端口号,主服务器21控制空闲的从服务器22与MRCP客户端11建立通信连接。

AI语音训练与识别平台3与通讯服务器1电连接和信号连接, AI语音训练与识别平台3包括语音识别引擎31、训练模块31和告警模块33;其中,媒体资源控制服务器2与语音识别引擎31连接,语音识别引擎31用于接收媒体资源控制服务器2的文本内容,语音识别引擎31与训练模块32连接,其中,如图3所示,语音识别引擎31 包括分词模块311和语义分析模块312;分词模块311用于将文本内容根据分词集划分为词向量集并传输至语义分析模块312,语义分析模块312用于对词向量集进行语义分析,初步确定词向量集对应的分类类别,并传输至训练模块32。训练模块32包括语音识别模型和声音分类模型,训练模块32用于通过语音识别模型识别文本内容中涉及的敏感信息,以及通过声音分类模型识别文本内容中涉及的音频进行分类,训练模块32与告警模块33连接,告警模块33与干预模块14 连接,告警模块33用于在训练模块32检测到有敏感信息时,生成对应类别的带有消息编码的告警信息发送至通讯服务器1;通讯服务器1 中的干预模块14根据带有消息编码的告警信息启动对应的干预动作。其中,如图4所示,告警模块33包括编码器331、告警信息生成模块 332和告警信息发射模块333;训练模块32与编码器331连接,编码器331与告警信息生成模块332连接,告警信息生成模块332与告警信息发射模块333连接,告警信息发射模块333与干预模块14连接;其中,编码器331用于接收训练模块32的敏感信息和音频分类结果并生成对应的消息编码发送至告警信息生成模块332,告警信息生成模块332用于在接收到消息编码后生成带有消息编码的告警信息,告警信息发射模块333用于将带有消息编码的告警信息发送至干预模块 14。干预模块14包括告警信息接收模块141、解码器142、中断干预模块143、提醒干预模块144和关键字消音模块145;告警信息发射模块333与告警信息接收模块141连接,告警信息接收模块141与解码器142连接,解码器142分别与中断干预模块143、提醒干预模块144 和关键字消音模块145连接;其中,告警信息接收模块141用于接收告警信息发射模块333的带有消息编码的告警信息并发送至解码器142,解码器142用于解析消息编码并根据消息编码启动中断干预模块 143、提醒干预模块144或关键字消音模块145,中断干预模块143用于切断用户终端的通话,提醒干预模块144用于向用户终端发出文字警告或插入语音,关键字消音模块145用于对用户终端的通信内容中的敏感词进行消音处理。因此,干预模块14启动的干预动作包括对用户终端的通信内容进行切断通话、发出警告、插话、对敏感词消音处理。告警模块33中的编码器331与干预模块14中的解码器142,以及告警模块33中的告警信息发射模块333与干预模块14中的告警信息接收模块141均为相互匹配的,以保证告警信息的正确传输和解码编码的准确性,也提高了安全性。当AI语音训练与识别平台检测到有敏感信息时,可以识别当前音频是哪种声音,或者是什么状态或场景的声音,发送对应类别的告警信息到通讯服务器,并做到及时干预,可以用于识别多个业务场景中出现的敏感词、求救声、异常声音等风险信息,启动对应的干预动作,以达到净化会话环境,及时处理意外事件发生的目的。

优选地,AI语音训练与识别平台3还包括数据库模块34,数据库模块34与训练模块32连接,数据库模块34用于存储敏感词数据集和音频分类数据集,为训练模块32提供训练集和测试集的模型训练数据。AI语音训练与识别平台3具有采用websocket协议的连接方式的实时语音转写接口,可以实现边上传音频边获取识别结果,将音频流实时识别为文字。所述语音识别模型和所述声音分类模型为基于 PaddlePaddle Fluid与Kaldi的语音识别系统DeepASR。DeepASR利用 Fluid框架完成语音识别中声学模型的配置和训练,并集成Kaldi的解码器,实现声学模型的快速、大规模训练,并利用Kaldi完成复杂的语音数据预处理和最终的解码过程。训练完成的所述语音识别模型和所述声音分类模型部署在私有CPU/GPU服务器上,在内网或无网环境下使用模型,确保数据隐私。也可以将模型发布为API,通过调用模型来使用。

优选地,通讯服务器1、媒体资源控制服务器2和AI语音训练与识别平台3之间通过实时媒体流传输连接。通讯服务器1通过SIP协议与媒体资源控制服务器2进行通信。MRCP客户端11包括SIP协议栈和MRCP协议栈,其中,MRCP客户端11的MRCP协议栈用于调用媒体资源控制服务器2的API接口,所述API接口通过MRCP客户端11的SIP协议栈创建SIP dialog并携带媒体资源控制服务器2信息; MRCP客户端11的SIP协议栈用于通过RTP对媒体资源控制服务器2 初始化一个媒体会话,并通过MRCP客户端11的MRCP协议栈对媒体资源控制服务器2创建一个控制会话。媒体资源控制服务器2也包括了MRCP协议栈和SIP协议栈,媒体资源控制服务器2包括了各种媒体资源,例如语音识别、语音合成、语音录音、讲话人验证、声纹匹配。

上述基于AI技术的实时对讲干预与告警平台可以应用到直播音频,直播设备连接到通讯服务器1的用户代理12,通讯服务器1将直播间音频发送到媒体资源控制服务器2,媒体资源控制服务器2将音频处理成文本发送至AI语音训练与识别平台3,AI语音训练与识别平台3检测直播间音频的文本是否存在敏感词,可以对敏感词进行消音处理,发送告警消息到通讯服务器1,进行消音处理,或者切断直播,发送告警信息到直播间,节省了人力监督成本,确保直播间内容安全,净化网络环境;也可以应用到对谈话内容进行识别,及时干预处理意外事件发生;也可以应用到如学校、银行等公共场所,由AI 语音训练与识别平台3识别音频内容,及时处理意外事件发生。

需要声明的是,上述发明内容及具体实施方式意在证明本发明所提供技术方案的实际应用,不应解释为对本发明保护范围的限定。本领域技术人员在本发明的精神和原理内,当可作各种修改、等同替换或改进。本发明的保护范围以所附权利要求书为准。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于使用移动装置来控制车辆操作的系统及其相关方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类