基于智能语音鼠标的字幕实现方法、装置、系统和存储介质

文档序号:1688140 发布日期:2020-01-03 浏览:44次 >En<

阅读说明:本技术 基于智能语音鼠标的字幕实现方法、装置、系统和存储介质 (Subtitle realization method, device and system based on intelligent voice mouse and storage medium ) 是由 冯海洪 毛德平 许成亮 朱国冉 于 2019-09-27 设计创作,主要内容包括:本发明涉及语音信号处理领域,尤其涉及一种基于智能语音鼠标的字幕实现方法、装置、系统和存储介质,该方法包括:在智能语音鼠标端实现语音采集,然后,将采集的语音文件进行预处理,并且将预处理后的文件进行存储及管理,接下来,将得到的数据通过模型训练得出用户意图,通过多个移动端自由共享数据到局域网内,局域网内多设备实时互连,接收多设备的数据,最后,通过字幕展示用户的语音内容,本发明利用语音识别技术,结合硬件设备,实现在不同设备间完成数据共享,实时录音及语音字幕实时显示,使人们的会议进行的更加的智能化与便捷化,避免因为会议演讲人的发言不清楚,导致参会人员听错,无法正确理解其意思的情况。(The invention relates to the field of voice signal processing, in particular to a caption realization method, a device, a system and a storage medium based on an intelligent voice mouse, wherein the method comprises the following steps: the method comprises the steps of realizing voice acquisition at an intelligent voice mouse end, then preprocessing acquired voice files, storing and managing the preprocessed files, then training the obtained data through a model to obtain user intentions, freely sharing the data into a local area network through a plurality of mobile ends, interconnecting a plurality of devices in the local area network in real time, receiving the data of the plurality of devices, and finally displaying the voice content of a user through subtitles.)

基于智能语音鼠标的字幕实现方法、装置、系统和存储介质

技术领域

本发明涉及语音信号处理领域,尤其涉及一种基于智能语音鼠标的字幕实现方法、装置、系统和存储介质。

背景技术

目前人们在进行会议时,大多还是依赖于主讲人的ppt与主讲人的讲解内容,大多数内容都是靠主讲人的陈述,但是很多情况下,参会人员无法及时准确的听懂理解主讲人的意思。通过利用机器学***台和智能硬件平台快速实现商业化部署,前景十分广阔。

本发明提供一种基于智能语音鼠标的字幕实现方法、装置、系统和存储介质,实现在不同设备间完成数据共享,建立应用级的连接,实现实时录音,同步将录音、语音识别、语音翻译的结果共享给局域网内计算机设备,在显示终端上展示字幕内容,使人们更加清楚的理解会议内容。

发明内容

针对上述存在的问题,本发明的目的是为了开发一种基于智能语音鼠标的字幕实现方法,使人们的会议进行的更加的智能化与便捷化,为了解决上述现有技术中存在的问题,本发明提供一种基于智能语音鼠标的字幕实现方法,包括以下步骤:

步骤S1:在智能语音鼠标端通过指定键开启录音和结束录音,实现语音采集;

步骤S2:将采集的语音文件进行预处理,完成语音识别和结果的自动修正,同步完成语音翻译和语音合成,并且将预处理后的文件进行存储及管理;

步骤S3:将步骤S2中得到的数据通过模型训练得出用户意图;

步骤S4:多个移动端自由共享数据到局域网内;

步骤S5:局域网内多设备的实时互连,实时接收多设备的数据,并通过字幕展示用户的语音内容。

优选的,步骤S2中所述预处理过程包括:

步骤S21:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;

步骤S22:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;

步骤S23:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别;

优选的,步骤S3中所述模型训练包括以下步骤:

步骤S31:使用HMM模型、平均感知机、和CRF++进行特征提取;

步骤S32:将已经准备好的语料进行训练;

步骤S33:对模型进行裁剪;

步骤S34:保存训练后的模型。

优选的,步骤S5中所述字幕通过计算机端字幕界面个性化修改功能进行修改。

优选的,所述多设备实行分别管理进行数据统计与分析,并且多设备包含对多客户端软件更新的功能。

为达上述目的,本发明还提供一种基于智能语音鼠标的字幕实现装置,包括

拾音模块,用于通过移动端获取用户语音指令,进行采集整理并转交到下一个模块;

预处理模块,将收集到的数据进行自然语言处理,以便下一个模块进行用户的语句内容的判断;

模型训练模块,采用MITIE作为特征提取和实体识别,使用sklearn作为意图判定,进行模型训练,得出用户意图;

传送模块,通过多个移动端自由共享数据给局域网内的计算机;

字幕展示模块,通过字幕展示输入语音的文本内容。

为达上述目的,本发明还提供一种基于智能语音鼠标的字幕实现系统,包括智能语音鼠标端,存储器,处理器,显示终端以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

为达上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。

本发明的有益效果:

本发明利用语音识别技术,结合硬件设备,实现在不同设备间完成数据共享,实时录音及语音字幕实时显示,在会议中,参会人员通过按住鼠标的语音键拾取主讲人的讲话便可以在自己的电脑屏幕上面显示主讲人的讲话内容,使人们的会议进行的更加的智能化与便捷化,避免因为会议演讲人的发言不清楚,导致参会人员听错,无法正确理解其意思的情况。

附图说明

图1为本发明具体实施例1基于智能语音鼠标的字幕实现方法的整体流程图。

图2为本发明具体实施例2基于智能语音鼠标的字幕实现装置的结构框图。

图3为本发明实施例1基于智能语音鼠标的字幕实现方法的具体流程图。

具体实施方式

下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

图1为本发明基于智能语音鼠标的字幕实现方法提供具体实施例1整体流程图。如图1所示,一种基于智能语音鼠标的字幕实现方法,包括以下步骤:

步骤S1:在智能语音鼠标端通过指定键开启录音和结束录音,实现语音采集。

步骤S2:将采集的语音文件进行预处理,完成语音识别和结果的自动修正,同步完成语音翻译和语音合成,并且将预处理后的文件进行存储及管理。

在本步骤中,所述预处理过程首先使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词,然后,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来,接下来,采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别。

步骤S3:将步骤S2中得到的数据通过模型训练得出用户意图。

在本步骤中,所述模型训练是首先使用HMM模型、平均感知机和CRF++进行特征提取,然后,将已经准备好的语料进行训练,接下来,对模型进行裁剪,最后,保存训练后的模型。

步骤S4:多个移动端自由共享数据到局域网内。

步骤S5:局域网内多设备的实时互连,实时接收多设备的数据,并通过字幕展示用户的语音内容。

在本步骤中,所述多设备实行分别管理进行数据统计与分析,并且多设备包含对多客户端软件更新的功能;所述字幕通过计算机端字幕界面个性化修改功能进行修改。

一旦用户开启字幕幕式(通过点击界面按钮,开启字幕工作),立即同时启动3个三个相对独立却又相互依赖的功能模块:录音模块、语音识别模块、字幕展示模块,具体的依赖关系参阅附图3;

调讯飞语音识别接口(动态修正)进行语音识别时,需要注意两点:

(1)30秒后检测到静音,主动断开讯飞语音识别接口,重新连接;

(2)讯飞语音识别接口超时,被动断开,重新连接,

获取语音识别接口时,需要主要三点:

(1)一旦获取到识别结果,立即发送给“字幕展示模块”;

(2)1.5秒没有识别结果,模拟发送标点符号“,”或“。”;

(3)遇到确定正确的语音识别结果,对这句进行翻译;

字幕展示模块实现的具体算法、核心思想和注意事项。

1.初始化:计算字幕窗口的各个控件、布局的位置,创建一个宽度确定的“虚拟的记事本”,确定中文字体、英文字体,确定一行至少显示32个汉字并计算字体大小(理论上可以确定一行显示的字数在32-33之间,不同的分辨率下计算会有些许误差);

2.每次接收到最新的识别结果,均往“虚拟的记事本”里写,确定“虚拟的记事本”的最后一行内容,字幕上只显示“虚拟的记事本”的最后一行;

3.如果上次显示的“记事本”最后一行的行数小于本次显示的“记事本”最后一行的行数,说明正在换行,这时,字幕要有一种“两行向上翻页”的动态效果;

4.“虚拟的记事本”的每一行第一个字符不能是标点符号;

5.“虚拟的记事本”最后一行的后面N个字设置为“彩色”,其他字均为“白色”,其中N为动态修正的字数和10之间的最小值;

6.需要计算彩色字体和白色字体的准确位置;

7.中文原文、英文译文的显示模块化,相互独立,互不干扰;

8.设置5秒钟后,字幕界面清空,“虚拟的记事本”清空,下一次获取到识别结果从头开始;

9.字幕结束后,根据需求,对识别出来的文本保存到本地的.txt文件;

10.字幕可供选择有没有背景;有背景时,可以修改背景颜色和透明度;

11.利用简单的高斯模糊算法,实现简单的字体阴影,这样字幕没有背景时,字幕在所有的桌面背景下,均能显示(某些花哨的背景下,效果稍差);

实施例2

图2为本发明基于智能语音鼠标的字幕实现装置提供具体实施例2的结构框图。如图2所示,本实施例提供一种基于智能语音鼠标的字幕实现装置,包括

拾音模块,用于通过移动端获取用户语音指令,进行采集整理并转交到下一个模块;

预处理模块,将收集到的数据进行自然语言处理,以便下一个模块进行用户的语句内容的判断;

模型训练模块,采用MITIE作为特征提取和实体识别,使用sklearn作为意图判定,进行模型训练,得出用户意图;

传送模块,通过多个移动端自由共享数据给局域网内的计算机;

字幕展示模块,通过字幕展示输入语音的文本内容。

实施例3

本实施例提供一种基于智能语音鼠标的字幕实现系统,包括智能语音鼠标端,存储器,处理器,显示终端以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

实施例4

本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。

综上,本发明上述各实施例公开的基于智能语音鼠标的字幕实现方法、装置、系统及存储介质,可以使得会议进行的更加的智能化与便捷化,避免因为会议演讲人的发言不清楚,导致参会人员听错,无法正确理解其意思的情况。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或更替,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权力要求书的保护范围为准。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种引入语言向量的语音识别增强方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!