基于摘要提取的语音评分方法和系统

文档序号:70656 发布日期:2021-10-01 浏览:22次 >En<

阅读说明:本技术 基于摘要提取的语音评分方法和系统 (Voice scoring method and system based on abstract extraction ) 是由 李苏梅 陈泽铭 李心广 陈帅 吴伟源 卢树炜 马姗娴 于 2021-06-04 设计创作,主要内容包括:本发明公开了一种基于摘要提取的语音评分方法和系统,所述方法包括:获取待评分的考生语音段,并切分得到若干个语音句子;对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词;计算每一所述文本单词的词向量;对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,构建文本网络图模型,采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分。采用本发明,其能准确地实现对考生语音的识别和摘要信息的提取,从而提高对考生语音的评分精准度。(The invention discloses a voice scoring method and a system based on abstract extraction, wherein the method comprises the following steps: obtaining a voice segment of an examinee to be scored, and segmenting the voice segment to obtain a plurality of voice sentences; performing text recognition and word segmentation on each voice sentence to obtain each text sentence and a plurality of text words forming the text sentence; calculating a word vector for each of the text words; carrying out weighted average processing on the word vector of each text word in each text sentence to obtain the sentence vector of each text sentence, constructing a text network graph model, and carrying out iterative computation by adopting a TextRank algorithm to obtain the importance score of each text sentence; and acquiring text sentences meeting preset conditions, forming the abstract of the examinee speech segment, and scoring the translation content of the examinee speech segment. By adopting the method and the device, the voice of the examinee can be accurately recognized and the abstract information can be accurately extracted, so that the scoring accuracy of the voice of the examinee is improved.)

基于摘要提取的语音评分方法和系统

技术领域

本发明涉及语音识别和评价

技术领域

,尤其涉及一种基于摘要提取的语音评分方法和系统。

背景技术

随着计算机科学技术飞速发展,人工智能、机器学习这些前沿技术在语音方面的应用,使得语音智能成为一门热门的技术。英语口语复述题的自动评分是当前语音评价

技术领域

研究的热点,英语口语复述题指的是考生先听一段播放录音,随后根据自己所听到的内容,通过一分钟的整理复述出该段录音。该题人工评分要点主要集中在翻译内容评分及语言表达评分两个方面,其中对翻译内容准确性的评分技术是评分成功的关键技术。一般来说,对翻译内容的评分主要考察考生答卷中的翻译正确关键信息点的个数,涉及到摘要提取技术。

现有技术中,在摘要提取应用中,基于TF-IDF的文本摘要抽取方法是最基本且提出时间较早的基于统计的文本摘要抽取算法。然而,发明人发现现有技术至少存在如下问题:基于TF-IDF的方法进行文本摘要的抽取并没有考虑到语义相关信息,只是简单的直接计算TF-IDF值,因此抽取得到的摘要的准确率不高。

发明内容

本发明实施例的目的是提供一种基于摘要提取的语音评分方法和系统,其能准确地实现对考生语音的识别和摘要信息的提取,从而提高对考生语音的评分精准度。

为实现上述目的,本发明实施例提供了一种基于摘要提取的语音评分方法,包括:

获取待评分的考生语音段,并切分得到若干个语音句子;

对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词;

计算每一所述文本单词的词向量;

对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量;

根据每一所述文本句子的句子向量,构建文本网络图模型;其中,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;

采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;

获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分;其中,所述预设条件为:所述文本句子的重要性得分大于预设得分阈值,或所述文本句子为重要性得分最高的N个文本句子。

与现有技术相比,本发明公开的一种基于摘要提取的语音评分方法,对考生语音段进行处理,得到每一文本单词的词向量之后,采用WR算法,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,对比于传统的加权求和方法,可以得到更为准确的句子向量。根据每一所述文本句子的句子向量,构建文本网络图模型,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分,通过构建文本图模型来改进TextRank算法,从而提升了摘要抽取效果,相比于神经网络,更加简单高效又不失效果。

作为上述方案的改进,所述对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,具体包括:

根据预设的参数因子和设定概率,确定每一所述文本单词的权重;

通过以下计算公式,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的初始句子向量:

其中,s为所述文本句子的数量,ω为所述文本单词的数量,vω为所述词向量,a为预设的参数因子,p(ω)为设定概率;

对每一所述初始句子向量进行降维处理,得到每一所述文本句子的句子向量。

作为上述方案的改进,所述降维处理方法包括:奇异值分解算法、主成分分析算法、因子分析算法或独立成分分析算法。

作为上述方案的改进,所述文本句子的相似度的计算方法为余弦相似度算法或最长公共子序列算法。

作为上述方案的改进,所述文本句子的相似度通过以下计算公式得到:

Si=(x1,x2,...,xn);

Sj=(y1,y2,...,yn);

其中,Sim(Si,Sj)为文本句子Si和Sj的相似度,Si和Sj表示不同的文本句子,n为所述文本句子的数量,xn表示构成文本句子Si的每一文本单词;yn表示构成文本句子Sj的每一文本单词。

作为上述方案的改进,所述TextRank算法具体为:

其中,WS(Vi)为文本句子的重要性得分,Vi表示文本网络图模型的顶点,Wij表示文本网络图模型的边,In(Vi)为指向顶点Vi的点集合,Out(Vi)为顶点Vi指向的点集合;d为预设的阻尼系数。

作为上述方案的改进,所述获取待评分的考生语音段,并切分得到若干个语音句子,具体包括:

获取待评分的考生语音段;

采用预设的窗函数对所述待评分的考生语音段进行加窗处理,得到若干音频帧;

计算每一所述音频帧的短时平均能量和短时平均过零率;

获取所述短时平均能量和短时平均过零率均达到对应预设的阈值的所述音频帧,作为边界切割点,以将所述考生语音段切分为若干个语音句子。

作为上述方案的改进,所述对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词,具体包括:

对每一所述语音句子进行MFCC语音特征提取,得到语言特征值;

将每一所述语言特征值输入预先训练完成的BP神经网络模型进行文本识别,得到每一所述文本句子;

对每一所述文本句子进行单词切分,得到构成所述文本句子的若干个文本单词。

作为上述方案的改进,所述计算每一所述文本单词的词向量,具体为:

利用预设的word2vec模型,计算每一所述文本单词的词向量。

本发明实施例还提供了一种基于摘要提取的语音评分系统,包括:

考生语音切分模块,用于获取待评分的考生语音段,并切分得到若干个语音句子;

文本单词获取模块,用于对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词;

词向量计算模块,用于计算每一所述文本单词的词向量;

句子向量计算模块,用于对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量;

文本网络图构建模块,用于根据每一所述文本句子的句子向量,构建文本网络图模型;其中,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;

重要性得分计算模块,用于采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;

摘要提取模块,用于获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分;其中,所述预设条件为:所述文本句子的重要性得分大于预设得分阈值,或所述文本句子为重要性得分最高的N个文本句子。

与现有技术相比,本发明公开的一种基于摘要提取的语音评分方法和系统,获取待评分的考生语音段,根据人发音的特点,利用人本身断句的特征,使用双阈值进行句子切分,将考生语音段切分为若干个语音句子;这种切分方法十分简单快速,但效果良好。并且,针对不同发音人发音习惯的差距,提出建立双阈值分类来解决发音习惯的差异问题,从而提高了句子切分的稳定性与准确率。采用BP神经网络模型对每一所述语音句子进行文本识别,得到每一文本句子,改变了以前传统的HMM或者DTW算法,大大提高了语音识别的准确率。对每一文本句子进行分词处理,得到构成所述文本句子的若干个文本单词,并利用word2vec模型计算每一所述文本单词的词向量。采用WR算法,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,对比于传统的加权求和方法,可以得到更为准确的句子向量。根据每一所述文本句子的句子向量,构建文本网络图模型,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分,通过构建文本图模型来改进TextRank算法,从而提升了摘要抽取效果,相比于神经网络,更加简单高效又不失效果。

附图说明

图1是本发明实施例一提供的基于摘要提取的语音评分方法的步骤示意图;

图2是本发明实施例中双阈值句子切分方法的步骤示意图;

图3是本发明实施例中BP神经网络模型中单个神经元模型的示意图;

图4是本发明实施例中BP神经网络模型的示意图;

图5是本发明实施例二提供的基于摘要提取的语音评分系统的结构示意图;

图6是本发明实施例三提供的基于摘要提取的语音评分系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,是本发明实施例一提供的一种基于摘要提取的语音评分方法的步骤示意图。本发明实施例提供的一种基于摘要提取的语音评分方法,通过步骤S1至S7执行:

S1、获取待评分的考生语音段,并切分得到若干个语音句子。

具体地,所述考生语音段为考生在做英语口语复述题时,根据自己所听到的录音内容复述出该段录音所形成的考生语音,可以通过麦克风进行获取。

由于所述考生语音段为一篇与文章联系的语音,为了能够利用语音识别技术进行准确的语音识别,需要利用分句算法将语音进行句子切分,得到以句子为单位的语音片段以方便后续的处理。

在一种实施方式下,通过双阈值句子切分方法,对所述考生语音段进行语音句子切分。由于通过对比发现不同语义单位(段、句、词等)的分割处,几乎在每个语言单位之间,都会有一个停顿,语音的某些特征有明显变化。比如在句子边界处,音频的能量特征就显著减少。在句中切分,音频的能量特征显著较高。不同的声音段有不同的能量,通常来说,停顿段的能量要比平均能量小很多。因此可以估计一个能量阈值,但是一个标准是无法准确切分句子的,还要借助时延的特性。不同的语言单位之间都存在语音的消减,只是衰减的幅度不同而已。鉴于这一特征,利用静音时延阈值来区分。对每类音频的不同语言单元之间尤其是句与句之间的静音段进行分析,统计出它们的平均段长和最短段长,然后就可以采取预设的策略得到静音时延阈值。

参见图2,是本发明实施例中双阈值句子切分方法的步骤示意图。

步骤S1具体包括步骤S11至S14:

S11、获取待评分的考生语音段;

S12、采用预设的窗函数对所述待评分的考生语音段进行加窗处理,得到若干音频帧。

在本发明实施例中,通过加窗处理后将音频分段,每段长10-30ms,称之为帧,相邻帧之间有部分重叠(帧移)。根据语音的短时平稳性,通常以帧为单位来进行提取语音特征。

所述预设的窗函数包括但不限于:矩形窗、汉宁窗和海明窗。

其窗函数分别为:

矩形窗:

汉宁窗:

海明窗:

其中N为窗长,在短时分析过程中应根据不同的需要选择不同的窗函数。

采用本发明实施例的技术手段,通过对所述待评分的考生语音段进行加窗处理,能够使得全局更加连续,避免出现吉布斯效应。并且加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。

S13、计算每一所述音频帧的短时平均能量和短时平均过零率。

短时平均能量:能量函数描述了音频能量幅度的变化,它可以用来分开静音和非静音以及清音和浊音,其中第i帧语音的短时平均能量可以表示为:

绝对值的累加求均值:

或平方的累加求均值:

或平方的对数的累加求均值:

其中i为音频帧编号,N为音频帧内取样值的个数即窗的宽度,xi()是第i帧中第n个点的信号样值。

需要说明的是,以上三种表达方式均是短时平均能量的计算方式,可以根据实际应用需求,选择其中一种计算方式进行后续的阈值判断。绝大部分的场景都是使用平方的累加求均值后得到的短时平均能量作为阈值判断。

短时平均过零率:对于离散信号,相邻的两个取样值有不同的符号时,就会出现一个“过零”现象。过零率即是统计的短时间内,信号“过零”的次数,这样利用过零率就可以很容易的区分语音中浊音和清音以及有声和静音。短时平均过零率可以表示为:

其中Sgn()是符号函数,Si表示第i帧语音信号的短时平均能量。

S14、获取所述短时平均能量和短时平均过零率均达到对应预设的阈值的所述音频帧,作为边界切割点,以将所述考生语音段切分为若干个语音句子。

通过对特定音频的波形进行分析,几乎在每个语音的停顿处波形的幅度都明显减少,因此可以利用时域里的短时平均能量来捕捉这一变化。针对每类音频统计出一个称为静音能量阈值的门限,如果某帧的能量低于该门限,就认为该帧已经进入了语音停止的间隙。

利用静音能量阈值可以很好的检测到语音的边界,但是并不是只有句子边界处才有语音的消减,不同的语义单位之间都存在这种现象,比如段与段之间,分句与分句之间,甚至词与词之间都可能被判为检测点,这显然不是我们需要的。通过再分析波形,发现不同语义单元间的确都存在波形幅度衰减的现象,除了衰减的幅度不同外,还有一个明显的特征即衰减持续的时间不同。段与段之间,衰减最明显并且持续时间最长,句与句之间,衰减也比较明显,只是持续时间略短,分句与分句之间,持续时间更短,而词与词之间的衰减幅度和持续时间都不甚明显鉴于这一特征,利用静音时延阈值来区分。对每类音频的不同语义单元之间尤其是句与句之间的静音段进行分析,统计出它们的平均段长和最短段长,然后就可以采取某种策略得到静音时延阈值。比如,利用平均段长乘以一个小于1的系数或直接利用最短段长,如果加的窗是无重叠的,只需将选取的段长除以窗长,即是静音时延阈值。

基于此,可以设置得到短时平均能量e(i)对应的静音能量阈值,和短时平均过零率Zi(i)对应的静音时域阈值。判断每一所述音频帧的短时平均能量是否低于所述静音能量阈值,短时平均过零率是否低于所述静音时域阈值,若都低于对应的阈值,就将该音频帧作为句子边界切割点,从而将所述考生语音段切分为若干个语音句子。

采用本发明实施例的技术手段,根据人发音的特点,通过利用人本身断句的特征,使用双阈值进行句子切分,提高了句子切分的稳定性与准确率,且效果良好。并且,由于考生语音段发音基本标准,语音清晰,噪音较少,因此不必采用复杂的模型,不用进行大量的运算,只需对它们的时域特性进行仔细分析,利用双阈值来判决,能够在保证句子切分准确性的基础上,有效减少了计算量。

可以理解地,在实际应用中,也可以采用其他的语音句子切分方法,来对所述考生语音段进行语音句子切分,均不构成对本发明的具体限定。

S2、对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词。

具体地,步骤S2包括步骤S21至S23:

S21、对每一所述语音句子进行MFCC语音特征提取,得到语言特征值;

S22、将每一所述语言特征值输入预先训练完成的BP神经网络模型进行文本识别,得到每一所述文本句子;

S23、对每一所述文本句子进行单词切分,得到构成所述文本句子的若干个文本单词。

在本发明实施例中,采用BP神经网络模型进行文本识别,从而将考生语音句子识别并转换为文本形式。BP神经网络又称误差反向传递神经网络,它是一种依靠反馈值来不断调整节点之间的连接权值而构建的一种网络模型。

参见如3-4,图3是本发明实施例中BP神经网络模型中单个神经元模型的示意图;图4是本发明实施例中BP神经网络模型的示意图。它的整个体系结构分为输入层、隐藏层和输出层,其中隐藏层根据具体情况的需要,可以是一层结构也可为多层结构。隐含层数越多,神经网络学习速度就越慢,根据Kosmogorov定理,在合理的结构和恰当的权值条件下,3层BP网络可以逼近任意的连续函数,因此可以选取结构相对简单的3层BP网络。

如图3所示:Yk代表某一时刻神经元k的输出值;f为激活函数又称传输函数;Uk代表第k个神经元的净输入,可通过下式求得:

Uk=Wk1*X1+Wk2*X2+...+Wkm*Xm+bk

X1,X2,…Xm表示共有m个输入数据;WK1,WK2,…WKm分别对应于每个输入信号的权值;bk为偏置值又叫阀值。

将上述的单个神经元进行连接,即可得到如图4所示的多层神经网络模型,最后的输出层会输出每个匹配的概率。

BP神经网络模型的训练过程为:预先获取若干语音句子和对应标注的文本句子,作为数据训练集。对语音句子进行语音参数提取,在本发明实施例中,语音参数提取的MFCC特征是一个行数row不确定,列数为24的二位向量,用此row×24=num个元素组成一个数字字符的列矩阵,即数字字符的特征向量,由于row都不一样,所以根据研究经验使num=600,不够600的直接用0补充。即600个输入神经元。

学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,输入样本从输人层传入,经各隐藏层逐层处理后,传向输出层。若输出层的实际输出与期望的输出不符,则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐藏层向输入层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程,是周而复始的进行的。权值不断调整的过程,也就是网络的学习训练过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或进行到预先设定的学习次数为止。

图中X代表输入层,b代表隐藏层,y代表输出层,设Vh1代表输入层第一个输入到隐藏层第h个神经元的权重,Wd1代表隐藏层第d个神经元到输出层第一个神经元的权重。

对于隐藏层第一个神经元的输入为:

其中f()为隐藏层激活函数,λi问隐藏层第1个神经元的偏置。

对于输出层第一输出为:

其中θi为输出层第i个神经元的偏置。

而对于每一次预测,利用以下公式求得误差,进行权值的不断调整:

其中为网络预测的输出,为样本预期输出。

进而,根据训练完成的BP神经网络模型,即可对每一语音句子进行文本识别,得到每一所述文本句子。对每一文本句子进行单词切分,得到构成每一所述文本句子的文本单词。

采用本发明实施例的技术手段,使用基于BP神经网络的语音识别,改变了以前传统的HMM或者DTW算法,充份利用了实验室的语料库资源优势,大大提高了语音识别的准确率。

需要说明的是,上述场景仅作为举例,在实际应用中,还可以采用现有技术中的单词切分方法,在此不做具体限定。

S3、计算每一所述文本单词的词向量。

具体地,利用预设的word2vec模型,计算每一所述文本单词的词向量。

所述word2vec模型利用深度学习网络对语料数据的词语及其上下文的语义关系进行建模,以求得到低维度的词向量。所述词向量一般在100-300维左右,能很好的解决传统向量空间模型高维稀疏的问题。

需要说明的是,word2vec模型包括Continuous Bag-of-WordsModel(CBOW)和Continuous Skip-gram Model(Skip-gram)两种模型。这两个模型都包括输入层、隐藏层和输出层。所述word2vec模型的构建和训练方法可以参考现有技术,在此不做赘述。

S4、对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量。

具体地,步骤S4包括步骤S41至S43:

S41、根据预设的参数因子和设定概率,确定每一所述文本单词的权重;

S42、通过以下计算公式,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的初始句子向量:

其中,s为所述文本句子的数量,ω为所述文本单词的数量,vω为所述词向量,a为预设的参数因子,p(ω)为设定概率;

S43、对每一所述初始句子向量进行降维处理,得到每一所述文本句子的句子向量。

传统的由词向量得到句子向量的过程,通常是将句子中的每个单词的词向量进行相加,然后求平均值,这样的方法虽然简单,但往往效果却不够优秀。

在本发明实施例中,采用WR算法这一个无监督的句子建模方法,来进行句子向量的计算。其中W表示Weighted,意为使用预估计的参数给句中的每个词向量赋予权重。R表示Removal,意为移除句向量中的无关部分,对句子进行降维处理。

首先使用预估计的参数a和设定概率p(ω)给句中的每个词向量赋予权重,加权求和后,对每一所述初始句子向量进行降维处理,移除句向量中的无关部分,得到每一所述文本句子的句子向量。

需要说明的是,参数a是一个经验值,其可以根据实际情况进行设定,示例性地,a∈[1e-4,1e-3]。设定概率p(ω)为词频估计,即所述文本单词在整个语料库中的出现概率,可以预先计算得到。

所述降维处理方法包括:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

在一种实施方式中,采用PCA算法移除向量中的无关部分最终得到句子向量:根据每一所述初始句子向量,设定奇异向量u,对每一所述文本句子的初始句子向量,执行:

vs′=uuTvs

从而得到每一所述文本句子的句子向量vs′。

采用本发明实施例的技术手段,WR算法是一个高效且便捷的建模方法,对比神经网络,它的耗时短,但效果确与神经网络旗鼓相当,非常高效且便捷。

S5、根据每一所述文本句子的句子向量,构建文本网络图模型;其中,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边。

S6、采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分。

具体地,TextRank算法通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank一般模型可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。

在本发明实施例中,采用文本句子的句子向量作为顶点,通过得到的句子向量进行相似度计算,利用句子之间的相似度作为网络图节点之间的边的权值,通过迭代计算至收敛或者达到计算上限次数,最终来得到句子单元的重要性。

优选地,所述文本句子的相似度的计算方法包括:余弦相似度算法、最长公共子序列算法。

在一种可选的实施方式下,采用余弦相似度算法计算文本句子之间的相似度,则所述文本句子的相似度通过以下计算公式得到:

Si=(x1,x2,...,xn);

Sj=(y1,y2,...,yn);

其中,Sim(Si,Sj)为文本句子Si和Sj的相似度,Si和Sj表示不同的文本句子,n为所述文本句子的数量,xn表示构成文本句子Si的每一文本单词;yn表示构成文本句子Sj的每一文本单词。

若两个文本句子之间的相似度大于给定的相似度阈值,就认为这两个文本句子语义相关,并将它们连接起来,即所述文本网络图模型的边的权值为Sim(Si,Sj)。

进一步地,所述TextRank算法具体为:

其中,WS(Vi)为文本句子的重要性得分,Vi表示文本网络图模型的顶点,Wij表示文本网络图模型的边,In(Vi)为指向顶点Vi的点集合,Out(Vi)为顶点Vi指向的点集合;d为预设的阻尼系数。

示例性地,阻尼系数d取0.85,用于计算收敛。

则,采用TextRank算法进行迭代计算,直到结果收敛或者达到计算上限次数,即可得到每一所述文本句子的重要性得分。

S7、获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分;其中,所述预设条件为:所述文本句子的重要性得分大于预设得分阈值,或所述文本句子为重要性得分最高的N个文本句子。

具体地,在得到每一所述文本句子的重要性得分之后,按照得分从大到小的顺序,得到所述文本句子按照重要性得分降序排列的集合。根据字数或句子数要求,在所述集合中抽取前N个文本句子组成所述摘要,其中,N≥1;或根据重要性得分要求,在所述集合中抽取高于预设得分阈值的文本句子组成所述摘要。

进一步地,根据所述摘要,按照预设的评分标准进行考生语音段的翻译内容评分。

采用本发明实施例的技术手段,将文本作为图像进行处理,使用基于WR算法与word2vec得到的句子向量作为顶点,使用句子之间的余弦相似度代表顶点之间的边,构建文本图模型来改进TextRank算法,从而提升了摘要抽取效果。相比于神经网络,本发明实施例所采用的方法更加的简单高效,但又不失效果。

作为优选的实施方式,所述方法还包括步骤S8和S9:

S8、计算所述考生语音段的语言表达得分;

S9、根据所述考生语音段的翻译内容得分和语音表达得分,得到所述考生语音段的总评分。

英语口语复述题的评分要点除了在翻译内容评分方面,还包括语言表达评分,因此,对所述考生语音段进行语音表达得分,将翻译内容得分和语音表达得分进行相加或加权相加,得到所述考生语音段的总评分。

采用本发明实施例的技术手段,将摘要算法运用到了口语复述题的评分上,利用摘要算法抽取考生语音的关键信息,并且对考生语音进行发音质量评分,综合利用上述两点再对考生的答案给出一个最终评分,提高了评分准确性。

以下通过随机挑选广东高考英语口语考试中短文复述的1篇高考真题、标准答案及答卷来作为对比,测试本发明实施例所提供的所述基于摘要提取的语音评分方法的准确性和高效性。

根据答卷评分等级选取了400份答卷做试验,并根据高、中、低三个评分等级,每个等级随机抽出8名考生的答案作为样本,根据所述基于摘要提取的语音评分方法所得到的摘要评分与老师的评分进行数据对照,结果如表1所示。

题目为:

梗概:Tom担心妹妹缺粮过冬,偷偷送米给她,却发现妹妹也在做同样的事情。

关键词:worry(担心)harverst(收获)add(添加)pile(堆)

Strange(奇怪的)asleep(入睡)hide(藏)winter(冬天)

Same(同样的)farm(农场)

表1本发明评分与老师评分部分样本对比情况

学生分数等级的定义是:等级高是指信息点遗漏较少,语速正常流畅辨识度高;等级中是指信息点有所遗漏,表达正常,录音内容基本能识别;等级低是指信息点较少,语言不够流畅,录音内容勉强识别。其中教师平均分是指,该录音经过多名高考阅卷老师打分得出的平均分。

24组数据中,教师评分与本发明评分结果前后误差为4.30%左右,在一定程度上具有很好的参考意义。

表1中资源等级的高中低是考生的作答水平,可以看到测试用例的作答水平和系统检测之后的关键词覆盖率基本符合。高水平的答案几乎是覆盖了全部的关键词,而且本发明方法也基本能正确识别出来。相应的低水平的答案中出现的关键词本来就少,所以本发明方法也没有无法识别。

对本项目选取的2000份结果进行统计,将人工识别与系统识别结果相差个数进行对比,数据如下表2所示:

表2差异数据结果

从表2可知,人机一致率为84%左右,人机相差一个关键词为15%左右,人机相差两个关键词为2%左右,没有相差3个关键词的情况。系统的关键词识别与人工关键词识别人一致率达到80%以上,综合以上数据结果表示,本发明方法能在一定程度完成语音试卷的摘要工作。

本发明实施例一提供了一种基于摘要提取的语音评分方法,获取待评分的考生语音段,根据人发音的特点,利用人本身断句的特征,使用双阈值进行句子切分,将考生语音段切分为若干个语音句子;这种切分方法十分简单快速,但效果良好。并且,针对不同发音人发音习惯的差距,提出建立双阈值分类来解决发音习惯的差异问题,从而提高了句子切分的稳定性与准确率。采用BP神经网络模型对每一所述语音句子进行文本识别,得到每一文本句子,改变了以前传统的HMM或者DTW算法,大大提高了语音识别的准确率。对每一文本句子进行分词处理,得到构成所述文本句子的若干个文本单词,并利用word2vec模型计算每一所述文本单词的词向量。采用WR算法,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,对比于传统的加权求和方法,可以得到更为准确的句子向量。根据每一所述文本句子的句子向量,构建文本网络图模型,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分,通过构建文本图模型来改进TextRank算法,从而提升了摘要抽取效果,相比于神经网络,更加简单高效又不失效果。

参见图5,是本发明实施例二提供的基于摘要提取的语音评分系统的结构示意图。本发明实施例提供了一种基于摘要提取的语音评分系统20,包括:考生语音切分模块21、文本单词获取模块22、词向量计算模块23、句子向量计算模块24、文本网络图构建模块25、重要性得分计算模块26和摘要提取模块27;其中,

所述考生语音切分模块21,用于获取待评分的考生语音段,并切分得到若干个语音句子;

所述文本单词获取模块22,用于对每一所述语音句子进行文本识别和单词切分,得到每一文本句子和构成所述文本句子的若干个文本单词;

所述词向量计算模块23,用于计算每一所述文本单词的词向量;

所述句子向量计算模块24,用于对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量;

所述文本网络图构建模块25,用于根据每一所述文本句子的句子向量,构建文本网络图模型;其中,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;

所述重要性得分计算模块26,用于采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;

所述摘要提取模块27,用于获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分;其中,所述预设条件为:所述文本句子的重要性得分大于预设得分阈值,或所述文本句子为重要性得分最高的N个文本句子。

需要说明的是,本发明实施例提供的一种基于摘要提取的语音评分系统用于执行上述实施例的一种基于摘要提取的语音评分方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。

本发明实施例二提供了一种基于摘要提取的语音评分系统,获取待评分的考生语音段,根据人发音的特点,利用人本身断句的特征,使用双阈值进行句子切分,将考生语音段切分为若干个语音句子;这种切分方法十分简单快速,但效果良好。并且,针对不同发音人发音习惯的差距,提出建立双阈值分类来解决发音习惯的差异问题,从而提高了句子切分的稳定性与准确率。采用BP神经网络模型对每一所述语音句子进行文本识别,得到每一文本句子,改变了以前传统的HMM或者DTW算法,大大提高了语音识别的准确率。对每一文本句子进行分词处理,得到构成所述文本句子的若干个文本单词,并利用word2vec模型计算每一所述文本单词的词向量。采用WR算法,对每一所述文本句子中的每一所述文本单词的词向量进行加权平均处理,得到每一所述文本句子的句子向量,对比于传统的加权求和方法,可以得到更为准确的句子向量。根据每一所述文本句子的句子向量,构建文本网络图模型,所述文本网络图模型以每一所述文本句子的句子向量作为顶点,以大于预设的相似度阈值的文本句子的相似度作为边;采用TextRank算法进行迭代计算,得到每一所述文本句子的重要性得分;获取符合预设条件的文本句子,组成所述考生语音段的摘要,用于进行所述考生语音段的翻译内容评分,通过构建文本图模型来改进TextRank算法,从而提升了摘要抽取效果,相比于神经网络,更加简单高效又不失效果。

参见图6,是本发明实施例三提供的基于摘要提取的语音评分系统的结构示意图。本发明实施例还提供了一种基于摘要提取的语音评分系统30,包括处理器31、存储器32以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一所提供的基于摘要提取的语音评分方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于工业互联网的语音识别及处理方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!