一种基于分类器集成的教师课堂指令识别方法及系统

文档序号：1863140 发布日期：2021-11-19 浏览：18次 >En<

阅读说明：本技术 一种基于分类器集成的教师课堂指令识别方法及系统 (Classifier integration-based teacher classroom instruction identification method and system ) 是由赵军颜庆国董勤伟查显光吴俊� 何泽家赵新冬于 2021-06-30 设计创作，主要内容包括：本发明公开了一种基于分类器集成的教师课堂指令识别方法及系统,通过获取课堂教学过程中教师的待识别语音,并对获取的待识别语音进行预处理得到音频片段集,然后对音频片段集进行内容识别得到文本集合,再对文本集合进行内容属性提取得到特征向量集合,最后将特征向量集合输入预置的集成分类器,即可得到待识别语音对应的指令分类结果,其中,预置的集成分类器由多个基分类器集成,并以语音训练数据的特征向量集合为训练样本,以语音训练数据对应的指令分类结果为样本标签训练得到。本申请能够实现对课堂上教师语音指令的准确识别,有助于对教师课堂教学效果进行更好的评估,并衡量教师对课堂的掌控力度,以及教师的课堂氛围情况。(The invention discloses a method and a system for identifying class instructions of teachers based on classifier integration. According to the method and the device, accurate identification of the teacher voice instruction in the classroom can be realized, better assessment of classroom teaching effects of the teacher is facilitated, and the control strength of the teacher to the classroom and the classroom atmosphere condition of the teacher are measured.)

技术领域

本发明涉及课堂教学技术领域，尤其涉及一种基于分类器集成的教师课堂指令识别方法及系统。

背景技术

在智慧课堂教学中，为了了解、评价、调整与促进教学服务，教学评价是非常重要的一个环节。课堂教学中的教学评估作为教学活动开展的基础，可以直接反映教师教学的水平，也直接影响学生学习的效果。其中，师生互动效果的评估越来越成为一个重要部分。师生互动效果指的是学生对教师指令的响应情况，例如教师强调某部分知识很重要需要记笔记，学生有没有及时将该内容记录下来；或者教师提出问题，学生有没有及时的思考并回答教师的提问等等。师生互动效果的评估很重要的一部分来源于教师课堂指令的下达，在课堂教学过程中对教师课堂指令的行为分析，能够从整体角度可以分析教师对课堂的掌控力度以及课堂氛围，为改进教学方式，提高教学质量，营造良好的课堂氛围有着重要意义。

目前而言，在语音指令信号处理领域，通常首先得到语音指令对应的文本指令,再进行指令的文本分类。传统的机器学习文本分类方法主要包括潜在狄利克雷分布、K-最近邻法、支持向量机等。这些方法发展的较为成熟，但分类效果严重依赖于提取的特征和模型的参数调优，整个过程耗时耗力。随着神经网络的普及，很多学者将其应用于自然语言处理领域，如将卷积神经网络应用在句子分类，将循环神经网络与卷积神经网络结合应用在文本分类等。在单一模型的短文本分类上，上述几种方法模型复杂度高，虽然已经取得了不错的成果，但效果提升空间有限。

因此，如何实现对课堂上教师语音指令的准确识别，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是：提供一种基于分类器集成的教师课堂指令识别方法及系统，能够实现对课堂上教师语音指令的准确识别，有助于对教师课堂教学效果进行更好的评估，并衡量教师对课堂的掌控力度，以及教师的课堂氛围情况。

为了达到上述目的，本发明一方面提供一种基于分类器集成的教师课堂指令识别方法，包括：

获取课堂教学过程中教师的待识别语音；

对所述待识别语音进行预处理，得到预处理后的音频片段集；

对所述音频片段集进行内容识别，得到识别后的文本集合；

对所述文本集合进行内容属性提取，得到提取后的特征向量集合；

将所述特征向量集合输入预置的集成分类器，得到所述待识别语音对应的指令分类结果；其中，所述集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到。

优选地，所述对所述待识别语音进行预处理，得到预处理后的音频片段集，包括：

利用小波变换对所述待识别语音进行降噪处理；

对降噪处理后的所述待识别语音进行切割分段，得到若干个句子形式的音频片段集。

优选地，所述对所述音频片段集进行内容识别，得到识别后的文本集合，包括：

利用语音识别技术对所述音频片段集进行固定形式语句的内容识别，将所述音频片段集转换为文本，得到识别后的文本集合。

优选地，多个所述基分类器的集成方式具体为：

将多个所述基分类器经过注意力机制，生成每个所述基分类器的权重系数；

基于所述权重系数，利用加权求和的方式对多个所述基分类器进行集成。

优选地，多个所述基分类器包括：卷积神经网络基分类器、双向长短时记忆神经网络基分类器、卷积长短时记忆神经网络基分类器和区域卷积神经网络基分类器。

本发明另一方面提供一种基于分类器集成的教师课堂指令识别系统，包括：

获取模块，用于获取课堂教学过程中教师的待识别语音；

预处理模块，用于对所述待识别语音进行预处理，得到预处理后的音频片段集；

识别模块，用于对所述音频片段集进行内容识别，得到识别后的文本集合；

提取模块，用于对所述文本集合进行内容属性提取，得到提取后的特征向量集合；

输出模块，用于将所述特征向量集合输入预置的集成分类器，得到所述待识别语音对应的指令分类结果；其中，所述集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到。

优选地，所述预处理模块包括：

降噪处理单元，用于利用小波变换对所述待识别语音进行降噪处理；

切割分段单元，用于对降噪处理后的所述待识别语音进行切割分段，得到若干个句子形式的音频片段集。

优选地，

所述识别模块，具体用于利用语音识别技术对所述音频片段集进行固定形式语句的内容识别，将所述音频片段集转换为文本，得到识别后的文本集合。

优选地，多个所述基分类器的集成方式具体为：

将多个所述基分类器经过注意力机制，生成每个所述基分类器的权重系数；

基于所述权重系数，利用加权求和的方式对多个所述基分类器进行集成。

本发明至少具有以下有益效果：

本发明通过获取课堂教学过程中教师的待识别语音，并对获取的待识别语音进行预处理得到音频片段集，然后对音频片段集进行内容识别得到文本集合，再对文本集合进行内容属性提取得到特征向量集合，最后将特征向量集合输入预置的集成分类器，即可得到待识别语音对应的指令分类结果，其中，预置的集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到，由于采用多种基分类器集成的思想，在对待识别语音的特征向量集合进行分类预测时，可以尽可能捕捉到更多的信息并学习到真实的假设空间，提高指令的识别准确率，从而实现对课堂上教师语音指令的准确识别，有助于对教师课堂教学效果进行更好的评估，并衡量教师对课堂的掌控力度，以及教师的课堂氛围情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于分类器集成的教师课堂指令识别方法的流程示意图；

图2为本发明实施例中集成分类器的一种集成方式的示意图；

图3为本发明实施例中基于分类器集成的教师课堂指令识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，本发明实施例一方面提供一种基于分类器集成的教师课堂指令识别方法，包括：

S110、获取课堂教学过程中教师的待识别语音。

本发明实施例中，在教师的讲台两侧安装高精度的数字监控拾音器，将其连接到电脑的主机上，当教师进行课堂教学时，数字监控拾音器实时采集教师的语音数据，并将其按时间分段保存为.wav格式的音频文件，作为待识别语音。

S120、对待识别语音进行预处理，得到预处理后的音频片段集。

本发明实施例中，为了避免外界噪声的干扰，在获取到教师的待识别语音后，对获取到的待识别语音使用降噪、增强等预处理手段，得到比较干净的语音数据，并进行音频分割操作，将连续的语音拆分为分段的音频片段集。

S130、对音频片段集进行内容识别，得到识别后的文本集合。

本发明实施例中，为了进行互动指令识别以及课堂语音分析，可以通过语音识别技术对预处理后的音频片段集进行内容识别，将音频数据转译为文本数据，得到识别后的文本集合，从而能够有效捕捉到教师在课堂中与学生之间的语言互动行为，通过语言上进行指令的传达。

S140、对文本集合进行内容属性提取，得到提取后的特征向量集合。

本发明实施例中，使用向量空间模型将文本内容用多维空间的向量表示，以空间上的相似度表达语义的相似度，直观易懂，简洁高效。具体来说，使用word2vec工具生成用于训练词向量的语料库，对短文本进行词向量的训练。利用训练好的语料库提取识别后的文本集合的内容属性特征向量，得到待识别语音对应的特征向量集合。

S150、将特征向量集合输入预置的集成分类器，得到待识别语音对应的指令分类结果；其中，集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到。

本发明实施例中，首先使用并联的方式将多个基分类器进行组合，构建分类器集成系统。然后以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签，对分类器集成系统中的各个基分类器进行训练，得到训练后的多个基分类器。再根据每个基分类器的重要性程度，将多个基分类器进行集成，得到最终的集成分类器。最后将待识别语音对应的特征向量集合输入到集成分类器，对特征向量进行文本分类，即可得到待识别语音对应的指令分类结果。

以上可知，本发明实施例提供的基于分类器集成的教师课堂指令识别方法，通过获取课堂教学过程中教师的待识别语音，并对获取的待识别语音进行预处理得到音频片段集，然后对音频片段集进行内容识别得到文本集合，再对文本集合进行内容属性提取得到特征向量集合，最后将特征向量集合输入预置的集成分类器，即可得到待识别语音对应的指令分类结果，其中，预置的集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到，由于采用多种基分类器集成的思想，在对待识别语音的特征向量集合进行分类预测时，可以尽可能捕捉到更多的信息并学习到真实的假设空间，提高指令的识别准确率，从而实现对课堂上教师语音指令的准确识别，有助于对教师课堂教学效果进行更好的评估，并衡量教师对课堂的掌控力度，以及教师的课堂氛围情况。

在本发明的一个实施例中，介绍了上述步骤S120，对待识别语音进行预处理的一种实施方式，可选的，该过程可以包括：

S1201、利用小波变换对待识别语音进行降噪处理。

本发明实施例中，使用小波变换对获取到的待识别语音进行降噪，去除教室内没有说话时的空白语音区域以及自由讨论或者课间休息时比较杂乱的语音区域，得到比较干净的语音数据。其中，对小波分解后的各层系数中大于和小于所设定阈值的系数分别进行处理，将小波系数低于阈值的部分置零，然后再进行反变换，从而达到去除噪声的目的。

S1202、对降噪处理后的待识别语音进行切割分段，得到若干个句子形式的音频片段集。

本发明实施例中，使用Matlab中的audioread函数读入降噪处理后的待识别语音，对其在时域上进行切割分段，设置采样率乘以开始的秒数，截至到采样率乘以结束的秒数，将待识别语音分割成一句一句的短音频流，得到若干个句子形式的音频片段集。

在本发明的另一个实施例中，介绍前述步骤S130，对音频片段集进行内容识别，得到识别后的文本集合的过程：

利用语音识别技术对音频片段集进行固定形式语句的内容识别，将音频片段集转换为文本，得到识别后的文本集合。

本发明实施例中，通过Speech SDK的SAPI语音识别技术对音频片段集进行固定形式语句的内容识别，捕获音频片段集的文本信息，将音频数据转译成文本数据，得到识别后的文本集合。其中，Speech SDK是一套语音应用程序开发的软件开发资源包，基于COM标准开发，底层协议以COM组件的形式完全独立于应用程序层。

使用SAPI中用于语音识别的编程接口获取识别的文字结果，主要包括以下部分：(1)IspRecognizer:语音识别引擎接口。主要用于识别引擎的识别和创建。识别引擎有两种:共享的引擎和私有的引擎。我们使用私有的识别引擎，只能由我们创建的应用程序使用。(2)IspRecoContext:识别上下文的接口，主要用于接受和发送与语音识别消息相关的事件消息，装载和卸载识别语法资源。(3)IspRecoGrammer:语音识别语法接口。私有的语音识别引擎需要XML的语法文档，程序通过该接口载入、激活XML语法规则，语法规则里定义着需要识别的字词和句子。(4)IspRecoResult:语音识别结果接口。该接口可对获取的语音信息识别文字进行推测和识别，然后获取识别的文字结果，同时它还能提供错误识别的相关信息，提示相关的结果。

具体实施时，前述步骤S140，对文本集合进行内容属性提取，得到提取后的特征向量集合的过程中，对短文本进行词向量的训练时，每个词可以用训练好的词向量表示：

W_i＝(w₁，w₂，...，w_k)；

式中，w_i代表词向量中第i维的权重，k代表通过word2vec训练后得到的词向量的维度。

每句话可以通过单词级联的方式进行表示：

式中，代表级联操作符，N代表句子的长度，即包括的单词的数量。

由此，可以得到每句话的矩阵表示，作为各个模型的输入数据。

请参阅图2，其示出了一种集成分类器的集成方式的示意图。结合图2，在本发明的另一个实施例中，介绍多个基分类器的集成过程：

S1501、将多个基分类器经过注意力机制，生成每个基分类器的权重系数。

本发明实施例中，考虑到不同基分类器对不同类别和不同区域的样本的分类效果是有差别的，因此，对于训练后的多个基分类器，我们利用注意力机制得到每个基分类器的权重系数，即代表每个基分类器的重要性程度。由于使用注意力机制来自适应的调整不同基分类器的权重，更有利于针对不同的数据选择不同的基分类器的组合权重，从而发挥不同的基分类器在不同数据上分类优势，提高文本指令的识别准确率，从而提高分类性能。其中，注意力机制是一种通过编解码，对目标数据进行加权变化，让系统更清晰知道应该关注哪里的机制。

S1502、基于权重系数，利用加权求和的方式对多个基分类器进行集成。

本发明实施例中，根据每个基分类器的权重系数，使用加权求和的方式将多个基分类器进行集成，得到最终的集成分类器，表示如下：

式中，H(x)代表集成分类器，h_i(x)代表第i个基分类器，ω_i≥0代表第i个基分类器的权重系数，T代表基分类器的数量。

具体实施时，多个基分类器包括：卷积神经网络基分类器、双向长短时记忆神经网络基分类器、卷积长短时记忆神经网络基分类器和区域卷积神经网络基分类器。

本发明实施例中，最终的集成分类器由CNN(英文全称：Convolutional NeuralNetworks，中文全称：卷积神经网络)基分类器、B-LSTM(英文全称：Bi-directional LongShort-Term Memory，中文全称：双向长短时记忆神经网络)基分类器、C-LSTM(英文全称：Convolutional-Long Short Term Memory，中文全称：卷积长短时记忆神经网络)基分类器、R-CNN(英文全称：Region-Convolutional Neural Networks，中文全称：区域卷积神经网络)基分类器组成，由于这四种基分类器有着各自擅长的领域，在处理同一文本集时所产生的预测效果具有相对独立的特性，从而更有利于对教师的指令进行分类预测。

本发明实施例另一方面提供一种基于分类器集成的教师课堂指令识别系统，下文描述的该系统可以与上文描述的方法相互对应参照。

请参阅图3，该系统包括：

获取模块310，用于获取课堂教学过程中教师的待识别语音；

预处理模块320，用于对待识别语音进行预处理，得到预处理后的音频片段集；

识别模块330，用于对音频片段集进行内容识别，得到识别后的文本集合；

提取模块340，用于对文本集合进行内容属性提取，得到提取后的特征向量集合；

输出模块350，用于将特征向量集合输入预置的集成分类器，得到待识别语音对应的指令分类结果；其中，集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到。

可选的，在本发明的一个实施例中，预处理模块320包括：

降噪处理单元3201，用于利用小波变换对待识别语音进行降噪处理；

切割分段单元3202，用于对降噪处理后的待识别语音进行切割分段，得到若干个句子形式的音频片段集。

可选的，在本发明的一个实施例中，识别模块330，具体用于利用语音识别技术对音频片段集进行固定形式语句的内容识别，将音频片段集转换为文本，得到识别后的文本集合。

可选的，在本发明的一个实施例中，多个基分类器的集成方式具体为：

将多个基分类器经过注意力机制，生成每个基分类器的权重系数；

基于权重系数，利用加权求和的方式对多个基分类器进行集成。

可选的，在本发明的一个实施例中，多个基分类器包括：卷积神经网络基分类器、双向长短时记忆神经网络基分类器、卷积长短时记忆神经网络基分类器和区域卷积神经网络基分类器。

以上可知，本发明实施例提供的基于分类器集成的教师课堂指令识别系统，通过获取课堂教学过程中教师的待识别语音，并对获取的待识别语音进行预处理得到音频片段集，然后对音频片段集进行内容识别得到文本集合，再对文本集合进行内容属性提取得到特征向量集合，最后将特征向量集合输入预置的集成分类器，即可得到待识别语音对应的指令分类结果，其中，预置的集成分类器由多个基分类器集成，并以语音训练数据的特征向量集合为训练样本，以语音训练数据对应的指令分类结果为样本标签训练得到，由于采用多种基分类器集成的思想，在对待识别语音的特征向量集合进行分类预测时，可以尽可能捕捉到更多的信息并学习到真实的假设空间，提高指令的识别准确率，从而实现对课堂上教师语音指令的准确识别，有助于对教师课堂教学效果进行更好的评估，并衡量教师对课堂的掌控力度，以及教师的课堂氛围情况。

本发明实施例提供的一种基于分类器集成的教师课堂指令识别系统中相关部分的说明请参见本发明实施例提供的一种基于分类器集成的教师课堂指令识别方法中对应部分的详细说明，且均具有本发明实施例提供的一种基于分类器集成的教师课堂指令识别方法具有的对应效果，在此不再赘述。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

12页详细技术资料下载

一种基于分类器集成的教师课堂指令识别方法及系统

相关技术

网友询问留言