针对实时语音流的咳嗽及打喷嚏识别方法
阅读说明:本技术 针对实时语音流的咳嗽及打喷嚏识别方法 (Method for identifying coughing and sneezing aiming at real-time voice flow ) 是由 孙宝石 于 2020-03-24 设计创作,主要内容包括:本发明公开了一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法。本发明一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法,包括:连续采集语音信号,将采集的语音数据进行分帧;对语音数据帧进行端点检测,以定位候选目标语音的起点帧;端点检测采用三门限法;同时采用时域特征和频域特征,并且针对咳嗽和打喷嚏的特点选取特征值;特征向量队列加速处理;三种工作模式灵活切换等,并形成一整套运行和持续优化流程。本发明的有益效果:1.识别率高:本方法包括多处关键创新点,并且针对咳嗽和打喷嚏进行了特别处理,比现有其他方法识别率明显提升。(The invention discloses a method for identifying coughing and sneezing aiming at double-domain characterization and queue acceleration of real-time voice flow. The invention relates to a method for identifying coughs and sneezes aiming at double-domain characterization and queue acceleration of real-time voice streams, which comprises the following steps: continuously acquiring voice signals, and framing the acquired voice data; carrying out end point detection on the voice data frame to locate a starting point frame of the candidate target voice; the end point detection adopts a three-threshold method; simultaneously adopting time domain characteristics and frequency domain characteristics, and selecting characteristic values aiming at the characteristics of cough and sneeze; accelerating the processing of the feature vector queue; and the three working modes are flexibly switched, and the like, and a whole set of operation and continuous optimization process is formed. The invention has the beneficial effects that: 1. the recognition rate is high: the method comprises a plurality of key innovation points, and the identification rate is obviously improved compared with other existing methods by specially treating cough and sneeze.)
技术领域
本发明涉及咳嗽及打喷嚏识别领域,具体涉及一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法。
背景技术
咳嗽和打喷嚏是呼吸系统疾病的常见症状,在公共场所,如:教室、办公室、会议室、餐厅等场合对不特定人群的咳嗽和打喷嚏进行自动检测,能够及时发现病源风险,有效地进行防控。
针对此问题的现有技术可以说就是通用语音识别技术的一个特殊应用:基本上都是采用短时傅里叶变换(Short Time Fourier Transform,STFT)、梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC)等方法提取音频信号的频域特征,然后使用模式识别或机器学习等方法进行特征匹配。
而市面上几乎找不到符合上述场景(公共场所不特定人群)的咳嗽和打喷嚏检测产品。能找到的产品包括:医用接触式个人咳嗽检测仪、咳嗽检测手机APP(针对个人)。
咳嗽和打喷嚏是呼吸系统疾病的常见症状,在公共场所,如:教室、办公室、会议室、餐厅等场合对人群的咳嗽和打喷嚏进行自动检测,能够及时发现病源风险,有效地进行防控。
针对上述应该场景,传统技术存在以下技术问题:
1、方法精度较低:现有技术基本都是采用短时傅里叶变换(Short Time FourierTransform,STFT)、梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC)等方法提取音频信号的频域特征,然后使用模式识别或机器学习等方法进行特征匹配。现有方法缺少对“咳嗽、打喷嚏”特殊性的考虑,也缺乏对公共场所及不特定人群环境的考虑,在实际应用中,方法的精度和鲁棒性都不高。
2、实用性差:现有方法,特别是学术文章所述的方法,基本上都是在比较理想的实验环境中运行的,仅针对个别指标进行最大程度优化。但没有综合考虑应用的复杂环境和大规模部署,导致相关方法很难落地。
3、资源占用多,离线识别难:现有方法无效运算较多、特征化数据有大量冗余,对计算和存储资源都有较高要求,难以在常规单片机上独立完成,因此很难实现离线识别,大大限制了应用范围。
发明内容
本发明要解决的技术问题是提供一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法,该方法包括:三门限端点检测、时域+频域双域特征化(优化特征向量和压缩维度)、特征向量队列加速、三种工作模式灵活切换等,并形成一整套运行和持续优化流程。本方法具有识别效率高、准确率高、占用资源少、鲁棒性好、可大规模部署等优势。
为了解决上述技术问题,本发明提供了一种针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法,包括:
连续采集语音信号,将采集的语音数据进行分帧;
对语音数据帧进行端点检测,以定位候选目标语音的起点帧;端点检测采用三门限法,既:
(1)此帧采样的平均能量大于门限1,且
(2)此帧采样过零率(帧采样值大于零的百分比)大于门限2,且
(3)此帧与前一帧的平均能量差分(两帧平均能量差的绝对值)大于门限
如果此帧满足上述三门限,则其帧静音标记(Frame Mute Flag,FMF)记为1(真),否则此帧的FMF记为0(假);
更新“识别过程激活标记(Recognition Activated Flag,RAF)”,RAF初始值为0(未激活):RAF=RAF|FMF
对RAF进行判断,如果RAF为假,表示识别过程尚未被激活,则直接丢弃当前帧,并跳转到开始继续语音采样;
如果RAF为真,表示识别过程已激活,则对当前帧进行特征化处理,得到一组20个特征值的帧特征向量;
将帧特征向量加入特征向量队列的队尾;
如果特征向量队列长度达到可识别长度(RecoLen),则将特征向量队列(RecoLen*20的特征矩阵)代入事先训练好的机器学习模型进行识别;否则,继续语音采样;
可识别长度RecoLen是机器学习模型二维输入样本的一个维度,表示一条输入样本包括多少个数据帧;RecoLen的取值在20帧到32帧之间,既对应于约1.25-2秒的语音数据,这个长度的语音基本上正好是一次咳嗽或打喷嚏的时间窗口;
如果识别结果的置信度(CL)超过系统设定的识别门限值,则认为有效检测到了一次咳嗽或打喷嚏,需进行计数、输出识别结果,并清空特征向量队列、将RAF置为0;然后跳转到开始,开始新的识别过程;
如果识别结果的置信度(CL)没有超过系统设定的识别门限值,则认为无法确认效检测到了咳嗽或打喷嚏,但需要根据CL的具体值,进行特征向量队列加速处理;
加速处理完成后开始新的识别过程。
在其中一个实施例中,上述整个处理流程为方法的“运行模式”,此外还有“训练模式”和“采集模式”共三种工作模式,工作模式通过系统参数控制;
如果工作在“训练模式”下,需要在帧特征向量入队的同时将帧特征向量上报给服务器或云平台;
如果工作在“采集模式”下,还需要将分帧语音数据上传给服务器或云平台。
在其中一个实施例中,门限1针对绝对静音过滤,门限2针对相对静音过滤,门限3则针对咳嗽及打喷嚏能量突变的特点,过滤掉较平滑的正常语音。
在其中一个实施例中,进行特征向量队列加速处理,具体包括:
(1)加速1:从特征向量队列中移除最前面(100%-CL)数量的帧,例如,假定RecoLen为20,若本次识别得到的CL为60%,则需要把前40%的帧,既8个帧从队列中剔除;
(2)加速2:在特征向量队列剩余帧中找到第一个FMF为1(真)的帧,丢弃其前面的所有帧;如果没找到FMF为1(真)的帧,则清空特征向量队列、并将RAF置为0。
在其中一个实施例中,所述咳嗽及打喷嚏机器学习方法训练过程,包括:
训练过程分为离线训练和在线训练两种,可以单独使用,也可以配合使用;
离线训练可以从外部获取语音数据,也可以将识别装置的运行模式设置为采集模式以获得原始语音数据;
对语音数据进行预处理,分成等于RecoLen个帧长度的片段,预处理可以手工完成、也可以使用专门的语音文件处理软件;
对语音文件进行分类打标签,包括:咳嗽、打喷嚏和其他;
使用上述识别流程所示分帧和所示特征化方法提取每个语音片段的特征向量队列,如果长度不足RecoLen则用零向量补齐,如果长度超过RecoLen则截断;
在服务器或云平台上,批量将特征值和标签带入模型进行训练和验证;
训练满意后的模型导入识别装置,更新识别模型;
进行在线学习时,将识别装置的运行模式设置为训练模式以直接获得语音数据帧的特征向量;
特征向量在线上传到服务器或云平台;
服务器或云平台每收全RecoLen个特征向量既作为一个训练样本;
如果收到识别结果,则重新开始一个新训练样本,前以个样本长度如果不足RecoLen则用零向量补齐;
同时人工在线为样本打标签,包括:咳嗽、打喷嚏和其他;
使用新获得的训练样本,采用转移学习方法进行现有模型的增量优化;
优化后的模型可以与现有模型对比识别结果,以评估优化效果;
训练满意后的模型导入MCU识别装置,更新识别模型。
在其中一个实施例中,所述语音数据帧特征化处理流程,包括
对输入语音数据帧分别进行时域特征化和频域特征化;
时域特征化:根据咳嗽和打喷嚏声音的瞬间振幅变化的特点,计算三个特征值,包括:
(1)帧的采样波动值=最大采样值-最小采样值;
(2)当前帧与前一帧的能量差分=abs(当前帧的采样平均值–前一帧的采样平均值),注:abs为绝对值函数;
(3)帧分片的能量方差,代表帧内的能量波动;
频域特征化,包括两部分;第一部分是语音信号频域分析通用的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC),主要由快速傅里叶变换(FFT)、梅尔频率滤波器组和离散余弦变换(DCT)三部分组成;
频域特征化的第二部分是取第一部分的16个特征值,用标准方差公式计算频段能量方差,可再得到一个特征值。
在其中一个实施例中,其特征在于,所述“机器学习模型”包括但不限于二维卷积神经网络(2D CNN)、长短时记忆网络(LSTM)、随机森林(RF)。
基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
1.识别率高:本方法包括多处关键创新点,并且针对咳嗽和打喷嚏进行了特别处理,比现有其他方法识别率明显提升;
2.效率高:大幅减少了无效处理,大幅压缩了特征向量维度,并采用特征向量队列加速处理技术,比现有其他方法运行效率明显提高;
3.本发明提出的方法结构构简洁、处理高效,能够在通用单片机(MCU)独立运行,具备功能和成本双重优势。
附图说明
图1是本发明针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法的流程图。
图2是本发明针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法的语音数据帧特征化处理流程图。
图3是本发明针对实时语音流的双域特征化及队列加速的咳嗽及打喷嚏识别方法的咳嗽及打喷嚏机器学习算法训练过程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明公开了一种针对实时语音流中的咳嗽及打喷嚏片段进行高效自动识别的方法,该方法可运行在主流32位单片机(MCU)上,如:STM32,流程如图1所示,具体步骤包括:
麦克风(数字或模拟均可)连续采集语音信号,输入MCU端口,端口包括但不限于模数转换(A/D)、串行外设接口(SPI)、I2C总线接口等。采样频率为每秒16K,16位采样值。
MCU将采集的语音数据进行分帧,每帧125毫秒,后帧与前帧50%重叠,既对应每帧2048个采样值,每次前跳1024个采样。
对语音数据帧进行端点检测,目的是跳过静音帧和可确定的非目标语音(咳嗽及打喷嚏)帧,以定位候选目标语音的起点帧。端点检测采用三门限法,既:
(1)此帧采样的平均能量大于门限1,且
(2)此帧采样过零率(帧采样值大于零的百分比)大于门限2,且
(3)此帧与前一帧的平均能量差分(两帧平均能量差的绝对值)大于门限
注:门限1针对绝对静音过滤,门限2针对相对静音过滤,门限3则针对咳嗽及打喷嚏能量突变的特点,过滤掉较平滑的正常语音,如:背景噪声、说话、音乐等。
如果此帧满足上述三门限,则其帧静音标记(Frame Mute Flag,FMF)记为1(真),否则此帧的FMF记为0(假)。
更新“识别过程激活标记(Recognition Activated Flag,RAF)”,RAF初始值为0(未激活):RAF=RAF|FMF
对RAF进行判断,如果RAF为假,表示识别过程尚未被激活,则直接丢弃当前帧,并跳转到开始继续语音采样;
如果RAF为真,表示识别过程已激活,则对当前帧进行特征化处理(即使该帧的FMF为0也需要进行),得到一组20个特征值的帧特征向量,特征化处理流程参见图2及相关描述。
将帧特征向量加入特征向量队列的队尾;
如果特征向量队列长度达到可识别长度(RecoLen),则将特征向量队列(RecoLen*20的特征矩阵)代入事先训练好的机器学习模型进行识别;否则,跳转到开始继续语音采样。
注:所述“机器学习模型”包括但不限于二维卷积神经网络(2D CNN)、长短时记忆网络(LSTM)、随机森林(RF)等,其训练过程参见图3及相关描述。
可识别长度RecoLen是机器学习模型二维输入样本的一个维度,表示一条输入样本包括多少个数据帧。RecoLen的取值在20帧到32帧之间,既对应于约1.25-2秒的语音数据,这个长度的语音基本上正好是一次咳嗽或打喷嚏的时间窗口。
如果识别结果的置信度(CL)超过系统设定的识别门限值,则认为有效检测到了一次咳嗽或打喷嚏,需进行计数、输出识别结果,并清空特征向量队列、将RAF置为0。然后跳转到开始,开始新的识别过程。
注:所述“输出识别结果”包括但不限于发消息、驱动指示灯、告警装置、显示器或其他外设。
如果识别结果的置信度(CL)没有超过系统设定的识别门限值,则认为无法确认效检测到了咳嗽或打喷嚏,但需要根据CL的具体值,进行特征向量队列加速处理。具体包括:
(1)加速1:从特征向量队列中移除最前面(100%-CL)数量的帧,例如,假定RecoLen为20,若本次识别得到的CL为60%,则需要把前40%的帧,既8个帧从队列中剔除;
(2)加速2:在特征向量队列剩余帧中找到第一个FMF为1(真)的帧,丢弃其前面的所有帧。如果没找到FMF为1(真)的帧,则清空特征向量队列、并将RAF置为0。
加速处理完成后跳转到开始,开始新的识别过程。
上述整个处理流程为方法的“运行模式”,此外还有“训练模式”和“采集模式”共三种工作模式,工作模式通过系统参数控制,具体用途和特点参见表1。
如果工作在“训练模式”下,需要在帧特征向量入队的同时将帧特征向量上报给服务器或云平台;
如果工作在“采集模式”下,还需要将分帧语音数据上传给服务器或云平台。
表1:方法三种工作模式的对比说明
所述语音数据帧特征化处理流程,包括
对输入语音数据帧(125毫秒,2048个采样值)分别进行时域特征化和频域特征化。
时域特征化:根据咳嗽和打喷嚏声音的瞬间振幅变化的特点,计算三个特征值,包括:
(1)帧的采样波动值=最大采样值-最小采样值
(2)当前帧与前一帧的能量差分=abs(当前帧的采样平均值–前一帧的采样平均值),注:abs为绝对值函数
(3)帧分片的能量方差,代表帧内的能量波动。具体方法是将帧的2048个采样值平均分为若干片(4到10个分片),用标准方差公式计算方差。
频域特征化,包括两部分。第一部分是语音信号频域分析通用的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC),主要由快速傅里叶变换(FFT)、梅尔频率滤波器组和离散余弦变换(DCT)三部分组成。因为是标准方法,这里不在累述。具体的,这里采用16频段梅尔频率滤波器组,因此,可得到16个特征值;
频域特征化的第二部分是取第一部分的16个特征值,用标准方差公式计算频段能量方差,可再得到一个特征值。
所述咳嗽及打喷嚏机器学习方法训练过程,包括:
训练过程分为离线训练和在线训练两种,可以单独使用,也可以配合使用;
离线训练可以从外部获取语音数据,也可以将MCU识别装置的运行模式设置为采集模式以获得原始语音数据;
对语音数据进行预处理,分成等于RecoLen个帧长度的片段,预处理可以手工完成、也可以使用专门的语音文件处理软件;
对语音文件进行分类打标签,包括:咳嗽、打喷嚏和其他;
使用图1识别流程所示分帧和图2所示特征化方法提取每个语音片段的特征向量队列,如果长度不足RecoLen则用零向量补齐,如果长度超过RecoLen则截断;
在服务器或云平台上,批量将特征值和标签带入模型进行训练和验证;
训练满意后的模型导入MCU识别装置,更新识别模型。
进行在线学习时,将MCU识别装置的运行模式设置为训练模式以直接获得语音数据帧的特征向量;
特征向量在线上传到服务器或云平台;
服务器或云平台每收全RecoLen个特征向量既作为一个训练样本;
如果收到MCU识别结果,则重新开始一个新训练样本,前以个样本长度如果不足RecoLen则用零向量补齐;
同时人工在线为样本打标签,包括:咳嗽、打喷嚏和其他;
使用新获得的训练样本,采用转移学习方法进行现有模型的增量优化,转移学习为机器学习领域的公开方法和工具,这里不再赘述。
优化后的模型可以与现有模型对比识别结果,以评估优化效果;
训练满意后的模型导入MCU识别装置,更新识别模型。
下面给出本发明的一个应用场景:
实施例一,以教室咳嗽、打喷嚏检测作为应用场景举例:
本方法可以运行在一个以STM32 MCU为核心的采集装置,因为方法的简洁性和高效性,该采集装置结构简单、成本低、功耗小、带宽占用少。除MCU外,只需要麦克风、NB-IoT模块和锂电池即可。该采集装置正常运行状态不上传数据,检测到咳嗽、打喷嚏时在内部计数,如果单位时间内检测到的咳嗽、打喷嚏次数超过设定门限,则通过NB-IoT模块向云平台发出告警。云平台可以主动查询咳嗽、打喷嚏次数,可以在线更新机器学习模型,使用和维护都非常方便。
实施例二,封装成专门的咳嗽、打喷嚏传感器模组:
将麦克风、STM32单片机封装在一个电路板双,单片机内置本方法,软件和硬件构成一个专门用来检测咳嗽和打喷嚏的传感器模块,检测结果通过串口输出。该模块作为一个传感器部件直接应用在第三方产品和系统上。
本发明的关键技术如下:
本发明公开了一种针对实时语音流中的咳嗽及打喷嚏片段进行高效自动识别的方法,该方法可运行在主流32位单片机(MCU)上,如:STM32,麦克风(数字或模拟均可)连续采集语音信号,输入MCU端口,端口包括但不限于模数转换(A/D)、串行外设接口(SPI)、I2C总线接口等。采样频率为每秒16K,16位采样值。MCU将采集的语音数据进行分帧,每帧125毫秒,后帧与前帧50%重叠,既对应每帧2048个采样值,每次前跳1024个采样。采用三门限法对语音数据帧进行端点检测,目的是跳过静音帧和可确定的非目标语音(咳嗽及打喷嚏)帧,以定位候选目标语音的起点帧:
(1)此帧采样的平均能量大于门限1,且
(2)此帧采样过零率(帧采样值大于零的百分比)大于门限2,且
(3)此帧与前一帧的平均能量差分(两帧平均能量差的绝对值)大于门限3
如果当前帧满足上述三门限,则其帧静音标记(Frame Mute Flag,FMF)记为1(真),否则此帧的FMF记为0(假)。并根据FMF更新“识别过程激活标记(RecognitionActivated Flag,RAF)”,RAF初始值为0(未激活):RAF=RAF|FMF;
对RAF进行判断,如果RAF为假,表示识别过程尚未被激活,则直接丢弃当前帧,并继续语音采样;如果RAF为真,表示识别过程已激活,则对当前帧进行特征化处理(即使该帧的FMF为0也需要进行),得到一组20个特征值的帧特征向量。对当前帧进行特征化处理包括:
对输入语音数据帧(125毫秒,2048个采样值)分别进行时域特征化和频域特征化,时域和频域共取得20个特征值,组成该帧的特征向量。
所述时域特征化是指根据咳嗽和打喷嚏声音的瞬间振幅变化的特点,计算三个特征值,包括:
(1)帧的采样波动值=最大采样值-最小采样值
(2)当前帧与前一帧的能量差分=abs(当前帧的采样平均值–前一帧的采样平均值),注:abs为绝对值函数。
(3)帧分片的能量方差,代表帧内的能量波动。具体方法是将帧的2048个采样值平均分为若干片(4到10个分片),用标准方差公式计算方差。
所述频域特征化包括两部分:第一部分是语音信号频域分析通用的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC),主要由快速傅里叶变换(FFT)、梅尔频率滤波器组和离散余弦变换(DCT)三部分组成。具体采用16频段梅尔频率滤波器组,可得到16个特征值;第二部分是取第一部分的16个特征值,用标准方差公式计算频段能量方差,可再得到一个特征值。
获得帧特征向量后将其加入特征向量队列的队尾,如果特征向量队列长度达到可识别长度(RecoLen),则将特征向量队列(RecoLen*20的特征矩阵)代入事先训练好的机器学习模型进行识别;否则,继续语音采样。
可识别长度RecoLen是机器学习模型二维输入样本的一个维度,表示一条输入样本包括多少个数据帧。RecoLen的取值在20帧到32帧之间,既对应于约1.25-2秒的语音数据,这个长度的语音基本上正好是一次咳嗽或打喷嚏的时间窗口。
如果识别结果的置信度(CL)超过系统设定的识别门限值,则认为有效检测到了一次咳嗽或打喷嚏,需进行计数、输出识别结果,并清空特征向量队列、将RAF置为0。然后开始新的识别过程。所述“输出识别结果”包括但不限于发消息、驱动指示灯、告警装置、显示器或其他外设。如果识别结果的置信度(CL)没有超过系统设定的识别门限值,则认为无法确认效检测到了咳嗽或打喷嚏,但需要根据CL的具体值,进行特征向量队列加速处理。具体包括:
(1)加速1:从特征向量队列中移除最前面(100%-CL)数量的帧,例如,假定RecoLen为20,若本次识别得到的CL为60%,则需要把前40%的帧,既8个帧从队列中剔除;
(2)加速2:在特征向量队列剩余帧中找到第一个FMF为1(真)的帧,丢弃其前面的所有帧。如果没找到FMF为1(真)的帧,则清空特征向量队列、并将RAF置为0。
所述“机器学习模型”包括但不限于二维卷积神经网络(2D CNN)、长短时记忆网络(LSTM)、随机森林(RF)等,其训练过程的特征在于:
训练过程分为离线训练和在线训练两种,可以单独使用,也可以配合使用;
离线训练可以从外部获取语音数据,也可以将MCU识别装置的运行模式设置为采集模式以获得原始语音数据;对语音数据进行预处理,分成等于RecoLen个帧长度的片段,预处理可以手工完成、也可以使用专门的语音文件处理软件;对语音文件进行分类打标签,包括:咳嗽、打喷嚏和其他;分帧和特征化方法同上,并且如果长度不足RecoLen则用零向量补齐,如果长度超过RecoLen则截断;将特征值和标签带入模型进行训练和验证;训练满意后的模型导入MCU识别装置,更新识别模型。
在线训练时,将MCU识别装置的运行模式设置为训练模式以直接获得语音数据帧的特征向量;特征向量在线上传到服务器或云平台;服务器或云平台每收全RecoLen个特征向量既作为一个训练样本;如果收到MCU识别结果,则重新开始一个新训练样本,前以个样本长度如果不足RecoLen则用零向量补齐;同时人工在线为样本打标签,包括:咳嗽、打喷嚏和其他;使用新获得的训练样本,采用转移学习方法进行现有模型的增量优化。优化后的模型可以与现有模型对比识别结果,以评估优化效果;训练满意后的模型导入MCU识别装置,更新识别模型。
上述整个处理流程为方法的“运行模式”,此外还有“训练模式”和“采集模式”共三种工作模式,工作模式通过系统参数控制。如果工作在“训练模式”下,需要在帧特征向量入队的同时将帧特征向量上报给服务器或云平台;如果工作在“采集模式”下,还需要将分帧语音数据上传给服务器或云平台。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:磁盘装置以及读处理方法