训练音频检测模型的方法、音频检测方法及其装置

文档序号:513327 发布日期:2021-05-28 浏览:23次 >En<

阅读说明:本技术 训练音频检测模型的方法、音频检测方法及其装置 (Method for training audio detection model, audio detection method and device thereof ) 是由 谢强 邓天生 于天宝 贠挺 陈国庆 于 2021-01-22 设计创作,主要内容包括:本公开公开了模型训练方法、装置、电子设备和计算机可读存储介质,涉及人工智能领域,尤其涉及深度学习领域和人工智能芯片领域。具体实现方案为:从音频文件中获取多个音频片段;基于多个音频片段中包含杂音的音频片段,确定用于训练音频检测模型的第一样本数据集;基于多个音频片段中不包含杂音的音频片段,确定用于训练音频检测模型的第二样本数据集,其中第二样本数据集与第一样本数据集不同;以及基于第一样本数据集和第二样本数据集,训练音频检测模型。以此方式,本公开的技术方案可以快速高效且低成本地完成对音频检测模型的训练,从而确定待测音文件的检测结果。(The disclosure discloses a model training method, a model training device, electronic equipment and a computer readable storage medium, and relates to the field of artificial intelligence, in particular to the field of deep learning and the field of artificial intelligence chips. The specific implementation scheme is as follows: acquiring a plurality of audio clips from an audio file; determining a first sample data set for training an audio detection model based on an audio segment containing a noise among a plurality of audio segments; determining a second sample data set for training the audio detection model based on the audio segments without the noise, wherein the second sample data set is different from the first sample data set; and training an audio detection model based on the first sample data set and the second sample data set. In this way, the technical scheme of the present disclosure can complete the training of the audio detection model quickly, efficiently and with low cost, thereby determining the detection result of the sound file to be detected.)

训练音频检测模型的方法、音频检测方法及其装置

技术领域

本公开涉及计算机技术领域,尤其涉及深度学习领域,具体地,涉及训练音频检测模型的方法、音频检测方法、及其装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着人民群众的生活水平提升和科技的进步,人们获取信息和休闲娱乐的方式逐渐发生变化,短视频因其内容丰富、信息密度高、趣味性强等特点迅速占据了人们的生活中的碎片时间。但是,用户上传的视频拍摄和制作水平参差不齐,导致上传的视频作品水平稂莠不齐。例如,部分视频在拍摄或者后期制作过程中会引入杂音。视频中的杂音严重影响用户观看视频的体验,甚至会造成生理上的不适,长此以往会造成相应的视频类产品口碑下降、用户流失。因此视频类产品迫切需要解决上述问题。

发明内容

本公开提供了一种训练音频检测模型的方法、音频检测方法、及其装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一方面,提供了一种训练音频检测模型的方法。该方法可以包括从音频文件中获取多个音频片段。进而,可以基于所述多个音频片段中包含杂音的音频片段,确定用于训练所述音频检测模型的第一样本数据集。该方法还可以包括基于所述多个音频片段中不包含杂音的音频片段,确定用于训练所述音频检测模型的第二样本数据集,其中所述第二样本数据集与所述第一样本数据集不同。此外,该方法可以进一步包括基于所述第一样本数据集和所述第二样本数据集,训练所述音频检测模型。

根据本公开的第二方面,提供了一种音频检测方法,该方法可以包括获取待检测的音频文件。进而,可以从所述待检测的音频文件中获取多个待检测音频片段。该方法可以进一步包括使用根据本公开的第一方面的方法训练的所述音频检测模型分别对所述多个待检测音频片段进行检测。此外,该方法还可以包括基于所述多个待检测音频片段的相应检测结果,确定所述待检测的音频文件的检测结果。

在本公开的第三方面中,提供了一种训练音频检测模型的装置,包括:音频片段获取模块,被配置为从音频文件中获取多个音频片段;第一样本数据集确定模块,被配置为基于所述多个音频片段中包含杂音的音频片段,确定用于训练所述音频检测模型的第一样本数据集;第二样本数据集确定模块,被配置为基于所述多个音频片段中不包含杂音的音频片段,确定用于训练所述音频检测模型的第二样本数据集,其中所述第二样本数据集与所述第一样本数据集不同;以及音频检测模型训练模块,被配置为基于所述第一样本数据集和所述第二样本数据集,训练所述音频检测模型。

在本公开的第四方面中,提供了一种音频检测装置,包括:音频文件获取模块,被配置为获取待检测的音频文件;待检测音频片段获取模块,被配置为从所述待检测的音频文件中获取多个待检测音频片段;检测模块,被配置为使用根据本公开的第三方面的方法训练的所述音频检测模型分别对所述多个待检测音频片段进行检测;以及检测结果确定模块,被配置为基于所述多个待检测音频片段的相应检测结果,确定所述待检测的音频文件的检测结果。

在本公开的第五方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第六方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第七方面中,提供了一种计算机程序产品,计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;

图2示出了根据本公开的实施例的详细示例环境的示意图;

图3示出了根据本公开的实施例的训练音频检测模型的过程的流程图;

图4示出了根据本公开的实施例的训练音频检测模型的详细过程的流程图;

图5示出了根据本公开的实施例的音频检测的过程的流程图;

图6示出了根据本公开的实施例的训练音频检测模型的装置的框图;

图7示出了根据本公开的实施例的音频检测装置的框图;以及

图8示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

应理解,视频中的杂音通常是以下原因导致的:拍摄环境背景声音嘈杂;由于拍摄设备质量差而引入电流杂音;以及后期制作引入的编解码失真等等。无论是任何环节引入的杂音都会影响最终的用户体验。目前针对视频杂音还没有较好的识别方法,通常都是由视频审核人员进行人工审核,把有杂音的视频剔除、拒绝,这种方式效率低、成本高,且存在误检、漏检的风险。除人工检测之外,还可以基于频域能量函数和音调参数来对语音杂音进行检测。然而,该方法仅能检测语音类杂音,且当语音类杂音出现在一段声音的部分时间段,对于整个视频都具有杂音的检测效果很差。

本公开认识到需要一种模型训练方法,来快速高效且低成本地完成对检测模型、尤其是音频检测模型的训练,进而利用该模型确定待检测的视频是否包含杂音。

根据本公开的实施例,提出了一种模型训练方案。在该方案中,可以将海量音频片段中具有杂音的片段标注为第一样本(例如,正样本),以及将不具有杂音的片段标注为第二样本(例如,负样本),以便基于第一样本和第二样本训练音频检测模型。具体地,本公开的音频检测模型的训练过程可以包括:从音频文件中获取多个音频片段;基于多个音频片段中包含杂音的音频片段,确定用于训练音频检测模型的第一样本数据集;基于多个音频片段中不包含杂音的音频片段,确定用于训练音频检测模型的第二样本数据集;以及基于第一样本数据集和第二样本数据集,训练该音频检测模型。此外,本公开的实施例还包括利用基于上述方法训练的检测模型来对与视频文件相关联的音频文件进行检测。以此方式,实现了高效、准确的模型训练和视频检测。

此外,为了扩充第一样本数据集,可以在不包含杂音的音频片段上叠加杂音,从而生成包含杂音的音频片段。以此方式,可以低成本地获得足量的训练数据,由于训练数据集扩大,故可以解决深度神经网络的过拟合问题。

此外,为了优化音频检测模型,还可以在一轮模型训练结束后,使用模型对不包含杂音的音频文件中随机采集的音频片段进行检测,对于被检测为包含杂音的声音片段,可以将其加入第二样本数据集进行重新训练。以此方式,可以显著减少模型误检的情况。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100中包含待检测的视频文件110、计算设备120和经计算设备120确定的检测结果130。

在一些实施例中,待检测的视频文件110可以是网络平台上的海量短视频中的至少一个短视频。在本公开中,短视频是指短片视频。作为一种互联网内容传播方式,短视频通常是在互联网新媒体上传播的时长在5分钟以内的视频。应理解,视频文件110也可以是出短视频之外的其他视频内容。

在一些实施例中,计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。在计算设备120接收到待检测的视频文件110之后,可以从视频文件110中解析出音频文件122。进而,计算设备120可以按照固定时长的时间窗从音频文件122中截取多个音频片段124。这些音频片段124的特征数据被输入至配置在计算设备120中的检测模型140,从而可以由检测模型140预测每个视频片段中包含杂音的概率。基于这些概率,即可确定视频文件110中是否包含杂音、或者视频文件110是否符合标准音质的检测结果130。应理解,本公开所述的“杂音”包括但不限于:拍摄环境中的背景噪音、由于拍摄设备质量差而引入的电流杂音、以及后期制作引入的编解码失真等。

此外,还应理解,虽然本公开示出了作为“一个”处理单元的计算设备120,但如上所述的从视频文件110解析出音频文件122的过程、从音频文件122中截取多个音频片段124的过程、以及由检测模型140对每个视频片段进行预测的过程可以分别在不同的多个处理单元中执行,且这些处理单元可以被统称为计算设备120。作为示例,从视频文件110解析出音频文件122的过程以及从音频文件122中截取多个音频片段124的过程可以在作为边缘计算节点的现场计算机中执行,并且由检测模型140对每个视频片段进行预测的过程可以在具备更为强大的计算能力的云服务器中执行。

本公开的至少一个要点在于,利用了改进的方式来对音频检测模型进行训练。下文将以机器学习模型为例参考图2对计算设备120中的检测模型140的训练和使用进行描述。

图2示出了根据本公开的实施例的详细示例环境200的示意图。与图1类似地,示例环境200可以包含计算设备220、待检测的视频文件210和检测结果230。区别在于,示例环境200总体上可以包括模型训练系统270和模型应用系统280。作为示例,模型训练系统270和/或模型应用系统280可以在如图1所示的计算设备120或如图2所示的计算设备220中实现。应当理解,仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述,对从视频文件210中解析出的音频文件中的多个音频片段进行检测来确定视频文件210是否包含杂音的检测结果230的过程可以分为两个阶段:模型训练阶段和模型应用阶段。作为示例,在模型训练阶段中,模型训练系统270可以利用第一样本数据集250和第二样本数据集260来训练用于检测音频片段的模型240。应理解,第一样本数据集250即为经标注的包含杂音的音频片段的集合,第二样本数据集260即为经标注的不包含杂音的音频片段的集合。在模型应用阶段中,模型应用系统280可以接收经训练的模型240,从而由模型240基于与视频文件210相关联的音频文件来确定视频文件210是否包含杂音的检测结果230。

在其他实施例中,模型240可以被构建为学习网络。在一些实施例中,该学习网络可以包括多个网络,其中每个网络可以是一个多层神经网络,其可以由大量的神经元组成。通过训练过程,每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为模型240的参数。

模型240的训练过程可以以迭代方式来被执行。具体地,模型训练系统270可以从第一样本数据集250和第二样本数据集260中获取样本数据,并且利用该样本数据来进行训练过程的一次迭代,以更新模型240的相应参数。模型训练系统270可以基于第一样本数据集250和第二样本数据集260中的多个样本数据执行上述过程,直至模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数,由此获得最终的模型参数。

上文描述的技术方案仅用于示例,而非限制本发明。应理解,还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理,下文将参考图3来更详细描述训练模型240的过程。

图3示出了根据本公开的实施例的训练音频检测模型的过程300的流程图。在某些实施例中,过程300可以在图1的计算设备120以及图2的计算设备220中实现。现参照图3并结合图2描述根据本公开实施例的模型训练的过程300。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。

在302,计算设备220可以从音频文件中获取多个音频片段。应理解,该音频文件是通过对视频文件210进行解析而获取的,从而可以减少用于训练模型的样本的数据量,加快了训练速度。此外,从音频文件中获取多个音频片段的方式可以是按照具有固定时长的时间窗、以预定时间间隔来从音频文件中截取多个音频片段。作为示例,计算设备220可以滑动具有诸如3秒时长的时间窗,来按照诸如0.5秒的时间间隔从音频文件中截取音频片段。

在某些实施例中,上述多个音频片段可以具有预定时长,并且上述多个音频片段中的一个音频片段与另一音频片段具有重叠部分。以此方式,可以避免样本遗漏,从而可以利用有限的经标注视频获得更多的第一样本数据集250和第二样本数据集260。

在304,计算设备220可以基于上述多个音频片段中包含杂音的音频片段,确定用于训练用于音频检测的模型240的第一样本数据集250。第一样本数据集250例如可以是正样本数据集。

在306,相应地,计算设备220可以基于上述多个音频片段中不包含杂音的音频片段,确定用于训练用于音频检测的模型240的第二样本数据集260,其中第二样本数据集260与第一样本数据集250不同。第二样本数据集260例如可以是负样本数据集。基于正样本和负样本对模型240进行训练,可以显著提升模型性能。

在某些实施例中,为了扩充第一样本数据集250,计算设备220可以通过将上述多个音频片段中不包含杂音的至少一部分音频片段(即,至少部分第二样本数据集260)与预先确定的杂音音频片段进行叠加,确定附加样本数据集,并且将该附加样本数据集加入第一样本数据集250。以此方式,本公开可以基于负样本数据大幅扩充有限的正样本数据。

在308,计算设备220可以基于第一样本数据集和第二样本数据集,训练用于音频检测的模型240。应理解,在训练模型240之前,为了适应卷积神经网络的输入要求,并且使得与音频片段相关联的数据更加符合人耳对不同频率声音的响应特性,计算设备220通常会对各音频片段进行预加重、分帧、短时傅立叶变换、梅尔滤波和取对数等操作,从而得到二维特征数据。例如,针对时间窗为3秒时长的音频片段,对每0.01秒的音频子片段执行如上处理,可以得到一个一维特征向量(其中可以包含例如64个特征值)。由此可知,该音频片段可以被处理为300个一维特征向量,也就是一个大小为64×300的二维特征。具有标签的二维特征可以被输入至模型240进行训练。

此外,对于一些较难被模型240正确分辨的样本,本公开引入了改进的模型训练方式。图4示出了根据本公开的实施例的训练音频检测模型的详细过程400的流程图。

在402,计算设备220可以使用经训练的用于音频检测的模型240对不同于上述音频文件的另一音频文件中的音频片段进行检测。应理解,该另一音频文件是预先确定的不包含杂音的音频文件。通常,为了便于模型训练前的标注工作,上述音频文件会选择经预先确定的包含杂音的音频文件,由此可以充分利用该音频文件中的包含杂音的音频片段和不包含杂音的音频片段。因此,已知该另一音频文件已经被人工确定为不包含杂音,如果该另一音频文件中的音频片段被模型240检测为包含杂音,则说明模型240还无法准确分辨该音频片段,故在404,计算设备220可以将该另一音频文件中的音频片段加入负样本数据集,从而可以进一步训练用于音频检测的模型240。

作为示例,当短视频服务提供商利用模型240对短视频内容提供者提供的短视频进行杂音检测时,如果由于模型240判断该短视频中包含杂音而从视频网站上下架该短视频,短视频内容提供者可以请求对该短视频进行人工审核,当人工审核确认该短视频确实不包含杂音时,则可以通过上述过程采集模型240无法正确分辨的样本用于进一步的模型训练,从而优化模型240。以此方式,可以充分采集当前模型无法准确分辨的样本并将其加入后续训练,从而可以显著降低模型的误检率。

在某些实施例中,为了对该另一音频文件中的音频片段进行检测,计算设备220可以预测该另一音频文件中的音频片段中包含杂音的概率。如果其中一个音频片段包含杂音的概率被预测为大于阈值概率(例如,预测的打分大于0.5),则可以确定该音频片段中包含杂音。由此,可以将此音频片段作为容易导致误检的样本加入训练数据集。以此方式,可以利用模型快速确定容易导致误检的样本。

通过上述实施例,可以更有效率的训练出性能优异的模型,节省了人力和时间成本。

应理解,当模型240的训练过程执行完毕之后,模型240可以被用于对音频文件或者包含音频文件的视频文件进行检测,来确定该文件是否包含了给用户带来劣化的用户体验的杂音。图5示出了根据本公开的实施例的音频检测的过程500的流程图。在某些实施例中,过程500可以在图1的计算设备120以及图2的计算设备220中实现。现参照图5并结合图1描述根据本公开实施例的音频检测的过程500。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。

如图5所示,在502,计算设备120可以获取待检测的音频文件122。应理解,如图1所示,针对短视频的杂音检测过程,计算设备120可以先获取待检测的视频文件110,之后从视频文件110中解析出待检测的音频文件122。以此方式,可以仅检测短视频的音频部分,从而减少了被检测对象的数据量,加快了检测速度。

在504,计算设备120可以从待检测的音频文件110中获取多个待检测音频片段124。作为示例,为了适应卷积神经网络的输入要求,并且使得与音频片段相关联的数据更加符合人耳对不同频率声音的响应特性,计算设备120可以对各音频片段124进行预加重、分帧、短时傅立叶变换、梅尔滤波和取对数等操作,从而得到二维特征数据。例如,针对时间窗为3秒时长的音频片段,对每0.01秒的音频子片段执行如上处理,可以得到一个一维特征向量(其中可以包含例如64个特征值)。由此可知,音频片段124中的每个音频片段可以被处理为300个一维特征向量,也就是一个大小为64×300的二维特征。这些二维特征可以旨在后续过程中被输入至检测模型140进行检测,从而得到每个音频片段包含杂音的概率。此外,为了不遗漏地检测到待检测的音频文件122的每个部分,多个待检测的音频片段124中的每个音频片段均可以被截取为具有重叠部分。

在506,计算设备120可以使用上述过程训练的检测模型140分别对多个待检测的音频片段124进行检测。之后,在508,计算设备120可以基于多个待检测的音频片段124的相应检测结果,确定待检测的音频文件122或者包含该音频文件122的视频文件110的检测结果130。

作为示例,计算设备120可以分别预测多个待检测的音频片段124中的每个音频片段各自包含杂音的概率。应理解,每个音频片段被预测的包含杂音的概率通常是不同的。基于人耳对音质的体验,如果一个音频文件中仅个别音频片段包含杂音,则仍然可以将该音频文件确定为不包含杂音。因此,为了确定检测结果130,计算设备120可以确定经预测的概率的平均值,并且仅当该平均值大于阈值概率(例如,预测的打分大于0.3)时,将待检测的音频文件122确定为包含杂音的音频文件。应理解,除通过上述加和平均的方式来统计各概率之外,还可以通过加权平均等方式从多个预测的概率中确定最能够代表音频文件122的值。

通过上述实施例,本公开能有效检测出海量视频中的杂音视频,准召率高,鲁棒性佳,并且可以替代人工审核,节省人力资源,避免发生漏检、误检的情况。

图6示出了根据本公开的实施例的训练音频检测模型的装置600的框图。如图6所示,装置600可以包括:音频片段获取模块602,被配置为从音频文件中获取多个音频片段;第一样本数据集确定模块604,被配置为基于所述多个音频片段中包含杂音的音频片段,确定用于训练所述音频检测模型的第一样本数据集;第二样本数据集确定模块606,被配置为基于所述多个音频片段中不包含杂音的音频片段,确定用于训练所述音频检测模型的第二样本数据集,其中所述第二样本数据集与所述第一样本数据集不同;以及音频检测模型训练模块608,被配置为基于所述第一样本数据集和所述第二样本数据集,训练所述音频检测模型。

在某些实施例中,装置600还可以包括:附加样本数据集确定模块,被配置为通过将所述多个音频片段中不包含杂音的至少一部分音频片段与预先确定的杂音音频片段进行叠加,确定附加样本数据集;以及第一扩充模块,被配置为将所述附加样本数据集加入所述第一样本数据集。

在某些实施例中,装置600还可以包括:训练后检测模块,被配置为使用经训练的所述音频检测模型对不同于所述音频文件的另一音频文件中的音频片段进行检测,所述另一音频文件是预先确定的不包含杂音的音频文件;以及第二扩充模块,被配置为响应于所述另一音频文件中的音频片段被检测为包含杂音,将所述另一音频文件中的音频片段加入所述第二样本数据集,用于进一步训练所述音频检测模型。

在某些实施例中,训练后检测模块包括:概率预测模块,被配置为预测所述另一音频文件中的音频片段中包含杂音的概率;以及预测结果判定模块,被配置为响应于所述概率大于阈值概率,确定所述另一音频文件中的音频片段中包含杂音。

在某些实施例中,多个音频片段具有预定时长,并且所述多个音频片段中的一个音频片段与另一音频片段具有重叠部分。

在某些实施例中,所述第一样本数据集是正样本数据集,并且所述第二样本数据集是负样本数据集。

在某些实施例中,所述音频文件是从视频文件中获取的。

图7示出了根据本公开的实施例的音频检测装置700的框图。如图7所示,装置700可以包括:音频文件获取模块702,被配置为获取待检测的音频文件;待检测音频片段获取模块704,被配置为从所述待检测的音频文件中获取多个待检测音频片段;检测模块706,被配置为使用根据装置600训练的所述音频检测模型分别对所述多个待检测音频片段进行检测;以及检测结果确定模块708,被配置为基于所述多个待检测音频片段的相应检测结果,确定所述待检测的音频文件的检测结果。

在某些实施例中,所述检测模块706包括:概率预测模块,被配置为分别预测所述多个待检测音频片段中包含杂音的概率。

在某些实施例中,所述检测结果确定模块708包括:均值确定模块,被配置为确定经预测的所述概率的平均值;判定模块,被配置为响应于所述平均值大于阈值概率,将所述待检测的音频文件确定为包含杂音的音频文件。

在某些实施例中,所述多个待检测音频片段具有预定时长,并且所述多个待检测音频片段中的一个待检测音频片段与另一待检测音频片段具有重叠部分。

在某些实施例中,装置700还可以包括:视频文件获取模块,被配置为获取待检测的视频文件,其中所述音频文件获取模块从所述待检测的视频文件中获取所述待检测的音频文件。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了能够实施本公开的多个实施例的计算设备800的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如过程300、400、500。例如,在一些实施例中,过程300、400、500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的过程300、400、500的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程300、400、500。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于元-多任务学习的语音情感识别方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!