模型训练监控方法、装置、设备及存储介质

文档序号:1953955 发布日期:2021-12-10 浏览:25次 >En<

阅读说明:本技术 模型训练监控方法、装置、设备及存储介质 (Model training monitoring method, device, equipment and storage medium ) 是由 董萍 于 2021-09-18 设计创作,主要内容包括:本发明涉及人工智能领域,公开了一种模型训练监控方法、装置、设备及存储介质,该方法包括:接收模型训练监控请求,并对模型训练监控请求携带的意图触发话术文本进行解析并生成测试用例;对测试用例进行分词处理得到测试用例字符,根据测试用例字符进行意图识别,得到第一意图;根据基础话术意图集对测试用例进行相关性分析,识别测试用例的第二意图;将第一意图和第二意图进行比较,根据比较的结果生成测试报告。本发明实现了模型训练监控的自动化,且提高了模型训练监控的效率和准确度。此外,本发明还涉及区块链领域,意图触发话术文本和基础话术意图集可存储于区块链中。(The invention relates to the field of artificial intelligence, and discloses a model training monitoring method, a device, equipment and a storage medium, wherein the method comprises the following steps: receiving a model training monitoring request, analyzing an intention triggering phonetics text carried by the model training monitoring request and generating a test case; performing word segmentation processing on the test case to obtain a test case character, and performing intention recognition according to the test case character to obtain a first intention; performing correlation analysis on the test case according to the basic conversational intention set, and identifying a second intention of the test case; and comparing the first intention with the second intention, and generating a test report according to the comparison result. The invention realizes the automation of model training monitoring and improves the efficiency and the accuracy of the model training monitoring. In addition, the invention relates to the field of blockchains, where intent-triggering linguistic text and a set of underlying linguistic intents may be stored.)

模型训练监控方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种模型训练监控方法、装置、设备及存储介质。

背景技术

模型是指通过主观意识借助实体或者虚拟表现构成客观阐述形态结构的一种表达目的的物件(物件并不等于物体,不局限于实体与虚拟、不限于平面与立体)。对研究的实体进行必要的简化,并用适当的变现形式或规则把它的主要特征描述出来。所得到的系统模仿品称之为模型。模型具有衰减性,模型运行结果数据的能力会随着输入数据的更新而降低,因此,需要对模型的性能及时进行监控以实现模型的维护和更新。

在现有技术中,通过开源的机器学习平台训练得到机器学习模型,机器学习平台中设置有训练模型的通用算法,因此只需在机器学习平台上输入训练数据即可得到机器学习模型,而模型训练的过程则是在机器学习平台的内部自行执行的。但该方法不能时刻监控机器学习平台训练模型的过程,也不能及时获取模型训练的状态,因此,当发现模型在训练的过程中出现问题时,也不能及时进行矫正,导致模型训练监控的效率低,同时使得训练出的模型不准确。

发明内容

本发明的主要目的在于解决现有技术中模型训练监控的效率低的技术问题。

本发明第一方面提供了一种模型训练监控方法,所述模型训练监控方法包括:获取机器学习模型的训练周期,对所述训练周期进行分析,确定所述机器学习模型的训练总步数,并根据所述机器学习模型的训练总步数,确定固定训练步数;将所述机器学习模型完成每个所述固定训练步数的时间节点作为所述模型的检查点;获取所述机器学习模型在各所述检查点所产生的指标数据;根据预设的各指标的指标监控策略,对所述指标数据中各指标进行异常监控,判断所述指标数据中各指标是否异常,得到异常监控结果;根据所述异常监控结果生成模型训练监控报告。

可选的,在本发明的第一方面的第一种实现方式中,所述根据预设的各指标的指标监控策略,对所述指标数据中各指标进行异常监控,判断所述指标数据中各指标是否异常,得到异常监控结果包括:根据预设的样本指标监控策略,对所述指标数据中的样本指标进行异常监控,判断所述样本指标是否异常,得到异常监控结果;或者,根据预设的训练时长指标监控策略,对所述指标数据中的训练时长指标进行异常监控,判断所述训练时长指标是否异常,得到异常监控结果;或者,根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果,其中,所述数据指标包括偏离值、资源数据量和可用的数据存储空间的数据量。

可选的,在本发明的第一方面的第二种实现方式中,所述根据预设的样本指标监控策略,对所述指标数据中的样本指标进行异常监控,判断所述样本指标是否异常,得到异常监控结果包括:提取所述指标数据中的样本指标及训练样本,并对所述训练样本进行等频分箱处理,得到多个分箱;根据预设的样本指标监控策略和根据所述样本指标计算各所述分箱中样本的模型稳定性分析值;判断所述模型稳定性分析值是否小于预设的模型稳定性阈值;若是,则确定所述样本指标异常,得到所述样本指标对应的异常监控结果。

可选的,在本发明的第一方面的第三种实现方式中,所述根据预设的训练时长指标监控策略,对所述指标数据中的训练时长指标进行异常监控,判断所述训练时长指标是否异常,得到异常监控结果包括:提取所述指标数据中的时长训练指标以及所述机器学习模型完成每个所述固定训练步数时的训练时长;根据预设的训练时长指标监控策略,判断所述训练时长是否大于预设的训练时长阈值;若是,则确定所述训练时长指标异常,得到所述训练时长指标对应的异常监控结果。

可选的,在本发明第一方面的第四种实现方式中,所述根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果包括:提取所述指标数据中的数据指标以及所述机器学习模型的损失函数的损失值;计算所述损失值的均值和标准差;获取所述机器学习模型的当前损失值,将所述机器学习模型的当前损失值与所述均值的差值作为偏离值;根据预设的数据指标监控策略,判断所述偏离值与所述标准差的倍数是否超过预设倍数;若是,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

可选的,在本发明第一方面的第五种实现方式中,所述根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果包括:提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中占用的资源数据量;根据预设的数据指标监控策略,判断所述资源数据量是否大于预设的占用数据量阈值;若是,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

可选的,在本发明第一方面的第六种实现方式中,所述根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果包括:提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中可用的数据存储空间的数据量;根据预设的数据指标监控策略,判断所述数据存储空间的数据量是否小于预设的可用数据量阈值;若是,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

本发明第二方面提出一种模型训练监控装置,所述模型训练监控装置包括:分析模块,用于获取机器学习模型的训练周期,对所述训练周期进行分析,确定所述机器学习模型的训练总步数,并根据所述机器学习模型的训练总步数,确定固定训练步数;检查点确定模块,用于将所述机器学习模型完成每个所述固定训练步数的时间节点作为所述模型的检查点;获取模块,用于获取所述机器学习模型在各所述检查点所产生的指标数据;监控模块,用于根据预设的各指标的指标监控策略,对所述指标数据中各指标进行异常监控,判断所述指标数据中各指标是否异常,得到异常监控结果;报告生成模块,用于根据所述异常监控结果生成模型训练监控报告。

可选的,在本发明第二方面的第一种实现方式中,所述监控模块包括:样本监控单元,用于根据预设的样本指标监控策略,对所述指标数据中的样本指标进行异常监控,判断所述样本指标是否异常,得到异常监控结果;时长监控单元,用于根据预设的训练时长指标监控策略,对所述指标数据中的训练时长指标进行异常监控,判断所述训练时长指标是否异常,得到异常监控结果;数据监控单元,用于根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果,其中,所述数据指标包括偏离值、资源数据量和可用的数据存储空间的数据量。

可选的,在本发明第二方面的第二种实现方式中,所述样本监控单元具体用于:分箱子单元,用于提取所述指标数据中的样本指标及训练样本,并对所述训练样本进行等频分箱处理,得到多个分箱;计算子单元,用于根据预设的样本指标监控策略和根据所述样本指标计算各所述分箱中样本的模型稳定性分析值;第一判断子单元,用于判断所述模型稳定性分析值是否小于预设的模型稳定性阈值;第一确定子单元,用于若所述模型稳定性分析值小于预设的模型稳定性阈值,则确定所述样本指标异常,得到所述样本指标对应的异常监控结果。

可选的,在本发明第二方面的第三种实现方式中,所述时长监控单元具体用于:提取子单元,用于提取所述指标数据中的时长训练指标以及所述机器学习模型完成每个所述固定训练步数时的训练时长;第二判断子单元,用于根据预设的训练时长指标监控策略,判断所述训练时长是否大于预设的训练时长阈值;第二确定子单元,用于若所述训练时长大于预设的训练时长阈值,则确定所述训练时长指标异常,得到所述训练时长指标对应的异常监控结果。

可选的,在本发明第二方面的第四种实现方式中,所述数据监控单元具体用于:提取所述指标数据中的数据指标以及所述机器学习模型的损失函数的损失值;计算所述损失值的均值和标准差;获取所述机器学习模型的当前损失值,将所述机器学习模型的当前损失值与所述均值的差值作为偏离值;根据预设的数据指标监控策略,判断所述偏离值与所述标准差的倍数是否超过预设倍数;若所述偏离值与所述标准差的倍数超过预设倍数,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

可选的,在本发明第二方面的第五种实现方式中,所述数据监控单元还具体用于:提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中占用的资源数据量;根据预设的数据指标监控策略,判断所述资源数据量是否大于预设的占用数据量阈值;若所述资源数据量大于预设的占用数据量阈值,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

可选的,在本发明第二方面的第六种实现方式中,所述数据监控单元还具体用于:提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中可用的数据存储空间的数据量;根据预设的数据指标监控策略,判断所述数据存储空间的数据量是否小于预设的可用数据量阈值;若所述数据存储空间的数据量小于预设的可用数据量阈值,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

本发明第三方面提供了一种模型训练监控设备,所述模型训练监控设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述模型训练监控设备执行上述的模型训练监控方法的步骤。

本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的模型训练监控方法的步骤。

在本发明提供的技术方案中,通过对机器学习模型训练周期进行分析,确定机器学习模型的训练总步数以及固定训练步数;将机器学习模型完成每个固定训练步数的时间节点作为模型的检查点;获取机器学习模型在各检查点所产生的指标数据,并根据预设的各指标的指标监控策略,对指标数据中各指标进行异常监控,判断指标数据中各指标是否异常,得到异常监控结果;本发明实现了对机器学习模型的模型训练监控,并根据模型训练产生的指标数据可以直观地判断模型训练过程中各指标是否异常,提高了模型训练监控的效率,从而提高了训练好的模型在实际应用时的准确性和可靠性。

附图说明

图1为本发明实施例中模型训练监控方法的第一个实施例示意图;

图2为本发明实施例中模型训练监控方法的第二个实施例示意图;

图3为本发明实施例中模型训练监控方法的第三个实施例示意图;

图4为本发明实施例中模型训练监控方法的第四个实施例示意图;

图5为本发明实施例中模型训练监控装置的一个实施例示意图;

图6为本发明实施例中模型训练监控装置的另一个实施例示意图;

图7为本发明实施例中模型训练监控设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种模型训练监控方法、装置、设备及存储介质,通过对机器学习模型训练周期进行分析,确定机器学习模型的训练总步数以及固定训练步数;将机器学习模型完成每个固定训练步数的时间节点作为模型的检查点;获取机器学习模型在各检查点所产生的指标数据,并根据预设的各指标的指标监控策略,对指标数据中各指标进行异常监控,判断指标数据中各指标是否异常,得到异常监控结果;本发明实施例实现了对机器学习模型的模型训练监控,并根据模型训练产生的指标数据可以直观地判断模型训练过程中各指标是否异常,提高了模型训练监控的效率,从而提高了训练好的模型在实际应用时的准确性和可靠性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体内容进行描述,请参阅图1,本发明实施例中模型训练监控方法的第一个实施例包括:

101,获取机器学习模型的训练周期,对训练周期进行分析,确定机器学习模型的训练总步数,并根据机器学习模型的训练总步数,确定固定训练步数;

102,将机器学习模型完成每个固定训练步数的时间节点作为机器学习模型的检查点;

服务器获取机器学习模型在模型训练过程中所设定的训练周期,并对训练周期进行分析,确定该机器学习模型的训练总步数,其中,将训练数据输入至机器学习模型中完成一次模型的训练,则训练步数为一步。并根据机器学习模型所确定的训练总步数,确定固定训练步数,并将机器学习模型完成一个固定训练步数的时间节点作为机器学习模型的检查点,例如,设定机器学习模型的训练总步数为2000步,根据设定的机器学习模型的训练总步数2000步,来确定固定训练步数为100步,机器学习模型每完成100步训练后的节点就作为预设的检查点,即机器学习模型完成第100步训练的节点作为第一检查点,机器学习模型完成第200步训练的节点作为第二检查点,机器学习模型完成第300步训练的节点作为第三检查点,以此类推,机器学习模型的训练过程中存在若干个检查点。

在本实施例中,服务器在模型训练过程中创建配置文件,其中,配置文件包含模型训练过程中的前置宽表信息、特征工程信息和模型信息,该前置宽表信息包括数据库名、对列名、表名,特征工程信息包括分箱策略、指标监控策略等;模型信息包括使用的模型名称、模型参数、模型涉及到的特征名称等。

服务器创建一个hive表,实现将模型训练监控的结果数据存入hive表中。在对机器学习模型的模型训练过程中,将模型训练监控的结果放入spark临时表;再将spark临时表的信息插入到hive表中;将spark任务封装在预设的shell脚本中,并将配置文件中的信息都上传到预设的hdfsHadoop分布式文件系统(HDFS)中,其中,HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。按照预先规定的linkdo标准上线模式结合模型训练过程中所设定的模型应用场景(主要是调度周期)进行模型的上线。

另外,本发明实施例可以基于人工智能技术对机器学习模型的训练周期进行获取和分析。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

103,获取机器学习模型在各检查点所产生的指标数据;

服务器开发一个spark任务,通过该spark任务读取配置文件,以及调用模型监控类。读取宽表数据信息、特征工程信息(主要是分箱、指标监控结果信息)、模型文件;读取宽表,并对宽表所包含的数据进行数据分析和数据分箱、编码、特征组合等特征工程处理,形成各指标对应的指标数据;然后根据该指标数据对机器学习模型进行模型训练监控。服务器获取机器学习模型在各检查点所产生的各指标对应的指标数据,其中,指标数据包括样本指标、训练时长指标和数据指标。

104,根据预设的各指标的指标监控策略,对指标数据中各指标进行异常监控,判断指标数据中各指标是否异常,得到异常监控结果;

服务器预先设置各指标的指标监控策略,即指标监控策略包括样本指标监控策略、训练时长指标监控策略和数据指标监控策略。将各指标按照各指标对应的指标监控策略进行异常监控,判断各指标是否异常,得到异常监控结果。服务器将各指标对应的异常监控结果作为该机器学习模型在模型训练过程中的异常监控结果。另外,样本指标的异常监控结果、训练时长指标的异常监控结果和数据指标的异常监控结果中的其中一个异常监控结果都可以作为该机器学习模型的异常监控结果。

服务器对指标数据中的样本指标按照样本指标对应的样本指标监控策略进行异常监控,判断该样本指标是否异常,得到样本指标对应的异常监控结果。或者,对指标数据中的训练时长指标按照对应的训练时长指标监控策略进行异常监控,判断训练时长指标是否异常,根据判断的结果得到训练时长指标对应的异常监控结果。或者,对指标数据中的数据指标按照对应的数据指标监控策略进行异常监控,判断数据指标是否异常,根据判断的结果生成数据指标对应的异常监控结果。在本实施例中,根据样本指标、训练时长指标和数据指标进行异常监控所得到的各指标对应的异常监控结果可作为机器学习模型在模型训练过程中的异常监控结果。

105,根据异常监控结果生成模型训练监控报告。

服务器对各检查点的指标数据进行监控,并根据机器学习模型的异常监控结果生成模型训练监控报告,并对异常监控结果进行分析,当发现指标数据中的任一指标发生异常时,则向服务器发送模型训练异常的异常提示信息。后续服务器可对模型训练监控报告进行分析,确定模型训练过程中发生异常的指标,以及该指标异常的发生原因等,根据对模型训练监控报告的分析,不断调整模型参数、更新模型的训练状态,直至机器学习模型完成训练,得到符合预期结果的模型。

本实施例在实现模型训练监控的过程中采用调度系统,能及时发现问题;且宽表数据以及异常监控结果不需要重复复制到多个环境中;通过spark任务的上线,可以实现分布式监控,提高模型训练监控的效率,增强模型训练的稳定性;且整个模型训练监控过程中不用涉及多套系统,没有权限访问等问题,并根据异常监控结果生成模型训练监控报告,实现对模型的异常情况的分析和实时提醒,方便及时对模型进行优化,保证模型高效稳定运行,而且还可以通过与模型监控的各指标对应的指标数据,让业务人员查看指标,客观了解模型的运行情况,简化了建模人员对模型监控的工作量。

在本发明实施例中,通过获取机器学习模型在各检查点所产生的指标数据,并根据各指标对应的指标监控策略,对指标数据中各指标进行异常监控,判断各指标是否异常,从而得到异常监控结果。本发明实施例实现了对模型训练监控的自动化,且根据指标监控策略对各指标进行异常监控,可以直观地判断模型训练过程中各指标是否异常,提高了模型训练监控的效率。

请参阅图2,本发明实施例中模型训练监控方法的第二个实施例包括:

201,获取机器学习模型的训练周期,对训练周期进行分析,确定机器学习模型的训练总步数,并根据机器学习模型的训练总步数,确定固定训练步数;

202,将机器学习模型完成每个固定训练步数的时间节点作为机器学习模型的检查点;

203,获取机器学习模型在各检查点所产生的指标数据;

204,提取指标数据中的样本指标以及机器学习模型的训练样本,并对训练样本进行等频分箱处理,得到多个分箱;

获取指标数据中的样本指标以及机器学习模型输入的训练样本,将输入机器学习模型的训练样本进行等频分箱处理,得到多个分箱,并且使每个箱中训练样本的样本量基本相同,由于训练样本的样本指标维度较多,本发明实施例中取其中有代表性的三个样本指标,分别是:分箱值(也就是分箱的数量)、每个箱的总样本量、每个箱中原始样本量占总样本量的比例。

根据样本量对机器学习模型进行等频分箱,例如机器学习模型一天的样本量为4万,分成20个箱,则每个箱包含的样本量为2000。第一个分箱中样本量为2000,其中,原始样本量占总样本量的比例是60%;第二个分箱中样本量为2000,其中,原始样本量占总样本量的比例是65%;以此类推,将20个箱中所有的训练样本按照上述三个样本指标计算出来。

205,根据预设的样本指标监控策略和样本指标计算各分箱中训练样本的模型稳定性分析值;

服务器根据预设的样本指标监控策略和样本指标计算各分箱中训练样本的模型稳定性分析值(PSI值)。根据分箱值、每个箱的样本量及每个箱中原始样本量占总样本量的比例三项样本指标进行映射计算,得到每个箱的PSI值,对每个箱的PSI值进行求和运算得到机器学习模型的PSI指标数据,即可得到机器学习模型的模型稳定性分析值。

206,判断模型稳定性分析值是否小于预设的模型稳定性阈值;

207,若模型稳定性分析值小于预设的模型稳定性阈值,则确定样本指标异常,得到样本指标对应的异常监控结果;

服务器将机器学习模型的模型稳定性分析值(PSI值)与预设的模型稳定性阈值进行比较,即判断机器学习模型的PSI值是否小于模型稳定性阈值;当机器学习模型的PSI值小于模型稳定性阈值时,确定该机器学习模型的样本指标异常,当机器学习模型的PSI值不小于模型稳定性阈值时,确定该机器学习模型的样本指标正常,根据上述的判断结果,生成样本指标对应的异常监控结果。

208,根据样本指标对应的异常监控结果生成模型训练监控报告。

服务器对各检查点的样本指标进行监控,并根据机器学习模型的样本指标对应的异常监控结果生成模型训练监控报告,并对样本指标对应的异常监控结果进行分析,当发现样本指标发生异常时,则向服务器发送模型训练异常的异常提示信息。后续服务器可对模型训练监控报告进行分析,确定模型训练过程中该指标异常的发生原因等,根据对模型训练监控报告的分析,不断调整模型参数、更新模型的训练状态,直至机器学习模型完成训练,得到符合预期结果的模型。

在本发明实施例中,步骤201-203与上述的模型训练监控方法的第一个实施例中的步骤101-103一致,在此不做赘述。

在本发明实施例中,提取指标数据中的样本指标以及训练样本,对训练样本进行分箱和模型稳定性分析值计算,从而根据模型稳定性分析值对样本指标进行异常监控并生成模型训练监控报告。本发明实施例实现了对模型训练过程中样本指标的异常监控,且根据模型稳定性分析值进行异常监控,提高了异常监控的准确性。

请参阅图3,本发明实施例中模型训练监控方法的第三个实施例包括:

301,获取机器学习模型的训练周期,对训练周期进行分析,确定机器学习模型的训练总步数,并根据机器学习模型的训练总步数,确定固定训练步数;

302,将机器学习模型完成每个固定训练步数的时间节点作为机器学习模型的检查点;

303,获取机器学习模型在各检查点所产生的指标数据;

304,提取指标数据中的训练时长指标以及机器学习模型完成每个固定训练步数时的训练时长;

305,根据预设的训练时长指标监控策略,判断训练时长是否大于预设的训练时长阈值;

306,若判断训练时长大于预设的训练时长阈值,则确定训练时长指标异常,得到训练时长指标对应的异常监控结果;

服务器在机器学习模型的模型训练过程中记录执行模型训练任务时该机器学习模型在完成每个固定训练步数时的训练次数以及训练时长,形成该机器学习模型的训练时长指标。

提取训练时长指标中的机器学习模型完成每个固定训练步数时的训练时长,根据预设的训练时长指标监控策略,将机器学习模型完成每个固定训练步数时的训练时长与预设的训练时长阈值进行比较,即判断机器学习模型完成每个固定训练步数时的训练时长是否大于预设的训练时长阈值;当训练时长大于训练时长阈值时,则确定该机器学习模型的训练时长指标异常;当训练时长不大于训练时长阈值时,则确定该机器学习模型的训练时长指标正常;根据上述判断的结果,生成训练时长指标对应异常监控结果。

307,根据训练时长指标对应的异常监控结果生成模型训练监控报告。

服务器对各检查点的训练时长指标进行监控,并根据机器学习模型的训练时长指标对应的异常监控结果生成模型训练监控报告,并对训练时长指标对应的异常监控结果进行分析,当发现训练时长指标发生异常时,则向服务器发送模型训练异常的异常提示信息。后续服务器可对模型训练监控报告进行分析,确定模型训练过程中该指标异常的发生原因等,根据对模型训练监控报告的分析,不断调整模型参数、更新模型的训练状态,直至机器学习模型完成训练,得到符合预期结果的模型。

在本发明实施例中,步骤301-303与上述的模型训练监控方法的第一个实施例中的步骤101-103一致,在此不做赘述。

本发明实施例,提取指标数据中的训练时长指标以及训练时长,根据训练时长监控策略和训练时长对训练时长指标进行异常监控并生成模型训练监控报告。本发明实施例实现了对模型训练过程中训练时长指标的异常监控,提高了模型监控的效率。

请参阅图4,本发明实施例中模型训练监控方法的第四个实施例包括:

401,获取机器学习模型的训练周期,对训练周期进行分析,确定机器学习模型的训练总步数,并根据机器学习模型的训练总步数,确定固定训练步数;

402,将机器学习模型完成每个固定训练步数的时间节点作为机器学习模型的检查点;

403,获取机器学习模型在各检查点所产生的指标数据;

404,提取指标数据中的数据指标以及机器学习模型的损失函数的损失值;

在机器学习模型开始训练后,服务器对机器学习模型的训练进度和与训练进度对应的机器学习模型的损失值实时监控,其中,机器学习模型的训练进度为机器学习模型的训练步数或者机器学习模型的训练时长。损失函数的函数值为损失值,损失值用来估量机器学习模型的预测值与真实值的不一致程度,损失函数的损失值越小,机器学习模型的鲁棒性就越好。机器学习模型每完成一步训练都会计算完成当前训练步数对应的机器学习模型的损失函数的损失值。

405,计算损失值的均值和标准差;

服务器提取机器学习模型在所有的检查点中数据指标所包含的损失值,并将其作为历史损失值,对历史损失值进行均值和标准差运算,得到该机器学习模型的损失值对应的均值和标准差。

406,获取机器学习模型的当前损失值,将机器学习模型的当前损失值与均值的差值作为偏离值;

获取机器学习模型的当前损失值,判断当前的损失值是否异常,将机器学习模型的当前损失值与上述的均值的差值作为偏离值,根据该偏离值来判断机器学习模型在模型训练过程中是否发生异常。

407,根据预设的数据指标监控策略,判断偏离值与标准差的倍数是否大于预设倍数;

408,若偏离值与标准差的倍数大于预设倍数,则确定数据指标异常,得到数据指标对应的异常监控结果;

服务器根据预设的数据指标监控策略对数据指标进行异常监控,即判断所得到的偏离值与标准差之间的倍数是否大于预设倍数。其中,预设倍数可以为两倍或三倍或四倍,根据机器学习模型在模型训练过程中的实际情况来对预设倍数进行设置,比如设定预设倍数为三倍,当偏离值与标准差的倍数为3.5倍时,则偏离值与标准差的倍数为3.5倍,超过预设倍数3倍,确定该机器学习模型的数据指标异常,并生成数据指标对应的异常监控结果。

另外,对数据指标进行监控还包括对机器学习模型所占用的资源数据量进行监控,即服务器在机器学习模型的模型训练过程中记录执行模型训练任务所消耗的计算资源情况,比如消耗的计算资源所属的资源组、消耗的内存数据量、消耗的CPU数据量、消耗的GPU数据量等,形成机器学习模型的数据指标。服务器提取数据指标中机器学习模型在各检查点所占用的资源数据量,并根据预设的数据指标监控策略,将机器学习模型所占用的资源数据量与预设的占用数据量阈值进行比较,判断该机器学习模型所占用的资源数据量是否大于预设的占用数据量阈值。当机器学习模型所占用的资源数据量大于预设的占用数据量阈值时,则确定该机器学习模型的数据指标异常;当机器学习模型所占用的资源数据量不大于占用数据量阈值时,则说明该机器学习模型的数据指标正常;根据上述判断的结果,生成数据指标对应的异常监控结果。在本实施例中,预设的占用数据量阈值可根据实际情况进行设置,在此不做限定。

另外,对数据指标进行监控还包括对机器学习模型可用的数据存储空间的数据量进行监控,即服务器在机器学习模型的模型训练过程中记录执行模型训练任务所占用的数据存储空间,比如训练数据占用的数据存储空间、训练得到的机器学习模型占用的数据存储空间、使用机器学习模型预测得到的结果占用的数据存储空间等,形成机器学习模型的数据指标。服务器提取数据指标中所包含的机器学习模型在各检查点中可用的数据存储空间的数据量,根据预设的数据指标监控策略,对数据指标中可用的数据存储空间的数据量进行监控,将可用的数据存储空间的数据量与预设的可用数据量阈值进行比较,即判断可用的数据存储空间的数据量是否小于预设的可用数据量阈值;当可用的数据存储空间的数据量小于预设的可用数据量阈值时,则确定该机器学习模型的数据指标异常;当可用的数据存储空间的数据量不小于可用数据量阈值时,则确定该机器学习模型的数据指标正常,根据上述判断的结果,生成数据指标对应的异常监控结果。在本实施例中,预设的可用数据量阈值可根据实际情况进行设置,在此不做限定。

409,根据数据指标对应的异常监控结果生成模型训练监控报告。

服务器对各检查点的数据指标进行监控,并根据机器学习模型的数据指标对应的异常监控结果生成模型训练监控报告,并对数据指标对应的异常监控结果进行分析,当发现数据指标发生异常时,则向服务器发送模型训练异常的异常提示信息。后续服务器可对模型训练监控报告进行分析,确定模型训练过程中该指标异常的发生原因等,根据对模型训练监控报告的分析,不断调整模型参数、更新模型的训练状态,直至机器学习模型完成训练,得到符合预期结果的模型。

在本发明实施例中,步骤401-403与上述的模型训练监控方法的第一个实施例中的步骤101-103一致,在此不做赘述。

在本发明实施例中,提取指标数据中的数据指标以及损失值,根据损失值计算模型训练的偏离值,并根据偏离值对数据指标进行异常监控并生成模型训练监控报告。本发明实施例实现了对模型训练过程中数据指标的异常监控,且根据计算得到的偏离值对模型训练过程进行异常监控,提高了异常监控的准确性。

上面对本发明实施例中的模型训练监控方法进行了描述,下面对本发明实施例中的模型训练监控装置进行描述,请参照图5,本发明实施例中的模型训练监控装置的一个实施例包括:

分析模块501,用于获取机器学习模型的训练周期,对所述训练周期进行分析,确定所述机器学习模型的训练总步数,并根据所述机器学习模型的训练总步数,确定固定训练步数;

检查点确定模块502,用于将所述机器学习模型完成每个所述固定训练步数的时间节点作为所述模型的检查点;

获取模块503,用于获取所述机器学习模型在各所述检查点所产生的指标数据;

监控模块504,用于根据预设的各指标的指标监控策略,对所述指标数据中各指标进行异常监控,判断所述指标数据中各指标是否异常,得到异常监控结果;

报告生成模块505,用于根据所述异常监控结果生成模型训练监控报告。

在本发明实施例中,通过模型训练监控装置获取机器学习模型在各检查点所产生的指标数据,并根据各指标对应的指标监控策略,对指标数据中各指标进行异常监控,判断各指标是否异常,从而得到异常监控结果。本发明实施例实现了对模型训练监控的自动化,且根据指标监控策略对各指标进行异常监控,可以直观地判断模型训练过程中各指标是否异常,提高了模型训练监控的效率。

请参阅图6,本发明实施例中的模型训练监控装置的另一个实施例包括:

分析模块501,用于获取机器学习模型的训练周期,对所述训练周期进行分析,确定所述机器学习模型的训练总步数,并根据所述机器学习模型的训练总步数,确定固定训练步数;

检查点确定模块502,用于将所述机器学习模型完成每个所述固定训练步数的时间节点作为所述模型的检查点;

获取模块503,用于获取所述机器学习模型在各所述检查点所产生的指标数据;

监控模块504,用于根据预设的各指标的指标监控策略,对所述指标数据中各指标进行异常监控,判断所述指标数据中各指标是否异常,得到异常监控结果;

报告生成模块505,用于根据所述异常监控结果生成模型训练监控报告。

其中,所述监控模块504包括:

样本监控单元5041,用于根据预设的样本指标监控策略,对所述指标数据中的样本指标进行异常监控,判断所述样本指标是否异常,得到异常监控结果;

时长监控单元5042,用于根据预设的训练时长指标监控策略,对所述指标数据中的训练时长指标进行异常监控,判断所述训练时长指标是否异常,得到异常监控结果;

数据监控单元5043,用于根据预设的数据指标监控策略,对所述指标数据中的数据指标进行异常监控,判断所述数据指标是否异常,得到异常监控结果,其中,所述数据指标包括偏离值、资源数据量和可用的数据存储空间的数据量。

其中,所述样本监控单元5041包括:

分箱子单元50411,用于提取所述指标数据中的样本指标及训练样本,并对所述训练样本进行等频分箱处理,得到多个分箱;

计算子单元50412,用于根据预设的样本指标监控策略和根据所述样本指标计算各所述分箱中样本的模型稳定性分析值;

第一判断子单元50413,用于判断所述模型稳定性分析值是否小于预设的模型稳定性阈值;

第一确定子单元50414,用于若所述模型稳定性分析值小于预设的模型稳定性阈值,则确定所述样本指标异常,得到所述样本指标对应的异常监控结果。

其中,所述时长监控单元5042包括:

提取子单元50421,用于提取所述指标数据中的时长训练指标以及所述机器学习模型完成每个所述固定训练步数时的训练时长;

第二判断子单元50422,用于根据预设的训练时长指标监控策略,判断所述训练时长是否大于预设的训练时长阈值;

第二确定子单元50423,用于若所述训练时长大于预设的训练时长阈值,则确定所述训练时长指标异常,得到所述训练时长指标对应的异常监控结果。

其中,所述数据监控单元5043具体用于:

提取所述指标数据中的数据指标以及所述机器学习模型的损失函数的损失值;

计算所述损失值的均值和标准差;

获取所述机器学习模型的当前损失值,将所述机器学习模型的当前损失值与所述均值的差值作为偏离值;

根据预设的数据指标监控策略,判断所述偏离值与所述标准差的倍数是否超过预设倍数;

若所述偏离值与所述标准差的倍数超过预设倍数,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

其中,所述数据监控单元5043还具体用于:

提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中占用的资源数据量;

根据预设的数据指标监控策略,判断所述资源数据量是否大于预设的占用数据量阈值;

若所述资源数据量大于预设的占用数据量阈值,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

其中,所述数据监控单元5043还具体用于:

提取所述指标数据中的数据指标以及所述机器学习模型在所述检查点中可用的数据存储空间的数据量;

根据预设的数据指标监控策略,判断所述数据存储空间的数据量是否小于预设的可用数据量阈值;

若所述数据存储空间的数据量小于预设的可用数据量阈值,则确定所述数据指标异常,得到所述数据指标对应的异常监控结果。

在本发明实施例中,通过模型训练监控装置提取指标数据中的各指标,并对各指标进行异常监控以生成模型训练监控报告。本发明实施例实现了对模型训练过程中各指标的异常监控,提高了模型训练过程监控的准确性。

请参阅图7,下面从硬件处理的角度对本发明实施例中的模型训练监控设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种模型训练监控设备的结构示意图,该模型训练监控设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对模型训练监控设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在模型训练监控设备700上执行存储介质730中的一系列指令操作。

模型训练监控设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和或或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的模型训练监控设备结构并不构成对模型训练监控设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明所指服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述模型训练监控方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:标签预测方法、设备、存储介质及程序产品

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!