机器学习装置、控制装置、以及机器学习的搜索范围的设定方法

文档序号:1242017 发布日期:2020-08-18 浏览:4次 >En<

阅读说明:本技术 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法 (Machine learning device, control device, and method for setting search range for machine learning ) 是由 恒木亮太郎 猪饲聪史 下田隆贵 于 2020-02-10 设计创作,主要内容包括:本发明提供机器学习装置、控制装置、以及机器学习的搜索范围的设定方法。机器学习装置对控制伺服电动机的伺服控制装置进行伺服控制装置的构成要素的第1参数的搜索,机器学习装置具有:搜索解检测部,其在机器学习中或者机器学习后,取得机器学习所使用的评价函数值的集合,在第1参数或者第2参数的搜索范围内描绘评价函数值的集合,在搜索范围的端部或者在距该端部规定范围内,检测是否存在搜索解,其中,第2参数用于第1参数的搜索;评价函数式推定部,其在搜索范围的端部或者规定范围内存在搜索解时,根据评价函数值的集合来推定评价函数式;搜索范围变更部,其根据推定出的所述评价函数式,变更成第1参数或者第2参数的新搜索范围。(The invention provides a machine learning device, a control device, and a method for setting a search range for machine learning. The machine learning device searches for a1 st parameter of a component of a servo control device for controlling the servo motor, and includes: a search solution detection unit that acquires a set of evaluation function values used for machine learning during or after the machine learning, draws the set of evaluation function values within a search range of a1 st parameter or a2 nd parameter, and detects whether or not a search solution exists at an end of the search range or within a predetermined range from the end, the 2 nd parameter being used for searching the 1 st parameter; an evaluation function expression estimating unit that estimates an evaluation function expression from the set of evaluation function values when a search solution is present at an end of the search range or within a predetermined range; and a search range changing unit that changes the estimated evaluation function expression to a new search range of the 1 st parameter or the 2 nd parameter.)

机器学习装置、控制装置、以及机器学习的搜索范围的设定 方法

技术领域

本发明涉及机器学习装置、控制装置、以及机器学习的搜索范围的设定方法,特别是涉及对伺服控制装置进行伺服控制装置的构成要素的参数的搜索的机器学习装置、控制装置、以及机器学习的搜索范围的设定方法,所述伺服控制装置对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制。

背景技术

作为本发明相关联的技术,已知通过使记录功率的搜索范围变化来优化光盘的记录播放条件这样的方法。例如,专利文献1记载了如下内容:“当在记录功率的搜索范围的端部检测出变动最小值时,通过扩展记录功率的搜索范围,有可能能够进一步检测出变动最小的记录功率,因此,需要使记录功率的搜索范围变化来再次检测变动最小值。”。

现有技术文献

专利文献1:日本再公表2005/029479号公报

发明内容

在通过机器学习装置来搜索对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制的伺服控制装置的构成要素的参数时,预先设定机器学习的搜索范围,但是有时该搜索范围并不是适合的范围。

(1)本公开的一方式,提供一种机器学习装置,其对伺服控制装置进行所述伺服控制装置的构成要素的第1参数的搜索,所述伺服控制装置对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制,其特征在于,

所述机器学习装置具有:

搜索解检测部,其在机器学习中或者机器学习后,取得机器学习所使用的评价函数值的集合,在所述第1参数或者第2参数的搜索范围内描绘该评价函数值的集合,在该搜索范围的端部或者在距该端部规定范围内,检测是否存在搜索解,其中,所述第2参数用于所述第1参数的搜索;

评价函数式推定部,其在所述搜索范围的端部或者在所述规定范围内存在搜索解时,根据所述评价函数值的集合来推定评价函数式;以及

搜索范围变更部,其根据推定出的所述评价函数式,变更成所述第1参数或者所述第2参数的新搜索范围。

(2)本公开的其他方式提供一种控制装置,具有:上述(1)的机器学习装置;以及伺服控制装置,其对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制,所述机器学习装置进行所述伺服控制装置的构成要素的第1参数的搜索。

(3)本公开的另外其他方式提供一种机器学习装置的搜索范围的设定方法,该机器学习装置对伺服控制装置进行所述伺服控制装置的构成要素的第1参数的搜索,所述伺服控制装置对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制,其特征在于,

在机器学习中或者机器学习后,在所述第1参数或者第2参数的搜索范围内描绘机器学习所使用的评价函数值的集合,其中,所述第2参数用于所述第1参数的搜索,

在该搜索范围的端部或者在距该端部规定范围内,检测是否存在搜索解,

在所述搜索范围的端部或者在所述规定范围内存在搜索解时,根据所述评价函数值的集合来推定评价函数式;

根据推定出的所述评价函数式,变更成所述第1参数或者所述第2参数的新搜索范围。

发明效果

根据本公开的各方式,在通过机器学习装置搜索对驱动机床、机器人或者工业机械的轴的伺服电动机进行控制的伺服控制装置的构成要素的参数时,即使机器学习的搜索范围并不是适合的范围,也能够变更为适合的范围。

附图说明

图1是表示本公开的第1实施方式的控制装置的一个结构例的框图。

图2是用于对加工形状是八边形时的电动机的动作进行说明的图。

图3是用于说明加工形状是八边形的角每隔一个置换为圆弧的形状时的电动机动作的图。

图4是表示用极坐标表示了IIR滤波器的传递函数的零点的半径r和偏角ωnts的图。

图5是表示优化了系数的IIR滤波器的滤波器增益的一例的图。

图6是表示本公开的第1实施方式的机器学习装置200的框图。

图7是表示包含当前搜索范围的频率下机械特性和速度前馈的IIR滤波器特性的特性图。

图8是表示搜索范围设定部的一个结构例的框图。

图9是表示将搜索范围设定部作为主体的机器学习装置的动作的流程图。

图10是包含当前设定的搜索范围的频率与评价函数值的特性图。

图11是表示示出了当前设定的搜索范围以及新设定的搜索范围的频率与评价函数值之间的关系、以及评价函数式的特性图。

图12是表示示出了当前设定的搜索范围以及新设定的其他搜索范围的频率与评价函数值之间的关系、以及评价函数式的特性图。

图13是表示包含新设定的搜索范围的频率下机械特性和速度前馈的IIR滤波器特性的特性图。

图14是表示示出了其他结构例中当前设定的搜索范围以及新设定的其他搜索范围的频率与评价函数值之间的关系、以及评价函数式的特性图。

图15是表示本公开的第2实施方式的控制装置的一个结构例的框图。

图16是表示包含当前搜索范围的频率下机械特性和陷波滤波器特性的特性图。

图17是表示包含新设定的搜索范围的频率下机械特性和陷波滤波器特性的特性图。

图18是表示本公开的第3实施方式的控制装置的一个结构例的框图。

图19是表示其他结构的控制装置的框图。

符号说明

10,11,12,13 控制装置

100,100A,100B 伺服控制装置

200 机器学习装置

201 状态信息取得部

202 学习部

203 行为信息输出部

204 价值函数存储部

205 优化行为信息输出部

2021 回报输出部

2022 价值函数更新部

2023 行为信息生成部

2024 搜索范围设定部

300 伺服电动机

400 网络

具体实施方式

以下,列举本公开的实施方式。

(第1实施方式)

图1是表示本公开的第1实施方式的控制装置的一个结构例的框图。图1所示的控制装置10具有伺服控制装置100和机器学习装置200。

伺服电动机300是伺服控制装置100的控制对象,例如包含在机床、机器人或者工业机械等中。伺服控制装置100可以与伺服电动机300一起设置为机床、机器人、或者工业机械等的一部分。

首先,对伺服控制装置100进行说明。

如图1所示,伺服控制装置100作为构成要素具有:减法器101、位置控制部102、加法器103、减法器104、速度控制部105、加法器106、积分器107、速度前馈部108、以及位置前馈部109。速度前馈部108具有二阶微分器1081以及IIR滤波器部1082。

将位置指令输出给减法器101、速度前馈部108、位置前馈部109、以及机器学习装置200。

根据使伺服电动机300动作的程序,由上位装置来制作位置指令。伺服电动机300例如包含在机床中。在机床中,在搭载被加工物(工件)的工作台在X轴方向和Y轴方向上移动时,对X轴方向和Y轴方向分别设置图1所示的伺服控制装置100和伺服电动机300。在使工作台在三轴以上的方向上移动时,对各轴方向设置伺服控制装置100和伺服电动机300。

位置指令设定进给速度,以成为加工程序所指定的加工形状。

减法器101求出位置指令值与位置反馈的检测位置之差,将该差作为位置偏差输出给位置控制部102以及机器学习装置200。

位置控制部102将位置增益Kp乘以位置偏差而得的值作为速度指令值输出给加法器104。

加法器103将速度指令值与位置前馈部109的输出值(位置前馈项)相加,作为前馈控制的速度指令值输出给加法器104。减法器104求出加法器103的输出与速度反馈的速度检测值之差,将该差作为速度偏差输出给速度控制部105。

速度控制部105将积分增益K1v乘以速度偏差而进行了积分所得的值、与比例增益K2v乘以速度偏差所得的值相加,作为转矩指令值输出给加法器106。

加法器106将转矩指令值与速度前馈部108的输出值(速度前馈项)相加,作为前馈控制的转矩指令值经由未图示的电流控制部输出给伺服电动机300来驱动伺服电动机300。

通过与伺服电动机300关联起来的、作为位置检测部的旋转编码器来检测伺服电动机300的旋转角度位置,速度检测值作为速度反馈而输入到减法器104。速度检测值通过积分器107而被积分成为位置检测值,位置检测值作为位置反馈输入到减法器101。伺服电动机也可以是线性电动机。

速度前馈部108的二阶微分器1081对位置指令值进行二阶微分,IIR滤波器部1082对二阶微分器1081的输出进行传递函数β·F(z)表示的IIR滤波处理。将其处理结果作为速度前馈项输出给加法器106。IIR滤波器部1082的传递函数β·F(z)是对IIR滤波器的传递函数F(z)乘以常数β而得的。数学公式1(以下表示为数学式1)所表示的IIR滤波器的传递函数F(z)的系数a0、a1、r0、ωnts的最佳值通过机器学习装置200而被机器学习。系数r0表示衰减系数(dumping)、系数ωn表示衰减中心角频率,系数ts表示采样时间。速度前馈部108是伺服控制装置的构成要素,当对系数r、ωnts进行机器学习时,系数r、ωnts是第一参数。

【数学式1】

另外,这里,IIR滤波器的传递函数F(z)的分母以及分子都为二次函数,但是并不特别限定为二次函数,也可以是三次以上的函数。

位置前馈部109对位置指令值进行微分并乘以常数α,将其处理结果作为位置前馈项,输出给加法器103。

如以上那样,构成伺服控制装置100。

接下来,对机器学习装置200进行说明。

机器学习装置200通过执行预先设定的加工程序(以下,也称为“学习时的加工程序”),搜索速度前馈部108的IIR滤波器的传递函数F(z)为0的z即零点。另外,极是传递函数F(z)为无限大的z值,零点是传递函数F(z)为0的z值。机器学习装置200可以搜索极和零点,但是为了抑制振动,零点尤为重要,这里,对机器学习装置200固定极(固定系数a0、a1),搜索零点,对系数r、ωnts进行优化的情况进行说明。

此外,机器学习装置200在学习中或者学习后,检测搜索范围的端部的选择是否不适合,在选择是不适合时,变更为新的搜索范围进行学习(将该学习称为再学习)。

由学习时的加工程序指定的加工形状例如是八边形,或者八边形的角每隔一个置换为圆弧的形状等。另外,由学习时的加工程序指定的加工形状不限定于这些加工形状,也可以是其他加工形状。

图2是用于对加工形状是八边形时的电动机的动作进行说明的图。图3是用于对加工形状是八边形的角每隔一个置换为圆弧的形状时的电动机的动作进行说明的图。在图2以及图3中,工作台在X轴和Y轴方向上移动以便顺时针加工被加工物(工件)。

如图2所示,在加工形状为八边形时,在角的位置A1处,使工作台在Y轴方向上移动的电动机转速慢,使工作台在X轴方向上移动的电动机转速快。

在角的位置A2处,使工作台在Y轴方向上移动的电动机旋转方向反转,使工作台在X轴方向上移动的电动机从位置A1朝向位置A2和从位置A2朝向位置A3,以相同的旋转方向,等速旋转。

在角的位置A3处,使工作台在Y轴方向上移动的电动机转速快,使工作台在X轴方向上移动的电动机转速慢。

在角的位置A4处,使工作台在X轴方向上移动的电动机旋转方向反转,使工作台在Y轴方向上移动的电动机从位置A3朝向位置A4和从位置A4朝向下一个角的位置,以相同的旋转方向,等速旋转。

如图3所示,在加工形状是八边形的角每隔一个置换为圆弧的形状时,在角的位置B1处,使工作台在Y轴方向上移动的电动机转速慢,使工作台在X轴方向上移动的电动机转速快。

在圆弧的位置B2处,使工作台在Y轴方向上移动的电动机旋转方向反转,使工作台在X轴方向上移动的电动机从位置B1朝向位置B3以相同的旋转方向,等速旋转。与图3所示的加工形状为八边形的情况不同,使工作台在Y轴方向上移动的电动机朝向位置B2缓缓减速,在位置B2处停止旋转,通过位置B2时旋转速度缓缓增加,以便在位置B2的前后形成圆弧的加工形状。

在角的位置B3处,使工作台在Y轴方向上移动的电动机转速快,使工作台在X轴方向上移动的电动机转速慢。

在圆弧的位置B4处,使工作台在X轴方向上移动的电动机旋转方向反转,工作台以在X轴方向上直线反转的方式进行移动。此外,使工作台在Y轴方向上移动的电动机从位置B3朝向位置B4、和从位置B4朝向下一个角的位置以相同的旋转方向,等速旋转。使工作台在X轴方向上移动的电动机朝向位置B4缓缓减速,在位置B4处停止旋转,通过位置B4时旋转速度缓缓增加,以便在位置B4的前后形成圆弧的加工形状。

在本实施方式中,通过以上说明的、由学习时的加工程序指定的加工形状的位置A1与位置A3、以及位置B1与位置B3,评价在线性控制中变更转速时的振动,调查相对于位置偏差的影响,由此,进行速度前馈部108的IIR滤波器的传递函数F(z)的系数r、ωnts优化有关的机器学习。另外,在本实施方式中虽未使用,但是可以通过加工形状的位置A2与位置A4、以及位置B2与位置B4,评价旋转方向反转时产生的惯性移动(因惯性进行动作),调查相对于位置偏差的影响。

传递函数的系数优化有关的机器学习并非特别限定于速度前馈部,例如还能够应用于进行位置前馈部或者伺服控制装置的电流前馈时设置的电流前馈部。

以下,对机器学习装置200进行更详细说明。

在以下的说明中对机器学习装置200进行强化学习的情况进行说明,但是机器学习装置200进行的学习并非特别限定于强化学习,例如,还能够将本发明应用于进行监督学习的情况。

在进行机器学习装置200所包含的各功能块的说明之前,首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习装置200)观测环境状态,选择某个行为,根据该行为环境发生变化。随着环境的变化,提供某种回报,智能体学习更好的行为选择(决策)。

监督学习表示完全的正确答案,而强化学习中的回报大多是基于环境的部分变化的片段值。因此,智能体学习选择行为使得到将来的回报合计为最大。

这样,在强化学习中通过学习行为,在行为给予环境的相互作用基础上学习适当的行为,即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中,可以获得例如选择用于降低位置偏差的行为信息这样的、影响未来的行为。

这里,作为强化学习可以使用任意的学习方法,在以下的说明中,以在某种环境状态S下,使用Q学习(Q-learning)的情况为例进行说明,所述Q学习是学习选择行为A的价值Q(S、A)的方法。

Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。

但是,在最初开始Q学习的时间点,对于状态S与行为A的组合来说,完全不知晓价值Q(S、A)的正确值。因此,智能体在某种状态S下选择各种行为A,针对当时的行为A,根据给予的回报,选择更好的行为,由此,继续学习正确的价值Q(S、A)。

此外,想要使将来获得的回报的合计最大化,因此,目标是最终成为Q(S、A)=E[Σ(γt)rt]。这里,E[]表示期待值,t表示时刻、γ表示后述的称为折扣率的参数,rt表示时刻t的回报,Σ是时刻t的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中,由于不知道最佳行为,因此通过进行各种行为,一边搜索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学公式2(以下表示为数学式3)来表示。

【数学式2】

在上述的数学公式2中,St表示时刻t的环境状态,At表示时刻t的行为。通过行为At,状态变化为St+1。rt+1表示通过该状态的变化而得到的回报。此外,带有max的项是:在状态St+1下,将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里,γ是0<γ≤1的参数,称为折扣率。此外,α是学习系数,设α的范围为0<α≤1。

上述的数学公式2表示如下方法:根据尝试At的结果而反馈回来的回报rt+1,更新状态St下的行为At的价值Q(St、At)。

该更新式表示了:若行为At导致的下一状态St+1下的最佳行为的价值maxa Q(St+1、A)比状态St下的行为At的价值Q(St、At)大,则增大Q(St、At),反之如果小,则减小Q(St、At)。也就是说,使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中,尽管该差因折扣率γ和回报rt+1的存在形式而变化,但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。

这里,Q学习存在如下方法:制作针对所有状态行为对(S、A)的Q(S、A)的表格,来进行学习。但是,有时为了求出所有状态行为对的Q(S、A)的值状态数会过多,使得Q学习收敛需要较多的时间。

因此,可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说,可以使用适当的神经网络来构成价值函数Q,调整神经网络的参数,由此通过适当的神经网络来近似价值函数Q来计算价值Q(S、A)的值。通过利用DQN,能够缩短Q学习收敛所需的时间。另外,关于DQN,例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”,VolodymyrMnih1著[online],[平成29年1月17日检索],因特网〈URL:http://files.davidqiu.com/research/nature14236.pdf〉

机器学习装置200进行以上说明的Q学习。具体来说,机器学习装置200对如下价值Q进行机器学习(以下,称为学习):将指令以及反馈等伺服状态作为状态S,将该状态S有关的、IIR滤波器的传递函数VFF(z)的系数r、ωnts的调整选择为行为A,其中,指令以及反馈包含速度前馈部108的IIR滤波器部1082的IIR滤波器的传递函数F(z)的系数r、ωnts、和执行机器学习时的加工程序而取得的伺服控制装置100的位置偏差信息、以及位置指令。机器学习装置200对数学公式1的IIR滤波器的传递函数F(z)为0的z即零点进行搜索。

具体来说,如图4所示,本发明的实施方式有关的机器学习装置200在规定范围内分别搜索用极坐标表示了数学公式1的IIR滤波器的传递函数F(z)的零点的半径r和偏角ωnts来进行学习,由此,学习位置偏差最小那样的半径r和偏角ωnts,从而设定位置偏差最小的传递函数F(z)的系数r和系数ωnts

机器学习装置200根据IIR滤波器部1082的IIR滤波器的传递函数F(z)的系数r、ωnts的值,来执行学习时的加工程序,由此,观测包含指令以及反馈等伺服状态的状态信息S,决定行为A,其中,所述指令以及反馈包含所述的加工形状的位置A1与位置A3、以及位置B1与位置B3处的、伺服控制装置100的位置指令以及位置偏差信息。机器学习装置200每当进行行为A时返回回报。机器学习装置200例如试错性地搜索最佳行为A以使到将来的回报合计为最大。通过这样,机器学习装置200能够对包含指令和反馈等伺服状态的状态S选择最佳行为A(即,IIR滤波器的传递函数F(z)的最佳的零点的值),其中,所述指令和反馈包含根据系数值来执行学习时的加工程序所取得的伺服控制装置100的位置指令以及位置偏差信息,该系数值是根据IIR滤波器的传递函数F(z)的零点的值计算出的。在位置A1与位置A3和位置B1与位置B3处,X轴方向和Y轴方向的伺服电动机的旋转方向不变,机器学习装置200可以学习线性动作时的IIR滤波器的传递函数F(z)的零点。

即,根据由机器学习装置200学习到的价值函数Q,选择应用于某种状态S有关的IIR滤波器的传递函数F(z)的行为A中的、Q的值为最大那样的行为A,由此,能够选择通过执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即,IIR滤波器的传递函数F(z)的零点的值)。

关于零点的搜索范围,在图4的复平面中,将半径r例如设为0≤r≤1的范围,以可以实现速度环的应答的频率范围来规定偏角ωnts。IIR滤波器的传递函数F(z)的分子的解(零点)具有复数根z=re±jωnts时,(偏角)/ts=ωn表示衰减中心角频率[rad/s]。将中心频率设为fn,于是通过ωn=2πfn来表示衰减中心角频率ωn。例如,在衰减中心角频率ωn是100·2π≤ωn≤500·2π时,搜索范围的频率为100-500Hz,但是在ts=0.0005[sec]时,偏角的范围为0.05·2π≤ωnts≤0.25·2π。在图4的复平面中,18度~90度的扇形的范围为搜索范围。

在用极坐标来搜索零点时,首先,将半径r固定为(0≤r≤1)范围内的任意值,在上述的18度~90度的扇形的范围的搜索范围中,尝试性地设定偏角ωnts,设定z=reiωnts以及其共轭复数z=re-iωnts为(z2+r(-rejωnts-re-jωnts)z+r2)的零点那样的系数(-rejωnts-re-jωnts)以及r。在上述的18度~90度的扇形的搜索范围内设定偏角ωnts的初始设定值。

机器学习装置200将求出的系数r、ωnts的调整信息作为行为A发送给IIR滤波器部1082,设定IIR滤波器的传递函数F(z)的分子的系数r、ωnts。机器学习装置200通过搜索偏角ωnts的学习来决定价值Q的值为最大那样的、优选的偏角ωn0ts时,然后,将偏角ωnts固定为该偏角ωn0ts而将半径r设为可变,设定IIR滤波器的传递函数F(z)的分子的系数r、ωnts。通过搜索半径r的学习,决定价值Q的值为最大那样的、最佳的半径r0

如以上那样,在规定范围内分别搜索用极坐标表示了IIR滤波器的传递函数F(z)的零点的半径r和偏角ωnts而进行学习,以使位置偏差为最小,由此,可以优化传递函数F(z)的系数r、ωnts。图5表示优化了系数的IIR滤波器的滤波器增益的一例。

另外,半径r和偏角ωnts也可以同时进行学习,但是通过分开进行学习,可以降低机器学习量,可以缩短机器学习的收敛时间。

图6是表示本公开的第1实施方式的机器学习装置200的框图。

为了进行上述的强化学习,如图6所示,机器学习装置200具有:状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204、以及优化行为信息输出部205。学习部202具有回报输出部2021、价值函数更新部2022、以及行为信息生成部2023以及搜索范围设定部2024。搜索范围设定部2024用于再学习,详细的说明在后面进行描述。

状态信息取得部201从伺服控制装置100取得包含指令、反馈等伺服状态的状态S,其中,指令、反馈包含根据伺服控制装置100中的速度前馈部108的IIR滤波器1082的IIR滤波器的传递函数F(z)的系数r、ωnts的值来执行学习时的加工程序而取得的伺服控制装置100的位置指令和位置偏差信息。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部201对学习部202输出取得到的状态信息S。

另外,最初开始Q学习的时间点的IIR滤波器的传递函数F(z)的初始设定由用户预先设定。在本实施方式中,之后,如上所述,通过在规定的范围内分别搜索用极坐标表示了零点的半径r和偏角ωnts的强化学习,将用户初始设定的IIR滤波器的传递函数F(z)的系数r、ωnts调整为最佳。滤波器部1082的系数β设为固定值,例如设β=1。此外,传递函数F(z)的分子的系数r、ωnts的初始设定例如可以设将r设为0≤r≤1的范围内的值,将ωnts设为所述的规定搜索范围内的值。

此外,关于系数r、ωnts在操作员预先调整了机床的情况下,可以将调整完成的传递函数的系数r、ωnts设为初始值来进行机器学习。

学习部202是在某种环境状态S下对选择某种行为A时的价值Q(S、A)进行学习的部分。另外,关于行为A,例如是IIR滤波器的传递函数F(z)的分子的系数r、ωnts的修正信息。

回报输出部2021是在某种状态S下计算选择了行为A时的回报的部分。这里,状态S下的状态变量即位置偏差的集合(位置偏差集合)通过PD(S)来表示,因行为信息A而从状态S变化了的状态信息S’有关的状态变量即位置偏差集合通过PD(S’)来表示。此外,状态S下的位置偏差的评价函数值设为根据预先设定的评价函数f(PD(S))而计算出的值。

作为评价函数f,例如可以应用如下等函数,

计算位置偏差的绝对值的积分值的函数

∫|e|dt

对位置偏差的绝对值进行时间加权来计算积分值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n是自然数)次幂的积分值的函数

∫e2ndt(n是自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}。

此时,在根据通过行为信息A进行了修正的状态信息S’有关的修正后的速度前馈部108而进行了动作的伺服控制装置100的位置偏差的评价函数值f(PD(S’))比根据通过行为信息A进行修正前的状态信息S有关的修正前的速度前馈部108而进行了动作的伺服控制装置100的位置偏差的评价函数值f(PD(S))大时,回报输出部2021使回报值为负值。

另一方面,在位置偏差的评价函数值f(PD(S’))比位置偏差的评价函数值f(PD(S))小时,回报输出部2021使回报值为正值。

另外,在位置偏差的评价函数值f(PD(S’))与位置偏差的评价函数值f(PD(S))相等时,回报输出部2021使回报值为零。

此外,执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))大时的负值,可以根据比例设定得大。也就是说,可以根据位置偏差的评价函数值变大的程度使负值变大。反之,执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))小时的正值,可以根据比例定得大。也就是说,可以根据位置偏差的评价函数值变小的程度使正值变大。

价值函数更新部2022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报值来进行Q学习,由此,对价值函数存储部204存储的价值函数Q进行更新。

价值函数Q的更新既可以通过在线学习来进行,也可以通过批量学习来进行,还可以通过小批量学习来进行。

行为信息生成部2023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部2023在Q学习的过程中,为了进行修正伺服控制装置100的IIR滤波器部1082的IIR滤波器的传递函数F(z)的系数r、ωnts的动作(相当于Q学习中的行为A),而生成行为信息A,对行为信息输出部203输出所生成的行为信息A。

更具体来说,行为信息生成部2023例如为了在极坐标上搜索零点,而在IIR滤波器的传递函数F(z)的、ωnts分子(z2+r(-rejωnts-re-jωnts)z+r2中将z的零点设为reijωnts,在固定了从状态信息取得部201接收到的半径r的状态下,使从状态信息取得部201接收到的偏角ωnts在搜索范围内增加或者减少。并且,通过固定了的半径r和增加或减少的偏角ωnts,设定作为零点的z和其共轭复数z*,根据该零点重新求出系数ωnts

可以采取如下策略:行为信息生成部2023在使偏角ωnts增加或减少,重新设定IIR滤波器的传递函数VFF(z)的系数ωnts而向状态S’转移并返回了正回报(正值的回报)时,作为下一行为A’,选择与前次的动作同样地增加或减少偏角ωnts等使位置偏差值更小那样的行为A’。

此外,反之还可以采取如下策略:当返回了负回报(负值的回报)时,行为信息生成部2023作为下一行为A’,例如选择与前次的动作相反地减少或增加偏角ωnts等使位置偏差比前次的值小那样的行为A’。

行为信息输出部2023继续偏角ωnts的搜索,通过来自优化行为信息输出部205的后述的优化行为信息,利用学习来决定价值Q的值为最大那样的最佳偏角ωnts时,之后,将偏角ωnts固定为该偏角ωnts而在0≤r≤1的范围内搜索半径r,与偏角ωnts的搜索一样地设定IIR滤波器的传递函数F(z)的分子的系数r。行为信息生成部2023继续半径r的搜索,通过来自优化行为信息输出部205的后述的优化行为信息,利用学习来决定价值Q的值为最大那样的最佳半径r0时,决定分子的最佳系数r0

行为信息输出部203是对伺服控制装置100发送从学习部202输出的行为信息A的部分。如上所述,伺服控制装置100根据该行为信息,对当前状态S,即用极坐标表示当前设定的IIR滤波器的传递函数F(z)的零点的半径r和偏角ωnts进行微修正,而向下一状态S’(即,与进行了修正的零点对应的、IIR滤波器的传递函数F(z)的系数r、ωnts)转移。

价值函数存储部204是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下,称为行为价值表)。存储在价值函数存储部204中的价值函数Q通过价值函数更新部2022而被更新。此外,存储在价值函数存储部204的价值函数Q也可以在与其他机器学习装置200之间共享。如果在多个机器学习装置200之间共享价值函数Q,则能够通过各机器学习装置200分散地进行强化学习,因此,能够提升强化学习的效率。

优化行为信息输出部205根据价值函数更新部2022进行Q学习而进行了更新的价值函数Q,生成用于使速度前馈部108进行价值Q(S、A)为最大的动作的行为信息A(以下,称为“优化行为信息”)。

更具体来说,优化行为信息输出部205取得价值函数存储部204存储的价值函数Q。如上所述该价值函数Q是通过价值函数更新部2022进行Q学习而被更新的函数。并且,优化行为信息输出部205根据价值函数Q,生成行为信息,对伺服控制装置100(速度前馈部108的IIR滤波器部1082)输出所生成的行为信息。该优化行为信息与行为信息输出部203在Q学习的过程中输出的行为信息一样,包含通过偏角、半径r的学习来修正IIR滤波器的传递函数F(z)的系数的信息。

在伺服控制装置100中,根据基于偏角ωnts、半径r的行为信息来修正IIR滤波器的传递函数F(z)的分子有关的传递函数的系数。

以上的说明也应用于进行IIR滤波器的传递函数F(z)的极的搜索的情况。该情况下,在传递函数F(z)的分母(z2+a1+a0)中,将z=reiωnts以及其共轭复数z=re-iωnts设为极(偏角ωnts在规定范围内,0≤r≤1)时,通过将传递函数F(z)的系数a1设为(-reiωnts-re-iωnts)以及系数a0设定为r2,与上述零点的搜索一样地求出最佳的半径r、偏角ωnts,对它们进行变换来学习系数a1、a0的值。

在本实施方式中,回报输出部2021通过比较状态S的位置偏差的值f(PD(S))与状态S’的位置偏差的值f(PD(S’))来计算出回报值,其中,值f(PD(S))是将状态S下的位置偏差PD(S)作为输入根据预先设定的评价函数f(PD(S))而计算出的,值f(PD(S’))是将状态S’下的位置偏差PD(S’)作为输入根据评价函数f而计算出的。

但是,也可以每当计算回报值时都施加位置偏差以外的其他要素。

例如,除了作为减法器101的输出的位置偏差之外,还可以对机器学习装置200给予作为加法器103的输出的位置前馈控制的速度指令、位置前馈控制的速度指令与速度反馈之差、以及作为加法器106的输出的位置前馈控制的转矩指令等中的至少一个。

<再学习>

以上,对机器学习装置200的学习进行了说明,接下来,对学习中或者学习后,检测搜索范围的端部的选择是否不适合,在选择是不适合时,变更为新的搜索范围进行学习(再学习)的、机器学习装置200的结构以及动作进行说明。

在机器学习装置200的学习中,在速度前馈的偏角ωnts的搜索范围不适合时,有时通过学习而获得的速度前馈部1082的IIR滤波器的搜索解的衰减中心频率(ωn/2π)与机械特性的峰值频率不符。这里,所谓搜索解是可以在搜索范围内获得最小的评价函数值的参数(这里是衰减中心频率(ωn/2π))。另外,在图7中通过衰减中心频率表示搜索范围,但是也可以通过偏角ωnts、或者衰减中心角频率来表示搜索范围。偏角ωnts与速度前馈部108的IIR滤波器的传递函数F(z)的系数ωnts对应,是第1参数。衰减中心频率(ωn/2π)或者衰减中心角频率ωn是用于第1参数(ωnts)的搜索的第2参数。

例如,衰减中心角频率ωn的搜索范围是600·2π≤ωn≤1000·2π时,搜索范围的衰减中心频率(ωn/2π)为600-1000Hz,但是若频率设为600Hz-1000Hz,则衰减中心频率(ωn/2π)的最佳的搜索解选择下端部的600Hz。但是,机械特性的峰值频率为400Hz,与衰减中心频率的搜索解的频率600Hz不符。

在本实施方式中在机械特性的峰值频率与衰减中心频率(ωn/2π)的搜索解的频率不符时,图6所示的搜索范围设定部2024进行搜索范围的变更动作以使衰减中心频率(ωn/2π)的搜索解与机械特性的峰值一致或者接近。这里,所谓搜索范围的变更是:扩展当前设定的搜索范围的端部、以与当前设定的搜索范围的一部分重叠的方式设定搜索范围、或者将搜索范围设定为与当前设定的搜索范围不同的范围等。

图8是表示搜索范围设定部的一个结构例的框图。图9是表示将搜索范围设定部作为主体的机器学习装置的动作的流程图。图9涉及的动作在机器学习装置200的学习中或者学习后进行。

如图8所示,搜索范围设定部2024具有:搜索解检测部2024A、评价函数式推定部2024B、以及搜索范围变更部2024C。

在图9所示的步骤S11中,除去搜索范围设定部2024的图6所示的机器学习装置200,将设定的频率600Hz~1000Hz作为搜索范围R1来进行学习。

在步骤S12中,搜索解检测部2024A取得通过回报输出部2021计算出的评价函数值的集合,如图10所示在当前设定的搜索范围R1内描绘评价函数值的集合。

在步骤S13中,搜索解检测部2024A从描绘出的评价函数值的曲线中,检测搜索范围R1的端部是否为评价函数值的搜索解。搜索解检测部2024A在检测出搜索范围R1的端部为搜索解时(是时),向评价函数式推定部2024B发送检测信号。在图10中,在搜索范围R1内描绘出的评价函数值的曲线右高左低,超出搜索范围R1的端部从而评价函数值可能低。在图10中超出搜索范围R1的端部时的评价函数值的曲线表示为未知的范围。

在步骤S13中,搜索解检测部2024A没有检测出搜索范围R1的端部为搜索解时(否时),结束处理。

在步骤S14中,评价函数式推定部2024B接收检测信号时,根据在搜索范围R1内获得的评价函数值从评价函数式模型中推定针对频率的评价函数值。图11表示推定出的评价函数式是二次函数的情况。评价函数模型是多项式,在图10的评价函数值的分布中,例如,可以使用Aω2+Bω+C的评价函数模型。这里,ω表示滤波器的衰减中心频率,A、B、C表示二次函数式的系数。

在步骤S15中,搜索范围变更部2024C从推定出的评价函数式的形状中,重新决定搜索范围和搜索次数。在图11中,扩展当前设定的搜索范围R1来设定新的搜索范围R2。另外,如图12所示,可以设定与当前设定的搜索范围R1不同的新的搜索范围R3,也可以以与当前设定的搜索范围R1的一部分重叠的方式设定新的搜索范围R4。另外,在设定新的搜索范围R4或者搜索范围R3时,例如,在推定出的评价函数式是二次函数时,可以以极小值为中心将±Δx的范围设为搜索范围。搜索范围变更部2024C将新设定出的搜索范围发送给搜索解检测部2024A。

在步骤S16中,除去搜索范围设定部2024的机器学习装置200在新设定的搜索范围内进行学习。根据需要,重复步骤S11~S16的动作以使机械特性的峰值频率与衰减中心频率ωn/2π的搜索解的频率吻合,或者接近。

通过以上的动作,可以将搜索范围变更成为适合的搜索范围。图13表示将当前设定的搜索范围频率600Hz~1000Hz扩展为搜索范围300Hz~1000Hz时的结果。如图13所示,可以设定搜索范围以使机械特性的峰值频率与衰减中心角频率ωn的搜索解的频率吻合。在以上的说明中,规定了衰减中心频率(ωn/2π)的搜索范围,但是也可以以衰减中心角频率ωn或者偏角(ωnts)来规定搜索范围。

在以上的说明中,通过搜索范围R1的端部是否为搜索解,设定了新的搜索范围,但是如图14所示,也可以通过在距当前搜索范围R5的端部宽度L的范围内是否存在搜索解,来进行图9所示那样的变更搜索范围的动作。此时,在图9的步骤S13中,搜索解检测部2024A从描绘出的评价函数值的曲线中,检测在距搜索范围R5的端部宽度(规定范围)L的范围内是否存在搜索解。当在距搜索范围R5的端部宽度L的范围内存在搜索解时,例如,如图14所示,可以设定包含搜索解的搜索范围R6。根据该动作,可以设定以当前搜索范围R5内的搜索解的频率为基准的搜索范围,当在当前搜索范围R5外还存在评价函数值低的搜索解时,也可以检测该搜索解。

以上说明的动作还应用于速度前馈中的半径r的搜索范围不适合的情况。该情况下,半径r与速度前馈部108的IIR滤波器的传递函数F(z)的系数r对应,是第1参数。

如以上那样,通过利用本实施方式涉及的机器学习装置200,可以简化伺服控制装置100的速度前馈部108的参数调整。此外,通过搜索范围设定部,即使在搜索范围不是适合范围时也可以将搜索范围变更成适合的搜索范围。

以上,对伺服控制装置100、机器学习装置200所包含的功能块进行了说明。

为了实现这些功能块,伺服控制装置100和机器学习装置200分别具有CPU(Central Processing Unit)等运算处理装置。此外,伺服控制装置100和机器学习装置200还分别具有存储应用软件或OS(Operating System)等各种控制用程序的HDD(Hard DiskDrive)等辅助存储装置、存储运算处理装置执行程序之后暂时需要的数据的RAM(RandomAccess Memory)这样的主存储装置。

并且,分别在伺服控制装置100和机器学习装置200中,运算处理装置从辅助存储装置中读入应用软件或OS,一边在主存储装置上展开读入的应用软件或OS,一边进行根据这些应用软件或OS的运算处理。此外,根据该运算结果,来控制各装置具有的各种硬件。由此,实现本实施方式的功能块。也就是说,本实施方式可以通过硬件与软件协作来实现。

关于机器学习装置200,由于伴随机器学习的运算量增多,因此例如利用在个人计算机搭载GPU(Graphics Processing Units),称为GPGPU(General-Purpose computing onGraphics Processing Units)的技术,在将GPU用于伴随机器学习的运算处理时可以进行高速处理。并且,为了进行更高速的处理,可以使用多台搭载了这样的GPU的计算机来构筑计算机集群,通过该计算机集群所包含的多个计算机来进行并列处理。

(第2实施方式)

图15是表示本公开的第2实施方式的控制装置的一个结构例的框图。图15所示的控制装置11具有伺服控制装置100A和机器学习装置200。在图15中对与图1的结构部件相同的结构部件标注相同符号省略说明。

图15所示的本实施方式的伺服控制装置100A与图1所示的伺服控制装置100相比,不同点在于:没有加法器103、加法器106、速度前馈部108、以及位置前馈部109,而在速度控制部105与伺服电动机300之间设置有滤波器110。机器学习装置200除了根据伺服控制装置的结构差异,状态信息以及行为信息不同,基于状态信息以及行为信息的差异而动作不同之外,与使用图6~图14进行了说明的第1实施方式的机器学习装置的结构以及动作相同。以下,对与第1实施方式不同的伺服控制装置的结构与动作、以及机器学习装置的动作进行说明。

图15所示的伺服控制装置100A的滤波器110是使特定的频率成分衰减的滤波器,例如使用陷波滤波器。由电动机驱动的机床等机械中存在共振点,有时共振因伺服控制装置100A而增大。可以通过使用陷波滤波器降低共振。滤波器110的输出作为转矩指令输出给伺服电动机300。

数学公式3(以下表示为数学式3)表示作为滤波器110的陷波滤波器的传递函数G(s)。学习的参数是系数ωc、ζ、R。

数学公式3的系数R是衰减系数(陷波的深度),系数ωc是衰减中心角频率,系数ζ是比频带(陷波的衰减)。将中心频率设为fc,将带宽设为fw,于是通过ωc=2πfc来表示系数ωc,通过ζ=fw/fc来表示系数ζ。

【数学式3】

机器学习装置200学习如下价值Q:将指令以及反馈等伺服状态作为状态S,将该状态S有关的、滤波器110的传递函数G(s)的各系数ωc、ζ、R的调整选择为行为A,其中,所述指令以及反馈包含根据滤波器110的传递函数G(s)的各系数ωc、ζ、R,执行所述学习时的加工程序而取得的伺服控制装置100A的位置偏差信息、以及位置指令。机器学习装置200每当进行行为A时返回回报。该回报与第1实施方式所说明的一样,回报输出部2021计算根据通过行为信息A进行修正前的状态信息S有关的修正前的滤波器110进行了动作的伺服控制装置100A的位置偏差的评价函数值f(PD(S))。此外,回报输出部2021计算根据通过行为信息A进行了修正的状态信息S’有关的修正后的滤波器110进行了动作的伺服控制装置100A的位置偏差的评价函数值f(PD(S’))。并且,回报输出部2021通过将评价函数值f(PD(S))与评价函数值f(PD(S))进行比较来给予回报。机器学习装置200例如试错性地搜索最佳的行为A,以使到将来的回报合计为最大。这样,机器学习装置200能够针对包含根据滤波器110的传递函数的各系数ωc、ζ、R,执行学习时的加工程序而取得的位置偏差信息以及位置指令的状态S,选择最佳的行为A(即,滤波器110的传递函数的最佳的系数ωc、ζ、R)。

即,根据由机器学习装置200学习到的价值函数Q,选择应用于某个状态S有关的滤波器110的传递函数的各系数ωc、ζ、R的行为A中的、Q的值为最大那样的行为A,由此,能够选择执行学习时的加工程序而产生的机械端的振动为最小那样的行为A(即,滤波器110的传递函数的各系数ωc、ζ、R)。

另外,最初开始Q学习的时间点的滤波器110的传递函数的各系数ωc、ζ、R由用户预先生成。在本实施方式中,通过强化学习将用户制作出的滤波器110的传递函数的各系数ωc、ζ、R的初始设定值调整为最佳。在作业员预先调整了机床时,将调整完成的值作为初始值来对系数ωc、ζ、R进行机器学习。

此外,系数ωc、ζ、R可以同时进行学习,但是通过分开学习,可以降低机器学习量,可以缩短机器学习的收敛时间。

此外,机器学习装置200在搜索范围并不是适合范围时,通过搜索范围设定部2024将搜索范围变更成适合的搜索范围。

如图16所示,在陷波滤波器衰减中心频率(ωc/2π)的搜索范围是500Hz-1000Hz时,陷波滤波器衰减中心频率ωc/2π的最佳的搜索解选择下端部的500Hz。但是,机械特性的峰值频率是400Hz,与陷波滤波器衰减中心频率ωc/2π的搜索解的频率500Hz不符。在本实施方式中,也与第1实施方式一样,搜索范围设定部2024在机械特性的峰值频率与陷波滤波器衰减中心频率ωc/2π的搜索解的频率不符时,进行搜索范围的变更动作以使陷波滤波器衰减中心频率ωc/2π的搜索解与机械特性的峰值一致或者接近。

具体来说,搜索解检测部2024A取得由回报输出部2021计算出的评价函数值的集合,在当前设定的搜索范围(500Hz-1000Hz)内描绘评价函数值的集合,从描绘出的评价函数值的曲线中,检测搜索范围的端部(500Hz)是否为评价函数值的搜索解。评价函数式推定部2024B在搜索范围的端部为评价函数值的搜索解时,根据在搜索范围内获得的评价函数值从评价函数式模型中推定针对陷波滤波器衰减中心频率的评价函数式。搜索范围变更部2024C从推定出的评价函数式的形状中,重新决定搜索范围(300Hz-1000Hz)和搜索次数。这样,如图17所示,通过扩展搜索范围设定部的搜索范围的搜索范围变更动作,将搜索范围设为300Hz-1000Hz,由此,可以将搜索解设为400Hz,可以抑制振动。另外,衰减中心角频率ωc与滤波器110的传递函数的各系数ωc对应,是第1参数。衰减中心频率(ωc/2π)是用于第1参数(ωc)的搜索的第2参数。在以上的说明中,通过陷波滤波器衰减中心频率(ωc/2π)规定搜索范围,但是也可以通过衰减中心角频率ωc来规定搜索范围。

在图17中,扩展了当前设定的搜索范围的端部,但是也能够以与当前设定的搜索范围的一部分重叠的方式来设定搜索范围,或者将搜索范围设定为与当前设定的搜索范围不同的范围。

以上说明的动作还应用于滤波器110中的、系数ζ、R的搜索范围不适合的情况。

(第3实施方式)

图18是表示本公开的第3实施方式的控制装置的一个结构例的框图。图18所示的控制装置12具有伺服控制装置100B和机器学习装置200。在图18中对与图1的结构部件相同的结构部件标注相同符号省略说明。

图18所示的本实施方式的伺服控制装置100B与图1所示的伺服控制装置100相比,不同点在于速度前馈部108的IIR滤波器部1082替换为速度前馈处理部1083、以及位置前馈部109由微分器1091和位置前馈处理部1092构成。机器学习装置200除了根据伺服控制装置的结构差异,状态信息以及行为信息不同,基于状态信息以及行为信息的差异而动作不同之外,与使用图6~图14进行了说明的第1实施方式的机器学习装置的结构以及动作相同。以下,对与第1实施方式不同的伺服控制装置的结构与动作、以及机器学习装置的动作进行说明。

速度前馈部108的二阶微分器1081对位置指令进行二阶微分,并且速度前馈处理部1083进行速度前馈处理,将处理结果作为速度前馈项输出给加法器106。速度前馈处理部1083的数学公式模型的传递函数是数学公式4(以下表示为数学式4)所表示的传递函数K(s)。数学公式4的系数ci、dj(0≤i≤m,0≤j≤n,m,n是自然数)的最佳值通过机器学习装置200进行机器学习。

【数学式4】

位置前馈部109的微分器1091对位置指令进行微分,并且位置前馈处理部1092进行位置前馈处理,将处理结果作为位置前馈项输出给加法器103。位置前馈处理部1092的数学公式模型的传递函数是数学公式5(以下表示为数学式5)所表示的传递函数L(s)。数学公式5的系数ei、fj(0≤i≤m,0≤j≤n,m,n是自然数)的最佳值通过机器学习装置200进行机器学习。

【数学式5】

在第3实施方式中,机器学习装置200对速度前馈处理部1083的传递函数K(s)的系数ci、dj、与位置前馈处理部1092的传递函数L(s)的系数ei、fj进行学习。

在第3实施方式中,机器学习装置200分开进行速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习、与位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习,先于位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习,进行处于比位置前馈处理部1092靠近内侧(内环)的速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习。具体来说,固定位置前馈处理部1092的传递函数L(s)的系数ei、fj,学习速度前馈处理部1083的传递函数K(s)的系数ci、dj的最佳值。然后,机器学习装置200将速度前馈处理部1083的传递函数K(s)的系数ci、dj固定为通过学习获得的最佳值,学习位置前馈处理部1092的传递函数L(s)的系数ei、fj

这样,在通过学习而进行了优化的速度前馈项的条件下,可以进行位置前馈处理部1092的传递函数L(s)的系数ei、fj的优化有关的学习,可以抑制位置偏差的变动。

因此,先于位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习,进行处于比位置前馈处理部1092靠近内侧(内环)的速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习,可以抑制位置偏差的变动,可以实现高精度化。

机器学习装置200首先学习如下价值Q:将指令以及反馈等伺服状态作为状态S,将该状态S有关的、速度前馈处理部1083的传递函数K(s)的各系数ci、cj的值的调整选择为行为A,其中,所述指令以及反馈包含伺服控制装置100B中的、速度前馈处理部1083的传递函数K(s)的各系数ci、dj(0≤i≤m,0≤j≤n,m,n是自然数)的值、和执行学习时的加工程序而取得的伺服控制装置100B的位置偏差、以及位置指令。

机器学习装置200观测包含指令以及反馈等伺服状态的状态信息S,决定行为A,其中,所述指令以及反馈包含通过根据速度前馈处理部1083的传递函数K(s)的各系数ci、dj,执行学习时的加工程序的加工形状的位置A1与位置A3、以及位置B1与位置B3处的、伺服控制装置100B的位置指令以及位置偏差信息。机器学习装置200每当进行行为A时返回回报。该回报与第1实施方式所说明的一样,回报输出部2021计算根据通过行为信息A进行修正前的状态信息S有关的修正前的滤波器110进行了动作的伺服控制装置100B的位置偏差的评价函数值f(PD(S))。此外,回报输出部2021计算根据通过行为信息A进行了修正的状态信息S’有关的修正后的滤波器110进行了动作的伺服控制装置100A的位置偏差的评价函数值f(PD(S’))。并且,回报输出部2021将评价函数值f(PD(S))与评价函数值f(PD(S))进行比较而给予回报。机器学习装置200例如试错性地搜索最佳的行为A以使到将来回报的合计为最大。这样,机器学习装置200能够对包含指令、反馈等伺服状态的状态S,选择最佳的行为A(即,速度前馈处理部1083的最佳的系数ci、dj),其中,所述指令与反馈包含根据速度前馈处理部1083的传递函数K(s)的各系数ci、dj,执行学习时的加工程序而取得的伺服控制装置100B的位置指令以及位置偏差。在位置A1与位置A3、以及位置B1与位置B3处,X轴方向以及Y轴方向的伺服电动机的旋转方向不变,机器学习装置200可以进行线性动作时的速度前馈处理部1083的传递函数的各系数ci、dj的学习。

即,根据由机器学习装置200学习到的价值函数Q,选择应用于某个状态S有关的速度前馈处理部1083的传递函数K(s)的各系数ci、dj的行为A中的、Q的值为最大那样的行为A,由此,能够选择执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即,速度前馈处理部1083的系数ci、dj)。

另外,最初开始Q学习的时间点的速度前馈处理部1083的系数ci、dj由用户预先生成。在本实施方式中,通过强化学习将用户制作出的速度前馈处理部1083的系数ci、dj的初始设定值调整为最佳。速度前馈处理部1083的系数ci、dj,例如作为初始设定值,而设为数学公式4的c0=1、c1=0、c2=0、···、cm=0、d0=1、d1=0、d2=0、···dn=0。此外,预先设定系数ci、dj的维度m、n。即,对于ci设0≤i≤m,对于dj设0≤j≤n。

另外,在作业员预先调整了机床时,可以将调整完成的值作为初始值对系数ci、dj进行机器学习。

在以上说明的速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习结束时,开始位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习,与速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习同样地,进行位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习。

此外,机器学习装置200与第1实施方式同样地,在速度前馈处理部1083的传递函数K(s)的系数ci、dj的学习以及位置前馈处理部1092的传递函数L(s)的系数ei、fj的学习中,即使在搜索范围并不是适合范围时,通过搜索范围设定部2024将搜索范围变更成适合的搜索范围。

在本实施方式中,与第1实施方式同样地,搜索范围设定部2024在机械特性的峰值频率、与通过速度前馈处理部1083或者位置前馈处理部1092的系数ci、dj或者系数ei、fj的搜索解而确定的滤波器特性的衰减中心数的频率不符时,进行系数ci、dj或者ei、fj的搜索范围的变更动作,以使滤波器特性的衰减中心频率与机械特性的峰值一致或者接近。

具体来说,搜索解检测部2024A取得由回报输出部2021计算出的评价函数值的集合,在当前设定的系数ci、dj或者系数ei、fj的搜索范围内描绘评价函数值的集合,从描绘出的评价函数值的曲线中,检测搜索范围的端部是否是评价函数值的搜索解。评价函数式推定部2024B在搜索范围的端部是评价函数值的搜索解时,根据在搜索范围R内获得的评价函数值从评价函数式模型中推定针对系数ci、dj或者系数ei、fj的评价函数式。搜索范围变更部2024C从推定出的评价函数式的形状,重新决定搜索范围和搜索次数。这样,通过扩展搜索范围设定部的搜索范围的搜索范围变更动作,可以使机械特性的峰值频率、与速度前馈处理部1083或者位置前馈处理部1092的滤波器特性的衰减中心数的频率吻合,可以抑制振动。另外,系数ci、dj或者系数ei、fj是第1参数。

以上的说明中,扩展了当前设定的搜索范围的端部,但是也可以以以与当前设定的搜索范围的一部分重叠的方式设定搜索范围,或者将搜索范围设定为与当前设定的搜索范围不同的范围。

以上对本发明有关的各实施方式进行了说明,上述的伺服控制装置和机器学习装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外,由上述伺服控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里,所谓通过软件来实现表示计算机通过读入程序来执行从而实现。

可以使用各种类型的非临时性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序提供给计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读记录介质的示例包含:磁记录介质(例如,硬盘驱动器)、光-磁记录介质(例如,光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如,掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random access memory)。

上述实施方式是本发明的优选实施方式,但是并非将本发明的范围只限定于上述实施方式以及实施例,可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。

<机器学习装置包含在伺服控制装置的变形例>

在上述实施方式中,对将机器学习装置200、以及伺服控制装置100、100A、100B构成为控制装置10、11、12的第1实施方式~第3实施方式进行了说明。在这些实施方式中,机器学习装置200、以及伺服控制装置100由分开的装置构成,但是也可以将这些装置中的一个与其他装置构成为一体。例如,通过伺服控制装置100来实现机器学习装置200的功能的一部分或者全部。

<系统结构的自由度>

图19是表示其他结构的控制装置的框图。控制装置13如图19所示,具有n台机器学习装置200-1~200-n、以及n台伺服控制装置100-1~100-n、伺服电动机300-1~300-n、以及网络400。另外,n是任意的自然数。n台机器学习装置200-1~200-n的每一个与图6所示的机器学习装置200对应。n台伺服控制装置100-1~100-n的每一个与图1所示的伺服控制装置100、图15所示的伺服控制装置100A或者图18所示的伺服控制装置100B中的某一个对应。

图19中,机器学习装置200-1~200-n与伺服控制装置100-1~100-n这n个组经由网络400连接,但是机器学习装置200-1~200-n与伺服控制装置100-1~100-n这n个组,各组的机器学习装置与伺服控制装置可以经由连接接口直接连接。这些机器学习装置200-1~200-n与伺服控制装置100-1~100-n这n个组例如可以在同一个工厂中设置多组,也可以分别设置于不同的工厂中。

另外,网络400例如是在工厂内构建的LAN(Local Area Network)、互联网、公共电话网、或者它们的组合。对于网络600中具体的通信方式是有线连接还是无线连接等不做特别限定。

在上述的图19的控制装置中,机器学习装置200-1~200-n与伺服控制装置100-1~100-n作为一对一的组以能够通信的方式进行连接,例如一台机器学习装置200-1可以经由网络400而与多台伺服控制装置100-1~100-m(m<n或m=n)能够通信地连接,一台机器学习装置200实施各伺服控制装置100-1~100-m的机器学习。

此时,可以作为将机器学习装置200-1的各功能适当分散到多个服务器的分散处理系统。此外,机器学习装置200-1的各功能也可以在云上利用虚拟服务器功能等来实现。

此外,当存在与多个相同型号名称、相同规格、或者相同系列的伺服控制装置100-1~100-n分别对应的多个机器学习装置200-1~200-n时,可以共享各机器学习装置200-1~200-n中的学习结果。这样,能够构建更理想的模型。

33页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:机器人控制方法、装置、计算设备及计算机存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类