配置与环境交互的系统

文档序号：1020601 发布日期：2020-10-27 浏览：20次 >En<

阅读说明：本技术 配置与环境交互的系统 (System for configuring interaction with environment ) 是由 A.多尔 C.丹尼尔 M.沃尔普于 2020-04-15 设计创作，主要内容包括：配置与环境交互的系统。公开了一种系统(100),其用于配置另一系统(200)、例如机器人系统。另一系统(200)通过重复地进行如下来根据确定性策略与环境交互：从传感器获得指示环境状态的传感器数据、确定当前动作以及向致动器提供使得致动器在环境中实现当前动作的致动器数据。为了配置另一系统,系统(100)基于相对于所述策略的参数集合的累积奖励分布来优化损失函数。累积奖励分布包括先前交互日志的动作根据当前参数集合正被执行的动作概率。使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似所述动作概率。(A system is configured to interact with an environment. A system (100) for configuring another system (200), such as a robotic system, is disclosed. Another system (200) interacts with an environment according to a deterministic policy by repeatedly: the method includes obtaining sensor data from a sensor indicative of a state of an environment, determining a current action, and providing actuator data to an actuator that causes the actuator to achieve the current action in the environment. To configure another system, the system (100) optimizes a loss function based on a cumulative reward distribution relative to a set of parameters of the policy. The jackpot distribution includes a probability of actions being performed by actions of the previous interaction logs according to the current set of parameters. The action probability is approximated using a probability distribution defined by the action selected by the deterministic policy from the current set of parameters.)

配置与环境交互的系统

技术领域

本发明涉及一种系统和用于对根据确定性策略与环境交互的另一系统进行配置的计算机实现的方法，所述另一系统诸如在生产线中操作的机器人系统。本发明此外涉及用于与环境交互的系统和对应的计算机实现的方法。本发明此外涉及一种包括用以执行一种或两种方法的指令的计算机可读介质，以及一种包括确定性策略的参数集合的计算机可读介质。

背景技术

用于与环境交互的计算机控制的系统在本领域中是公知的。这样的系统通常包括用于获得环境的测量的一个或多个传感器、用于执行影响环境的动作的一个或多个致动器以及用于基于传感器测量来确定动作的处理器子系统。确定动作的过程经常被称为计算机控制的系统的策略。可以通过参数集合使策略参数化。例如，取决于参数，相同的系统被配置成执行不同的任务。计算机控制的系统包括机器人系统，其中机器人可以例如在外部设备或嵌入式控制器的控制下自动执行一个或多个任务。可以被计算机控制的系统的另外示例是载具及其部件、家用器具、电动工具、制造机器、个人助理、访问控制系统、无人机、纳米机器人和加热控制系统。各种计算机控制的系统可以在环境中自主操作，例如自主机器人、自主代理或智能代理。

本领域中已知的系统可以配置、换言之训练计算机控制的系统，例如，确定计算机控制的系统的策略的参数集合，所述策略的参数集合让计算机控制的系统执行给定的任务。在如机器人学的领域中，确定这样的参数集合可能引起高维和/或连续的控制问题，所述高维和/或连续的控制问题可以使用强化学习技术来解决。在强化学习中，关于给定的奖励函数来优化参数集合。在John Schulman等人的论文“Proximal Policy OptimizationAlgorithms”（其通过引用被并入本文中并且在https://arxiv.org/abs/1707.06347处可获得）中，提出了一种强化学习方法，所述强化学习方法通过交替地进行如下来优化参数集合：与环境交互以及关于刚刚曾被执行的交互而优化替代目标函数。策略是随机的、或者换言之概率性的策略。这意味着噪声被注入到每个动作、例如每个致动器参数中。噪声被用于探索以及用于更新策略以调整有利动作的可能性。

发明内容

用于与环境交互的现有系统和用于训练它们的系统（诸如上面讨论的那些系统）的问题是，它们需要许多环境交互以能够训练计算机控制的系统来执行给定的任务。例如，根据现有技术训练自驾驶汽车可能需要数百万次测试驾驶，或者训练制造机器人可能需要执行对数百万个样本的制造操作。这可以是非常昂贵且耗时的。换言之，现有系统就它们不能够充分地对从与环境的先前交互中学习的数据进行全利用的意义而言是数据低效的。出于该原因，这样的训练系统通常仅仅应用于模拟的环境交互，当应用于真实物理环境中时导致不太准确的策略。

一个相关的问题是，现有系统从先前的环境交互中收集的数据——例如由计算机控制的系统执行的动作和在执行这些动作之后的环境状态的测量——遭受高方差、换言之有不良稳定性。这可能减慢这样的所收集数据可以被用于改进策略的速率，从而减慢向最优策略的收敛。发明人认识到，所收集的数据中的该高方差的一个原因是，声噪既存在于例如由致动器执行的动作中并且还存在于例如由传感器测量的环境状态中。具体地，当执行策略时，在动作中注入的噪声导致一个方差，所述方差可能随着地平线的长度而线性增加。

此外，由于基于先前的环境交互来适配策略的方式，因此先前的技术可能不总是能够探索计算机控制的系统的可能行为的全集。具体地，先前的技术可能陷入局部最优，因为它们通过基于刚刚曾被执行的交互来更新策略，从而有效地使用局部搜索启发法。例如，在训练中的某点处，自驾驶汽车方向的小改变可能刚好使汽车驾驶偏离其直线路线并且从而损害整体结果，然而方向的较大改变可以帮助汽车避开障碍。然而，基于曾被执行的最后几次交互，尝试这样一个更大的改变可能是不合理的，使得局部搜索启发法可能不建议这样的改变。因此，可能获得用于执行给定任务的次优策略。

为了解决现有技术中的这些和其他问题，根据本发明的第一方面，如权利要求1所限定的，提供了一种系统，其用于配置另一系统。如例如在背景部分中所描述的，所述另一系统是被配置成与环境交互的系统。在这里和别处，用于配置另一系统的系统也被称为“配置系统”或“训练系统”。

根据本发明的另外的方面，如权利要求11所限定的，提供了一种被配置成与环境交互的系统。在这里和别处，被配置成与环境交互的系统也被称为“计算机控制的系统”、“物理系统”，或者被简称为“其他系统”以将其与配置系统形成对照。

根据另外的方面，提供了如权利要求12所限定的配置系统的方法和如权利要求13所限定的与环境交互的方法。根据本发明的另外的方面，提供了一种如权利要求14所限定的计算机可读介质。根据本发明的另外的方面，提供了一种如权利要求15所限定的计算机可读介质。

上述措施可以涉及根据策略与环境交互的计算机控制的系统。给定环境的状态，策略可以选择与它交互的系统将采取的动作。策略可以将从传感器数据推断的推断状态取作输入。传感器数据可以指示环境的实际物理状态。例如，传感器数据可以包括从一个或多个传感器获得的测量。例如，可以测量温度、压力、位置和定向中的一个或多个。测量还可以包括相机图像、声音记录等。测量通常是有噪声的和/或不完整的，并且在该意义上，从其推断的状态可以被视为是实际物理状态的近似。所推断的状态有时也被称为观测，例如，所述观测如从观测者的测量而被确定。如本领域中已知的，所推断的状态可以包括测量本身和/或从测量确定的物理状态的重建。所推断的状态还可以包括测量和/或重建的物理状态例如在固定的时间窗口之上的历史。所推断的状态通常被表示为例如浮点值的数字的向量，例如，环境状态的状态空间通常是平滑的、例如连续的。为简单起见，所推断的状态在下面也被简称为“状态”。

通过确定当前动作并且向致动器提供使得致动器在环境中实现当前动作的致动器数据，可以发生与环境的交互。例如可用的致动器的环境可以限定可用于被执行的动作的集合，所述动作的集合有时被称为动作空间。当前动作可以从动作空间选择。可能的致动器包括液压、气动和电动致动器。还可以存在多个致动器。动作通常也被表示为数字的向量，所述数字的向量例如表示用于一个致动器或用于多个致动器的一个或多个参数。动作空间通常是平滑的、例如连续的。

策略可以是确定性策略，例如，策略可以是在给定所推断状态的情况下返回固定动作的函数。具体地，还在物理系统的配置期间，通过策略而被返回的固定动作可以被执行，而不是根据在通过策略而被返回的可能动作之上的概率分布来对动作进行采样。可以通过参数集合使策略参数化。对执行策略的系统进行配置可以涉及迭代地优化该参数集合。将被优化的各种类型的策略和对应的参数集合从文献中是已知的，所述文献例如基于线性特征的策略、PID控制器、线性状态反馈控制器、（深度）神经网络等。策略通常是可微分的，这可以使得将各种优化方法用于优化参数集合的问题得以实现。

如权利要求所记载的，为了配置与环境交互的系统，可以迭代地优化策略的参数集合。具体地，这可以涉及在迭代中基于相对于参数集合的累积奖励分布来优化损失函数，例如指示策略在与环境交互中成功的损失函数。累积的奖励有时也被称为回报。优化参数集合可以包括确定使损失函数最大化或最小化的参数集合。例如，可以应用所谓的策略梯度方法，其中损失函数相对于参数集合被最大化或最小化。

可以基于与环境的一个或多个交互的累积奖励来限定累积奖励的分布。交互的累积奖励通常基于给定的、例如预定义的奖励函数。这样的奖励函数可以在给定环境状态和在该状态中被执行的动作的情况下提供奖励值。例如，可以从交互的相应状态和动作的奖励值来计算累积的奖励，尽管注意到在各种情况下，奖励函数可以被限定为仅在某一点处——例如，如果已经达到了某一目标或者甚至在交互结束时——提供奖励。奖励函数可以是用户指定的。

有趣的是，累积奖励分布可以基于在先前迭代中确定的至少一个先前的交互日志。在迭代中与环境交互的结果可以形成被存储在交互日志集合中的交互日志。典型地，这样的交互日志包括指示环境状态和由物理系统执行的对应动作的序列的交互数据，以及由物理系统用来执行交互的参数集合。交互日志可以包括交互的累积奖励，但是对于训练系统而言也有可能根据需要重新计算累积奖励。为了限定累积奖励分布，可以使用所有先前的交互日志，或者它们的子集。也可以使用当前迭代的交互日志。来自先前迭代的交互日志通常已经通过根据先前的参数集合与环境进行交互来被获得。也就是说，先前的交互日志通常是关于当前的参数集合的离策略样本。尽管如此，例如通过根据当前参数集合来确定先前交互日志出现的概率，发明人能够利用重要性采样来重复使用先前的交互日志。

通过在权利要求中记载的各种措施，实现了在迭代地改进参数集合方面的特别快速的进展。也就是，通过使用来自先前迭代的交互日志，可以合并更多的可用数据，从而导致对参数集合的更好更新。因此，改进了数据效率，例如，需要与环境的更少的交互。尤其当环境是物理环境时，与环境进行交互通常是昂贵且耗时的，因此减少交互量是特别有益的。此外，使用、尤其是随机地使用先前的交互减少了陷入局部最小值的机会，因为建议对参数集合进行特定修改的最近的交互可以被来自先前迭代的经验抵消。此外，先前交互的使用允许从具有低预期奖励的参数集合回溯，例如用于存储有希望的参数集合并且能够返回到它们的参数空间部分。

发明人此外认识到，与概率性/随机策略形成对照，确定性策略的使用此外改进了优化过程，并且从而改进了所获得的策略。概率性策略通常提供在给定状态中将执行的动作的概率分布。可以使用这样的概率分布以便获得关于如何更新策略参数以增加成功动作的可能性的梯度信号。随机方法可以通过动作空间中的噪声、例如策略协方差来驱动探索。发明人认识到，虽然使用随机方法的优化可以在极限处收敛，但是结果得到的探索行为通常是低效的，因为它不展现时间相关性。

替代地，各种措施可以涉及使用确定性策略。利用确定性策略，可以避免由于向策略添加时间不相关的噪声所致的低效率，从而减少方差。仅仅环境的随机性可以产生噪声。有趣的是，尽管例如由于对更新策略以增加有利动作的可能性的需要而认为随机策略的使用在策略梯度类型的方法中被固有地要求，但是发明人仍然能够使用确定性策略来代替。具体地，在各种实施例中，先前交互日志的使用可以包括确定先前交互日志的动作根据当前参数集合正被执行的动作概率。在确定性策略中，该概率要么为零，要么为一，使得离策略评估不可实行。然而，发明人认识到，可以通过使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似该动作概率，从而实现探索。

例如，动作概率可以发生在根据当前参数集合而发生先前交互日志的日志概率的计算中。如下面所讨论的，例如当使用重要性采样的各种变体对先前的交互日志进行加权时，日志概率可以被使用在执行优化所相对于的累积奖励分布中。日志概率可以例如以一似然比出现在累积奖励分布中，所述似然比是该日志概率相对于根据交互日志集合的子集的交互日志的参数集合而出现先前交互日志的日志概率的似然比。然而，不管它如何出现在累积奖励分布中，近似的动作概率都可以允许以这样的高效方式来近似累积奖励分布，使得即使诸如出现在神经网络中的参数空间之类的大的参数空间也可以被高效地导航。从而可以找到更好地控制物理系统的参数。

因此，在各种实施例中，用于与环境交互的系统可以由另一系统以这样的方式被配置，使得使用与使用本领域中已知的技术相比更少的系统交互来成功且可靠地学习参数集合。这关于一系列连续的控制基准任务参考图8a-8c得以表明。

在各种实施例中，物理系统可以包括机器人，例如在制造过程中使用的工具或机器。策略可以是用于让机器人执行特定轨迹或其他任务的控制器。在这样的情况下，所使用的传感器可以包括跌落传感器、关节定位传感器、相机等等。致动器可以控制例如机器人的物理部件（例如手臂）的操作电压。本文中的实施例提供对这样的机器人进行自动训练以最佳地执行手头的任务。

可选地，通过无模型策略梯度方法来迭代地优化策略的参数集合。换言之，例如，使用在本领域中被称为“对数导数技巧”的技术来计算梯度等，可以直接估计损失函数和/或其梯度。这样做具有的优点为，仅需要最少的假设来构造替代模型。在其他实施例中，确定更新的参数集合可以此外包括优化经学习的参数评论家模型，以进一步减少策略梯度方差。在关于策略梯度方法的文献中，各种参数评论家模型本身是已知的。

可选地，策略可以包括神经网络，例如深度神经网络。例如，由于通常导致可微分的损失函数，因此神经网络允许一大类行为被高效地捕获并且服从于各种公知的优化技术。不同的神经网络可以适用于不同种类的环境交互，例如，神经网络可以包括长短期记忆（LSTM）和/或状态反馈控制器等。参数集合可以包括因此可以被自动优化的神经网络的一个或多个权重。

可选地，用于近似先前交互日志的动作概率的概率分布可以围绕由确定性策略根据当前参数集合选择的动作而居中。换言之，概率分布的期望值可以等于由策略选择的动作。因此，累积奖励的近似可以被优化，其反映当前策略，但是同时包括对于推广到先前未见的策略参数化所必要的不确定性。

可选地，概率分布包括高斯分布。高斯分布的协方差矩阵可以独立于当前参数集合，例如，它可以被预定和/或设置为超参数和/或通过模型选择来被确定。例如，协方差矩阵可以被设置为单位矩阵乘以常数或者基于单位矩阵乘以常数。所述常数可以被视为长度标度参数，所述长度标度参数指示在参数空间的点之间的共享量。例如，长度标度参数的低值，例如具有-2的对数，可以指示相对低的共享量，而长度标度参数的较高值，例如接近或等于零，可以指示相对高的共享量。协方差矩阵不需要贯穿优化而保持恒定，例如，在各种实施例中，限定协方差矩阵的长度标度参数的值可以被配置成随着时间减小，以便逐渐有利于对模型进行更多的局部更新，并且从而更好地捕获局部效应。因为协方差矩阵独立于当前参数集合，所以它可以被单独调整和/或优化以更好地引导优化。

可选地，确定所更新的参数集合可以包括选择交互日志集合的（严格的）子集以及优化损失函数，其中损失函数基于交互日志集合的子集的累积奖励分布。因为仅使用交互日志集合的严格子集，所以减小了所述优化的计算成本，例如，所述优化可以扩展到大得多的日志集合。此外，实际上，实现了随机优化方案。由于可以在不同的迭代中选择不同的交互日志，因此可以防止所述优化陷入局部最优。

可以用各种方式来选择所述子集。例如，可以选择来自一个或多个在前迭代的交互日志，所述一个或多个在前迭代例如对于某个固定值的最后次迭代。这样的交互日志具有更有可能与当前的参数集合相关的优点。替代地或附加地，可以选择一个或多个随机选择的先前迭代、例如固定量的先前迭代。这样的交互日志具有能够更好地帮助优化逃离局部最优的优点。当前的交互日志可以包括在所述子集中，以更快地将新的数据整合到参数集合中，但是这不是必需的。所选择的交互日志的总数目可以在迭代之上保持固定，从而允许每次迭代执行的工作变得基本上独立于交互日志的总体集合的大小，或者可以是总体集合的大小的固定百分比，等等。

可选地，选择交互日志集合的子集可以包括从交互日志集合对交互日志进行采样，其中交互日志以随着其累积奖励而增加的概率被采样。例如，所述概率可以与其累积奖励成比例，等等。因此，以交互日志的形式执行了支持数据的优先化重采样，从而执行参数空间的探索，其有利于在可能的参数集合的空间中的有希望的区。换言之，回溯到有希望的解决方案得以实现。例如，选择交互日志集合的子集可以包括根据在交互日志集合之上的软最大（softmax）分布来计算交互日志被采样的概率。累积的奖励可以被标准化和/或根据温度因子被缩放。

可选地，累积奖励分布可以包括根据当前参数集合而出现先前交互日志的日志概率相对于根据交互日志集合的子集的交互日志的参数集合而出现先前交互日志的日志概率的似然比。这样的比可以对应于基于在交互日志集合的子集之上的经验混合分布的重要性采样估计。如上面讨论的，动作概率可以包含在该日志概率中。尽管可以相对于所有交互日志的日志概率来计算该似然比，但是发明人认识到也可以仅针对子集来计算该比。这改进了效率，尤其是因为针对每个交互日志计算相对于每个另一交互日志的比可不良地、在某些情况下成二次方地被缩放。

可选地，累积奖励分布可以包括交互日志的累积奖励的加权总和，其中加权总和根据缩放因子来被缩放，所述缩放因子包括权重总和。这样的加权重要性采样估计器可以进一步减少在基于累积奖励分布来计算损失函数中的方差。这样的标准化的重要性采样实际上可以取代标准策略梯度方法中对于方差减少所采用的基线项。

可选地，优化损失函数可以包括执行随机梯度下降和/或随机梯度哈密顿蒙特卡罗（Hamiltonian Monte Carlo）优化。这些优化方法可以允许相对高效地确定将被物理系统评估的下一参数集合，尤其是当与基于神经网络的策略相组合时。发明人发现哈密顿蒙特卡罗优化是对于优化方法的特别好的选择，因为它允许多模式搜索分布，并且从而允许探索系统的更丰富的行为集合。

可选地，优化损失函数包括最大化以下各项中的一个或多个：预期的累积奖励、关于预期累积奖励的下界以及关于累积奖励的置信下界。优化所述下界通常导致更稳定类型的优化，例如，可以出现更少的未预期的参数集合。对预期的累积奖励进行优化有利于刺激探索。注意到，优化可以是启发式的和/或可以导致局部最优。

可选地，损失函数可以包括使有效样本大小方面减小的惩罚。有效样本大小可以指示当前参数集合离已知参数集合有多远，例如，更高的有效样本大小可以指示累积奖励值中增加的置信度。使用惩罚值，可以获得关于预期累积奖励的一种类型的下界。惩罚值可以可选地由例如超参数的惩罚因子控制，以便控制探索（例如遵循目标估计）相对于风险意识（例如停留在信任区内）。

可选地，配置系统和物理系统都可以是子系统。例如，单个系统可以包括配置系统和物理系统二者。配置系统也可以是物理系统的子系统。在这样的情况下，由配置系统和物理系统使用的通信接口可以是内部通信接口。配置系统和物理系统可以各自包括单独的数据接口和/或处理器子系统，但是所述系统也可以共享公共数据接口和/或公共处理器子系统。

本领域技术人员将领会到，可以以任何被认为有用的方式来组合本发明的上面提及的实施例、实现方式和/或可选方面中的两个或更多个。

可以由本领域技术人员基于本描述来实施与对应系统的所描述的修改和变型相对应的任何计算机实现的方法和/或任何计算机可读介质的修改和变型。

附图说明

本发明的这些和其它方面将从实施例和附图中清楚并且此外参考实施例并且参考附图来被阐明，所述实施例在以下描述中作为示例而被描述，在所述附图中：

图1示出了一系统，所述系统用于对根据确定性策略与环境交互的另一系统进行配置；

图2示出了用于根据确定性策略与环境交互的系统；

图3示出了具有用于与环境交互的第一子系统和配置第一子系统的第二子系统的系统；

图4示出了如何基于先前的交互日志迭代地优化确定性策略的参数集合的详细示例；

图5示出了对系统进行配置的计算机实现的方法；

图6示出了根据确定性策略与环境交互的计算机实现的方法；

图7示出了计算机可读介质；

图8a-c示出了参数优化的基准结果。

应当注意到，各图纯粹是图解性的并且不按比例绘制。在各图中，与已经描述的元素相对应的元素可以具有相同的参考标号。

具体实施方式

现在提供各种示例性实施例。图1-图3相应地示出了配置系统、物理系统和组合这二者的系统的示例。接下来关于图4讨论用于确定例如将与这样的系统组合使用的参数集合的技术的细节。

图1示出了配置系统100，其用于配置另一系统200、例如物理系统。另一系统200可以是根据确定性策略与环境交互的系统。该策略可以基于环境的状态来选择另一系统200的动作。可以通过参数集合使该策略参数化。

系统100可以包括数据接口120和处理器子系统140，它们可以经由数据通信124内部地通信。处理器子系统140可以被配置成在系统100的操作期间并且使用数据接口120来访问另一系统200的交互日志集合030和/或策略的当前参数集合060。例如，如图1中所示，数据接口120可以提供对外部数据存储装置020的访问122，所述外部数据存储装置020可以包括所述数据030、060。可替换地，可以从作为系统100的部分的内部数据存储装置访问数据030、060。可替换地，可以经由网络从另一实体接收数据030、060。通常，数据接口120可以采取各种形式，诸如到局域网或广域网（例如因特网）的网络接口、到内部或外部数据存储装置的存储接口等。数据存储装置020可以采取任何已知的和合适的形式。

系统100还可以包括通信接口160，所述通信接口160被配置用于与另一系统200通信162。通信接口160可以经由数据通信142与处理器子系统140内部地通信。通信接口160可以被布置用于例如使用USB、IEEE 1394或类似接口与另一系统200的直接通信。通信接口160还可以通过计算机网络进行通信，所述计算机网络例如无线个域网、互联网、内联网、LAN、WLAN等。例如，通信接口160可以包括如适合用于计算机网络的连接器，例如无线连接器、以太网连接器、Wi-Fi、4G或4G天线、ZigBee芯片等。通信接口160也可以是内部通信接口，例如总线、API、存储接口等。

处理器子系统140可以此外被配置成在系统100的操作期间迭代地优化策略的参数集合060。处理器子系统140可以被配置成在迭代中经由通信接口160从另一系统200获得交互数据，所述交互数据指示环境状态和由另一系统200执行的对应动作的序列。处理器子系统140可以被配置成在迭代中将至少所述交互数据和另一系统根据其选择了所述动作的策略的当前参数集合存储为交互日志集合030中的当前交互日志。

处理器子系统140可以此外被配置成在迭代中确定策略的更新的参数集合060。确定更新的参数集合060可以包括基于相对于该参数集合060的累积奖励分布来优化损失函数。累积奖励分布可以基于在先前迭代中确定的至少一个先前的交互日志。累积奖励分布可以包括先前交互日志的动作根据当前参数集合060正被执行的动作概率。可以使用由确定性策略根据当前参数集合060选择的动作所限定的概率分布来近似该动作概率。处理器子系统140可以此外被配置成在迭代中例如经由通信接口160向另一系统200提供策略的更新的参数集合060。

将参考图4进一步阐明系统100的操作的各种细节和方面，包括其可选方面。

通常，系统100可以被具体化为单个设备或装置或者被具体化在单个设备或装置中，所述单个设备或装置诸如工作站、例如膝上型或基于桌面的工作站或者服务器。所述设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其它类型的处理单元的系统或组合来被具体化。软件可能已被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器或诸如闪存的非易失性存储器。可替换地，系统的功能单元、例如数据接口和处理器子系统可以用可编程逻辑的形式被实现在所述设备或装置中，例如作为现场可编程门阵列（FPGA）。通常，可以用电路的形式来实现系统的每个功能单元。注意到，系统100还可以用分布式方式被实现，例如涉及不同的设备或装置，诸如例如以云计算的形式的分布式服务器。系统100可以是图2的系统200的部分。

图2示出了根据确定性策略与环境010交互的物理系统200。该策略可以基于环境010的状态来选择所述系统的动作。可以通过参数集合060使该策略参数化。系统200可以被预先配置有参数集合060，所述参数集合060例如如先前由诸如图1的系统100的配置系统所确定。例如，系统100可以已经基于与系统200类似或相同的系统的环境交互来确定了参数集合060。系统200还可以例如获得参数集合060并且在多个环境交互中使用它。系统200还可以被配置成与配置系统（例如图1的系统100）交互以让配置系统确定参数集合。在这样的情况下，系统200可以重复地接收更新的参数集合060以执行与相应的环境的交互，如下面更详细地讨论的那样。

系统200可以包括数据接口220和处理器子系统240，它们可以经由数据通信224内部地通信。处理器子系统240可以被配置成在系统200的操作期间并且使用数据接口220来访问策略的参数集合060。例如，如图2中所示，数据接口220可以提供对外部数据存储装置022的访问222，所述外部数据存储装置022可以包括所述参数集合060。可替换地，可以从作为系统200的部分的内部数据存储装置访问参数集合060。可替换地，可以经由网络从另一实体接收参数集合060。通常，数据接口220可以采取各种形式，诸如到局域网或广域网（例如因特网）的网络接口、到内部或外部数据存储装置的存储接口等。数据存储装置022可以采取任何已知的和合适的形式。

为了与环境010交互，系统200可以包括传感器接口280和致动器接口270。系统200可以包括与环境010交互的物理实体或者与所述物理实体交互，例如，所述物理实体可以是载具或载具子系统、机器人等，或者例如照明系统或任何其他类型的物理系统（例如建筑物）之类的物理实体的连接或分布式系统的部件。

系统200可以包括传感器接口280，以用于从一个或多个传感器（未示出）获得指示环境010的状态的传感器数据282。传感器接口280可以经由数据通信244与处理器子系统240内部地通信。在下文中，出于解释的目的，讨论了单个传感器。传感器数据282可以包括环境和/或与其交互的实体的一个或多个物理量。在一些实施例中，传感器可以被布置在环境010中。在其他示例中，可以从环境010远程地布置传感器，例如如果可以远程地测量（一个或多个）量的话。例如，基于相机的传感器可以被布置在环境010的外部，但是仍然可以测量与该环境相关联的量，诸如该环境中物理实体的定位和/或定向。传感器接口280也可以从别处、例如从数据存储装置或网络位置来访问传感器数据。传感器接口280可以具有任何合适的形式，包括但不限于：低层级通信接口，例如基于I2C或SPI数据通信；而且还有数据存储接口，诸如存储器接口或持久性存储接口；或者个域网、局域网或广域网接口，诸如蓝牙、Zigbee或Wi-Fi接口或以太网或光纤接口。传感器可以是系统200的部分。

系统200可以包括致动器接口270，以用于向一个或多个致动器（未示出）提供使得一个或多个致动器在环境010中实现动作的致动器数据272。致动器接口270可以经由数据通信246与处理器子系统240内部地通信。为了便于解释，下面讨论单个致动器。例如，致动器可以是电动、液压、气动、热、磁性和/或机械致动器。具体还非限制性的示例包括电动机、电活性聚合物、液压缸、压电致动器、气动致动器、伺服机制、螺线管、步进电动机等等。致动器可以是系统200的部分。

处理器子系统240可以被配置成在系统200的操作期间控制与环境010的交互。控制与环境的交互可以包括重复地进行如下：经由传感器接口280从传感器获得指示环境010的当前状态282的传感器数据；根据策略确定系统200在当前状态中的当前动作272；以及经由致动器接口270向致动器提供使得致动器在环境中实现当前动作的致动器数据272。

可以通过基于相对于参数集合060的累积奖励分布而迭代地优化损失函数来确定策略的参数集合060。如所讨论的，参数集合060先前已经被优化，并且可以被系统200接收或者在系统200中被预先配置。例如，该参数集合可以已经基于与具有同系统200类似或相同的硬件配置的系统的环境交互来被确定。可替换地，参数集合060可以是在另一系统（例如图1的系统100）的迭代优化过程中被确定的当前参数集合。累积奖励分布可以包括先前交互日志的动作根据当前参数集合正被执行的动作概率。可以使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似该动作概率。

可选地，系统200可以包括通信接口260，所述通信接口260被配置用于与系统100通信262，系统100用于对系统200进行配置，系统100例如如关于图1所讨论的系统100。通信接口260可以经由数据通信242与处理器子系统240内部地通信。处理器子系统240可以被配置成经由通信接口260从系统100接收参数集合060，并且存储参数集合060、例如由系统100迭代地优化的当前参数集合。处理器子系统240可以此外被配置成经由通信接口260向另一系统100发送指示状态和所执行动作的序列的交互数据。例如，所述系统可以例如基于另一系统100的请求而重复地接收参数集合060并且发送交互数据。通信接口260可以对应于通信接口160，所述通信接口160例如被配置用于直接通信、通过计算机网络的通信、内部通信。

将参考图4进一步阐明系统200的操作的各种细节和方面，包括其可选方面。

通常，系统200可以被具体化为单个设备或装置或者被具体化在单个设备或装置中，所述单个设备或装置诸如工作站、例如膝上型或基于桌面的工作站或者服务器。所述设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其它类型的处理单元的系统或组合来被具体化。软件可能已被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器或诸如闪存的非易失性存储器。可替换地，系统的功能单元、例如数据接口和处理器子系统可以用可编程逻辑的形式被实现在所述设备或装置中，例如作为现场可编程门阵列（FPGA）。通常，可以用电路的形式来实现系统的每个功能单元。系统200还可以用分布式方式被实现，例如涉及不同的设备或装置，诸如例如以云计算的形式的分布式服务器。在一些实施例中，所述系统可以是例如机器人、载具子系统、照明或加热系统等之类的与环境交互的系统的部分。

图3示出了系统300，其包括用于根据确定性策略与环境010交互的物理子系统和用于配置第一子系统的配置子系统。例如，系统300可以包括配置系统100和/或物理系统200作为子系统。系统300可以包括传感器接口380，其用于例如基于图2的传感器接口280获得传感器数据382；和/或致动器接口370，其用于例如基于图2的致动器接口270提供致动器数据372。

系统300还可以包括数据接口320和处理器子系统340，它们可以经由数据通信324内部地通信。数据接口和处理器子系统可以在系统300的相应子系统之间共享。处理器子系统可以被配置成执行上面讨论的处理器子系统140和240的任务。数据接口可以提供对外部数据存储装置022的访问322，所述外部数据存储装置022可以包括交互日志集合030和策略的参数集合060，例如基于上面讨论的数据接口120或220。物理子系统和配置子系统可以经由通信接口与彼此通信，在这种情况下，所述通信接口可以包括数据接口320，例如用于共享参数集合060和/或交互日志集合030或者对参数集合060和/或交互日志集合030具有共享的访问权。例如，处理器子系统可以使用数据接口320存储所确定的策略的更新的参数集合060，从而向物理子系统提供例如用于执行与环境的下一次交互的参数。传感器接口380和致动器接口370可以经由数据通信344、346与处理器子系统340内部地通信。

图4示出了配置系统可以如何对根据确定性策略与环境交互的物理系统进行配置的详细又非限制性的示例。例如，图4的技术可以由图1的配置系统100应用来配置物理系统、例如图2的物理系统200。例如，也可以由具有配置系统和物理系统作为子系统的系统300来应用图4的技术。图4提供了由这样的系统的处理器子系统执行的操作的功能分区。图4的环境交互EI 430表示被配置的物理系统的环境交互。

如图中所示，策略的参数集合PAR 412可以被迭代地优化。一般来说，对参数集合PAR进行优化可以包括通过强化学习来学习策略。数学上，各种实施例可以被视为在离散时间马尔可夫环境中的情节强化学习问题的实例。数学上，可以用离散时间马尔可夫决策过程或MDP的措辞来用语言表述这样的强化学习问题。这样的MDP可以例如由元组

来描述，其各种部件将在下面讨论。

在迭代中可以例如由图2的物理系统200或由图3的系统300来执行根据当前参数集合PAR的环境交互EI 430。可以通过重复地进行如下来控制环境交互：从传感器获得指示环境当前状态的传感器数据；根据基于当前参数集合PAR的策略，确定系统在当前状态中的当前动作；以及向致动器提供使得致动器在环境中实现当前动作的致动器数据，如上面关于系统200和系统300所讨论的那样。例如，根据预定义的地平线长度，交互可以包括固定数目的动作，和/或交互可以被执行直到达到预定义的停止标准，所述预定义的停止标准例如是作为所执行的动作的数目、当前和先前的动作以及当前和先前的环境状态中的一个或多个的函数。

根据各种实施例的环境交互EI可以更数学地被描述如下。集合

可以捕获环境的状态集合，所述环境的状态集合例如如从传感器测量所推断。作为环境交互EI的部分，环境的状态可以根据依照转移概率的所执行动作而转移到后续状态中。在传统的强化学习中，环境交互是根据由参数集合被参数化的随机策略。然而，在各种实施例中，在环境交互EI中使用确定性策略，例如，策略可以是基于由参数集合 PAR被参数化的环境状态来选择系统的动作的函数。

在各种实施例中，函数

包括神经网络，例如深度神经网络。在这种情况下，参数集合PAR可以包括神经网络的一个或多个权重。然而，各种其他类型的策略和对应的参数集合是可能的，例如，策略可以包括比例-积分-微分控制器或PID控制器，其中具有为控制器的比例、积分和/或微分项提供一个或多个系数的参数集合PAR。作为另一示例，策略可以包括线性状态反馈控制器，所述线性状态反馈控制器例如具有提供控制器的反馈矩阵的一个或多个条目的参数集合PAR。典型地，如在上面的示例中，策略关于参数PAR是可微分的。

环境交互EI可以导致环境状态和对应的所执行动作的序列T 414，其也被称为轨迹。至少轨迹T和根据其选择了所述动作的策略的参数集合PAR可以形成当前交互日志IL-C410。当前交互日志IL-C可以被存储在交互日志集合ILS 440中。

与交互日志集合ILS中的交互日志一起存储的或者至少与所述交互日志相关联的可以是其累积的奖励，其有时被简称为回报或路径回报。环境交互的累积奖励可以指示环境交互EI的动作的成功。例如，如下面所讨论的，可以以这样的方式优化参数集合PAR使得根据策略执行环境交互的预期累积奖励被最大化。通常基于奖励函数来计算累积的奖励。例如

的奖励函数可以提供在给定状态中执行给定动作的奖励。交互日志（例如日志IL-C）的累积奖励

通常通过如下来从其轨迹、例如状态-动作对序列 T来被确定：将根据折扣因子

和/或在地平线长度

之上累积的相应动作的奖励相加和，例如。奖励函数、折扣因子和/或地平线长度可以被预定义。

在迭代优化的迭代中，可以通过基于相对于参数集合PAR的累积奖励分布而优化损失函数来确定更新的参数集合PAR。有趣的是，累积奖励分布可以基于至少一个先前交互日志IL-P 420，允许从先前的交互中获得的关于环境的知识被更有效地使用，并且从而减少所需要的环境交互的数目。这样的先前的交互日志可以包括轨迹T’424和参数集合PAR’422，根据所述轨迹T’424和参数集合PAR’422执行了先前的交互。由于参数PAR’通常不同于当前参数PAR，因此先前交互日志IL-P可以被视为相对于当前参数集合PAR的所谓的离策略样本。典型地，如上面所讨论的，与先前交互日志IL-P一起存储的或与先前交互日志IL-P相关联的也是其累积的奖励R(IL-P) 454。

尽管有可能使用所有先前的交互日志，但是有趣的是，在各种实施例中，在关于交互日志集合的子集ILSS 400来执行优化的意义上，优化可以被随机地执行。换言之，确定更新的参数集合PAR可以包括选择SEL 460交互日志集合ILS的子集，以及基于子集ILSS优化损失函数。典型地，ILSS包括多个交互日志，其包括先前交互日志IL-P以及可能地还有当前交互日志IL-C。如上面所讨论的，出于性能和/或为了促进探索和有利于逃离局部最优的原因，取得交互日志集合ILS的子集、例如严格子集是有益的。然而，注意到，取得子集不是必需的，并且例如子集ILSS也可以被选择为等于交互日志集合ILS，其例如包括当前交互日志IL-C。

可以使用各种选择标准来执行交互日志子集的选择SEL。典型地，所选择的交互日志的数目是预定义的，例如，选择了

数目的交互日志。以随着交互日志的累积奖励而增加的概率对交互日志进行采样通常是有益的。这样，可以更多地探索参数空间中有希望的区。例如，可以根据交互日志集合ILS之上的软最大分布以概率选择交互日志。具体地，个交互日志的集合可以从基于其累积奖励的可用交互日志集合ILS之上的软最大分布来提取，所述可用交互日志集合ILS之上的软最大分布也在下面被标示为。在一些实施例中，在取得软最大值之前，奖励可以首先被标准化，例如，使得在标准化奖励

之上的经验分布具有均值零和标准差一。在一些实施例中，软最大计算还考虑了温度因子

，以在交互日志的选择中对探索与利用进行权衡。温度因子的标准化和使用也可以被组合。例如，交互日志被采样的概率可以被给出为：

。

在各种实施例中，子集ILSS包括至少预定义数目的最近交互日志，例如，例如包括当前交互日志IL-C的五个最近交互日志，和/或例如根据如上面所详述的软最大分布的多个所选择的交互日志。

现在进行到基于交互日志集合ILSS来执行优化。如所讨论的，基于累积奖励分布的损失函数可以相对于参数集合PAR被优化。在各种实施例中，累积奖励分布可以基于包括先前交互日志IL-P的交互日志子集来被随机地近似。在该意义上，累积奖励分布的近似可以被视为累积奖励分布的替代模型。

在各种实施例中，为了将先前交互日志IL-P合并到累积奖励分布中，累积奖励分布可以包括先前交互日志的动作根据当前参数集合正被执行的动作概率P(IL-P) 452。正被执行的动作的概率可以处在其中根据先前交互日志曾被执行了该动作的状态中。动作概率P(IL-P)可以允许补偿在被用于获得先前交互日志IL-P的参数集合PAR’与当前参数集合PAR之间的差异。

例如，在各种实施例中，根据经验混合分布，在累积奖励分布中对先前交互日志ILSS进行加权。例如，将先前交互日志标示为

，经验混合分布可以被定义为

。先前交互日志IL-P的权重可以包括动作概率P(IL-P)。实际上，先前交互日志可以被视为是从经验混合分布

提取的i.i.d。

具体地，当使用经验混合分布时，累积奖励分布可以包括根据一似然比来被加权的先前交互日志IL-P的累积奖励R(IL-P)，所述似然比是根据当前参数集合PAR 412而出现先前交互日志IL-P的日志概率

相对于根据交互日志集合的子集ILSS的交互日志的参数集合而出现先前交互日志IL-P的日志概率的似然比，例如这些概率的平均。在该权重中可以包括动作概率P(IL-P)。例如，重要性权重可以由下式给出：

。

可以认为上述权重不能应用于确定性策略，例如，因为在确定性策略中，在给定参数集合的情况下在状态

中执行动作

的概率

为零或一。发明人的见解是，通过使用由确定性策略选择的动作所限定的概率分布来近似所述概率，仍然可以使用上述重要性权重。因此，先前交互日志的动作根据当前参数集合正被执行的概率P(IL-P) 452

可以使用由确定性策略根据当前参数集合PAR 选择的动作所限定的概率分布来被近似。更一般地，第一交互日志的动作根据对应于第二交互日志的参数集合正被执行的任何概率都可以以这种方式被近似，即，例如使用由确定性策略根据对应于第二交互日志的参数集合选择的动作所限定的概率分布。

用于近似所述动作概率的概率分布通常围绕由确定性策略选择的动作

而居中，并且例如可以包括具有独立于当前参数集合PAR的协方差矩阵的高斯分布。数学上，评估策略可以是如下：

。

例如，协方差矩阵

可以被设置为

，例如，

可以是对角协方差矩阵。

例如，数学上，可以相对于其来优化参数集合PAR的可能的预期累积奖励是：

，

其中，是所选择的交互日志ILSS的轨迹，

是当前参数集合PAR，以及重要性权重

是

。

标准化常数

的可能选择包括设置

以及设置

作为重要性权重的总和。后者实际上执行权重标准化，其对于减小估计的方差是有益的，尽管它可能向估计器添加偏差。

根据上面的表达式，可以观测到：由于在给定所有可用策略的情况下在所有轨迹的可能性之上的总和，上面给出的重要性权重

的计算可以与所使用轨迹的数目成二次方地缩放。尤其当策略相对复杂时，例如包括深度神经网络或类似物时，选择交互日志集合的相对小的子集ILSS通过使能缩放到大得多的数据集是特别有益的。此外，如所讨论的，通过对目标进行有效地随机优化，选择小子集有助于避免局部最小值。

在各种实施例中，协方差矩阵可以被预定义或甚至贯穿优化而变化以实现各种效果。例如，将设置为接近全零矩阵可以导致接近预期回报的标准蒙特卡罗估计器的行为。另一方面，使

变大导致类似于在所有可用的交互日志之上取平均的近似。使超参数变化从而允许在近邻策略之间共享多少信息和/或控制替代模型中的偏差量之间进行插值。

换言之，在动作空间中选择一个长度尺度

对执行如上述动作的概率进行近似从另一角度来看也是有利的。在实践中，回报分布频繁地在稳定与不稳定区之间展现急剧的转变，其中策略参数仅仅轻微地改变，但是奖励大幅度地改变。因此，一个全局长度尺度通常可能不很好地适合对预期回报直接建模。这是在用于强化学***滑核函数、例如平方指数核可能不能够同时对稳定和不稳定方案二者建模。然而，通过使用由根据当前参数集合的动作所限定的概率分布，换言之，在动作空间中，该动作空间中的长度尺度实际上可以经由采样状态分布和策略函数被转化成实际策略参数空间中的隐含假设。因此，可以在轨迹和动作空间中获得更有意义的距离，而不是在策略参数空间中的任意欧氏距离上操作。作为结果，累积奖励分布被更准确地表示，这可以导致更快速的收敛。

发明人已经发现，经验混合分布的使用允许有效地重复使用过去的经验，从而改进数据效率。然而，不必使用经验混合分布，例如替代地，可以使用重要性采样来根据当前参数集合对先前交互日志进行加权。在这种情况下，动作概率P(IL-P)可以以一似然比出现，所述似然比是在根据当前参数集合而出现先前交互日志的日志概率相对于根据交互日志的参数集合PAR’而出现先前交互日志的日志概率的似然比。该类型的重要性采样可以是计算上更高效的，其代价是对过去的经验进行不太有效的利用。不管是使用经验混合分布还是相对于当前参数集合PAR的另一类型的重要性采样，在任何一种情况下，累积奖励分布都通常包括动作概率P(IL-P)，所述动作概率P(IL-P)可以如所讨论的那样被近似。

在各种实施例中，基于相对于参数集合的累积奖励分布来优化损失函数包括如上面所讨论的最大化预期累积奖励，例如，最大化对于经验混合分布的近似累积奖励

。在其他实施例中，关于期望累积奖励的下界或关于累积奖励的置信下界被最大化，例如以便增加优化的稳定性。

例如，为了最大化关于预期累积奖励的下界，可以采用使有效样本大小（ESS）方面减小的惩罚值PEN 450。有效样本大小可以指示在特定策略评估定位处的可用数据点的有效数目，因此有效样本大小越低，存在的不确定性就越大，并且参数集合受惩罚就越多。

具体地，惩罚值PEN可以基于估计的有效样本大小的以下估计器：

。

发明人发现，基于该估计的有效样本大小，可以获得预期回报的以下下界估计：

。

该估计包括置信度参数

，所述置信度参数

指示优化可以步进远离参数空间的已知区多远。惩罚值PEN可以基于估计的有效样本大小被限定如下：

。

如这里所表明的，惩罚值PEN可以包括惩罚因子，例如，在以下的目标估计相对于风险意识（例如停留在信任区内）之间进行平衡的超参数。

为了相对于参数集合PAR优化损失函数，可以采用各种优化技术。在图中，随机梯度哈密顿蒙特卡罗优化HMC 460被用于确定参数集合PAR，其可以提供改进的探索行为，因为它实际上提供了多模式搜索分布，从而允许探索更丰富的行为集合。在其他实施例中，通过随机梯度下降来执行优化。在又一实施例中，使用了亚当（Adam）优化器，如在由DiederikP. Kingma和Jimmy Ba的“Adam: A Method for Stochastic Optimization”（在https://arxiv.org/abs/1412.6980处可获得并且通过引用被并入本文中）中所公开的那样。在仍另外的实施例中，利用自然策略梯度方法完成优化。

作为说明性示例，现在呈现用以根据实施例迭代地优化参数集合的算法。如该算法所表明的，使用确定性策略与选择交互日志集合的子集相组合，例如使用上面讨论的软最大重复（softmax replay）选择，使得能够合并不仅来自当前迭代的交互日志而且还有来自先前迭代的交互日志，从而改进数据低效率。在下面的算法中，关于预期累积奖励的下界被优化，但是其他损失函数也是可能的，例如，在没有惩罚值情况下的预期累积奖励

。

图5示出了对根据确定性策略与环境交互的系统进行配置的计算机实现的方法500的框图。该策略可以基于环境的状态来选择系统的动作。可以通过参数集合使该策略参数化。方法500可以对应于图1的系统100或图3的系统300的操作。然而，这不是限制，因为方法500也可以使用另一系统、装置或设备来被执行。被配置的系统可以是例如系统300的物理子系统或系统200。

方法500可以包括，在题为“COMMUNICATING WITH SYSTEM（与系统通信）”的操作中，与系统通信510。方法500可以此外包括，在题为“ACCESSING LOGS（访问日志）”的操作中，访问520系统的交互日志集合。方法500可以此外包括，在题为“OPTIMIZING PARAMETERS（优化参数）”的操作中，迭代地优化570策略的参数集合。

在操作570的迭代中，方法500可以包括，在题为“OBTAINING STATES, ACTIONS（获得状态、动作）”的操作中，从所述系统获得530交互数据，所述交互数据指示环境状态和由所述系统执行的对应动作的序列。在操作570的迭代中，方法500可以此外包括，在标题为“STORING AS CURRENT LOG（存储为当前日志）”的操作中，将至少所述交互数据和系统根据其选择了所述动作的策略的当前参数集合存储540为交互日志集合中的当前交互日志。在操作570的迭代中，方法500可以此外包括，在题为“DETERMINING UPDATED PARAMETERS（确定更新的参数）”的操作中，通过基于相对于参数集合的累积奖励分布而优化损失函数，来确定550策略的更新的参数集合。累积奖励分布可以基于在先前迭代中确定的至少一个先前的交互日志。累积奖励分布可以包括先前交互日志的动作根据当前参数集合正被执行的动作概率。可以使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似该动作概率。在操作570的迭代中，方法500可以此外包括，在题为“PROVIDING PARAMETERS（提供参数）”的操作中，向系统提供560策略的更新的参数集合。

图6示出了根据确定性策略与环境交互的计算机实现的方法600的框图。该策略可以基于环境的状态来选择动作。可以通过参数集合使该策略参数化。方法600可以对应于图2的系统200或图3的物理子系统系统300的操作。然而，这不是限制，因为方法600也可以使用另一系统、装置或设备来被执行。

方法600可以包括，在题为“ACCESSING PARAMETERS（访问参数）”的操作中，访问610策略的参数集合。方法600可以此外包括，在题为“CONTROLLING INTERACTION（控制交互）”的操作中，控制620与环境的交互。

操作620可以包括重复地执行以下操作中的一个或多个。在题为“OBTAININGSTATE（获得状态）”的操作中，操作620可以包括从传感器获得630指示环境的当前状态的传感器数据。在题为“DETERMINING ACTION（确定动作）”的操作中，操作620可以包括根据策略确定640在所获得的状态中的当前动作。可以通过基于相对于参数集合的累积奖励分布而迭代地优化损失函数来确定策略的参数集合。累积奖励分布可以包括先前交互日志的动作根据当前参数集合正被执行的动作概率。可以使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似该动作概率。在题为“PROVIDING ACTION TO ACTUATOR（向致动器提供动作）”的操作中，操作620可以包括向致动器提供650使得致动器在环境中实现当前动作的致动器数据。

将领会到，通常，可以以任何合适的次序、例如连续地、同时地或其组合来执行图5的方法500和图6的方法600的操作，在适用的情况下，其受制于例如由输入/输出关系所必需的特定次序。

所述（一个或多个）方法可以在计算机上被实现作为计算机实现的方法、作为专用硬件或作为二者的组合。如还在图7中所图示的，用于计算机的指令（例如可执行代码）可以被存储在计算机可读介质700上，例如以一系列710机器可读物理标记的形式和/或作为一系列具有不同的电学（例如磁性）或光学性质或值的元素。可执行代码可以用暂时性或非暂时性方式来被存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图7示出了光盘700。

可替换地，计算机可读介质700可以包括表示用于与环境交互的系统的确定性策略的参数集合的暂时性或非暂时性数据710，其中通过基于相对于参数集合的累积奖励分布而迭代地优化损失函数来确定策略的参数集合，累积奖励分布包括先前交互日志的动作根据当前参数集合正被执行的动作概率，其中使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似所述动作概率。

图8a-8c示出了根据实施例对用于与环境交互的系统进行配置的实验结果。该实验结果突出显示了本文中所提出的技术在数据低效率和学习进展方面相对于现有技术的策略梯度方法的优势。

各图示出了针对环境“车摆（cartpole）”（图8a）、“登山车”（图8b）和“游泳者”（图8c）的学***面机器人不得不尽可能快速地游泳。

粗线800-803、810-813、820-823示出了四个不同方法针对相应环境的平均回报的均值。示出了对应于每条粗线的两条较细的线，其对应于在平均回报以上或以下的一个标准偏差。所述值从10个独立的随机种子获得。所述值按比例被绘制为系统交互步骤数目的函数。线800、810、820示出了本说明书中提出的方法的性能。线801、811、821示出了如在J. Schulman等人的“Proximal policy optimization algorithms”（在https://arxiv.org/abs/1707.06347处可获得并且通过引用被并入本文中）中公开的PPO方法的性能。线802、812、822示出了如在J. Schulman等人的“Trust region policy optimization”（在https://arxiv.org/abs/1502.05477处可获得并且通过引用被并入本文中）中公开的TRPO方法的性能。线803、813、823示出了标准REINFORCE（强化）的性能，如在R. J.Williams，“Simple statistical gradient-following algorithms for connectionistreinforcement learning”，Springer，1992（通过引用被并入本文中）中所公开的那样。

与现有技术801-803、811-813、821-823相比，针对本方法800、810、820观测到了在开始中的显著更快速的学习速度。使用本文中描述的技术，在很少的交互之后就已经可以实现迅速的学习进展，并且竞争性的、现有技术的策略梯度方法的最终性能至少可以被匹配。将先前所见的展示数据以先前交互日志的形式结合起来，使能实现尤其在训练的早期阶段中的迅速进展。因此，在相同量的环境交互的情况下，可以获得更好的参数集合，和/或需要更少的环境交互来取得相同的品质。

示例、实施例或可选特征——无论是否被指示为非限制性的——都不应被理解为对如所要求保护的本发明进行限制。

应当注意到，以上提及的实施例说明而不是限制本发明，并且本领域技术人员将能够设计许多可替换的实施例而不偏离所附权利要求的范围。在权利要求中，被置于括号之间的任何参考标记不应被解释为限制权利要求。使用动词“包括”及其变位不排除存在除了权利要求中所陈述的元素或阶段之外的元素或阶段。在元素之前的冠词“一”或“一个”不排除存在多个这样的元素。诸如“其中至少一个”之类的表述当在元素列表或群组之前时表示从该列表或群组中选择全部或任何元素子集。例如，表述“A、B和C中的至少一个”应当被理解为包括仅A、仅B、仅C、A和B二者、A和C二者、B和C二者或者全部A、B和C。本发明可以借助于包括若干不同元件的硬件、以及借助于合适编程的计算机来被实现。在列举了若干构件的设备权利要求中，这些构件中的若干个可以通过硬件的同一项来被具体化。在相互不同的从属权利要求中记载了某些措施的仅有事实不指示这些措施的组合不能被有利地使用。

27页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种可搭载旋转LED的平衡小车系统及控制方法

配置与环境交互的系统

相关技术

网友询问留言