自动驾驶车辆规划和预测

文档序号：590129 发布日期：2021-05-25 浏览：4次 >En<

阅读说明：本技术 自动驾驶车辆规划和预测 (Autonomous vehicle planning and prediction ) 是由苏拉曼尼亚·拉马穆尔西西蒙·里昂斯威特·彭科夫莫里斯·安东内洛于 2019-10-16 设计创作，主要内容包括：一种预测外部活动者轨迹的计算机实施的方法,包括：在计算机处接收用于检测和跟踪外部活动者的传感器输入；将对象跟踪应用于传感器输入,以便跟踪外部活动者,并且由此确定在时间间隔内的外部活动者的观察踪迹；确定外部活动者的可用目标的集合；针对可用目标中的每个确定预期轨迹模型；以及将外部活动者的观察踪迹与可用目标中的每个的预期轨迹模型进行比较,以确定该目标的似然度。(A computer-implemented method of predicting trajectories of external actors, comprising: receiving, at a computer, sensor input for detecting and tracking an external actor; applying object tracking to the sensor input to track the external actor and thereby determine an observation trace of the external actor over the time interval; determining a set of available goals for the external actor; determining an expected trajectory model for each of the available targets; and comparing the observed traces of the external actor to an expected trajectory model for each of the available targets to determine a likelihood of the target.)

自动驾驶车辆规划和预测

技术领域

本公开涉及可以用作自动驾驶车辆(AV)规划的基础的预测方法。

背景技术

自动驾驶车辆，也称为无人驾驶车辆，是指具有用于监控其外部环境的传感器系统和能够使用这些传感器自动做出和实施驾驶决策的控制系统的车辆。这尤其包括基于来自传感器系统的输入来自动调整车辆的速度和驾驶方向的能力。完全自动驾驶或“无驾驶员”的车辆具有足够的决策能力，以在没有来自人类驾驶员的任何输入的情况下进行操作。然而，本文所使用的术语自动驾驶车辆也适用于半自动驾驶车辆，半自动驾驶车辆具有更有限的自动驾驶决策能力，因此仍然需要人类驾驶员的一定程度的监督。

为了安全且有效地导航遭遇的驾驶场景，自动驾驶车辆规划器需要能够以考虑其他车辆/主体的预期行为的方式进行规划。

发明内容

本发明的第一方面提供了一种预测外部活动者轨迹的计算机实施的方法，该方法包括：

在计算机处接收用于检测和跟踪外部活动者的传感器输入；

将对象跟踪应用于传感器输入，以便跟踪外部活动者，并由此确定在时间间隔内的外部活动者的观察踪迹；

确定外部活动者的可用目标的集合；

针对可用目标中的每个确定预期轨迹模型；以及

将外部活动者的观察踪迹与可用目标中的每个的预期轨迹模型进行比较，以确定该目标的似然度。

外部活动者可以是外部车辆或诸如行人、骑自行车的人等的另一外部活动者。在以下示例中，外部活动者是外部车辆，然而将理解，相关描述同样适用于其它形式的外部活动者。

在实施例中，该方法可以在自动驾驶自我车辆中实施，其中，自动驾驶车辆的规划器根据可用目标中的至少一个的似然度以及使用自动驾驶车辆的传感器系统获取的传感器输入来做出自动驾驶决策。

预期轨迹模型可以是与该目标相关联的单个预测轨迹或者是与该目标相关联的预测轨迹的分布。

预期轨迹模型可以是包括预测轨迹的集合中的每个预测轨迹Τ的条件概率p(Τ|G_i)的分布，并且在给定观察踪迹τ的情况下，目标的似然度p(G_i|τ)可用于估计至少一个预测轨迹概率p(Τ|τ)。

可基于每个目标的期望目标位置来确定该目标的预期轨迹模型。

可以通过针对每个目标执行生成模型来确定预期轨迹模型，生成行为模型已经被训练成基于真实世界驾驶行为的示例来生成轨迹。

模型可以是特定于与应用该方法有关的驾驶区域。

可以通过将采样算法应用于对预测轨迹的空间进行采样来确定预期轨迹模型，基于每个目标的一个或更多个参数以及外部主体的一个或更多个参数来针对每个目标定义预测轨迹的空间。

可以基于与外部主体相关联的地图数据来确定可用目标的集合。

可以基于一个或更多个自我车辆参数来确定预期轨迹模型，以对其他活动者对自我车辆行为的响应进行建模。

观察踪迹可以用于预测目标的最佳可用轨迹模型，并且所述比较可以包括：将最佳可用轨迹模型与预期轨迹模型进行比较。

观察踪迹可以用于预测外部活动者的当前操纵和/或未来操纵，所预测的当前操纵或未来操纵用于确定最佳可用轨迹模型。

可针对至少一个目标确定多个操纵的序列，并且可基于分别与多个操纵相关联的部分轨迹模型来针对针对该目标确定最佳可用轨迹模型。

每个部分轨迹模型都可以包括一个或更多个靶标运动值，并且可以通过将运动平滑应用于靶标运动值来确定最佳可用轨迹模型的未来部分的一个或更多个运动值。

每个目标的预期轨迹模型可以是该目标的单个预期轨迹，并且每个目标的最佳可用轨迹模型都可以是单个最佳可用轨迹。

每个操纵的部分轨迹模型都可以是该操纵的最可能的部分轨迹。

可以将所定义的成本函数应用于每个目标的预期轨迹模型和最佳可用轨迹模型两者，以确定那些轨迹模型的相应成本，其中，所述比较包括：比较那些成本。

成本函数可以对减少的驾驶时间进行奖励，同时对不安全的轨迹进行惩罚。

成本函数也可能会对缺乏舒适性进行惩罚。

本发明的第二方面提供了一种预测外部活动者轨迹的计算机实施的方法，该方法包括：

在计算机处接收用于检测和跟踪外部活动者的传感器输入；

将对象跟踪应用于传感器输入，以便跟踪外部活动者，并由此确定在时间间隔内的外部活动者的观察踪迹；

确定外部活动者的可能操纵的集合；

针对可能操纵中的每个确定预期轨迹模型；以及

将外部活动者的观察踪迹与可用操纵中的每个的预期轨迹模型进行比较，以确定该操纵的似然度。

该方法可以在自动驾驶车辆中实施，并且自动驾驶车辆的规划器可以根据可用操纵中的至少一个的似然度做出自动驾驶决策。

预期轨迹模型可以是与该操纵相关联的单个预测轨迹或与该操纵相关联的预测轨迹的分布。

观察踪迹可以与预测轨迹的分布的最可能的轨迹进行比较。

另一方面提供了一种自动驾驶车辆计算机系统，包括：预测组件以及规划器，预测组件被配置为实施本文的任何方法；规划器被配置为使用预测组件的输出来做出自动驾驶决策。

预测组件可以被配置为实施第一方面或其任何实施例的方法以提供针对外部主体的目标预测，以及实施第二方面或其任何实施例的方法以提供针对外部主体的操纵预测。

操纵预测可用于做出目标预测。

一种自动驾驶车辆，可以包括自动驾驶车辆计算机系统和驱动机构，该驱动机构耦接到规划器并且响应于由规划器生成的控制信号。

本发明的另一方面包括一种AV规划方法，该AV规划方法包括上述步骤以及AV规划器基于目标中的至少一个的确定的似然度来生成用于控制AV的操作的控制信号的步骤。

在实施例中，与每个目标相关联的预期轨迹模型可以包括与该目标相关联的预测轨迹或与该目标相关联的预测轨迹的分布。

每个目标G_i的分布可以包括预测轨迹的集合中的每个预测轨迹Τ的条件概率p(Τ|G_i)，并且在给定观察踪迹τ的情况下，目标的似然度p(G_i|τ)可用于估计至少一个预测轨迹概率p(Τ|τ)。

可以基于至少一个目标的确定的似然度和该目标的预期轨迹模型来生成控制信号。

可以基于(例如，在时间间隔的开始处-时间t处的)外部主体的一个或更多个初始参数来确定预期轨迹模型，以用于与观察踪迹进行比较。可以基于(例如，在时间间隔的结束处-时间t+ΔT处的)外部主体的一个或更多个更新参数来更新预期轨迹模型，以用于生成控制信号。

外部主体的参数可以是观察参数，即源自传感器输入的参数。

外部主体的一个或多个参数可以包括外部主体(在合适时间处)的位置。

可基于目标的一个或更多个参数来确定预期轨迹模型。

目标的一个或更多个参数例如可包括要到达的期望位置。即，每个目标可以由相应的期望位置参数化。

可以通过在计算机系统中针对每个目标执行生成模型来确定预期轨迹模型。可以基于外部主体的上述一个或更多个观察参数和目标的上述一个或更多个参数来执行生成模型。

可以通过将采样算法应用于对预测路径的空间进行采样来确定预期轨迹模型，基于目标的一个或更多个参数和外部主体的一个或更多个参数来针对每个目标定义预测路径的空间。

采样算法可以是随机采样算法，该随机采样算法基于一个或更多个随机输入参数对搜索空间进行随机采样以确定预测路径分布。

例如，采样算法可以是快速扩展随机树(RRT)。

生成模型可以是已经基于真实世界驾驶行为的示例被训练的机器学习(ML)模型。这样的示例可以从通过监控一个或更多个驾驶区域而捕获的真实世界驾驶行为数据中提取。

例如，生成模型可以包括神经网络或者其他机器学习(ML)模型，神经网络或者其他机器学习(ML)模型可以被训练以基于目标执行的真实世界示例来生成预期轨迹模型。

作为另一示例，生成模型可以是针对该方法所应用于的驾驶区域而预先确定的模型，诸如空间马尔可夫模型。该模型可以是基于在驾驶区域中观察到的真实世界驾驶行为而预先确定的。

可以最初基于外部主体的(一个或更多个)初始参数来执行所生成的模型以确定预期轨迹模型，以用于与观察踪迹进行比较，并且随后基于外部主体的(一个或更多个)更新参数来重新执行所生成的模型以用于生成控制信号。

该方法可以包括：基于目标中的至少一个的所确定的似然度和针对该目标所确定的(更新的)预期轨迹模型来确定外部主体在该时间间隔之后的至少一个预测轨迹。

可以基于目标的似然度和(更新的)预期轨迹模型来确定在时间间隔之后的至少一个预测轨迹的似然度。

可以基于至少一个预测轨迹来生成控制信号。

可以基于与外部主体相关联的地图数据来确定可用(假设的)目标的集合。

也可以基于与外部主体相关联的地图数据来确定一个或更多个目标参数。

地图数据可以至少部分地源自传感器输入。

可以通过将生成行为模型应用于源自AV传感器信号的外部主体的一个或更多个观察参数来计算预期轨迹模型。

生成行为模型还可以应用于一个或更多个自我车辆参数(以对其他活动者对由规划方法控制的自我车辆的响应进行建模)和/或应用于驾驶场景的一个或更多个参数(诸如道路布局/其他驾驶环境参数，以对其他活动者对其环境的响应进行建模)。

该方法可以包括以下步骤：基于目标的至少一个的预期轨迹模型和该目标的确定的似然度来确定外部活动者的至少一个预测轨迹。

可以更新预期轨迹模型以考虑生成行为模型所应用于的(一个或更多个)参数的改变(例如，以考虑外部活动者在时间间隔中的实际行为)。

本发明的其他方面提供了一种计算机系统，计算机系统包括执行硬件以及计算机程序，该执行硬件被配置为执行本文公开的任何方法步骤，该计算机程序包括可执行指令，该可执行指令被配置为在被执行时实施任何方法步骤。

另外的方面还提供了一种自动驾驶车辆(AV)规划器和一种自动驾驶车辆，该自动驾驶车辆(AV)规划器在计算机系统中体现并被配置为实施本文公开的任何方法步骤；该自动驾驶车辆包括自动驾驶车辆规划器和耦接到自动驾驶车辆规划器并响应于AV规划器生成的控制信号的驱动机构。

附图说明

为了更好地理解本发明，并且为了示出如何实现本发明的实施例，参考以下附图，在附图中：

图1示出了示出在自动驾驶车辆计算机系统中实施的功能组件的示意性功能框图；

图2示出了可以用于自动驾驶车辆操控规划的示例博弈树；

图3A-C通过示例示出了反向规划的某些原理；

图4示出了示例反向规划方法的流程图；以及

图5示出了从CCTV数据学习的轨迹模型的示例。

具体实施方式

下面详细描述本发明的示例性实施例。首先描述本发明的一些有用的背景。

图1示出了在AV(自我车辆)的车载计算机系统A1中体现的某些功能组件(即数据处理组件A2、预测组件A4和AV规划器A6)的高度示意性功能框图。

数据处理组件A2从AV的车载传感器系统A8接收传感器数据。车载传感器系统A8可以采用不同的形式，但是通常包括各种传感器，例如图像捕获设备(相机)、LiDAR单元等、(一个或更多个)卫星定位传感器(GPS等)、(一个或更多个)运动传感器(加速度计、陀螺仪等)等，这些传感器共同提供丰富的传感器数据，从这些传感器数据中可以提取关于周围环境以及该环境内的AV和其它活动者(车辆、行人等)的状态的详细信息。

但是，请注意，本技术不限于使用利用AV自身的车载光学传感器(图像捕获设备、激光雷达等)捕获的图像数据等。该方法可以替代地或附加地使用外部捕获的传感器数据(例如由AV附近的外部图像捕获单元捕获的CCTV图像等)来应用。在该情况下，可以通过AV经由一个或更多个无线通信链路从外部传感器数据源接收用于实施该方法的传感器输入中的至少一些。

数据处理系统A2处理传感器数据以便从中提取这样的信息。这通常将涉及各种形式的机器学习(ML)/人工智能(AI)处理。数据处理系统A2在当前背景下相关的功能包括定位(框A10)、对象检测(框A12)和对象跟踪(框A14)。

执行定位以提供对周围环境及周围环境中AV的位置的感知。为此，可以使用多种定位技术，包括可视化和基于地图的定位。举例来说，参考标题为“Vehicle Localization(车辆定位)”的英国专利申请No.1812658.1，该申请的全部内容通过引用合并于此。该申请公开了使用视觉检测和预定地图数据的组合的合适的定位方法。对视觉(图像)数据应用分割以检测周围的道路结构，然后将其与预定的地图数据(例如HD(高清)地图)进行匹配，以关于周围环境的道路和/或其他结构确定AV在参考地图框架中的位置的准确且鲁棒的估计，这又是通过融合视觉和地图数据将视觉检测与基于地图的推断相结合来确定的。为了确定位置估计，使用粒子滤波或类似方法，将根据结构匹配确定的单个位置估计与其他(一个或更多个)位置估计(例如GPS)组合起来，以为参考地图框架中的AV提供对单个位置估计的准确性波动具有鲁棒性的准确的位置估计。在准确确定了AV在地图上的位置之后，将视觉检测到的道路结构与预定的地图数据融合，以实时地图的形式提供对车辆当前和历史周围环境的全面表示，并提供对AV在参考地图框架中的位置的准确且鲁棒的估计。在此背景下，术语“地图数据”包括通过将视觉(或其他基于传感器的)检测与预定地图数据融合而得出的实时地图的地图数据，但也包括预定地图数据或从单独的视觉/传感器检测中得出的地图数据。

将对象检测应用于传感器数据，以检测和定位环境中的外部对象(例如车辆、行人和其他外部活动者)，AV需要能够安全地响应外部对象的行为。例如，这可以包括3D包围盒检测的形式，其中，估计对象在环境内和/或相对于自我车辆的位置、取向和大小。例如，这可以应用于(3D)图像数据，例如RGBD(红色、绿色、蓝色、深度)、LiDAR点云等。这允许在地图上确定此类外部活动者的位置和其他物理性质。

对象跟踪用于跟踪环境中检测到的对象的任何移动。结果是通过对象跟踪随时间确定每个对象的观察踪迹(τ)。观察踪迹τ是移动对象的历史，它捕获了移动对象随时间的路径，并且还可能捕获其他信息，例如对象在不同时间点处的历史速度、加速度等。

将对象检测和对象跟踪结合使用，允许在确定的AV周围环境的地图上全面定位和跟踪外部活动者。

对象检测和对象跟踪本身是众所周知的，并且可以使用各种公开可用的最新模型在当前背景下执行。

通过定位、对象检测和对象跟踪的组合，数据处理组件A2提供自我车辆的周围环境的全面表示、该环境中任何外部活动者的当前状态(可以检测到的程度的位置、朝向、速度等)、以及AV能够跟踪的此类活动者的历史踪迹。数据处理组件A2是实时连续更新的，以提供最新的位置和环境感知。

预测组件A4使用此信息作为预测分析的基础，在其中进行关于AV附近的外部活动者的未来行为的预测。合适的预测方法的示例在下面描述。

可以针对外部活动者确定至少一个概率预测。例如，这可以是在主体的可能的操纵上的分布P(M│τ)和/或在可能目标上的分布P(G|O)(见下文)。

符号O表示观察值的集合。观察值O可以是观察踪迹τ本身(O＝τ)，但O不必限于这个方面。例如，在一个实施例中，观察值O可以包括主体的操纵M_j，在这种情况下，可以使用符号P(G|M_j)(可能作为简写，因为观察值O可以包括附加的(一个或更多个)参数)(还注意到可以从踪迹τ推断操纵)。

AV规划器A6将提取的关于自我周围环境和自我周围环境中的外部主体的信息以及预测组件A4提供的行为预测用作AV规划的基础。也就是说，预测组件A5进行的预测分析在数据处理组件从传感器数据中提取的信息之上添加了一层预测信息，AV规划器A6又将该预测信息用作AV规划决策的基础。这通常是分层规划过程的一部分，在该分层规划过程中，AV规划器A6做出各种高层次决策，然后做出实施高层次决策所需的增加的低层次决策。最终结果是一系列实时的、低层次的动作决策。为了实施这些决策，AV规划器A6生成控制信号，这些控制信号至少部分输入到AV的驱动机构A16中，以便(例如，通过转向、刹车、加速、换挡等)控制车辆的速度和朝向。还生成控制信号以执行辅助动作，例如发出信号。

现在将仅通过示例的方式描述本发明的实施例。

反向规划

为了帮助AV规划器A6制定由自我车辆采取以全有效地执行所定义的目标的AV规划决策(例如确定操控、动作的序列等)，反向规划器A5预测附近外部活动者的移动，在当前背景下，附近外部活动者可称为主体。

可在操控级别实施反向规划，以便进行关于外部活动者的当前操控的概率预测。例如，反向规划器A5可预测可用操控集合M上的概率分布P(M|τ)，例如“跟随车道”、“转换车道”转换车道等，给定的相关观察值的集合包括踪迹τ(或源自踪迹τ)。操控级别的反向规划是以(概率)操控检测的形式。

可替换地或附加地，可以在目标级别实施反向规划，以便进行关于外部活动者的当前目标的概率预测。例如，反向规划器A5可以预测可用目标的集合G上的概率分步P(G|O)。在左转向的驾驶场景中，目标可以是作为合适的目标位置捕获的“左转”目标或“继续直行”目标(即，保持在当前道路上并且不进行左转向)。目标级别的反向规划是以(概率)目标识别的形式。

目标识别和操纵检测通常将在不同的时间尺度上操作。目标识别通常比操控检测考虑未来的更长时间段。例如，操控预测可在未来的几秒内(例如，5秒量级)进行预测，而目标识别可(根据境况)比操控预测进一步向前预测。因此，目标识别通常将考虑比操纵识别更长的轨迹(即，未来的进一步轨迹)。

目标例如可以被捕获为地图上(即，在参考地图框架中)的期望位置(参考点)，自我车辆试图从地图上的当前位置到达该期望位置，其中该期望位置是相对于所遇到的道路布局而定义的。例如，可以相对于特定的路口、车道布局、环形交叉路口出口等来定义期望位置。给定周围道路布局和任何外部活动者，将存在车辆可采取的各种路径/动作，以便通过到达期望位置来成功地执行该目标。还将存在自我车辆动作，该自我车辆动作将防止自我车辆这样做：例如，不良选择的初始动作序列可能导致车辆被迫采取不期望的环形交叉路口出口，或者由于当继续执行该目标时外部活动者的行为将是不安全的，则以其他方式中止目标。将关于外部活动者行为的可靠预测结合到规划中有助于AV规划器A6安全有效地规划，最小化中止目标的发生。

当在目标级别实施时，反向规划假设每个外部主体的不同可能目标，然后生成主体如何实现每个目标的轨迹，以及主体将遵循每个轨迹的似然度。一个基本的假定是每个外部主体将以可以使用生成模型来预测的方式来动作。

当前背景下的反向规划指的是可由AV预测组件A4实施的特定类型的预测方法。也就是说，反向规划方法是通过假定外部活动者以可预测的方式规划来预测外部活动者、尤其是其他车辆的行为的特定方法。

术语“反向规划”指的是外部活动者将以可预测的方式规划其决策的这种基本的假定。更正式地，假定是指其他车辆将利用可假设的生成模型进行规划并执行。

现在将参考图2描述反向规划方法，图2示出了该方法的流程图。这考虑了目标级别的反向规划，但是基本原理同样适用于操纵级别的反向规划。方法的步骤由反向规划器A5重复地、实时地或不实时地执行，使得足够新的预测总是可用于AV规划器A6。该方法使用由数据处理系统A2提供的信息，即关于周围环境/道路布局、环境内的任何其它活动者的位置/状态以及通过对象跟踪观察到的那些(一个或更多个)活动者的踪迹的信息。

对于所考虑的一个或更多个外部活动者(车辆、行人、骑自行车的人等)中的每一个执行以下步骤，在以下示例中，那些活动者是除AV之外的车辆。

在步骤SB2处，针对所讨论的其他车辆确定假设目标的集合。假定其他车辆当前正执行这些目标之一。为了确定合适的假设目标的集合，确定驾驶背景，诸如在其他车辆附近的道路布局。

外部主体目标通常基于地图来假设。例如，给定在道路路口、环形交叉路口或地图上指示的其它道路布局(驾驶背景)附近的外部车辆的集合，可以仅从道路布局假设合适的目标(而不考虑任何观察到的主体的历史行为)。举例来讲，如果其他车辆当前在多车道道路上驾驶而附近没有路口，则假设目标的集合可包括“跟随车道”和“转换车道”。作为另一个示例，在外部主体的集合处于左转路口附近的情况下，假设目标可以是向左转和继续直行。如所指示的，参考地图上的适当参考点来定义这样的目标。

然而，可以以各种方式假设目标。例如，在假设外部主体目标时可以考虑观察到的历史行为(诸如在时间t之前观察到的踪迹)，或者可以使用基于地图的推断和基于历史行为的推断的组合来假设目标。

注意，即使当历史行为不被用于假设可用目标时，历史行为仍然被用于确定那些目标中的每一个的似然度(参见下文)。

在确定了假设目标的集合之后，针对这些目标中的每一个执行以下步骤：

在步骤SB4处，针对所讨论的假设目标确定预期轨迹模型。预期轨迹模型是在假定其他车辆执行该特定目标的情况下模拟该其他车辆的未来行为的模型。具体地，预期轨迹模型指示在假定其他车辆在给定时间段Δt期间执行该目标的情况下，其他车辆在(从时间t到时间t+Δt的)给定时间段Δt内将采取特定一条或更多条路径(轨迹)的可能性。如所指示的，车辆执行的目标可以由基于地图的终点来参数化。例如，如果目标是继续直行(而不是比如左转)，则终点可以是在同一车道中的车辆前方设定距离(比如40m)处的道路上的点。或者，例如在多车道场景中，目标位置可以是沿着道路前方的某一距离，而不指定特定车道(参见下文的进一步细节)。

预期轨迹模型可以简单地是给定目标的(单个)预测路径，但是在本示例中，预期轨迹模型采取所讨论的目标的预测路径分布的形式。在给定外部车辆在时间t的位置r_t的情况下，通过综合所讨论的目标的n个预测路径的离散集合，来在本例中针对每个目标提供预测路径分布，从而提供至少时间间隔Δt的预测路径分布。

作为示例，图3A示出了分别作为特定外部车辆的预测的目标G1和G2的相应地预测路径的集合P_G1、P_G2。目标G₁、G₂分别相对于参考地图框架中的参考位置R₁、R₂来定义，目标G₁、G₂可以是地图上的点或区域。给定外部车辆在时间t的位置r_t和每个目标的参考点R₁、R₂的情况下，预测路径集合P_G1、P_G2分别被综合用于目标G₁、G₂。

尽管在该示例中，每个目标仅相对于单个参考点/区域来定义，但是如将理解的，目标可以以其他方式(例如在某些环境中适当地参考多个参考点)来定义。通常，目标由一个或更多个目标参数的集合来定义，该一个或更多个目标参数的集合通常又在自动驾驶的背景下在参考地图框架中被定义。参考地图框架中的参考位置是目标参数的一个示例，且关于此类参考位置的所有描述同等地适用于其它类型的目标参数。

遵循左转示例，将针对“继续直行”目标生成一个路径集合，该路径集合是预测其他车辆在其执行“继续”目标时可能采取的路径，并且将针对“左转”目标生成另一个路径集合，该另一个路径集合是预测其他车辆在执行“左转”目标时可能采取的路径。

生成模型可以用于综合这些路径。基本的假定是其他车辆将规划该模型并利用该模型执行。该模型可对应于AV规划器A6本身(假定其它车辆将以与自我车辆相同的方式规划)，但它也可不同于AV自身的规划器。

例如，可以使用快速探索随机树(RRT)模型来针对每个目标综合路径。根据图CA的示例，对于每个目标G₁、G₂，基于该目标的参考位置(分别为R₁、R₂)和外部车辆的当前位置r₀来定义预测路径的空间(搜索空间)。然后，(基于随机的输入参数)对搜索空间进行随机采样，以便确定n条路径的集合以及这些路径中的每一个的似然度。为了模拟每个目标的n条路径，RRT的相关参数被随机化n次，以执行搜索空间的n个适当偏置的随机搜索。

例如，标题为“Efficient computation of collision probabilities for safemotion Planning(用于安全运动规划的碰撞概率的有效计算)”的英国专利申请No.1803292.0公开了一种可以在当前背景下使用以实施反向规划的RRT模型，该专利申请通过引用全部并入本文。计算沿着给定轨迹的碰撞概率风险，并且用于按照安全性对候选轨迹进行排序。这又提供了在外部车辆更有可能采取更安全的路径来执行所讨论的目标的假定下的每个采样路径的似然度。也就是，可以基于假定的与安全性的关系来确定路径概率。采样路径及其概率是轨迹模型的一个示例。

然而，这仅仅是合适的生成模型的一个示例，并且也可以使用其他形式的生成模型。稍后描述可替代的轨迹模型的示例。

一个这样的示例是基于神经网络的模型，其已经被训练为在给定观察踪迹和要执行的目标的情况下输出路径预测模型(例如，预测路径或预测路径的分布)。基于真实世界驾驶行为示例来训练网络。例如，可以基于从已经在城市驾驶环境中捕获的大量CCTV(闭路电视)数据库中提取的示例来训练神经网络。

另一个示例是空间马尔可夫模型(或类似模型)，其可以通过在足够的时间段内监视驾驶区域(见上文)来针对特定驾驶区域预先确定。

通常，反向规划器A5可以是可以根据不同的假设目标来推理的任何模型。

在步骤SB6处，将在时间段Δt(即，在时间t和t+Δt之间)内实际观察到的其他车辆的踪迹与该时间段Δt内与所讨论的目标相关联的路径的分布相匹配，以确定该目标的似然度。

作为示例，图3B示出了在时间t和t+Δt之间的所讨论的车辆的实际观察踪迹τ。通过将实际踪迹τ与目标G₁、G₂(图3A)中的每一个的预测路径分布相匹配，可以针对时间间隔Δt概率性地确定每个目标G₁、G₂的似然度。这可以是软匹配的形式。在给定外部车辆的观察踪迹τ的情况下，目标似然度可作为每个假设目标G_i的条件概率(即p(G_i|τ))来捕获，该条件概率是在给定观察踪迹τ的情况下，外部车辆在时间间隔Δt内执行该目标G_i的估计概率。

换句话说，在假定其他车辆在该时间段内正在执行该目标的情况下，反向规划器A5用于针对假设目标中的每一个预测其他车辆在时间间隔Δt内可能已经采取的可能路径的集合和这些路径中的每一个的似然度(即，其他车辆执行该目标时其他车辆可能在时间间隔Δt内做了什么)。然后将其与该时间段内的其他车辆的实际踪迹(即，其他车辆实际做了什么)进行比较，以确定时间段Δt内的每个目标的似然度。

参考图3C，现在给定观察踪迹τ的情况下，每个目标的可能性都是已知的，给定观察踪迹τ的情况下，在时间t+Δt之后的任何给定预测路径(轨迹)Τ的(绝对)可能性可以例如被确定为：

其中p(G_i|τ)如上定义，p(Τ|G_i)是给定在时间t+Δt上的目标G_i的路径分布时，主体采取路径Τ的估计概率。注意，符号“Δt”和“ΔT”在本文是等同的。还注意到用于表示轨迹的数学符号(小写或大写希腊字母“tau”，即τ、Τ)和用于表示时间的符号(小写或大写拉丁语“t”，即t、T)之间的区别。

轨迹可以是简单的空间路径，但是该描述同样适用于结合运动信息(诸如速度/速率信息、加速度)的轨迹。对于后者，两个轨迹可以对应于相同的空间路径(或者轨迹的至少相应部分可以对应于相同的空间路径)，但是仍然是不同的轨迹，例如因为它们与不同的速率信息相关联(例如，至少在沿着空间路径的一些点处，一个轨迹可以对应于沿着基本上相同的空间路径但是以较低的速度移动的车辆)。例如，轨迹可以采取与相关联的速率或与空间路径的相应点或区段相关联的速率集合相结合的空间路径的形式。扩展可以另外结合相关联的(一个或更多个)加速度值等。

尽管在图中未示出，但是在时间t+Δt(根据其确定p(Τ|G_i))处的路径分布本身可以例如通过如上所述在时间t+Δt处针对目标G_i重新执行反向规划器A5来确定，但是在时间t+Δt处具有外部主体的新确定的位置r_t+Δt，以便相应地更新预期轨迹模型。为了重新执行反向规划器A5，目标参数此时可能已经更新或可能没有更新。在使用数据驱动行为模型的情况下，类似地，可以在那时重新执行行为模型，以便更新预期轨迹模型。

可能实时地随着时间重复执行上述步骤。对于在某种程度上偏离了其目标的外部主体，因为不同目标的路径分布最初是相似的，所以最初可能无法确定该外部主体正在执行哪个目标，并且这将反映在假设目标的集合上的概率分布中。随着路径分布发散，概率分布通常将随着路径分布发散而开始向特定目标偏斜。

操控的反向规划

以上考虑了用于目标的反向规划。如所指示的，还可以在操控级别在假设操控的集合M上实施反向规划。

例如，如果其他车辆当前在附近没有路口的多车道道路上驾驶，则假设操控的集合M可包括“跟随车道”和“转换车道”。在此情况下，将针对“跟随车道”操控生成一个路径集合，该路径集合是预测其他车辆在其当前执行“跟随车道”操控的情况下可能采取的路径，且将针对“转换车道”操控生成另一个路径集合，该另一个路径集合是预测其他车辆在其执行“转换车道”操控的情况下可能采取的路径。以上描述同样适用于操控级别反向规划，但是要用假设操控的集合M代替假设目标的集合G。

对于操控级别反向规划，外部主体的观察踪迹τ可用于估计可能操控的集合M中的每个操控M_j∈M的概率。如图3A所示，对于每个操纵M_j∈M，针对时间t确定预测轨迹模型。预测轨迹模型可以是单个轨迹或轨迹分布。然后，通过将实际观察踪迹τ与每个操纵M_j的轨迹模型进行比较(如图3B中)，可以基于观察踪迹τ与该操纵M_j的轨迹模型匹配的程度来估计该操纵的概率P(M_j|τ)。如上所述，这可以是软匹配的形式。

在以下示例中，为了简化计算，每个操纵M_j被映射到单个轨迹以用于反向规划的目的。对于与轨迹分布相关联的操纵，分布的模式或最可能的轨迹可以被采取用于反向规划的目的。在这种情况下，假定存在单个轨迹Τ_j，使得

P(Τ_j|M_j)＝1

并且所有其它轨迹的概率被假定为零。

上文所使用的符号在与给定操控M_j相关联的轨迹Τ_j和相对于给定目标G_i评估的轨迹Τ之间进行区分。

为了到达目标G_i，外部主体可执行操控的序列，例如(M_j、M_k、……)。在该情况下，(即，到达目标G_i的)总体目标轨迹可确定为与各个操纵M_i、M_j、……相关联的操纵轨迹的组合。例如，在以下描述的实施方式中，通过组合操纵轨迹并对其应用速率平滑来确定目标轨迹。为此，与操纵M_i相关联(或相对于操纵M_i评估)的轨迹Τ_i可以被称为“部分轨迹”，并且与目标相关联(或相对于目标评估)的轨迹Τ可以被称为“完整轨迹”。

在考虑到特定目标G_i的多个轨迹的情况下，可以使用符号Τ⁽ⁿ⁾代替Τ来称为到目标G_i的第n个轨迹。

已经发现部分轨迹和操控之间的“一对一”关系的上述简化假定采用降低的计算负担给出了可接受的性能。然而，不采用该轨迹与操控之间的“一对一”关系的简化假定的替代实施方案仍然可行。在没有这种简化假定的情况下，更一般的贝叶斯定理仍然成立：

其中p(Τ_k|M_j)∈[0,1]是给定操纵M_l的情况下，部分轨迹Τ_j的概率。在这种情况下，不是假定模式/最可能的部分轨迹，而是可以从p(Τ_j|M_l)采样部分轨迹，并且这里关于模式/最可能的部分轨迹的所有描述同样适用于在这种情况下的采样轨迹。

反向规划-示例实施方式

通过进一步的说明，现在将更详细地描述用于目标识别的反向规划的示例实施方式。这使用目标级别的反向规划来预测至少一个外部主体在可用目标的集合G上的概率分布P(G|O)，即，对于每个可用目标，该主体当前正在实施该目标的估计概率。

所描述的实施方式另外使用概率操控检测来预测给定外部主体的观察踪迹τ的可能操控的集合M上的分布P(M|τ)，即，对于每个可能操控，主体当前正执行该操控的估计概率。如稍后所描述的，将操纵预测馈入目标预测。操纵检测例如可以使用操控级别的反向规划来实施。

换句话说，所描述的实施方式在操控级别和目标级别进行推理。

目标识别

目标识别是在给定主体的过去动作的观察值和其它背景信息的情况下推断主体(外部活动者，其在以下示例中为靶标车辆，但可以是如所述的另一形式的活动者)的主体目标的过程。

在当前背景下，目标通常会为反向规划器A24正在推理其目标的车辆指定靶标位置，诸如高速公路/路口或不同车道上的各种出口点。知道另一主体的目标可以通知规划过程，因为可以预测主体相对于其假设目标的行为。

使用目标识别还增加了AV系统的“可解释性”。可解释性是指系统向人类解释其决策的能力。记录目标推断过程(自我车辆认为其它车辆在不同时间的目标是什么)可以提供用于决策跟踪和调试的可解释的信息。

可以确定性地或概率性地推断目标。在以下示例中，在给定相关观察值的集合O的情况下概率性地推断目标，即，针对有限的可用目标的集合G估计目标后验P(G|O)，其中P(G_i|O)是外部主体在给定观察值O的情况下具有目标G_i∈G的概率。

在MCTS的背景下，目标被概率性地推断，以便随着树在上述意义上展开而做出关于外部活动者的未来轨迹的合理预测。

操纵与目标

首先，描述用于确定可用目标和操控的示例方案。本说明书提供了与稍后描述的反向规划的特定实施方式相关的背景。然而，本描述不限于此方面，且同等地适用于MCTS的其它实施方式，MCTS的其它实施方式包括反向规划/目标识别的可替代实施方式和不使用目标识别的实施方式(例如，上文给出的使用数据驱动行为模型而不使用较高级别目标识别的示例)。

多策略基线

“多策略方法”用作基线。多策略方法的基本假定是包括自我车辆的所有车辆(或更一般地，外部活动者)在任何时间执行有限数量的操纵(诸如跟随车道、改变车道、转向等)之一。这样的操纵在本文中也可被称为“操纵策略”(注意操控策略(即，操控的有限集合的操控)与可用于执行选定操纵策略的动作策略之间的区别；还应注意，本文中可互换地使用操控/操纵)。

“靶标”活动者表示其行为正在被预测的外部活动者。可以对一个或更多个靶标车辆(或其他活动者)进行预测，并且将上述假定的集合应用于每个靶标活动者。在前一段中的操纵策略示例实际上是“闭环”的，意味着它们考虑传感器反馈并且自动地改变它们的速度和与前导车辆(前导车辆是靶标车辆跟随的车辆)的距离。然而，如下文所解释的，出于反向规划的目的，可将它们建模为具有增加的计算效率的益处且不显著影响反向规划器A24的性能的“开环”操控。在以下示例中，靶标车辆和前导车辆都是汽车，但是该描述同样适用于任何形式的活动者(车辆、行人、骑自行车的人等)。类似地，该示例考虑了自动驾驶汽车(自我汽车)，但是该描述适用于任何形式的自动驾驶车辆。

可以使用在操控级别的反向规划，以上述方式来实施操纵检测。

作为另一示例，预测组件A4的单独的操控检测器(MD)1102可以实施贝叶斯变点检测。该方法用于将靶标车辆的观察到的低级别轨迹分割成操纵序列，并且最近的区段被用作汽车当前执行的操纵的预测。使用此预测，为自我车辆可用的每个操纵都模拟多个前向轨迹，且选择具有最佳评估的操纵以用于执行。这又在以下示例中馈入到目标级别的反向规划中。

贝叶斯变点检测本身是已知的，并且指的是对系统的底层隐藏状态中的改变的概率检测。在当前背景下，外部活动者在特定时间的隐藏状态被定义为外部活动者在该时间执行的操控策略。该隐藏状态不是直接可观察的，因此需要通过由隐藏状态引起的观察值(在该实例中是观察踪迹)来推断。这允许在当前时间点估计每个可用操纵的概率，即外部活动者当前正在执行该操纵的概率。

比如，可使用隐马尔可夫模型(HHM)将操控表示为HHM的隐藏状态，其中将观察踪迹建模为由HMM的状态转换产生。

如下所述，可以定义相对小的操纵策略的集合以显著简化规划过程。由于以包含诸如速率和距离的低级别规划的方式来定义操纵策略，所以可以定义这样的小集合。类似地，由于假定其他汽车执行这些相同策略中的一个，因此在给定低级别轨迹的情况下，可以有效地推断其他汽车的当前操纵。

该多策略方法本身是目光短浅的，因为它仅预测其它汽车的当前操纵，但不试图预测其他汽车的未来操纵。在该方法上建立反向规划以预测未来动作，如稍后描述的。

例如，可使用隐马尔可夫模型(HHM)将操控表示为HHM的隐藏状态，其中将观察踪迹建模为由HMM的状态转换产生。

该多策略方法本身是目光短浅的，因为它仅预测其它汽车的当前操纵，但不试图预测其它汽车的未来操纵。在该方法上建立反向规划以预测未来动作，如稍后描述的。

操纵

基本操纵

操纵表示用于规划和预测的基本动作。在该示例中考虑以下“基本”(初级)操纵：

·车道跟随；

·左/右变道；

·左转/右转(在驾驶方向上转入最近车道)；

·停止/留心。

应理解，所描述的技术可以扩展到可替代的或附加的操纵中。

每个基本操纵都具有指定的适用性和与之相关联的终止条件。如果给定状态满足操纵的适用性条件，则操纵仅在该状态中可用。例如，如果在汽车的左边存在车道，并且如果在该车道上存在足够的用于汽车的开放空间，则向左变道是唯一的可能。适用性条件还可以编码交通规则。如果状态满足终止条件，则操纵终止。对于变道操纵，一旦汽车已到达车道上且与车道方向对准，便是此情况。

在操纵的开始和结束之间，操纵指定自我汽车要遵循的参考路径和沿着该路径的靶标速率。在当前背景下，轨迹被定义为成对(静态参考路径、靶标速率)，即，作为静态参考路径加上相关联的靶标速率的集合(参见上文)。

然而，一般而言，操纵与多个轨迹相关联。例如，在预测背景下，操控可以与轨迹分布(即，各自具有指定概率(即，外部活动者将遵循假定其当前正在执行该操纵的轨迹的概率)的轨迹的集合)相关联。

一些操纵(例如车道跟随和留心)不具有自然终止条件。对于这样的操纵，终止条件被指定为参数。“宏指令动作”(见下文)基于背景信息自动设置这些参数。

留心操纵是在宏指令动作中使用的停止操纵的变型。留心使汽车减速并继续移动到作为参数给出的指定位置。在该位置处，如果满足终止条件，则操纵终止，否则使汽车完全停止，然后当满足终止条件时终止。终止条件用于检查指定车道中的即将到来的交通流量(作为参数给出)。如果没有指定车道，则终止条件总是为真。这允许汽车在可能存在即将到来的交通流量时规划安全和平稳的进入/离开。

作为仅对于左/右出口宏指令留心的特殊情况，如果即将到来的车辆停止并且被预测为保持停止至少受控汽车完成转向操纵所需的时间量，则允许强制终止。这允许诸如在以下描述的场景3中的特殊情况。

一些基本操纵仅在宏指令动作中使用，这是因为它们具有附加参数或者因为它们仅在非常特定的位置(诸如转向操纵)中是可能的。

以下示例使用两种类型的基本操纵：更一般地，即，通过图1中的目标识别组件A24的用于反向规划(预测)或目标识别的开环操纵，以及在AV的规划器A6中的用于MCTS自我规划的闭环操纵。这些在下面的部分中详细描述。

闭环操纵

如果基本操纵使用来自传感器的反馈，则基本操纵是闭环的。这可以覆盖操纵中的不同自动化程度。这里，假定每个闭环操纵都自动地控制汽车的速率以及与前导车辆的距离(自适应巡航控制(ACC)的一种形式)。还假定每个操纵都能够自动启动紧急制动。

系统对于操纵的具体实施方式是不可知的，并且实质上将它们视为“黑盒”功能。这具有灵活性的益处，并且允许直接地合并不同的表示。可能的实施方式包括：

·使用有限状态机或任何编程逻辑的启发式硬编码(hard-codedheuristic)；

·使用由运动学自行车模型定义的运动基元的网格路径规划器；

·约束优化规划器。

上述列表中的规划方法在状态改变后可被重复调用以使它们闭环。

开环操纵

与闭环操纵相反，开环操纵不使用传感器反馈。开环操纵指定参考路径(或路径上的分布)，而不尝试利用反馈来校正这些路径。这允许更简单和计算成本更低的操纵的实施方式。

同样，系统关于开环操纵的表示是不可知的。

实施开环操纵的简单但有效的方法是将多项式函数拟合到从道路拓扑提取的点的集合。靶标速率可以被设置为恒定的或其他时间序列。这计算一个轨迹而不是轨迹上的分布，已经发现这在许多实际背景下是足够的。

另一实施方式使用上述类型的行为模型(例如高斯过程或神经网络)来收集驾驶轨迹。该轨迹数据可以以不同的方式生成：

·在变化的情况下，使用对应的闭环操纵在模拟中生成；

·根据利用AV平台生成的真实驾驶数据生成；

·根据被分割成识别的操纵真实CCTV数据生成。作为示例，图5示出了与随时间变化的在CCTV录像中观察到的轨迹拟合的高斯轨迹模型1202的示例。

在留心操纵中使用的条件(诸如“等待直到即将到来的交通流量畅通”)可以通过等待指定时间直到该条件被预测为真(例如，等待直到预测交通流量畅通)时而在开环操纵中实现。

靶标速率和速率平滑

如所提到的，在本示例中，轨迹被定义为与靶标速率的集合组合的静态路径。

在基本操纵内设定靶标速率。作为一般原理，可以(例如)假定车辆将试图在特定区域以特定速度(例如，限速)行驶。如果前方有较慢的汽车(在这种情况下汽车的速率是新的靶标)，或者如果由于驾驶路径的弯曲等需要，则减小该靶标。

对于开环车道跟随，靶标速率被设定为最小(限速，前面汽车(如果有的话)的速度)。

由于其简单性，该方法计算起来便宜，但是它可以导致用于碰撞的其他车辆的预测轨迹。例如，在以下场景1中，预测卡车在限速下继续直行(因为前方没有车辆)，并且还假定汽车2在限速下(在超车的车道跟随区段期间)超车。汽车2和卡车的预测轨迹可能碰撞，因为汽车2的反向规划实际上假定卡车的速率恒定。然而，在这种情况和许多其它情况下，已经发现这种差异不会给自我规划器A6造成问题：使用这种简单方法的预测输出，仍然可以采取安全有效的规划决策。

在生成弯曲轨迹的基本操纵(例如，转向和变道)中，使用基于局部曲率的启发式方法来设定靶标速率。该函数如下所示，其中v_target是靶标速率，并且ψ是点曲率。其他项是设定为适当值的常数：

v_target＝max(v_min，v_max-cψ)

点曲率由下面的等式给出，其中x和y是笛卡尔坐标。使用有限差分从车辆的靶标路径估计x和y的导数：

速率平滑

因为在基本操纵内设定速率，所以两个随后的操纵可能具有速率的突然改变。典型的示例是遵循转向操纵的车道跟随。

为了补偿这种影响，可以使跨不同操纵造成的完整轨迹在速率上平滑以改进控制和真实性。使用优化给定轨迹中的靶标速率的速率平滑函数。速率平滑用于预测(反向规划)和MCTS自我规划两者。

速率平滑被公式化为沿给定路径的轨迹上的优化问题。假定纵向位置处的点的集合和它们各自的靶标速率拟合连续且可微分的函数κ：x→v。然后，考虑(例如可以使用靶标速率来估计的)时间范围T_H、两个时间点之间经过的时间Δt以及优化的其他参数(例如，最大速度v_max和加速度a_max)，平滑问题被定义为：

s.t.x_t+1＝x_t+v_tΔt

0＜v_t＜v_max

|v_t+1-v_t|＜a_maxΔt

根据该问题的解决方案，空间重采样可以用于获得实际上在处可实现的值。最后可达到的位置由x_N给出。如果则可以仅从该解决方案中重新采样。

或者，可以从x_N开始解决类似的问题，可以重复该过程直到达到该条件。

还可以对与轨迹相关的其他(一个或更多个)参数(例如加速度)进行建模，并对这些(一个或更多个)参数施加约束作为对问题的延伸。

速率平滑应当考虑输入轨迹中的零速率，零速率指示完全停止。实现这一点的简单方式是将轨迹分成由停止事件(零速度)分离的区段，并且将平滑函数应用于每个区段。

宏指令动作

特定方式的操纵(在此称为“宏指令动作”)以以下两种重要的方式解除规划器：它们指定操纵的公共序列，以及它们基于背景信息(通常是道路布局)自动设定基本操纵中的自由参数。

在该示例中，使用以下宏指令动作(操纵参数在括号中示出)：

·继续车道：指定序列<跟随车道(直到可见车道终点，即车道目标)>。

·左/右出口：指定序列<跟随车道(直到转向点处/转向点附近)、留心(直到即将到来的交通流量畅通/安全距离)、左转/右转>。出口点被自动设定为对应于自我汽车的目标的一个，允许宏指令动作跳过较早的出口点(这在环形交叉路口中特别有用)。

·十字路口：指定序列<跟随车道(直到道路交叉口处/附近)、留心(直到十字路口的即将到来的交通流量畅通/安全距离)、跟随车道(直到道路交叉口后)>。

·超车：指定序列<右变道，跟随车道(直到自我汽车经过(一个或更多个)其他车辆)，左变道>。

宏指令动作的适用性条件由宏指令动作中的第一操纵的适用性条件以及可能的附加条件给出。例如，<右出口>的附加条件是汽车在其驾驶方向上处于最右车道上，并且靶标出口点在汽车前方的相同车道上。<十字路口>的附加条件是自我汽车必须在另一辆汽车前面让路的道路交叉口(参见下面的场景3)。宏指令动作的终止条件由宏指令动作中的最后操纵给出。

宏指令动作可显著地加速规划和预测过程，因为单个宏指令动作可能足以实现给定目标。例如，在下面的场景2中，如果自我汽车的目标是G3，则单个宏指令动作<右出口>将已经完成该目标。宏指令动作也是有用的，因为它们自动地处理操纵之间的切换点，否则将需要明确地规划(例如，设定诸如车道跟随的操纵的开放终止条件)。

在这样的操作中使用的宏指令动作不定义可分解动作的层次结构；它们以灵活的方式简单地定义动作序列。宏指令动作被隐含地包括在规划搜索空间中。

如所描述的，对于下面描述的特定示例MCTS过程，宏指令动作中的所有基本操纵都是闭环的，而对于反向规划，所有基本操纵都是开环的。

目标和目标生成

自我汽车的目标

基于路线规划生成自我汽车的目标。路线规划器(A25，图1)将带注释(用车道方向、交通标志等注释)的道路地图和开始/结束位置作为输入。它计算从开始位置到结束位置的路线，该路线指定自我汽车必须行驶通过的路段和方向的序列。该路线被向下传递到规划器A6，在规划器A6中，路线被用于生成自我汽车的目标，如下：

从概念上讲，规划器A6“放大”地图，该地图具有以自我汽车为中心的(例如正方形或圆形或任何合适的形状的)视图区域，类似于下面示出的场景图片。该视图区域随自我汽车连续移动。在任何时间点处，通过路线中的下一个出口点(在路线中的下一个出口点汽车需要从当前道路改变到连接道路)或如果路线中的下一个出口点还不可见，则通过当前车道的可见终点来给出自我汽车的目标。例如，在下面的场景1中，下一个出口点不可见，因此目标是G1。在下面的场景2中，出口点变为可见，并且新的目标变为G3。

其他汽车的目标

另一辆汽车的目标例如可以被定义为其可能的出口点以及在汽车方向上的道路的可见终点，其由自我汽车的视图区域界定。使用关于道路布局和交通规则的信息(例如，使用SDL道路图)将启发式目标生成函数用于列举给定视图区域中的汽车的可能目标的集合。为了减少计算时间，当有许多目标(例如，许多出口点)时，如果在汽车前面的同一车道上已经有两个较早的出口点，则该函数可以忽略汽车的出口点目标。

可以指定其他类型的目标，例如“我希望你在我前面”。可以基于环境中汽车的当前配置来动态地添加和移除这样的目标。下面的场景描述给出了目标的示例。

目标识别

在该示例实施方式中，如现在将参考图4描述的，基于“成本惩罚”来执行目标识别。

当前背景下的“规划”意指经选择以到达目标的一个或更多个基本操控的序列。在一些情况下，这种基本操纵序列可由宏指令动作定义。对于宏指令动作或多个基本操纵的一些其他序列，每个基本操纵与部分轨迹相关联，并且使用速率平滑来组合部分轨迹以确定用于到达目标的完整轨迹。

图4示出了基于成本惩罚根据可用目标的有限集合概率性地推断外部活动者的目标的方法的示意性流程图。图4的右手侧示出了应用于具有两个可用目标的场景的步骤的说明性示例：

1.G₁-沿着当前道路继续，其被定义为在可视道路的终点处的目标位置(更一般地，作为当前道路上的汽车前面的参考点)；

2.G₂-采取右转出口，根据出口位置定义。

给定观察到的汽车的可能目标的集合和由汽车执行的过去的基本操纵的序列，可以使用反向规划过程来计算目标上的后验分布。该方法在给定观察值O(例如，如在以上示例中的观察踪迹τ_n)的序列、目标上的先验分布P(G)和似然函数L(O|G)的情况下，在可能目标G上计算贝叶斯后验P(G|O)～L(O|G)P(G)。

符号P(O|G)和L(O|G)是等价的，并且表示给定目标G的观察值O的条件概率，符号“L”的使用与这些概率在统计意义上是似然度的事实一致(注意，在本公开的早期，术语似然度用于日常意义，而不一定是这种特定的统计。在上下文中含义将会清楚)。

目标是根据目标位置来定义的，并且符号G_i可以用于表示该区的目标位置。目标位置G_i可以是空间中的点，但是也可以是区或者可以对应于沿着道路的特定距离，例如，目标位置可以被定义为垂直于道路的线，并且在这种情况下，一旦汽车到达该线，就称该汽车已经到达目标(不考虑该汽车在道路中的横向位置)。

给定目标G_i∈G的似然度L(O|G_i)被定义为两个规划的各自成本之间的差(成本惩罚)：

1.从(在时间t处的)汽车的初始位置r_t到目标位置G_i的最优规划，即从r_t到G_i的最优规划，不考虑在时间t之后汽车的任何观察到的行为。这可以作为基本操纵、宏指令动作或除宏指令动作之外的多个基本操纵的序列来执行。利用多个基本操控，组合与其相关联的部分轨迹以提供用于从初始位置r_t到达目标G_i的最优完整轨迹(不考虑在时间t之后汽车的任何实际观察到的行为)；以及

2.“最佳可用”规划-这被定义为从r_t到目标位置G_i的最优规划，给定在时间t和时间t+Δt之间的汽车的任何观察到的行为，即，从r_t到G_i的最佳规划具有附加的约束，即该规划必须匹配在随后的时间间隔ΔT中实际观察到的行为。换句话说，作为从汽车的初始位置r_t到目标G_i的最优规划，使得该规划遵守观察值O。这假定汽车更可能执行最优规划以实现目标，但允许一定程度的偏差。这也可作为基本操纵、宏指令动作或除宏指令动作之外的多个基本操纵的序列来执行。利用多个基本操控，组合与其相关联的部分轨迹以提供用于从初始位置r_t到达目标G_i的“最佳可用”完整轨迹，但是考虑了在从t到t+Δt的间隔中汽车的实际观察到的行为。最佳可用轨迹具有与实际观察到的轨迹匹配的间隔[t,t+Δt]的观察到的部分和后续时间间隔的未来部分，选择最佳可用轨迹以便最小化与最佳可用完整轨迹相关联的总成本(即，观察到的部分和未来部分两者的总成本)。

这是目标识别的形式，因为它考虑到达目标的完整路径(该完整路径可以基于与多个操纵相关联的多个部分轨迹)。

分配给完整轨迹的成本可以考虑到如稍后描述的各种因素。这些因素包括驾驶时间(惩罚花费更长时间来到达目标的轨迹)、安全性(惩罚不安全的轨迹)和舒适性(例如惩罚具有过度加加速的轨迹)。

汽车的初始位置r_t可以例如是汽车的第一观察位置。合理的方法是使用由自我汽车的传感器范围定义的过去观察值的移动窗口来定义初始位置r_t。

在图4的步骤1004处，针对每个目标G₁、G₂计算最优规划(上面的1)。一旦计算，这允许例如使用A*搜索(详见下文)针对每个目标G₁、G₂确定最优轨迹。在计算了最优轨迹之后，然后可以计算与最优轨迹相关联的总成本(也在下面描述)。最优轨迹是完整轨迹，即，用于从初始位置r_t到达所讨论的目标。

在图4的示例中，轨迹由沿轨迹的在时间上均匀间隔的点表示，使得均匀间隔的点意指恒定速率，以及使得点之间的增加(或减小)的距离意指加速(或减速)。白色圆圈用于表示最优轨迹点。因此可以看出，对于目标G₁，最优轨迹是沿着道路以恒定速度连续的直线路径，而对于目标G₂，最优轨迹随着汽车接近出口的转向点而逐渐减慢。

在步骤1006处，针对每个目标G₁、G₂计算最佳可用规划(上文的2)。如所指示的，其考虑了(当汽车处于其初始位置r_t时的)时间t和当前时间t+Δt之间的实际观察值O。这些观察值O包括观察到的低级别踪迹τ，在图4中用黑色圆圈表示。

在该背景下，观察值O可以替代地或附加地包括汽车的当前操纵，即，可以根据汽车当前执行的操纵来估计每个目标的概率。它们可另外包括过去观察到的操纵。

尽管在图4中未明确示出，但如上所述，概率操纵检测被应用来预测汽车的可能的当前操纵上的概率分布。因此，根据在可能的当前操控下的分布p(M|τ)，当前操纵可能不是明确地知道的，而是仅是概率性地知道的。这可以通过首先根据p(M|τ)采样当前操纵M_j，然后根据该当前操纵M_j(即，具有包括M_j的观察值O)的目标概率分布p(G|O)进行采样来解决。

根据最佳可用规划，可以确定最佳可用轨迹(详见下文)，这又允许针对最佳可用轨迹确定总成本(也将在下文中描述)。这也是从初始位置r_t到目标位置G_i的完整轨迹的意义上的完整轨迹。最佳可用轨迹具有在时间t和t+Δt之间的与实际观察轨迹(即图4中的黑色圆圈)匹配的观察部分，并且另外包括在t+ΔT之后的时间的未来部分，在图4中使用斜阴影圆圈来表示。

在所描绘的示例中，可以看出，目标G₁的最佳可用轨迹的观察部分(黑色圆圈)和未来部分(斜阴影圆圈)两者都相当好地匹配该目标G₁的最优轨迹(白色圆圈)。因此，目标G₁的成本惩罚-最优轨迹的成本与最佳可用轨迹的成本之间的差-相对较低。

然而，对于目标G₂，观察轨迹(黑色圆圈)相当显著地偏离最优轨迹(白色圆圈)，因为汽车在时间t+Δt已经不能达到最优轨迹所需的程度。这种差异本身将不一定引起显著的成本惩罚(它可能取决于或者可能不取决于实施方式的细节)。然而，作为观察行为的结果，可以看出，最佳可用轨迹的未来部分(即，时间t+Δt之后的部分)必须必然包括急剧制动(其反映了从汽车的当前位置到G₂的最低成本路径必须涉及在给定汽车的境况下的急剧制动的事实)，这受到成本函数的惩罚。这种与最优轨迹的成本的差异意味着对于目标G₂的更高的成本惩罚。

在步骤1008处，对于每个目标G₁、G₂，根据成本惩罚计算目标似然度L(O|G)，即针对该目标在步骤1004处计算的最优规划的成本和在步骤1006处计算的最佳可用规划的成本之间的差。这又允许基于目标似然度和目标先验计算目标后验P(G|O)(步骤1010)。

先验P(G)可用于编码关于某些目标的“固有”概率的知识。例如，在图4的场景中，可以观察到，进行右转的汽车相对不频繁地存在，这可以被编码为具有P(G₂)<P(G₁)的先验。这将有效地使目标G₁偏向于G₂。对于没有这种先验知识的场景，可以简单地假定每个目标在没有对特定汽车的个体行为的任何观察的情况下是同样可能的，即P(G₁)＝P(G₂)。

以上假定了：在给定汽车的初始位置r_t的情况下，可以确定给定目标和针对该目标的最优规划，并且在给定随后时间间隔ΔT中的观察值的情况下，可以确定针对该目标的最佳可用规划。此外，假定：在给定最优(或最佳可用)规划的情况下，可以确定最优(或最佳可用)轨迹。如现在将描述的，用于以这种方式将目标映射到轨迹的规划的一种机制使用A*搜索。

概率规划识别算法

A*搜索

“A*搜索”是在包括宏指令动作的开环操纵上执行的。基于操纵的适用性条件来过滤操纵。如果基本操纵指定轨迹上的分布，则可以选择合适的单个轨迹例如作为模式或最可能的轨迹。

A*搜索是以节点和边的加权图的形式制定的已知方法。在当前背景下，其目的在于找到用于从给定位置(由起始节点表示)到达指定目标G_i的最优规划。图的节点表示操纵(基本操纵或宏指令动作)，并且目的是找到以相对低的成本到达目标的节点序列(并且因此找到序列操纵)。对于每个节点n，“迄今为止的成本”g(n)被定义为从起始节点到节点n的成本，并且启发式函数h(n)提供从n到目标的成本的估计。搜索在起始节点处开始，并且在每个节点处将序列延伸到具有最低节点成本的下一个节点，该最低节点成本被定义为：

f(n)＝g(n)+h(n)。

可以使用简化假定，即环境中的所有其它汽车都使用恒定速率模型。

为了找到从初始位置r_t到目标G_i的最优轨迹，搜索开始于在时间t和位置r_t处执行的汽车的操纵。在给定时间间隔Δt中的观察值O的情况下，为了找到从汽车的当前位置r_t+Δt到的目标的最佳可用轨迹，搜索开始于检测到的当前操控和当前位置r_t+Δt。

上述操纵检测方法可以用于检测操纵。注意，这通常将造成在可能的当前操纵上的概率分布。应当针对每个预测的当前操纵进行反向规划，因为预测的当前操纵可导致目标上的不同后验。因此，每个可能的当前操纵产生其自己的目标后验。为了计算效率，仅考虑n个最可能的当前操纵，并且忽略任何其他操纵，其中n是可以适当设定的方法参数。

到目前为止到达当前位置(当前搜索节点)的成本g(n)可以被定义为基于由基本操纵指定的路径和速率到当前位置的估计驾驶时间。

用于估计目标的剩余成本的启发式成本h(n)由在限速下通过直行从当前位置到目标位置的驾驶时间给出。注意，为了有效地引导搜索，h(n)仅需要提供最小剩余成本的估计以便引导搜索。因此，在此可以进行相对粗略的假定而不影响性能。

在找到最优规划之后，在规划中的操纵下生成完整轨迹。然后，将速率平滑应用于完整轨迹，并计算完整的成本函数(参见下面的成本函数部分)以获得规划的最终成本。如在下面的制动示例中，(应用平滑和完整的成本函数的)最后的步骤使得可以基于速率获得附加的“线索”。

速率平滑不应用于已经被观察到的轨迹的任何部分。否则，速率平滑的效果可以是淘汰暗示某些目标的迹象(参见下文在图4的示例的背景下的进一步细节)。

为了考虑其中汽车处于操纵(例如，变道)中途的情况，需要识别汽车的当前执行的操纵，使得当前执行的操纵可以在进一步规划到未来之前完成。

为了减小搜索空间，可以从搜索空间中移除基本转向和留心操纵，因为这些操纵不在宏指令动作之外使用。如果车道跟随操纵的终止条件被设定为作为默认值的某个固定长度，则该车道跟随操纵仍然可以用作宏指令动作之外的基本操纵。

本示例在反向规划期间不检查外部活动者之间的冲突。尽管这可以完成，但这将使整个过程更昂贵。此外，由于一些简化的假定(例如其他车辆的恒定速率)，可能存在碰撞不可避免地发生的情况。下面详细描述的多主体MCTS方法可以处理这种碰撞检查。

可替代地，作为反向规划的一部分，该过程可以延伸到对可能的冲突进行推理。

已经发现，以上关于A*搜索所阐述的假定提供了计算效率和性能之间的良好平衡。当然，应当理解，可以使用不同的假定的集合，例如非恒定速率模型。作为另一示例，通过仅考虑与操纵相关联的最可能的轨迹，以上基本上将搜索问题转变为确定性问题。然而，这可以同样地延伸到基于完整或截短的轨迹分布的概率搜索。也就是说，虽然以上考虑了单个轨迹形式的完全/部分轨迹模型，但是该技术也可以应用于完全/部分轨迹分布。

通过对每个目标G使用独立的线程，多线程可被用于加速该过程。在汽车具有独立目标的附加假定下，通过对每辆其他汽车使用一个进程/线程，可以实现进一步的并行化。

制动

尽管在上述方法中制动不被识别为是独特的操纵，但是该方法仍然能够将制动考虑在目标的似然度中。

作为示例，考虑图4所示和上述的场景。从汽车的初始位置到G2的最优规划由右出口宏指令动作给出。在应用速率平滑之后，结果是连续地减速直到汽车到达转向点的轨迹。该最优轨迹的成本由C2表示。

假定汽车被观察到现在在更靠近转向点的半路上跟随车道，并且类似于G2的最优轨迹减速。因此，如果到G2的轨迹被竞争，这导致具有类似于C2的成本的轨迹。另一方面，从初始状态到G1的最优轨迹将不涉及这种制动，(由于时间差异和可能的加加速)导致显著的成本差异。因此，G2的后验概率增加，而G1的概率减小。

(作为旁白：上面注意到，速率平滑不应用于已经观察到的轨迹的任何部分。在这个示例中这背后的原因是明显的：如果速率平滑应用于整个轨迹，则平滑也将降低已经观察到的车道跟随操纵的部分中的速率，这将导致较低的成本惩罚，因为制动不再非常突然。换句话说，它将使轨迹更类似于从初始观察位置的最优轨迹。因此，平滑适用于将过去轨迹视为不可修改的常数。)

现在假定替代地观察到汽车以恒定速率而不是减速跟随车道。如果该轨迹继续到G2，则其将涉及突然制动，导致成本远高于C2。另一方面，(保持在车道中的)继续到目标G1的轨迹基本上是从初始状态到G1的最优规划。因此，G2后验概率降低，G1后验概率增加。

最后，假定观察到的汽车跟随车道并且在接近转向点处突然减速。这种突然制动将对G2和G1造成显著的成本惩罚，因为其不在从初始状态的任一最优轨迹中。因此，两个目标的成本都将增加，从而导致两个目标的相对概率的较小改变。

根据目标预测轨迹

为了预测汽车到给定目标的可能轨迹和相关联的概率，可以使用与用于反向规划的相同的A*搜索方法。代替在其找到最优规划之后终止A*的是施加固定时间预算，并且允许算法计算具有相关联的成本的规划的集合(可能高达某个固定数量的规划)。在任何时刻，当A*搜索找到到达目标的节点时，对应的规划被添加到规划的集合中。通过连接由规划中的操纵给出的部分轨迹，来根据规划生成轨迹。

从规划中提取的轨迹上的分布可以使用softmax分布(轨迹模型)来计算：

其中，Τ⁽ⁿ⁾是到目标的第n条完整轨迹，C_m是轨迹的成本(平滑之后的完整成本)，β_n是轨迹Τ⁽ⁿ⁾(如上所述，符号Τ⁽ⁿ⁾用于到目标的第n条完整轨迹，以与给定操纵M_j的部分轨迹Τ_j相区分)的比例因子。这编码了更接近最优的轨迹更可能的假定。比例因子可以用于基于观察数据来权衡特定轨迹，即，允许在相关示例上训练轨迹预测模型。或者，可以使用恒定的比例因子(例如，值1)。

上述softmax轨迹模型可以用作经由RRT获得的轨迹模型的替代。

如在反向规划中，关注于诸如n个最可能的当前操纵的一些子集，针对每个预测的当前操纵产生这样的轨迹的集合。在完成当前操纵之后，开始A*，并且最终轨迹包括当前操纵的剩余部分。

这预测了各种似乎合理的轨迹而不是单个最优轨迹，这是有益的，因为存在多个轨迹达到(接近)最小成本但导致不同预测的情况，这进而可能要求自我车辆的该部分上的不同行为。

在硬件级别，AV的车载计算机系统A1包括：能够执行算法以实现上述功能的执行硬件。虽然执行硬件可以是通用或专用执行硬件，或其任何组合，但是执行硬件通常将包括一个或更多个处理器，例如中央处理单元(CPU)，并且一个或更多个处理器可以与专用硬件结合操作，专用硬件例如但不限于加速器(例如(一个或更多个)GPU)、现场可编程门阵列(FPGA)或其他可编程硬件和/或专用集成电路(ASIC)等。鉴于需要执行复杂的数据处理操作，通常使用具有足够的准确性和速度的(通常是实时的)精细的以及复杂的ML/AI模型，以确保安全可靠地操作，因此车载计算机系统可能非常精细，可能需要专门定制的专用计算机硬件来实现讨论的模型和算法。特别地，鉴于AI领域中创新的发展速度，将理解的是，在硬件级别和功能/软件级别上的AV车载计算机系统A1的架构可以采取多种形式。在此，计算机系统中体现的功能组件等(例如数据处理组件A2、预测组件A4和AV规划器A6)是由计算机系统实施的特定功能(即由特定情况下适当的计算机系统的通用硬件和/或专用硬件(的组合)执行的功能)的高级别表示。

权利要求书(按照条约第19条的修改)

1.一种概率性地预测外部活动者的目标的计算机实施的方法，所述方法包括：

在计算机处接收用于检测和跟踪所述外部活动者的传感器输入；

将对象跟踪应用于所述传感器输入，以便跟踪所述外部活动者，并由此确定在时间间隔内的所述外部活动者的观察踪迹；

确定所述外部活动者的可用目标的集合；

针对所述可用目标中的每个确定在所述时间间隔内的预期轨迹模型；以及

将所述外部活动者的观察踪迹与所述可用目标中的每个的预期轨迹模型进行比较，以确定所述目标的似然度。

2.根据权利要求1所述的方法，所述方法在自动驾驶自我车辆中实施，其中，所述自动驾驶车辆的规划器根据所述可用目标中的至少一个的似然度以及使用所述自动驾驶车辆的传感器系统获取的所述传感器输入来做出自动驾驶决策。

3.根据权利要求1或2所述的方法，其中，所述预期轨迹模型是与所述目标相关联的单个预测轨迹或与所述目标相关联的预测轨迹的分布。

4.根据权利要求3所述的方法，其中，所述预期轨迹模型是包括预测轨迹的集合中的每个预测轨迹Τ的条件概率p(Τ|G_i)的分布，并且在给定所述观察踪迹τ的情况下，所述目标的似然度p(G_i|τ)用于估计至少一个预测轨迹概率p(Τ|τ)。

5.根据前述权利要求中任一项所述的方法，其中，基于每个目标的期望目标位置来确定所述目标的所述预期轨迹模型。

6.根据任一前述权利要求所述的方法，其中，通过针对每个目标执行生成模型来确定所述预期轨迹模型，生成行为模型已经被训练成基于真实世界驾驶行为的示例来生成轨迹。

7.根据权利要求6所述的方法，其中，所述模型特定于与应用所述方法有关的驾驶区域。

8.根据前述权利要求中任一项所述的方法，其中，通过将采样算法应用于对预测轨迹的空间进行采样来确定所述预期轨迹模型，基于每个目标的一个或更多个参数以及所述外部活动者的一个或更多个参数来针对所述目标定义所述预测轨迹的空间。

9.根据前述权利要求中任一项所述的方法，其中，基于与所述外部活动者相关联的地图数据来确定所述可用目标的集合。

10.根据前述权利要求中任一项所述的方法，其中，基于一个或更多个自我车辆参数来确定所述预期轨迹模型，以对其他活动者对自我车辆行为的响应进行建模。

11.根据前述权利要求中任一项所述的方法，其中，所述观察踪迹用于预测所述目标的最佳可用轨迹模型，所述比较包括：将所述最佳可用轨迹模型与所述预期轨迹模型进行比较。

12.根据权利要求11所述的方法，其中，所述观察踪迹用于预测所述外部活动者的当前操纵和/或未来操纵，所预测的当前操纵或未来操纵用于确定所述最佳可用轨迹模型。

13.根据权利要求12所述的方法，其中，针对至少一个目标确定多个操纵的序列，基于分别与所述多个操纵相关联的部分轨迹模型来针对所述目标确定所述最佳可用轨迹模型。

14.根据权利要求13所述的方法，其中，每个部分轨迹模型都包括一个或更多个靶标运动值，并且通过将运动平滑应用于所述靶标运动值来确定所述最佳可用轨迹模型的未来部分的一个或更多个运动值。

15.根据权利要求11至14中任一项所述的方法，其中，每个目标的所述预期轨迹模型均是所述目标的单个预期轨迹，并且每个目标的所述最佳可用轨迹模型均是单个最佳可用轨迹。

16.根据从属于权利要求13时的权利要求15所述的方法，其中，每个操纵的所述部分轨迹模型均是所述操纵的最可能的部分轨迹。

17.根据权利要求11至16中任一项所述的方法，其中，将所定义的成本函数应用于每个目标的所述预期轨迹模型及所述最佳可用轨迹模型两者，以确定那些轨迹模型的相应成本，其中所述比较包括：比较那些成本。

18.根据权利要求17所述的方法，其中，所述成本函数对减少的驾驶时间进行奖励，同时对不安全的轨迹进行惩罚。

19.根据权利要求18所述的方法，其中，所述成本函数还对缺乏舒适性进行惩罚。

20.根据任一前述权利要求所述的方法，包括以下步骤：针对所述目标中的至少一个，确定所述外部活动者在所述时间间隔之后的至少一个预测轨迹，以及基于所述目标的似然度来确定所述预测轨迹的概率。

21.根据权利要求20所述的方法，其中，基于在所述时间间隔的开始处的所述外部活动者的位置来确定所述时间间隔中的预期轨迹模型，以及基于在所述时间间隔的结束处的所述外部活动者的位置来确定至少一个预测轨迹。

22.根据权利要求21所述的方法，其中，通过将采样算法应用于对预测轨迹的空间进行采样来确定所述至少一个预测轨迹，所述预测轨迹的空间是基于所述目标的一个或更多个参数以及所述外部活动者的新位置来针对所述目标定义的。

23.一种概率性地预测外部活动者的操纵的计算机实施的方法，所述方法包括：

在计算机处接收用于检测和跟踪外部活动者的传感器输入；

将对象跟踪应用于所述传感器输入，以便跟踪所述外部活动者，并由此确定在时间间隔内的所述外部活动者的观察踪迹；

确定所述外部活动者的可能操纵的集合；

针对所述可能操纵中的每个确定在所述时间间隔内的预期轨迹模型；以及

将所述外部活动者的观察踪迹与可用操纵中的每个的预期轨迹模型进行比较，以确定所述操纵的似然度。

24.根据权利要求23所述的方法，所述方法在自动驾驶车辆中实施，其中，所述自动驾驶车辆的规划器根据所述可用操纵中的至少一个的似然度做出自动驾驶决策。

25.根据权利要求23或24所述的方法，其中，所述预期轨迹模型是与所述操纵相关联的单个预测轨迹或与所述操纵相关联的预测轨迹的分布。

26.根据权利要求25所述的方法，其中，将所述观察踪迹与所述预测轨迹的分布的最可能的轨迹进行比较。

27.根据权利要求23至26中任一项所述的方法，包括以下步骤：针对所述操纵中的至少一个，确定所述外部活动者在所述时间间隔之后的至少一个预测轨迹，以及基于所述操纵的似然度来确定所述预测轨迹的概率。

28.根据权利要求27所述的方法，其中，基于在所述时间间隔的开始处的所述外部活动者的位置来确定所述时间间隔中的预期轨迹模型，以及基于在所述时间间隔的结束处的所述外部活动者的位置来确定至少一个预测轨迹。

29.根据权利要求28所述的方法，其中，通过将采样算法应用于对预测轨迹的空间进行采样来确定所述至少一个预测轨迹，所述预测轨迹的空间是基于所述操纵的一个或更多个参数以及所述外部活动者的新位置来针对所述操纵定义的。

30.一种计算机系统，包括被配置为执行任一前述权利要求所述的方法的执行硬件。

31.一种计算机程序，所述计算机程序包括可执行指令，所述可执行指令被配置为在被执行时实施根据权利要求1至29中任一项所述的方法中的任一方法。

32.一种自动驾驶车辆计算机系统，包括：

预测组件，所述预测组件被配置为实施根据权利要求1至31中任一项所述的方法；以及

规划器，所述规划器被配置为使用所述预测组件的输出来做出自动驾驶决策。

33.根据权利要求32所述的自动驾驶车辆计算机系统，其中，所述预测组件被配置为实施根据权利要求1至19中任一项所述的方法，以提供针对外部活动者的目标预测，以及实施根据权利要求20至23中任一项所述的方法，以提供针对所述外部活动者的操纵预测。

34.根据权利要求33所述的自动驾驶车辆计算机系统，其中，所述操纵预测用于做出所述目标预测。

35.一种自动驾驶车辆，包括驱动机构和根据权利要求32、33或34所述的自动驾驶车辆计算机系统，所述驱动机构耦接到所述规划器并且响应于由所述规划器生成的控制信号。

34页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：宏观检验系统、仪器和方法

自动驾驶车辆规划和预测

相关技术

网友询问留言