用于自主驾驶系统的使用空间和时间交通信息的在线驾驶性能评估

文档序号：1051923 发布日期：2020-10-13 浏览：12次 >En<

阅读说明：本技术 用于自主驾驶系统的使用空间和时间交通信息的在线驾驶性能评估 (Online drivability assessment using spatial and temporal traffic information for autonomous driving systems ) 是由 H.权 A.N.帕特尔 M.J.戴利于 2020-03-13 设计创作，主要内容包括：一种自主车辆、操作该自主车辆的系统和方法。该系统包括性能评估器、决策模块和导航系统。性能评估器确定用于操作自主车辆的多个决策中的每一个的性能等级。决策模块选择具有最高性能等级的决策。导航系统使用所选择的决策来操作自主车辆。(An autonomous vehicle, a system and a method of operating the autonomous vehicle. The system includes a performance evaluator, a decision module, and a navigation system. The performance evaluator determines a performance level for each of a plurality of decisions to operate the autonomous vehicle. The decision module selects the decision with the highest performance level. The navigation system operates the autonomous vehicle using the selected decision.)

技术领域

本公开涉及自主车辆，特别涉及评估所选择的驾驶决策的驾驶性能以改善决策选择的系统和方法。

背景技术

自主车辆旨在在没有或最小来自乘客的输入的情况下将乘客从一个位置移动到另一个位置。这样的车辆需要具有获得关于其环境中的代理(agent)的知识、预测其可能的未来轨迹以及基于该知识来计算和实施自主车辆的驾驶决策的能力。尽管可以针对所选场景为自主车辆提出各种驾驶决策，但能够始终如一地选择最适合该场景的驾驶决策是很有用的。因此，期望提供一种能够评估驾驶决策以便在自主车辆上实现最佳驾驶决策的系统。

发明内容

在一示例性实施例中，公开了一种操作自主车辆的方法。在与自主车辆相关的认知处理器的决策解析器处接收用于操作自主车辆的多个决策。为多个决策中的每一个确定性能等级。选择具有最高性能等级的决策。使用所选择的决策来操作自主车辆。

除了本文所述的一个或多个特征之外，性能等级是瞬时性能等级和时间性能等级的组合。瞬时性能等级基于对交通规则的合规性和对交通流的合规性。在从过去的开始时间到未来的结束时间的时间段内确定时间性能等级。开始时间是(i)新事件的开始时间和(ii)由当前时间之前的所选择的时间间隔指示的时间中的最新时间。该方法还包括使用时间性能等级中的标准等级偏差来加权瞬时性能等级和时间性能等级中的每一个在性能等级中的贡献。时间性能等级是在时间间隔上的平均等级和在时间间隔上的最小等级的组合。

在另一示例性实施例中，公开了一种用于操作自主车辆的系统。该系统包括性能评估器、决策模块和导航系统。性能评估器确定用于操作自主车辆的多个决策中的每一个的性能等级。决策模块选择具有最高性能等级的决策。导航系统使用所选择的决策来操作自主车辆。

除了本文所述的一个或多个特征之外，性能评估器将性能等级确定为瞬时性能等级和时间性能等级的组合。该系统还包括合规性模块，其确定车辆对交通规则的合规性和对交通流的合规性，其中瞬时性能等级基于对交通规则的合规性和对交通流的合规性。性能评估器确定在从过去的开始时间到未来的结束时间的时间段内的时间性能等级。开始时间是(i)新事件的开始时间和(ii)由当前时间之前的所选择的时间间隔指示的时间中的最新时间。性能评估器使用时间性能等级中的标准等级偏差来加权瞬时性能等级和时间性能等级中的每一个在性能等级中的贡献。时间性能等级是在时间间隔上的平均等级和在时间间隔上的最小等级的组合。

在又一示例性实施例中，公开了一种自主车辆。该自主车辆包括性能评估器、决策模块和导航系统。性能评估器确定用于操作自主车辆的多个决策中的每一个的性能等级。决策模块选择具有最高性能等级的决策。导航系统使用所选择的决策来操作自主车辆。

除了本文所述的一个或多个特征之外，性能评估器将性能等级确定为瞬时性能等级和时间性能等级的组合。该自主车辆还包括合规性模块，其确定车辆对交通规则的合规性和对交通流的合规性，其中瞬时性能等级基于对交通规则的合规性和对交通流的合规性。性能评估器确定在从过去的开始时间到未来的结束时间的时间段内的时间性能等级。性能评估器使用时间性能等级中的标准等级偏差来加权瞬时性能等级和时间性能等级中的每一个在性能等级中的贡献。时间性能等级是在时间间隔上的平均等级和在时间间隔上的最小等级的组合。

当结合附图考虑时，根据以下详细描述，本公开的上述特征和优点以及其他特征和优点将显而易见。

附图说明

其他特征、优点和细节仅通过示例的方式在下面的详细描述中出现，该详细描述参考附图，其中：

图1示出了具有根据各个实施例描绘的相关轨迹计划系统的自主车辆；

图2示出了包括与自主车辆或车辆模拟器集成的认知处理器的说明性控制系统；

图3示出了用于使用基于决策的性能等级选择的决策来操作车辆的本公开的系统；

图4示意性地示出了用于确定多个解决方案的性能等级以便操作自主车辆的过程。

图5示出了图4的示意过程，强调用于确定多个解决方案的时间性能等级的子过程；以及

图6示出了图4的示意过程，强调用于确定多个解决方案的最终性能等级并选择最佳决策的子过程。

具体实施方式

以下描述本质上仅是示例性的，并且不意图限制本公开、其应用或用途。应当理解，在所有附图中，相应的附图标记表示相同或相应的部件和特征。如本文所用，术语模块是指处理电路，其可以包括专用集成电路(ASIC)、电子电路、处理器(共享的、专用的或组)以及执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其他合适部件。

根据示例性实施例，图1示出了根据各个实施例的具有以100描绘的相关轨迹计划系统的自主车辆10。通常，轨迹计划系统100确定用于自动驾驶自主车辆10的轨迹计划。自主车辆10通常包括底盘12、车身14、前轮16和后轮18。车身14布置在底盘12上并且基本上包围自主车辆100的部件。车身14和底盘12可以共同形成框架。车轮16和18每个在车身14的相应角部附近旋转地联接至底盘12。

在各个实施例中，轨迹计划系统100结合到自主车辆10中。自主车辆10例如是被自动控制以将乘客从一个位置运送到另一个位置的车辆。自主车辆10在所示实施例中描述为乘用车，但应当理解，也可以使用任何其他车辆，包括摩托车、卡车、运动型多用途车(SUV)、休闲车(RV)等。在各个级别上，自主车辆可以通过多种方法来协助驾驶员，比如指示即将发生的危险情况的警告信号、通过预测警告潜在碰撞的其他代理的运动来增强驾驶员的处境意识的指示符。通过耦合的辅助车辆控制一直到完全控制所有车辆功能，自主车辆对车辆具有不同级别的干预或控制。在示例性实施例中，自主车辆10是所谓的四级或五级自动化系统。四级系统表示“高度自动化”，是指自动驾驶系统对动态驾驶任务的所有方面的驾驶模式特定性能，即使驾驶员没有适当地响应干预要求。五级系统表示“完全自动化”，是指自动驾驶系统在可由驾驶员管理的所有道路和环境条件下对动态驾驶任务的所有方面的全时性能。

如图所示，自主车辆10通常包括推进系统20、传动系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、认知处理器32和至少一个控制器34。在各个实施例中，推进系统20可包括内燃机、诸如牵引马达的电机和/或燃料电池推进系统。传动系统22配置成根据可选择的速比将动力从推进系统20传递至车轮16和18。根据各个实施例，传动系统22可包括有级传动比自动变速器、无级变速器或其他合适的变速器。制动系统26配置成向车轮16和18提供制动扭矩。在各个实施例中，制动系统26可以包括摩擦制动、线制动、诸如电机的再生制动系统和/或其他合适的制动系统。转向系统24影响车轮16和18的位置。尽管出于说明性目的示出为包括方向盘，但在本发明范围内预期的一些实施例中，转向系统24可以不包括方向盘。

传感器系统28包括一个或多个感测设备40a-40n，其感测自主车辆10的外部环境和/或内部环境的可观察到的状况。感测设备40a-40n可包括但不限于雷达、激光雷达、全球定位系统、光学相机、热相机、超声传感器和/或其他传感器。感测设备40a-40n获得与车辆环境内的各个物体或代理50有关的测量或数据。这样的代理50可以是但不限于其他车辆、行人、自行车、摩托车等以及不移动的物体。感测设备40a-40n还可以获得交通数据，比如关于交通信号和标志的信息等。

致动器系统30包括一个或多个致动器设备42a-42n，其控制一个或多个车辆特征，比如但不限于推进系统20、传动系统22、转向系统24和制动系统26。在各个实施例中，车辆特征还可以包括内部和/或外部车辆特征，比如但不限于门、行李箱和舱室特征，比如通风、音乐、照明等(未编号)。

控制器34包括至少一个处理器44和计算机可读存储设备或介质46。处理器44可以是任何定制的或可商购的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关的多个处理器中的辅助处理器、基于半导体的微处理器(形式为微芯片或芯片组)、宏处理器、其任何组合或通常用于执行指令的任何设备。例如，计算机可读存储设备或介质46可以包括只读存储器(ROM)、随机存取存储器(RAM)和保持活动存储器(KAM)中的易失性和非易失性存储。KAM是持久性或非易失性存储器，其可以在处理器44掉电时用于存储各种操作变量。可以使用许多已知的存储设备中的任何一种来实现计算机可读存储设备或介质46，比如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、闪存或能够存储数据的任何其他电、磁、光或组合存储设备，其中一些表示可执行指令，由控制器34在控制自主车辆10时使用。

指令可以包括一个或多个单独的程序，每个程序包括用于实现逻辑功能的可执行指令的有序列表。当由处理器44执行时，指令从传感器系统28接收并处理信号，执行用于自动控制自主车辆10的部件的逻辑、计算、方法和/或算法，并且基于逻辑、计算、方法和/或算法生成至致动器系统30的控制信号以自动控制自主车辆10的部件。

控制器34进一步与认知处理器32通信。认知处理器32从控制器34以及从传感器系统28的感测设备40a-40n接收各种数据，并执行各种计算以便向控制器34提供轨迹，用于控制器34通过一个或多个致动器设备42a-42n在自主车辆10上实施。关于图2提供了对认知处理器32的详细讨论。

图2示出了包括与自主车辆10集成的认知处理器32的说明性控制系统200。在各个实施例中，自主车辆10可以是车辆模拟器，其模拟用于自主车辆10的各种驾驶场景并且模拟自主车辆10对场景的各种响应。

自主车辆10包括数据采集系统204(例如图1的传感器40a-40n)。数据获取系统204获得用于确定自主车辆10的状态以及自主车辆10的环境中的各种代理的各种数据。这样的数据包括但不限于自主车辆10的运动学数据、位置或姿势数据等以及关于其他代理的数据，包括范围、相对速度(多普勒)、海拔、角度位置等。自主车辆10还包括发送模块206，其打包获取的数据并将打包的数据发送到认知处理器32的通信接口208，如下面所讨论。自主车辆10还包括接收模块202，其从认知处理器32接收操作命令并在自主车辆10处执行命令以导航自主车辆10。认知处理器32从自主车辆10接收数据，基于所提供的状态信息和本文公开的方法计算用于自主车辆10的轨迹，并且在接收模块202处将轨迹提供给自主车辆10。然后，自主车辆10实施由认知处理器32提供的轨迹。

认知处理器32包括用于与自主车辆10通信的各种模块，包括用于从自主车辆10接收数据的接口模块208和用于向自主车辆10发送诸如轨迹的指令的轨迹发送器222。认知处理器32进一步包括工作存储器210，其存储从自主车辆10接收的各种数据以及认知处理器32的各种中间计算。认知处理器32的假设器模块212用于通过使用多种可能的预测方法和存储在工作存储器210中的状态数据来提出在自主车辆10的环境中一个或多个代理的假设轨迹和运动。认知处理器32的假设解析器214接收环境中每个代理的多个假设轨迹，并且从多个假设轨迹中确定每个代理的最可能轨迹。

认知处理器32还包括一个或多个决策器模块216和决策解析器218。决策器模块216从假设解析器214接收环境中每个代理的最可能轨迹，并基于最可能的代理轨迹来计算自主车辆10的多个候选轨迹和行为。多个候选轨迹和行为中的每一个被提供给决策解析器218。决策解析器218从候选轨迹和行为中选择或确定用于自主车辆10的最优或期望的轨迹和行为。

认知处理器32还包括确定提供给自主车辆10的自主车辆轨迹的轨迹计划器220。轨迹计划器220接收来自决策解析器218的车辆行为和轨迹、来自假设解析器214的每个代理50的最优假设以及以“状态数据”形式的最新环境信息来调整轨迹计划。轨迹计划器220处的该附加步骤确保针对来自数据获取系统204的最新感测数据来检查代理假设的异步计算中的任何异常处理延迟。该附加步骤在轨迹计划器220的最终轨迹计算中相应地更新最佳假设。

将确定的车辆轨迹从轨迹计划器220提供给轨迹发送器222，其将轨迹消息提供给自主车辆10(例如在控制器34处)，以在自主车辆10处实施。

认知处理器32还包括调制器230，其控制假设器模块212和决策器模块216的各种限制和阈值。调制器230还可以将改变应用于假设解析器214的参数，以影响其如何为给定的代理50、决策器和决策解析器选择最佳假设对象。调制器230是使架构自适应的鉴别器。调制器230可以通过改变算法本身中的参数来改变执行的计算以及确定性计算的实际结果。

认知处理器32的评估器模块232计算上下文信息并将其提供给认知处理器，包括错误度量、假设置信度量、对环境的复杂度和自主车辆10状态的度量、给定环境信息的自主车辆10的性能评估，包括代理假设和自主车辆轨迹(历史的或未来的)。调制器230从评估器232接收信息，以计算用于假设器212、假设解析器214、决策器216的处理参数以及决策解析器218的阈值决策解析参数的变化。虚拟控制器224实现轨迹消息并响应于该轨迹来确定各种代理50的前馈轨迹。

调制作为对评估器模块232所测量的不确定性的响应而发生。在一实施例中，调制器230接收与假设对象相关的置信度。可以在单个时间点或在选定的时间窗口内从假设对象收集这些置信度。时间窗口可以是可变的。评估器模块232确定这些置信度水平的分布的熵。另外，还可以在评估器模块232中收集和评估假设对象的历史误差度量。

这些类型的评估用作认知处理器32的内部上下文和不确定性的度量。来自评估器模块232的这些上下文信号用于假设解析器214、决策解析器218和调制器230，其可以基于计算的结果来改变用于假设器模块212的参数。

认知处理器32的各个模块彼此独立地操作，并且以单独的更新速率(例如，由图2中的LCM-Hz、h-Hz、d-Hz、e-Hz、m-Hz、t-Hz指示)更新。

在操作中，认知处理器32的接口模块208在数据接收器208a处从自主车辆10的发送模块206接收打包的数据，并在数据解析器208b处解析所接收的数据。数据解析器208b将数据放入可以存储在工作存储器210中并由认知处理器32的各种假设器模块212、决策器模块216等使用的数据格式(在本文中称为属性包)。这些数据格式的特定类结构不应视为对本发明的限制。

工作存储器210在可配置的时间窗口期间从属性包的收集中提取信息，以构造自主车辆和各种代理的快照。这些快照以固定的频率发布，并推送到订阅模块。由工作存储器210从属性包创建的数据结构是“状态”数据结构，其包含根据时间戳组织的信息。因此，生成的快照序列包含另一个车辆或代理的动态状态信息。选定的状态数据结构内的属性包包含有关对象的信息，比如其他代理、自主车辆、路线信息等。对象的属性包包含关于对象的详细信息，比如对象的位置、速度、前进方向角等。该状态数据结构在整个认知处理器32的其余部分中流动以进行计算。状态数据可以引用自主车辆状态以及代理状态等。

假设器模块212从工作存储器210提取状态数据，以便在选定的时间范围或时间步长上计算代理在本地环境中的可能结果。可替代地，工作存储器210可以将状态数据推送到假设器模块212。假设器模块212可以包括多个假设器模块，多个假设器模块中的每一个采用不同的方法或技术来确定代理的可能结果。一个假设器模块可以使用运动学模型来确定可能的结果，该运动学模型将基本物理和力学应用于工作存储器210中的数据，以便预测每个代理50的后续状态。其他假设器模块可以例如通过以下方式预测每个代理50的后续状态：对数据采用运动学回归树，对数据应用高斯混合模型/马尔可夫混合模型(GMM-HMM)，对数据应用递归神经网络(RNN)，其他机器学习过程，根据数据执行逻辑推理等。假设器模块212是认知处理器32的模块化部件，并且可以根据需要从认知处理器32添加或删除。

每个假设器模块212包括用于预测代理行为的假设类。假设类包括假设对象的规范和一组算法。一旦调用，就从假设类为代理创建假设对象。假设对象遵守假设类的规范，并使用假设类的算法。多个假设对象可以彼此并行运行。每个假设器模块212基于工作当前数据为每个代理50创建其自己的预测，并将该预测发送回工作存储器210以供存储和将来使用。当新数据被提供给工作存储器210时，每个假设器模块212更新其假设并且将更新的假设推回到工作存储器210中。每个假设器模块212可以选择以其自己的更新速率(例如速率h-Hz)更新其假设。每个假设器模块212可以单独地充当订阅服务，其更新的假设从该订阅服务被推送到相关模块。

假设器模块212产生的每个假设对象都是状态数据结构形式的针对时间矢量、针对诸如位置、速度、前进方向等所定义的实体的预测。在一实施例中，假设器模块212可以包含碰撞检测模块，其可以改变与预测有关的信息的前馈流。具体地，如果假设器模块212预测两个代理50的碰撞，则可以调用另一个假设器模块以对假设对象产生调整，以便考虑到预期的碰撞或向其他模块发送警告标记以尝试减轻危险情况或改变行为以避免危险情况。

对于每个代理50，假设解析器118接收相关的假设对象，并从假设对象中选择单个假设对象。在一实施例中，假设解析器118调用简单的选择过程。可替代地，假设解析器118可以调用各种假设对象上的融合过程，以生成混合假设对象。

由于认知处理器的架构是异步的，因此如果实现为假设对象的计算方法需要花费较长的时间才能完成，则假设解析器118和下游决策器模块216在最早的可用时间通过订阅推送过程从该特定的假设器模块接收假设对象。与假设对象相关的时间戳通知下游模块该假设对象的相关时间范围，从而允许与来自其他模块的假设对象和/或状态数据进行同步。假设对象的预测所适用的时间跨度因此在模块之间在时间上对齐。

例如，当决策器模块216接收假设对象时，决策器模块216将假设对象的时间戳与用于自主车辆10的最新数据(即速度、位置、前进方向等)的时间戳进行比较。如果认为假设对象的时间戳太旧(例如，通过选定的时间标准使自主车辆数据早于日期)，则可以忽略假设对象，直到接收更新的假设对象。轨迹计划器220还执行基于最新信息的更新。

决策器模块216包括模块，其产生以自主车辆10的轨迹和行为的形式的各种候选决策。决策器模块216从假设解析器214接收每个代理50的假设，并使用这些假设以及自主车辆10的标称目标轨迹作为约束。决策器模块216可以包括多个决策器模块，其中多个决策器模块中的每一个使用不同的方法或技术来确定自主车辆10的可能轨迹或行为。每个决策器模块可以异步操作并接收来自工作存储器212的各种输入状态，比如由假设解析器214产生的假设。决策器模块216是模块化部件，并且可以根据需要从认知处理器32添加或删除。每个决策器模块216可以其自己的更新速率(例如速率d-Hz)更新其决策。

类似于假设器模块212，决策器模块216包括用于预测自主车辆轨迹和/或行为的决策器类。决策器类包括决策器对象的规范和一组算法。一旦被调用，就从决策器类为代理50创建决策器对象。决策器对象遵守决策器类的规范，并使用决策器类的算法。多个决策器对象可以彼此并行运行。

决策解析器218接收由一个或多个决策器模块生成的各种决策，并产生用于自主车辆10的单个轨迹和行为对象。决策解析器还可以从评估器模块232接收各种上下文信息，其中使用上下文信息以便产生轨迹和行为对象。

轨迹计划器220从决策解析器218接收轨迹和行为对象以及自主车辆10的状态。轨迹计划器220然后生成轨迹消息，其被提供给轨迹发送器222。轨迹发送器222使用适合于与自主车辆10通信的格式来将轨迹消息提供给自主车辆10以在自主车辆10处实施。

轨迹发送器222还将轨迹消息发送到虚拟控制器224。虚拟控制器224在前馈循环中为认知处理器32提供数据。在随后的计算中，发送给假设模块212的轨迹由虚拟控制器224细化以模拟由于尝试遵循轨迹而导致的自主车辆10的一组未来状态。假设器模块212使用这些未来状态来执行前馈预测。

认知处理器32的各个方面提供反馈循环。虚拟控制器224提供第一反馈循环。虚拟控制器224基于提供的轨迹来模拟自主车辆10的操作，并响应于自主车辆10所采取的轨迹来确定或预测每个代理50采取的未来状态。可以将代理的这些未来状态作为第一反馈循环的一部分提供给假设器模块。

发生第二反馈循环是因为各个模块将在其计算中使用历史信息，以便学习和更新参数。假设器模块212例如可以实施其自己的缓冲器以便存储历史状态数据，无论状态数据是来自观察还是来自预测(例如来自虚拟控制器224)。例如，在采用运动学回归树的假设器模块212中，每个代理的历史观测数据被存储达若干秒，并用于状态预测的计算。

假设解析器214在其设计中也具有反馈，因为它也利用历史信息进行计算。在这种情况下，有关观察的历史信息将用于及时计算预测误差，并使用预测误差调整假设解析参数。滑动窗口可用于选择历史信息，其用于计算预测误差和学习假设解析参数。对于短期学习，滑动窗口控制假设解析器214的参数的更新速率。在较大的时间尺度上，可以在所选情节(比如左转情节)期间聚合预测误差，并在该情节之后用于更新参数。

决策解析器218还将历史信息用于反馈计算。关于自主车辆轨迹性能的历史信息用于计算最佳决策并相应地调整决策解析参数。该学习可以多个时间尺度在决策解析器218处发生。在最短的时间尺度中，使用评估器模块232连续计算关于性能的信息，并将其反馈回决策解析器218。例如，可以使用一种算法来提供关于决策器模块基于多个指标提供的轨迹性能的信息以及其他上下文信息。该上下文信息可以在强化学习过程中用作奖励信号，以在各种时间尺度上操作决策解析器218。反馈可以与决策解析器218异步，并且决策解析器218可以在接收反馈时进行调整。

图3示出了用于使用基于决策的性能等级选择的决策来操作车辆的本公开的系统300。系统300包括：传感器系统302，用于获取和收集关于自主车辆10的操作环境的各种数据；以及计算处理器310，该计算处理器基于其运行环境提出和选择在自主车辆上实施的驾驶决策。传感器系统302包括用于确定自主车辆10的车辆状态304的各种传感器和检测器。车辆状态304包括但不限于自主车辆的位置、速度、定向或前进方向。另外，传感器系统302包括用于检测与自主车辆的环境内的代理车辆有关的传感器数据306的传感器。这种传感器数据306包括场景内的一个或多个代理50的位置、速度和定向，以及场景内的其他信息，比如车道改变指示器、闪光灯等。此外，传感器系统302包括用于接收各种地图数据308的接收器。这种地图数据308可以提供关于交通规则的信息，比如限速、交叉路口、停车标志、道路状况和道路类型等。在各个实施例中，可以使用在传感器系统302的其他传感器处检索到的信息来验证地图数据306。

计算处理器310从传感器系统302接收数据并且执行各种操作以便确定用于自主车辆10的解决方案的性能等级。特别地，计算处理器310包括交通规则和流量模块312，其确定或确认交通规则，以及估计自主车辆附近或环境中的交通流模式。计算处理器310的预测模块314基于接收到的传感器数据(包括代理位置、速度、前进方向等)生成自主车辆10的多个解决方案。合规性模块316从交通规则和流量模块312接收交通规则和交通流模式，并从预测模块314接收多个解决方案，并测试每个解决方案，以确定该解决方案相对于其遵守交通规则和/或交通流模式的等级。合规性模块316计算发送到性能评估器318的各种合规性值。性能评估器318基于合规性因子来确定每个解决方案的瞬时(空间)等级和时间等级。然后，决策模块320从瞬时等级、时间等级或其组合中选择要在自主车辆上实施的解决方案。然后，所选择的解决方案在车辆控制器322处用于操作自主车辆10。

图4示意性地示出了用于确定多个解决方案的性能等级以便操作自主车辆10的过程400。框302代表性地包括确定交通规则和交通流的过程(框312)，生成多个解决方案(框314)，并针对如图3所示的交通规则和交通流确定多个解决方案中的每一个的解决方案的合规性级别(框316)。

框404示出了用于确定解决方案的瞬时(在本文中也称为“空间”)性能等级的模块。可以使用式(1)将在选定的时间范围t处的瞬时等级G_INST(t)计算为交通规则合规性和交通流合规性的乘积：

G_INST(t)＝R(t)F(t) 式(1)

其中，R(t)是代表交通规则合规性因子或自主车辆遵守交通规则和规定的程度的值，F(t)是代表交通流合规性因子的值。通常在合规性模块314处确定R(t)和F(t)。交通规则合规性指示驾驶员(以及自主车辆10)服从交通规则的程度。交通流合规性表示驾驶员或自主车辆10安全有效地呆在交通流内同时保持适合的速度和前进方向的程度。

可以使用各种方法来确定交通规则合规性因子R(t)。式(2)中示出了示例性方法：

R(t)＝αR_BASE(t)+(1-α)R_EXCEPT(t) 式(2)

其中，R_BASE(t)是在时间t处的基本规则合规性因子，R_EXCEPT(t)是规则异常合规性因子，α是基本规则合规性因子与规则异常合规性因子之间的加权因子。基本规则合规性因子通常特定于所选区域或位置。在特定区域内，当驾驶员正确遵守规则时，授予R_BASE(t)＝1的值。当驾驶员完全忽略该规则时，授予R_BASE(t)＝0的值。因此，当驾驶员在通过交叉路口之前在停车标志处完全停止时，R_BASE(t)＝1，而当驾驶员通过相同交叉路口却没有停车时，R_BASE(t)＝0。然而，存在例外或这样的情况，其中驾驶员需要在没有任何输入或选择的情况下违反基本交通规则。作为示例，车辆可能需要越过高速公路或双向道路的中心线以避免建筑面积。规则例外合规性因子R_EXCEPT(t)用于评估这些例外情况下的性能。R_EXCEPT(t)的值可以任意在0到1之间。

式(2)中的加权因子α是介于0和1之间的数字。对于简单的道路情况(比如单车道道路)，α＝0。随着道路复杂程度的提高，α的值也会增加。因此，在简单的道路情况期间，驾驶员遵守交通规则和规定的能力在分级车辆的瞬时性能方面具有更大的权重。对于更复杂的驾驶，遵守必要的例外的能力在分级瞬时性能方面具有更大的权重。

确定式(1)中车辆性能等级的其他分量是在下面的式(3)中详细示出的交通流合规性。

F(t)＝G_MAX-δD_speed(t)-ρD_speed(t)-σ(T_MAX-T_FRONT(t)) 式(3)

其中，G_MAX是最大可能的性能等级，D_speed(t)、D_Head(t)和(T_MAX-T_front(t))是惩罚分量，变量δ、ρ和σ是每个惩罚分量的权重。速度偏差D_speed(t)是环境中的自主车辆10与其他代理50(即车辆、行人等)之间的速度偏差。如果速度偏差增加到选定阈值以上或以下(即相对于当前交通流，自主车辆太快或太慢)，则惩罚增加。前进方向偏差D_Head(t)是自主车辆10与其他代理50之间的前进方向或定向偏差。如果前进方向偏差增加，则自主车辆10可能会撞到其他代理50或可能被代理50撞击。因此，随着前进方向偏差增加，相关的惩罚也增加，T_front(t)是自主车辆10与代理50碰撞的预期时间间隔，T_MAX是自主车辆预先查看的最大时间间隔。碰撞时间T_front(t)是自主车辆10与代理碰撞之前的时间间隔。可以从至少三个不同的分量中计算该因子，比如自主车辆的速度、代理的速度以及自主车辆与代理之间的距离。

结合式(1)-(3)，瞬时性能可以写为交通规则合规性因子和交通流合规性因子的乘积，如式(4)所示：

G_INST＝(αR_BASE(t)+(1-α)R_EXCEPT(t))(G_MAX-D_speed(t)-D_speed(t)-T_FRONT(t)) 式(4)

图5示出了图4的图示过程400，强调用于确定多个解决方案的时间性能等级的子过程422。用于确定时间性能等级的子过程422包括在所选时间范围内选择多个空间性能等级。时间性能等级G_TEMP(t)包含来自时间范围d_INTV的信息，该时间范围包括三个不同的时间范围：过去、现在和未来。过去提供了先前的性能等级，它们被预先计算并存储在存储的等级历史中(框406)。本发明包括诸如上面关于瞬时性能分级所详述的空间得分。该空间得分由瞬时性能分级模块提供(框404)。未来时间包括由预测性能等级模块提供的预测性能等级(框408)。时间性能等级模块410使用来自存储的等级历史406、瞬时性能等级模块404和预测性能等级模块408的输入，估计每个可能的车辆决策候选k的时间性能等级G^k _TEMP(t)。

所选时间范围d_INTV从所选的过去时间一直延伸到所选的未来时间段。所选的过去时间取决于事件开始时间的发生。当发生以下触发之一时，新事件开始：(1)道路类型(交通区域)的变化或交通信号的变化(例如进入交叉路口、离开交叉路口、通过人行横道等)，以及(2)邻域实体(车辆、行人等)的不可忽略的相对姿势变化，比如车道变化、加速、减速等。

在许多情况下，新事件经常发生，因此对于针对d_INTV标记可能开始时间很常见。然而，在某些相对简单的情况下(比如高速公路驾驶)，此类触发可能不会频繁发生，因此会导致很长的d_INTV，这可能在计算上很昂贵。因此，可以使用所选时间的滑动窗口来标记d_INTV的开始。滑动窗口标记为当前时间。一旦事件过去太远(即在过去较远作为滑动窗口的所选持续时间)，则将d_INTV的开始时间标记为滑动窗口的最早时间。使用滑动时间窗口保持合理的过去时间间隔，以评估时间驾驶性能。因此，整个时间等级估计过程的时间间隔d_INTV由式(5)给出：

d_INTV＝[max(e_START，t-d_CONST)，t+d_PREDICT] 式(5)

其中，e_START是事件开始时间，d_CONST是滑动时间窗口的持续时间，t是当前时间，d_PREDICT是延伸到未来的可以进行预测的时间间隔。

在此间隔内提供多个等级，形成等级序列G_SEQ。在时间间隔d_INTV内，可以计算等级序列G_SEQ的平均值m_SEQ、标准偏差s_SEQ和最小值m_SEQ。最大值也可被计算，但通常不用于车辆控制决策。通常，平均值m_SEQ对于确定时间性能等级很重要。然而，低的最小等级得分(即低m_SEQ)可表示可能导致事故的危险情况。因此，时间性能等级G^k _TEMP(t)由平均值和最小值的组合以相等的权重估算。因此，如式(6)中所示计算平均G^k _TEMP(t)：

图6示出了图4的图示过程400，强调用于确定多个解决方案的最终性能等级并选择最佳决策的子过程424。子过程424包括集成过程414，其中利用权重决策412将瞬时等级和时间等级组合成最终性能等级416。下面对集成过程进行讨论。

对于每个解决方案k，可以将瞬时性能等级和时间性能等级集成到定义在时间t处的最终性能等级的单个值中。时间等级的标准偏差s_SEQ可用于平衡瞬时性能等级和时间性能等级中的每一个对最终性能等级的贡献，如式(7)所示：

如果特定的驾驶序列显示出高标准偏差(SSEQ)，比如在复杂的交通情况下，则在确定最终性能等级时，空间等级比时间等级更为重要。另一方面，在非常稳定的交通情况下，比如在高速公路驾驶中，在确定最终性能等级时，时间等级比空间等级更重要。

一旦对于k个决策中的每一个在式(7)中确定了最终性能等级，最终性能等级就被提供给决策模块。选择具有最高最终性能等级的决策，如式(8)所示：

尽管已经参考示例性实施例描述了以上公开，但本领域技术人员将理解，在不脱离其范围的情况下，可以进行各种改变并且可以用等同物代替其元件。另外，在不脱离本公开的实质范围的情况下，可以做出许多修改以使特定情况或材料适应本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是将包括落入其范围内的所有实施例。

18页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：控制装置、控制方法以及存储程序的存储介质

用于自主驾驶系统的使用空间和时间交通信息的在线驾驶性能评估

相关技术

网友询问留言