基于强化学习的信号控制装置及信号控制方法

文档序号：1942842 发布日期：2021-12-07 浏览：19次 >En<

阅读说明：本技术 基于强化学习的信号控制装置及信号控制方法 (Signal control device and signal control method based on reinforcement learning ) 是由李锡中崔兑旭金大承李喜斌于 2021-03-30 设计创作，主要内容包括：提供信号控制装置及信号控制方法,根据本说明书中公开的一实施例,一种基于强化学习模型而控制交叉路中的交通信号的信号控制装置,可包括：拍摄部,拍摄多个交叉路中的每一者来获取多个交叉路图像,存储部,存储用于控制信号的程序,以及控制部,包括至少一个处理器,执行所述程序,以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者的信号灯的控制信息；所述控制部,利用基于被训练的强化学习模型的多个代理,基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息,算出控制所述多个交叉路中的每一者的信号灯的控制信息,所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。(According to an embodiment disclosed in the present specification, a signal control device for controlling a traffic signal in a crossroad based on a reinforcement learning model may include: an imaging unit that images each of a plurality of crossroads to acquire a plurality of crossroad images, a storage unit that stores a program for controlling a signal, and a control unit that includes at least one processor that executes the program to calculate control information for controlling a traffic light of each of the plurality of crossroads using the crossroad image acquired by the imaging unit; the control unit calculates control information for controlling the traffic lights of each of the plurality of crossroads, based on operation information calculated by the plurality of agents using state information calculated based on each of the plurality of crossroad images as input, using a plurality of agents based on a trained reinforcement learning model trained to output the operation information for controlling the traffic lights, using the state information and the reward as input values.)

技术领域

在本说明书中公开的实施例涉及基于强化学习的信号控制装置及信号控制方法，更详细地，涉及控制多个交叉路中的交通信号的装置及方法。

背景技术

近来，随着出于方便或工作原因而购买车辆的人数增加，在道路上行驶的车辆数量也在增加。由于这些车辆的增加，交通堵塞也在增加，交通堵塞可能因道路环境、驾驶员状况、车辆故障和车辆事故等多种因素而发生。

造成交通堵塞的原因之一是道路环境中的交通信号体系的问题。例如，交通信号控制车辆的流量，由于它们每隔一定时间就确定车辆的通行方向，当特定方向的车辆数量增加时，交通堵塞就不可避免。为此，当发生交通拥堵时，警察或相关人员亲自操纵信号控制器来控制交通流量。这种方式存在人不能为了控制交通信号而一直待命的局限，因此已经有各种尝试来控制交通信号。

在作为现有技术文献的韩国公开专利第10-2009-0116172号“人工智能车辆信号灯控制装置”中记载了分析通过利用影像探测器拍摄的影像来控制交通信号灯的方法。但是，在上述的现有技术中，只是将人工智能模型用作通过简单的影像分析来检测特定车道上是否存在车辆等的手段，基于检测的信息决定下一个信号是通过现有的碎片化运算来实现，因此存在难以提升信号体系的效率性的问题。

因此，需要一种用于改善交通状况的技术。

另一方面，前述的

背景技术

是发明人为推导本发明而拥有的，或者是推导本发明的过程中学到的技术信息，不能说一定是在申请本发明前向公众公开的公知技术。

发明内容

要解决的技术问题

在本说明书中公开的实施例的目的在于，提供一种基于强化学习模型的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例的目的在于，提供一种基于多个代理的强化学习模型的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例的目的在于，提供一种能够在多个交叉路使交通顺畅的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例的目的在于，提供一种解决控制对象环境和学习对象环境不一致的问题的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例的目的在于，提供一种对交通模拟时间投入最少时间的信号控制装置及信号控制方法。

用于解决问题的手段

作为用于解决上述技术问题的技术手段，根据本说明书中记载的一实施例，一种基于强化学习模型而控制交叉路中的交通信号的信号控制装置，可包括：拍摄部，拍摄多个交叉路中的每一者来获取多个交叉路图像，存储部，存储用于控制信号的程序，以及控制部，包括至少一个处理器，执行所述程序，以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息；所述控制部，利用基于被训练的强化学习模型的多个代理，基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息，算出控制所述多个交叉路中的每一者中的信号灯的控制信息，所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。

此外，作为用于解决上述技术问题的技术手段，根据本说明书中记载的一实施例，信号控制装置基于强化学习模型控制交叉路中的交通信号的方法，可包括如下步骤：以使代理将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息的方式对强化学习模型进行训练，通过拍摄多个交叉路中的每一者来获取多个交叉路图像，以及利用所获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息；算出所述控制信息的步骤包括如下步骤，利用基于被训练的所述强化学习模型的多个代理，基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息，来算出控制所述多个交叉路中的每一者中的信号灯的控制信息。

发明的效果

根据前述的任一问题解决手段，可提供一种基于强化学习模型的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例中，可提供一种基于多个代理的强化学习模型的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例中，可提供一种能够在多个交叉路使交通顺畅的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例中，可提供一种解决控制对象环境和学习对象环境不一致的问题的信号控制装置及信号控制方法。

并且，在本说明书中公开的实施例中，可提供一种对交通模拟时间投入最少时间的信号控制装置及信号控制方法。

可从公开的实施例中获得的效果不限于在以上提及的效果，公开的实施例所属技术领域的普通技术人员可以从以下描述明确理解未提及的其他效果。

附图说明

图1为示出根据一实施例的信号控制装置的结构的框图。

图2为示出包括根据一实施例的信号控制装置的信号控制系统的示意性结构的图。

图3至图4为用于描述根据一实施例的信号控制装置的示意图。

图5为示出常规强化学习模型的图。

图6为用于描述根据一实施例的信号控制装置的强化学习及信号控制过程的图。

图7为分步示出根据一实施例的信号控制方法的强化学习过程的流程图。

图8为分步示出根据一实施例的信号控制方法的利用强化学习的模型来控制信号灯的过程的流程图。

具体实施方式

作为用于解决所述技术问题的技术手段，根据本说明书中记载的一实施例，一种基于强化学习模型而控制交叉路中的交通信号的信号控制装置，可包括：拍摄部，拍摄多个交叉路中的每一者来获取多个交叉路图像，存储部，存储用于控制信号的程序，以及控制部，包括至少一个处理器，执行所述程序，以利用通过所述拍摄部获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息；所述控制部，利用基于被训练的强化学习模型的多个代理，基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息，算出控制所述多个交叉路中的每一者中的信号灯的控制信息，所述强化学习模型被训练成将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。

并且，作为用于解决上述技术问题的技术手段，根据本说明书中记载的一实施例，信号控制装置基于强化学习模型控制交叉路中的交通信号的方法，可包括如下步骤：以使代理将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息的方式对强化学习模型进行训练，通过拍摄多个交叉路中的每一者来获取多个交叉路图像，以及利用所获取的交叉路图像来算出控制所述多个交叉路中的每一者中的信号灯的控制信息；算出所述控制信息的步骤包括如下步骤，利用基于被训练的所述强化学习模型的多个代理，基于由多个代理将基于所述多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息，来算出控制所述多个交叉路中的每一者中的信号灯的控制信息。

下面，参照附图详细描述各种实施例。下面描述的实施例还可以以各种不同的形式修改并实施。为了更清楚地描述实施例的特征，以下实施例所属的本领域普通技术人员公知的事项的详细描述将被省略。而且，在附图中，省略了与实施例的描述无关的部分，并且在整个说明书中对于相似的部分赋予相似的附图标记。

在整个说明书中，当描述一个组件与另一个组件“连接”时，它不仅包括“直接连接”的情况，还包括“其中间隔着其他组件而连接”的情况。并且，当描述一个组件“包括”另一个组件时，除非另有说明，否则意味着还可以包括其他组件，而不是排除其他组件。

参照以下附图详细描述实施例。

图1为示出根据一实施例的信号控制装置100的结构的框图，图2为示出包括根据一实施例的信号控制装置100的信号控制系统的示意性结构的图。

信号控制装置100是设置在交叉路的装置，用于拍摄并分析交叉路的驶入车道或交叉路的驶出车道等的图像。在下文中，将设置在交叉路的信号控制装置100拍摄的图像称为“交叉路图像”。

如图1所示，信号控制装置100包括用于拍摄交叉路图像的拍摄部110和用于分析交叉路图像的控制部120。

拍摄部110可包括用于拍摄交叉路图像的相机，并且可包括能够拍摄可见光或红外线等特定范围的波长的影像的相机。由此，拍摄部110也可以通过在白天、晚上或根据当前情况拍摄不同波长区域的影像来获取交叉路图像。此时，拍摄部110可以按预设周期获取交叉路图像。

而且，控制部120可通过分析由拍摄部110获取的交叉路图像来生成延迟程度、等待长度、等待时间、通行速度和拥堵程度中的至少一者。这样算出的信息可用于后述的强化学习模型中。

如上所述，为了通过分析交叉路图像来算出信息，控制部120可将交叉路图像加工成能够进行分析，并在加工的交叉路图像中识别对应于车辆的物体或像素。而且，为此，控制部120可通过利用人工神经网络来在交叉路图像中识别对应于车辆的物体，或者判断每个像素是否为对应于车辆的位置。

此时，信号控制装置100可配置成包括两个以上的硬件装置，使得用于拍摄交叉路图像的拍摄部110与对拍摄部110拍摄的交叉路图像进行分析的控制部120彼此通信但彼此物理间隔开。即，信号控制装置100可配置成彼此间隔开的硬件装置区分执行交叉路图像的拍摄和分析。此时，包括控制部120的结构的硬件装置还可从不同的多个拍摄部110接收各个交叉路图像，并对交叉路图像进行分析。并且，控制部120由两个以上的硬件装置配置而成，以处理每个交叉路的交叉路图像。

并且，控制部120可以基于通过分析交叉路图像而获取的延迟程度，生成针对交叉路的控制信号。此时，控制部120可通过利用强化学习模型来算出交叉路的状态信息和动作信息。为此，强化学习模型可被预训练。

并且，信号控制装置100可以包括存储部130。存储部130可以存储拍摄或分析交叉路图像所需的程序或数据、文件、操作体系等，并且至少临时存储交叉路图像或者交叉路图像的分析结果。控制部120可以访问并使用存储在存储部130中的数据，或者还可将新数据存储在存储部130中。并且，控制部120还可执行设置于存储部130的程序。

进而，信号控制装置100可包括驱动部140。驱动部140可以向信号灯S施加驱动信号，使得设置于交叉路的信号灯S根据控制部120计算的控制信号而被驱动。由此，可以更新环境信息，并且可以更新通过观察环境获得的状态信息。

如上所述，这种信号控制装置100的拍摄部110设置在交叉路，根据设置高度或位置，在一个交叉路仅设置一个拍摄部110，或者可设置与交叉路进出口数量相对应的数量的拍摄部110。例如，在4条道路交叉路的情况下，信号控制装置100可以包括通过分别拍摄4个进出口中的每一者来获得交叉路图像的4个拍摄部110。并且，例如，当4个拍摄部110获取4个进出口中的每一者的交叉路图像时，还可通过组合4个交叉路图像来生成一个交叉路图像。

这种信号控制装置100可以配置成包括一个以上的硬件部件，或者可以被配置为在后述的信号控制系统中所含的硬件部件的组合。

具体而言，如图2所示，信号控制装置100可以形成为信号控制系统的至少一部分。此时，信号控制系统可包括用于拍摄上述交叉路图像的影像检测装置10、连接到信号灯S并施加驱动信号的交通信号控制器20以及通过与交通信号控制器20进行远程通信来管控交通信号的中央中心30。

其中，交通信号控制器20可配置成包括主控制部、信号驱动部及其他装置部。此时，主控制部可以配置成使得电源装置、主板、操作员输入装置、调制解调器、检测器板、选项板等连接到一个总线。信号驱动部可以配置成包括控制板、点灭器、同步驱动装置、扩展板等。除此之外，还可设有其他装置部，用于控制如用于检测是否违反信号的影像拍摄装置等的其他装置。

交通信号控制器20的信号驱动部可以从主板接收控制信号，根据所述控制信号生成信号灯的驱动信号，并将生成的驱动信号施加到信号灯。

而且，中央中心30可以以对多个交叉路的交通信号控制器20进行相互关联控制的方式进行中央控制，或者也可以根据每个交叉路的情况对每个交通信号控制器20进行局部控制。中央中心30可以管制每个交叉路的情况，以选择合适的控制方式或生成具体控制信号时参照，例如，可基于偏移时间进行控制，如改变一交叉路中的绿灯开始时间。并且，中央中心30可直接接收由影像检测装置10拍摄的交叉路图像，或者接收信号控制装置100生成的延迟程度。

信号控制装置100可以配置成形成上述信号控制系统的至少一部分，也可以是上述信号控制系统本身。

例如，信号控制装置100的控制部120设于中央中心30，拍摄部110设置在影像检测装置10中，驱动部140可设置在交通信号控制器20中。

以下，更详细地观察信号控制装置100的控制部120的操作，控制部120可通过分析拍摄部110获取的交叉路图像来算出延迟程度、等待长度、等待时间、通行速度以及拥堵程度中的至少一者。这样算出的信息可用于后述的强化学习模型中。

与此相关，图3是示出用于描述根据一实施例的信号控制装置的示例图，示出交叉路图像。

图3是示出根据一实施例的由拍摄部110拍摄的交叉路图像，参照图3，控制部120可通过分析交叉路图像来生成延迟程度、等待长度、等待时间、通行速度和拥堵程度中的至少一者。

根据实施例，控制部120可算出延迟程度。延迟程度可通过测量预定的时间T内的到达交通量(fa)和通过交通量(fd)来根据下述数式1来算出。

数式1：

此时，到达交通量(fa)是在所有直行方向、左转、右转方向中离开交叉路的车辆数量。例如，假设朝向交叉路的中心点的方向为驶入方向，从所述中心点离开的方向为驶出方向，到达交通量(fa)为驶入交叉路后驶出的车辆的数量，没有考虑驶出方向，控制部120可对从如图3所示的交叉路中离开交叉路的区域351的车辆的数量进行计数，并将其确定为到达交通量。并且，交叉路的通过交通量(fd)为驶向交叉路的车辆的数量，可通过对位于驶入方向的预定区域352内的车辆数量进行计数来算出通过交通量。此时，预定区域352为车速快速变化的频率较高的区域，可以针对每个交叉路进行不同的设置，其大小可以具有车辆的平均长度和构成该交叉路的车道的宽度。

并且，控制部120可算出等待长度。为此，控制部120可检测在交叉路中正在等待的车辆数量，如图3所示，在位于左侧的车辆中，可识别计划驶向直行方向331的车辆301，相同地，在位于右侧的车辆中，可识别计划驶向直行方向332的车辆302及计划驶向左侧的车辆303。此时，通过对正在等待的车辆数量进行计数来算出车辆数量作为“等待长度”，或者通过计算车辆数量在车道中占据的长度来将计算结果作为“等待长度”算出。并且，控制部120可算出正在等待的车辆离开交叉路所需的时间作为等待时间，例如，通过跟踪位于交叉路中的一车辆来算出该车辆在交叉路等待的时间，或者，可以预定时间点为基准，通过平均位于交叉路中的每个车辆在交叉路中等待的时间来算出。

并且，控制部120可算出通行速度，为此，控制部120可通过跟踪在交叉路中正在移动的一个车辆来算出该车辆的移动速度作为通行速度，或者，可算出在交叉路中正在移动的所有车辆的速度的平均值作为通行速度。

而且，控制部120可算出拥堵程度，为此，控制部120算出当前等待中的车辆数量相对于各车道区域或行驶方向中可定位的车辆数量的比率，作为拥堵程度。因此，例如，当各车道区域或行驶方向的车辆处于饱和状态时，将拥堵程度设为100，可将各车道区域或行驶方向不存在车辆的状态数值化为0，因此，例如，在可定位20台车辆的车道中存在10台车辆时，可将拥堵程度算为50。

另一方面，为了生成延迟程度、等待长度、等待时间、通行速度和拥堵程度中的至少一者，控制部120利用人工神经网络，获取交叉路图像中的被识别为车辆的各物体的位置坐标，或者获取围绕各物体的边界框，所述人工神经网络识别上述物体并输出关于所识别的物体的位置的信息。

具体而言，控制部120所利用的人工神经网络的输入值为交叉路图像，输出值可以被设置为由估计为由汽车的物体的位置信息和物体的大小信息构成。其中，物体的位置信息是物体的中心点P的坐标(x，y)，大小信息是有关物体的宽度和高度(w，h)的信息，人工神经网络的输出值可对每个物体O以(x、y、w、h)的形式算出。控制部120可以从输出值以二维坐标获得每个车辆的图像的中心点P的坐标(x，y)。由此，可识别车道的每个车辆。

此时，可以使用的人工神经网络可列举YOLO、SSD、Faster R-CNN、Pelee等，这些人工神经网络可以被训练成能够在交叉路图像中识别对应于车辆的物体。

并且，作为另一例，控制部120可利用执行分段(Segmentation)分析的人工神经网络来获取交叉路的拥堵程度信息。控制部120可通过使用人工神经网络来提取与车辆对应的像素，将提取的每个像素转换为交叉路平面上的像素后，根据包括在各车道区域或各行驶方向的车道区域中的已转换的像素的数量算出车道中是否存在物体，其中所述人工神经网络将交叉路图像作为输入而输出表示交叉路图像中包括的各像素对应于车辆的概率的概率图。

具体而言，控制部120所利用的人工神经网络的输入值为交叉路图像，输出值可以是各像素为汽车的概率图。而且，控制部120可以基于作为人工神经网络的输出值的各像素为汽车的概率图来提取构成对应于车辆的物体的像素。由此，仅提取与其他像素区分的交叉路图像中对应于物体的部分的像素，控制部120可以确认各像素在车道区域或各行驶方向的车道区域中的分布。接着，控制部120可根据预设的区域中的像素的数量判断相当于预定数量的像素的部分是否为物体部分。

此时，可使用的人工神经网络可以列举全卷积神经网络(FCN)、逆卷积网络(Deconvolutional Network)、扩张卷积(Dilated Convolution)、DeepLab等，可以将这些人工神经网络训练成通过算出交叉路图像中所含的各像素对应于特定物体，尤其车辆的概率来制成概率图。

接着，控制部120可将强化学习模型训练成使代理将状态信息和奖励作为输入值而输出用于控制信号灯的动作信息。而且，可利用基于被训练的强化学习模型的多个代理，基于由多个代理将基于多个交叉路图像中的每一者而算出的状态信息作为输入而算出的动作信息，来算出控制多个交叉路中的每一者中的信号灯的控制信息。

根据实施例，控制部120可将关于延迟程度和当前时间点的信号模式的信息，即，有关显示的信息输入被训练的强化学习模型的代理，使得该代理算出关于偏移时间的控制信息。

其中，显示是指通过信号灯S示出的信号模式，例如，在东西南北方向的每个信号灯同时出现的信号组合，一般设置为依次进行不同的显示。同时，后述的模式信息是指多个显示的组合。

并且，偏移时间是以一方向为基准，在连续的交叉路中，从某一参考时间开始，将从第一个信号灯的绿灯开始时间与下一个信号灯的绿灯开始时间的时间差，以秒(sec)或周期的百分比表示。

与此相关，图4为用于描述根据一实施例的信号控制装置100的示例图，示出了多个交叉路图像。

参照图4，以一方向401为基准，当车辆移动时，直行车辆分别经过第一交叉路410和第二交叉路420并移动，控制部120可分别针对第一交叉路410和第二交叉路420获取交叉路图像。

下面，为了便于说明，以行进方向为基准，将先出现的交叉路称为“第一交叉路”，经过第一交叉路后出现的下一个交叉路称为“第二交叉路”。

此时，偏移时间可以是车辆在第一交叉路410中遇到第一个信号灯411的绿灯开始时间与车辆在第二交叉路420中遇到第一个信号灯422的绿灯开始时间的时间差。

即，控制部120可利用强化学习模型，以基于延迟程度等状态信息算出偏移时间作为控制信息。

图5为示出一般强化学习模型的图，图6为用于描述根据一实施例的信号控制装置的强化学习及信号控制过程的图。

如图5所示，强化学习模型可以包括代理和环境。其中，代理可以配置成包括通常通过人工神经网络或查找表等组成的“策略”，以及对通过参考从环境给出的状态信息和奖励信息来确定动作A_t的策略进行优化的“强化学习算法”。此时，强化学习算法通过参考观察环境来获取的状态信息S_t、当状态向所需方向改进时给予的奖励R_t以及通过参考根据策略输出的动作A_t来改善策略。

而且，在每个步骤中重复执行这些过程，下面，对应于当前的步骤为t、下一个步骤为t+1等来进行区分。

在一实施例中，信号控制装置100可以配置成以交叉路作为环境，交叉路的延迟程度作为状态信息，将偏移时间作为动作信息，并在延迟程度最小化的方向得到改善时提供奖励。

即，如图6所示，可根据上述方法从拍摄交叉路600的影像算出延迟程度f_t。而且，可利用其来构成状态信息S_t。

具体而言，状态信息S_t可以定义如下。

S_t＝[f_t]

另外，作为状态信息S_t，可以进一步添加等待长度、等待时间、交通速度和拥堵程度中的至少一者。

而且，可基于拥堵程度f_t如下计算奖励R_t。

R_t＝[f_t-f_t+1]

由此，如果延迟程度在t+l步骤中减少，则奖励R_t为正值，因此对强化学习模型给予更大的奖励，进而，t+l步骤中的延迟程度与t步骤中的延迟程度差异越大，可以作为奖励R_t给出的奖励就越大，从而可使强化学习模型更容易学习。

另外，可基于等待长度、等待时间、通行速度、拥堵程度中的至少一种来计算奖励R_t。

例如，奖励R_t可设置成在等待长度最小化时给出正奖励，或者设置成在等待时间最小化时给出正奖励。并且，奖励R_t可被设置成通行速度最大化时给出正奖励，或者拥堵程度最小化时给出正奖励。

上述强化学习模型可以配置成包括Q网络(Q-network)或在Q网络上结合另一种人工神经网络的DQN。由此，策略π被学习以选择动作At来优化策略π，即，最大化针对在每个训练步骤中累积的未来奖励的期望值。

即，定义如下函数。

其中，在状态s_t下，进行训练以导出针对动作a_t的最佳Q函数，Q*。并且，γ作为贴现因子(Discount Factor)，是为了在期望值计算中较小地反映对未来步骤的奖励，从而选择在增加当前奖励的方向上的动作a_t。

而且，此时Q函数实际上配置为表格形式，因此利用函数近似器(Fu nctionApproximator)将其函数化成具有新参数的相似函数。

Q(s，a：θ)≈Q^*(s，a)

此时，可利用深度学习(Deep-Learning)人工神经网络，由此，如上所述，强化学习模型可以配置成包括DQN。

这样被训练的强化学习模型基于状态信息S_t和奖励R_t确定偏移时间作为动作a_t，由此可以确认第二交叉路中的绿灯显示时间，从而反映在第二交叉路中的信号灯S，最终影响第一交叉路的延迟程度。

即，控制部120可将强化学习模型训练成将基于第一交叉路图像算出的状态信息和奖励作为输入值，从第一代理获取用于控制第一交叉路的信号灯的动作信息，此时，强化学习模型可被训练成算出偏移时间作为动作信息。

由此，被训练的代理中的第一代理可通过将基于第一交叉路图像算出的状态信息作为输入值来输出偏移时间。

像这样，根据一实施例，由第一代理输出的偏移时间可被用作有关第二交叉路的信号灯的控制信息，为了将与第二交叉路中的信号灯的绿灯的差值与偏移时间相匹配，可以调整第一交叉路中的信号灯的绿灯开始时间。

根据另一实施例，由第一代理输出的偏移时间可被用作有关第一交叉路的信号灯的控制信息，为了将与第二交叉路中的信号灯的绿灯的差值与偏移时间相匹配，可以调整第一交叉路中的信号灯的绿灯开始时间。

在调整第一交叉路或第二交叉路中的绿灯开始时间的情况下，第一交叉路或第二交叉路的环境被更新，由此，拍摄部110获取的交叉路图像可以相应地改变。可以利用改变的交叉路图像算出改变的状态信息。

通过重复进行如上所述的过程来优化强化学习模型的策略。

并且，控制部120可以基于被训练的强化学习模型，根据将基于交叉路图像算出的状态信息输入代理而输出的动作信息来生成控制信息，从而控制信号灯。

另一方面，控制部120基于多个代理强化学习模型控制交叉路的交通信号，与此相反，还可以根据局部交叉路的状态并基于另一强化学习模型来控制交叉路的交通信号。

此时，局部可以指一交叉路，或者可以指由预定数量的交叉路构成的交叉路组。例如，可以将按区域定位的多个交叉路看做一个交叉路组，可根据该交叉路组的状态控制组成交叉路组的交叉路的交通信号。

基于多个代理强化学习模型确定偏移时间，因此可设置第一交叉路和第二交叉路各自的环境。

此时，若在第一交叉路发生过饱和，交通可能会因回溢等原因迅速恶化，因此需要增加发生过饱和的第一交叉路的信号周期。

此时，针对是否为过饱和状态，若判断第一交叉路的拥堵程度大于或等于预定大小并持续预定时间，则可判断处于过饱和状态，例如，若判断拥堵程度为50％以上的状态持续10分钟，则可判断该交叉路处于过饱和。或者，针对是否为过饱和状态，如果判断第一交叉路发生回溢，则可判断第一交叉路处于过饱和状态，或者若第一交叉路发生回溢，则可判断为第二交叉路处于过饱和状态。

为此，根据一实施例，当一交叉路处于过饱和状态时，控制部120通过在过饱和的交叉路的信号周期上加上预设的信号周期来增加该信号周期，以使位于成为过饱和的原因的车道区域或行驶方向的车辆能够移动，或者，可添加使位于成为过饱和原因的车道区域或行驶方向的车辆能够移动的信号模式。

并且，控制部120可增加交叉路组中的所有交叉路的信号周期或添加信号模式。或者，控制部120可通过选定交叉路组中拥堵程度最高的交叉路或回溢发生时间最长的交叉路来增加该交叉路的信号周期或添加信号模式。

另一方面，根据另一实施例，控制部120可基于另一强化学习模型增加过饱和的交叉路的信号周期或添加信号模式。

下面，为了便于描述，在以上描述的多个代理强化学习模型称为第一强化学习模型，并将与第一强化学习模型不同的强化学习模型称为第二强化学习模型。

第二强化学习模型可以配置成包括Q网络(Q-network)或在Q网络上结合另一种人工神经网络的深度Q网络(DQN)，可以像第一强化学习模型一样，学习策略。第二强化学习模型可包括代理和环境，下面，为了便于描述，为了与前述的第一代理和第二代理区分，将第二强化学习模型的代理称为第三代理。

根据一实施例，控制部120可将第二强化学习模型训练成在每个交叉路将交叉路作为环境，将交叉路的延迟程度作为状态信息，将显示信号周期(完成给定顺序的显示一次所需的时间)作为动作，在延迟程度得到改善时提供奖励。

因此，例如，若在第一交叉路的中心发生回溢持续预定时间并判断为第一交叉路处于过饱和状态，则控制部120可以使基于第二强化学习模型运行的第三代理在接收到作为环境的第一交叉路、作为状态信息的交叉路的延迟程度时，算出作为动作信息的显示信号周期，根据算出的信号周期生成控制信号，以控制信号灯S。此时，当处于过饱和状态时，控制部120可根据基于第二强化学习模型的控制信号控制灯S，而不是根据基于第一强化学习模型的控制信号来控制信号灯S。

因此，随着环境的改变，输入第一强化学习模型的状态信息发生改变，从而第一交叉路中的第一代理算出的偏移时间可发生改变，因此，随着第二交叉路的环境发生改变，第二交叉路中的第二代理算出的偏移时间可能不同。

在另一实施例中，控制部120可将第二强化学习模型训练成在每个交叉路中将交叉路作为环境，将交叉路的延迟程度作为状态信息，将预设的多个不同显示模式作为动作，当延迟程度得到改善时提供奖励。

因此，例如，若在第一交叉路的中心发生回溢持续预定时间并判断为第一交叉路处于过饱和状态，则控制部120利用第二强化学习模型将第一交叉路作为环境，将交叉路的延迟程度作为状态信息输入来算出作为动作信息的模式信息，根据算出的模式生成控制信号，以控制信号灯S。因此，例如，在不包括双向直行信号模式的信号周期中，当第三代理算出双向直行信号模式时，可通过被驱动成包括双向直行信号模式来增加总信号周期。

如上所述，若解决了过饱和状态(判断该交叉路不处于过饱和状态)，则控制部120可根据第一强化学习模型控制信号灯S。此时，根据实施例，在利用第二强化学习模型解决过饱和状态的第一交叉路的状态时，其他交叉路中的信号控制可根据第一强化学习模型进行。

另一方面，基于所述第二强化学习模型解决交叉路的过饱和的方案同样可以应用于解决构成交叉路组的一交叉路的过饱和。

另一方面，控制部120可以将交叉路组视为一个交叉路，此时，可以将车辆驶入交叉路组的入口部设为一交叉路的入口部，车辆从该交叉路驶出的出口部设为一交叉路的出口部，由此可将该交叉路组视为一个交叉路。

此时，根据一实施例，控制部120可将第二强化学习模型训练成将交叉路组的延迟程度作为状态信息输入时，将显示信号周期作为动作，延迟程度得到改善时提供奖励。通过向被训练的第二强化学习模型的第三代理输入交叉路组的延迟程度来算出显示信号周期，控制部120可调整构成交叉路组的每个交叉路的显示信号周期。例如，可增加包括在交叉路组的所有交叉路的显示信号周期。

根据另一实施例，控制部120可将第二强化学习模型训练成，将交叉路组设置为一个交叉路，具有作为环境的交叉路组，作为状态信息的交叉路组的延迟程度，将模式信息作为动作，延迟程度得到改善时提供奖励。通过向被训练的第二强化学习模型的第三代理输入交叉路组的延迟程度来算出模式信息，控制部120可通过在构成交叉路组的每个交叉路中添加模式信息来调整模式信息。’例如，可在包括在交叉路组的所有交叉路的模式信息添加双向直行信号模式。

另一方面，所述第一强化学习模型和第二强化学习模型分别可以在被训练后使用。在此情况下，可以仅使用策略，而不使用包括在强化学习模型的强化学习算法。

具体而言，控制部120可以在使用强化学习模型的策略确定下一个信号，生成对应于所确定的下一个信号的控制信号来控制信号灯S之前，预先学习强化学习模型。当然，也可以持续使用强化学习算法来同时进行训练和信号确定。

与此相关，控制部120可区分学习对象环境和推断对象环境。

例如，控制部120可基于从根据预设变量值和交通量模式配置的交通模拟环境获取的交叉路图像训练强化学习模型后，基于拍摄交叉路而获得的交叉路图像进行推断。即，在训练强化学习模型后，找出未激活的部分进行删除，或者根据构成强化学习模型的层的计算步骤融合必要性来进行推断过程，可使用拍摄实际交叉路的交叉路图像来缩短进行推断时推断所需的资源和时间。并且，以往，由于学习对象环境和控制对象环境不同，存在发生事故或交通混乱的问题，但根据本实施例推断，当应用于控制对象环境时，可以无事故且安全地控制交通流量。

另一方面，图7为分步示出根据一实施例的信号控制方法的强化学习过程的流程图，图8为分步示出根据一实施例的信号控制方法的利用强化学习的模型来控制信号灯的过程的流程图。

在图7至图8中示出的信号控制方法包括由通过图1至图6描述的信号控制装置100按时间序列处理的步骤。因此，即使是在下文中省略的内容，针对图1至图6中示出的信号控制装置100在上述描述的内容也可应用于根据图7至图8所示实施例的信号控制方法。

如图7所示，信号控制装置100计算状态信息和奖励信息S710。此时，可以计算延迟程度作为状态信息，并且可算出延迟程度。

其中，如上所述，状态信息可以是基于预定时间内的到达交通量和通过交通量而算出的延迟程度，奖励可以是与延迟程度成比例换算的值。

而且，信号控制装置100可以学习基于强化学习模型的代理，其将状态信息和奖励作为输入值，控制用于控制交叉路中的信号灯的动作。

即，信号控制装置100在强化学习模型的代理中将计算的状态信息和奖励信息作为输入值S720，可基于通过代理输出的动作信息生成控制信息S730。而且，信号控制装置100可根据控制信息控制学习对象交叉路的信号S740。

即，根据实施例，信号控制装置100可将所述强化学习模型训练成将基于第一交叉路图像算出的状态信息作为输入值，从第一代理获取用于控制有关第二交叉路的信号灯的动作信息。

根据另一实施例，信号控制装置100可将所述强化学习模型训练成将基于第一交叉路图像算出的状态信息作为输入值，从第一代理获取偏移时间作为动作信息。

此时，重复执行上述步骤S710至步骤S740，可在这种过程中算出最佳的Q函数。

因此，强化学习模型可通过重复所述步骤S710至步骤S740而被学习。

另一方面，参照图8，观察利用重复步骤S710至步骤S740学习的强化学习模型来控制信号灯的过程，首先，信号控制装置100可获取拍摄真实交叉路的交叉路图像S810。

此时，根据实施例，信号控制装置100可按交叉路使代理操作，由此，每个交叉路的每个代理将基于拍摄交叉路而获得的交叉路图像而算出的状态信息作为输入值，并且输出动作信息，由此，不仅可以控制每个交叉路的信号灯，而且还可控制下一个交叉路的信号灯。

因此，信号控制装置100可通过分析交叉路图像来算出延迟程度S820。而且，信号控制装置100可通过利用在步骤S820中算出的延迟程度来计算当前状态信息S830。

而且，信号控制装置100可根据动作信息来算出控制信息S840。接着，信号控制装置100可根据算出的控制信息向信号灯S施加驱动信号。

当然，此时，如上所述，在执行图8中示出的过程的同时，信号控制装置100还可执行针对于强化学习模型的附加训练。

并且，信号控制装置100，在判断交叉路处于过饱和状态时，停止代理根据训练的强化学习模型算出偏移时间作为动作信息，使代理根据另一种强化学习模型算出周期时间或模式信息。

根据另一实施例，信号控制装置100，在判断第一交叉路处于过饱和状态时，可利用被训练的强化学习模型并基于所述第一交叉路图像算出信号周期，所述强化学习模型被训练成将从所述第一交叉路图像提取的状态信息作为输入值，输出用于控制所述第一交叉路的信号灯的信号周期作为动作信息。

根据另一实施例，信号控制装置100，在判断所述第一交叉路处于过饱和状态时，可利用被训练的强化学习模型并基于所述第一交叉路图像算出信号模式，其中，所述强化学习模型被训练成将从所述第一交叉路图像提取的状态信息作为输入值，输出用于控制所述第一交叉路的信号灯的信号模式作为动作信息。

如上所述的信号控制方法还可以以存储可由计算机执行的指令和数据的计算机可读介质的形式来实现。此时，指令和数据可以以程序代码的形式存储，在被处理器执行时，可以生成预定的程序模块来执行预定的操作。并且，计算机可读介质可以是可由计算机访问的任何可用介质，包括易失性和非易失性介质、可移动和不可移动介质。并且，计算机可读介质可以是计算机记录介质，计算机记录介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如，计算机记录介质可以是磁存储介质，如硬盘驱动器(HDD)及固态硬盘(SSD)；光记录介质，如光盘(CD)、数字化视频光盘(DVD)及蓝光光盘；或包括在可通过网络访问的服务器中的存储器。

此外，如上所述的信号控制方法也可以被实现为包括可通过计算机执行的指令的计算机程序(或计算机程序产品)。计算机程序包括由处理器处理的可编程机械指令，并且可以用高级编程语言(High-level Programming Language)、面向对象的编程语言(Object-oriented Programming Language)、汇编语言或机器语言来实现。此外，计算机程序可以记录在有形的计算机可读记录介质(例如，存储器、硬盘、磁/光介质或固态驱动器(Solid-State Drive，SSD)等)。

因此，如上所述的信号控制方法可通过由计算装置执行如上所述的计算机程序来实现。计算装置还可包括处理器、存储器、存储装置、连接到存储器和高速扩展端口的高速接口以及连接到低速总线和存储装置的低速接口中的至少一部分。这些组件中的每一个都使用各种总线相互连接，可以安装在共同主板上或以任何其他合适的方式安装。

其中，处理器可以在计算装置中处理指令，这些指令可包括存储在存储器或存储装置中以在外部输入或输出装置(例如连接到高速接口的显示器)上显示用于提供图形用户接口(Graphic User Interface，GUI)的图形信息的指令。例如，作为另一实施例，多个处理器和(或)多个总线可以与多个存储器和存储器形态一起适当地使用。并且，处理器可以实现为由包括多个独立模拟和(或)数字处理器的芯片组成的芯片组。

并且，存储器在计算装置中存储信息。作为一例，存储器可以配置为易失性存储器单元或其集合。作为另一例，存储器可以配置为非易失性存储器单元或其集合。并且，存储器也可以是另一种形式的计算机可读介质，例如磁盘或光盘。

而且，存储装置可以为计算装置提供大容量的存储空间。存储装置可以是计算机可读介质或包含这种介质的组件，例如，也可包括存储区域网络(Storage Area Network，SAN)中的装置或其他组件，可以是软盘装置、硬盘装置、光盘装置或磁带装置、闪存或其他类似的半导体存储装置或装置阵列。

在上述实施例中使用的术语“～部”是指软件或现场可编程门阵列(fieldprogrammable gate array，FPGA)或专用集成电路(ASIC)等硬件组件，“～部”可执行某种角色。但是“～部”并不限定于软件或硬件。“～部”可以配置成驻留在可寻址的存储介质，还可以配置成运行一个或多个处理器。因此，作为一例，“～部”包括：如软件组件、面向对象的软件组件、类组件及任务组件的组件；进程；函数；属性；程序；子程序；程序专有代码段；驱动程序；固件；微代码；电路；数据；数据库；数据结构；表；数组；以及变量。

组件和“～部”中提供的功能可以组合成较少数量的构成要素和“～部”，或者与附加组件和“～部”分开。

不仅如此，组件和“～部”也可以被实现为运行装置或安全多媒体卡中的一个或多个中央处理器。上述实施例是用于例示，上述实施例所属领域的普通技术人员可以理解，在不改变上述实施例的技术构思或必要特征的情况下，可以很容易地将其修改为其他具体形式。因此，应当理解，上述实施例在所有方面都是示例性的而不是限制性的。例如，描述为单一型的每个组件可以以分散的形式实现，同样描述为分布式的组件可以以组合的形式实现。

想要通过本说明书保护的范围由所附权利要求而不是以上详细说明来表示，应理解为包括从权利要求的含义和范围及其等同物而衍生的所有变化或修改。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于显示器的基板

基于强化学习的信号控制装置及信号控制方法

相关技术

网友询问留言