用于网格状路网的交通信号管控系统和设备

文档序号:36449 发布日期:2021-09-24 浏览:27次 >En<

阅读说明:本技术 用于网格状路网的交通信号管控系统和设备 (Traffic signal management and control system and equipment for grid-shaped road network ) 是由 金峻臣 华文 汪作为 于 2021-06-22 设计创作,主要内容包括:本发明实施例公开了用于网格状路网的交通信号管控系统和设备,包括多个交通管控智能体,网格状路网包括多个交叉路口,网格状路网设置有道路检测设备和道路信号设备,交通管控智能体与交叉路口一一对应设置;交通管控智能体单向串联组成节点链条,节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口;交通管控智能体用于根据节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的道路检测设备检测到的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令,并将信号控制指令发送到道路控制设备。本方案减少交通信号管控优化过程中深度学习的动作和状态空间搜索,克服集中式控制中维度过大的问题。(The embodiment of the invention discloses a traffic signal control system and equipment for a latticed road network, which comprise a plurality of traffic control intelligent bodies, wherein the latticed road network comprises a plurality of intersections, the latticed road network is provided with road detection equipment and road signal equipment, and the traffic control intelligent bodies and the intersections are arranged in a one-to-one correspondence manner; the traffic control intelligent bodies are connected in series in one way to form a node chain, and two adjacent traffic control intelligent bodies in the node chain correspond to two adjacent intersections; and the traffic control intelligent agent is used for generating a signal control instruction of the corresponding intersection in real time based on the pre-trained model according to the action calculation result of the traffic control intelligent agent at the upstream in the node chain and the traffic data detected by the road detection equipment of the corresponding intersection, and sending the signal control instruction to the road control equipment. According to the scheme, the action and state space search of deep learning in the traffic signal control optimization process is reduced, and the problem of overlarge dimensionality in centralized control is solved.)

用于网格状路网的交通信号管控系统和设备

技术领域

本发明实施例涉及公共服务

技术领域

,尤其涉及用于网格状路网的交通信号管控系统和设备。

背景技术

交通拥堵是如今城市的一个主要公共服务问题,不仅会造成巨大的经济损失,还会增加交通事故。交通信号管控优化是缓解城市交通拥堵的重要手段。现有的交通信号管控优化除了人工根据实际情况和经验的优化,还有基于强化学习框架的交通信号管控方法,作为一类较为先进的方法可以实现实时优化。运用强化学习框架,能够根据来自交通环境的反馈主动学习最佳管控策略,例如,在一种普遍的基于强化学习的交通管控优化方法中,强化学习Agent通过观察交通流量得到环境状态(state),通过输出动作(action)来控制交通红绿灯,以减少流量拥塞或达到其他目标,得到奖励反馈(reward)。

运用传统强化学习的交通管控优化方法建立一个由交通状态和动作组成的 Q表,并通过Q-Learning,SARSA等算法更新Q表。传统的方法更专注于单个路口的管控优化控制,仅适用于离散和低维状态空间,难以应用于具有高维度管控方案和复杂交通状态下的路网。

发明内容

本发明提供了用于网格状路网的交通信号管控系统和设备,以解决现有技术对复杂交通状态下难以实现高维度管控的技术问题。

第一方面,本发明实施例提供了一种用于网格状路网的交通信号管控系统,包括多个交通管控智能体,所述网格状路网包括多个交叉路口,所述网格状路网设置有道路检测设备和道路信号设备,所述交通管控智能体与所述交叉路口一一对应设置,所述道路检测设备用于检测交通数据,所述道路信号设备用于指示所述交叉路口的行进状态;

所述交通管控智能体单向串联组成节点链条,所述节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口,所述交通管控智能体与对应的交叉路口的道路检测设备和道路控制设备相连;

所述交通管控智能体用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令,并将所述信号控制指令发送到所述道路控制设备。

其中,所述预训练的模型包括动作计算模型和状态评估模型;

所述动作计算模型用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令;

所述状态评估模型用于对所述信号控制指令给所述交通数据产生的影响进行评价,并将所述评价反馈到所述动作计算模型,以使所述动作计算模型进行更新。

其中,所述动作计算模型包括递归网络层;

所述递归网络层用于建立所述节点链条中上游的交通管控智能体对当前的交通管控智能体的相关性。

其中,所述动作计算模型通过学习最小化损失值确认信号控制指令。

其中,所述状态评估模型通过计算值函数评价所述信号控制指令。

其中,所述网格状路网中预设第一方向的道路中的交叉路口对应的交通管控智能体依次单向串联。

其中,所述道路检测设备包括摄像头,所述交通数据包括道路图像数据。

其中,所述道路检测设备包括雷达,所述交通数据包括车辆速度数据。

其中,所述道路信号设备包括信号灯和引导屏。

第二方面,本发明实施例提供了一种用于网格状路网的交通信号管控设备,所述交通信号管控设备集成有第一方面任一所述的交通信号管控系统。

上述用于网格状路网的交通信号管控系统和设备,包括多个交通管控智能体,所述网格状路网包括多个交叉路口,所述网格状路网设置有道路检测设备和道路信号设备,所述交通管控智能体与所述交叉路口一一对应设置,所述道路检测设备用于检测交通数据,所述道路信号设备用于指示所述交叉路口的行进状态;所述交通管控智能体单向串联组成节点链条,所述节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口,所述交通管控智能体与对应的交叉路口的道路检测设备和道路控制设备相连;所述交通管控智能体用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令,并将所述信号控制指令发送到所述道路控制设备。通过将每个交叉路口对应的交通管控智能体以串联成节点链条的方式,建立相邻路口的共享信息,使得各个交通管控智能体能观察到整个网格状路网的变化,尤其是邻近的交叉路口的变化,从而减少交通信号管控优化过程中深度学习的动作和状态空间搜索,克服集中式控制中维度过大的问题。

附图说明

图1为一种网格状路网的结构示意图;

图2为本发明实施例提供的一种用于网格状路网的交通信号管控系统的架构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

图1提供了一种网格状路网的结构示意图,图2为本发明实施例提供的一种用于网格状路网的交通信号管控系统的架构示意图。如图所示,该用于网格状路网的交通信号管控系统,包括多个交通管控智能体,所述网格状路网包括多个交叉路口,所述网格状路网设置有道路检测设备和道路信号设备,所述交通管控智能体与所述交叉路口一一对应设置,所述道路检测设备用于检测交通数据,所述道路信号设备用于指示所述交叉路口的行进状态;

所述交通管控智能体单向串联组成节点链条,所述节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口,所述交通管控智能体与对应的交叉路口的道路检测设备和道路控制设备相连;

所述交通管控智能体用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令,并将所述信号控制指令发送到所述道路控制设备。

对于交通管控智能体,其中预训练的模型,主要通过强化学习的方式进行训练,并针对网格状路网具有高维度管控方案和复杂交通状态的实际特性,在强化学习中通过引入深度神经网络来近似高维度状态空间,可以通过学习环境的信息表示并有效地搜索状态空间。现有技术中,每个交叉路口独立运用深度强化学习方法,其对单个交叉路口的管控优化能够改善一个交叉路口或者邻近的多个交叉路口的交通情况,但是随着路网的规模增长,交通管控智能体难以在庞大的状态空间进行学习,而离散的交通管控智能体不能观察到整个网格状路网的状态,也就无法实现对整个网格状路网的有效管控。

在本方案中,基于强化学习的框架,进一步结合深度神经网络,将网格状路网中的复杂交叉路口状态和动作空间进行分解,每个交通管控智能体只能为一个交叉路口生成信号控制指令,但是将所有的交通管控智能体单向串联组成节点链条,节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口,通过这种设计,能够减小交通管控智能体共同作用的状态-动作搜索空间,状态空间的维数会随着减小,在不牺牲训练性能的情况下,提高了训练速度和稳定性,同时交通管控智能体的价值函数在训练过程中能够被修正,更适用于交通管控的应用场景。

对于实际的网格状路网,可以抽象为图1所示的路网结构,即在横竖两个方向上,均有多条道路,道路的交点即为交叉路口,在实际的道路设施中,交叉路口可能是在同一平面的交叉,也可能是通过立交在不同平面的交叉,整体而言,不同的交叉方式根据对应的路况进行相关交通管控智能体的训练即可。对应于图1所述的路网结构方式,在具体实现节点链条时,所述网格状路网中预设第一方向的道路中的交叉路口对应的交通管控智能体依次单向串联。具体如图2所示,确定第一方向(图2中以横向为第一方向),将第一方向上的道路的交叉路口对应的交通管控智能体依次单向连接,然后将平行的两条道路的端点对应的交通管控智能体连接,最终构成如图2所示的节点链条的结构示意图。当然,在具体的网格状路网中,因为方向、长度等原因,可能不能实现完全如图1所示的抽象,但是整体上可以保证邻近的区域内采用近似的处理方式,并且因为对于道路设置而言,当两地距离较远时,一地的通行状态也基本不会对另一地的通行状态产生影响。因此,仅对邻近的区域采用近似的处理方式,仍然能够保证准确描述单个交叉路口与整个路网之间的影响关系,生成准确的信号控制指令并对应进行评价。

另外,本方案中各个交叉路口对应的交通管控智能体可以是分别训练、分别布局并协同运行,即每个交叉路口对应设置硬件主体分明的交通管控智能体进行交通信号管控,也可以是多个交叉路口对应的交通管控智能体以集成的方式在一个或多个硬件主体中运行,交通管控智能体本身并没有明显实体上的边界。

在具体实现过程中,所述预训练的模型包括动作计算模型和状态评估模型;

所述动作计算模型用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令;

所述状态评估模型用于对所述信号控制指令给所述交通数据产生的影响进行评价,并将所述评价反馈到所述动作计算模型,以使所述动作计算模型进行更新。

进一步的,所述动作计算模型包括递归网络层;

所述递归网络层用于建立所述节点链条中上游的交通管控智能体对当前的交通管控智能体的相关性。

另外,所述动作计算模型可以通过学习最小化损失值确认信号控制指令。所述状态评估模型可以通过计算值函数评价所述信号控制指令。

进一步请参考图2,交通管控智能体在接收到交通环境状态(s)之后,对应作出管控动作(a),即生成信号控制指令。在本实施例描述中,为区分描述,六个交通管控智能体定义为交通管控智能体1、…、交通管控智能体6,分别对应交叉路口1、…、交叉路口6;交通管控智能体对应的交通环境状态分别定义为s1、…、s6;交通管控智能体对应生成的管控动作分别定义为a1、…、a6。在具体生成管控指令的过程中,交通管控智能体在节点链条中如果存在上一个交通管控智能体,还需要输入上一个交通管控智能体的管控指令,以进行综合判断。整体而言,每个交叉路口对应的交通管控智能体通过这种决策方式减少了动作的搜索空间。

本方案中模型的训练过程遵循强化学习中Actor-Critic算法的核心架构。具体来说,运用Actor-Critic算法的交通管控智能体有两个模型组成,即动作计算模型和状态评估模型,其分别用于通过状态计算动作和评估状态值,前者通过学习最佳策略控制交通管控智能体的动作,后者通过计算值函数评价最终状态。其中动作计算模型包括递归网络层,其是基于递归神经网络的结构设计,具体在本方案中,将网格状路网的整体管控决策问题分解为多个交叉路口的子问题,相较于整个网格状路网的整体管控决策大大降低了处理难度,交通管控智能体也不再一次性输出所有交叉路口的动作集合,而是连续地输出每个交叉路口的动作,有效降低了巨大策略搜索空间。交通管控智能体在生成工作的过程中,充分考虑交叉路口之间的相互作用,记住前序动作决策并探索前序动作之间的相关性。即对于节点链条中交通管控智能体k的管控动作ak,会综合考虑其前序的交通管控智能体输出的管控动作a1、…、ak。

在本方案中的交通信号管控系统中,如果所述道路检测设备包括摄像头,对应的所述交通数据包括道路图像数据。如果所述道路检测设备包括雷达,所述交通数据则对应包括车辆速度数据。

如果所述道路信号设备包括信号灯和引导屏,则交通管控智能体可以同时生成对信号灯和引导屏的信号控制指令,其中对信号灯的信号控制指令用于控制信号灯的颜色变换,对引导屏的信号控制指令用于控制引导屏的显示内容。

上述,用于网格状路网的交通信号管控系统,包括多个交通管控智能体,所述网格状路网包括多个交叉路口,所述网格状路网设置有道路检测设备和道路信号设备,所述交通管控智能体与所述交叉路口一一对应设置,所述道路检测设备用于检测交通数据,所述道路信号设备用于指示所述交叉路口的行进状态;所述交通管控智能体单向串联组成节点链条,所述节点链条中相邻的两个交通管控智能体对应相邻的两个交叉路口,所述交通管控智能体与对应的交叉路口的道路检测设备和道路控制设备相连;所述交通管控智能体用于根据所述节点链条中上游的交通管控智能体的动作计算结果,以及对应的交叉路口的交通数据,基于预训练的模型,实时生成对应的交叉路口的信号控制指令,并将所述信号控制指令发送到所述道路控制设备。通过将每个交叉路口对应的交通管控智能体以串联成节点链条的方式,建立相邻路口的共享信息,使得各个交通管控智能体能观察到整个网格状路网的变化,尤其是邻近的交叉路口的变化,从而减少交通信号管控优化过程中深度学习的动作和状态空间搜索,克服集中式控制中维度过大的问题。

在本方案中,还提供了一种用于网格状路网的交通信号管控设备,所述交通信号管控设备集成有本发明实施例中任一所述的交通信号管控系统。在本方案中,可以每个交通管控智能体分别对应集成一个终端设备,也可以多个交通管控智能体集成在一个终端设备中,甚至所有交通管控智能体集成在一个终端设备中,但是不管采用哪种集成方式,必须要保证所有的交通管控智能体能快速准确地生成对应的交叉路口的信号控制指令,保证各个交叉路口的畅通运行,进而保证整个网格状路网的畅通运行。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种信号交叉口借道左转车道设计方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!