一种基于双更新策略的车联网节点转发效用学习方法

文档序号:1908192 发布日期:2021-11-30 浏览:20次 >En<

阅读说明:本技术 一种基于双更新策略的车联网节点转发效用学习方法 (Internet of vehicles node forwarding utility learning method based on double updating strategies ) 是由 王桐 王希波 刘逸伦 高山 曹越 于 2021-08-03 设计创作,主要内容包括:本发明是一种基于双更新策略的车联网节点转发效用学习方法。本发明涉及移动机会网络通信技术领域,基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素;确定节点接触新鲜度系数,确定节点接触概率,建立车载机会网络中节点转发先用学习模型;根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据包的时刻,建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的学习系数。本发明提高车载机会网络的传输性能,包括提高数据包投递成功率和降低数据包传输时延。(The invention discloses a vehicle networking node forwarding utility learning method based on a double updating strategy. The invention relates to the technical field of mobile opportunistic network communication, and the basic elements in the learning process are determined based on information updating in the information interaction process between vehicle nodes; determining a node contact freshness coefficient, determining a node contact probability, and establishing a node forwarding first-use learning model in the vehicle-mounted opportunity network; determining a forwarding utility learning updating model according to the routing requirement and the node opportunity contact characteristics of the vehicle-mounted opportunity network, establishing a forwarding utility value data packet forwarding updating strategy, acquiring the moment when a sending node receives the data packet from the previous node, establishing a forwarding utility value node contact updating strategy, and adopting a learning coefficient different from that in the forwarding updating process. The invention improves the transmission performance of the vehicle-mounted opportunity network, including improving the delivery success rate of the data packet and reducing the transmission delay of the data packet.)

一种基于双更新策略的车联网节点转发效用学习方法

技术领域

本发明涉及移动机会网络通信技术领域,是一种基于双更新策略的车联网节点转发效用 学习方法。

背景技术

工业自动化的发展浪潮推动着信息传感、数据通信以及数据处理等高新技术的发展不断 前进,大量具备信息感知处理能力、短距离信息无线传输能力的智能设备被应用于如城市智 能交通、海洋环境监测、野生动物迁移追踪等众多领域,社会发展逐步进入物联网信息时代。 为了满足物联网/车联网泛在互联、全面感知需求,智能设备之间需要进行组网互联,因此设 备间组网技术日益成为物联网研究领域的焦点。高动态自组织网络/车联网实际应用中,往往 会面临城市中节点分布稀疏、网络拓扑变化快等问题,不能保障网络的连通性,因此传统的 移动自组织网络通信协议不再适用于这些复杂场景。因为这些传统通信协议应用的条件是保 证网络中任意节点对间完整连通的端到端链路不能少于一条,而在实际的自组织网络中这一 条件很难得到满足,所以很难保证网络的传输性能,使得车联网在现实应用中难以得到推广。

车载移动机会网络/车联网在原有五层网络体系结构基础上,在应用层和运输层之间引 进束层(Bundle Layer),如附图1所示。束层使得网络节点原有的“存储-转发”(Storeand Forward) 数据通信方式转变为“存储-携带-转发”(Store-Carry-Forward)通信方式,将网络拓扑动态变化 这一劣势转化为可应用特征,依靠车辆节点移动产生的机会接触,选择中继节点进行数据包 转发,直到数据包到达目的节点。附图2为车载移动机会中网络数据包传输过程。数据包从 节点S产生,然后向D传递的整个过程。假设在T1时刻,在节点S上产生了目的节点为D的 数据包,而两个节点间并不存在完整端到端链路,而节点S传递范围内也没有合适的邻近节 点被选作中继节点,因此节点S继续携着数据包在网络中移动;在T2时刻,节点S遇到节点R, 而且节点R具有更大的传输潜力,因此S将数据包转发给节点R,R携带该数据包在网络中 移动;在T3时刻,节点R移动进入目的节点D的通信区域,因此R将该数据包传给节点D, 完成数据传递任务。

对于车载移动机会网络来说,选择合适的中继节点来携带数据包对于网络传输的性能至 关重要。而在中继节点选择过程中,根据车载移动机会网络的网络特性以及节点特征为其制 定合理并且有效的转发节点效用计算方法的作用尤为重要。

发明内容

本发明利用车辆节点间信息交互(数据包在节点间传递产生的信息交互、网络中节点相 遇接触产生的信息交互)进行强化学习状态-动作值的更新,使得网络节点可以随强化学习的 学习过程逐步获取节点对数据包的转发效用,提高移动机会网络的传输性能。在车载机会网 络中,车辆通过车载WIFI、蓝牙或者短程专用通信设备进行通信,实现车间通信。本发明提 供了一种基于双更新策略的车联网节点转发效用学习方法,本发明提供了以下技术方案:

一种基于双更新策略的车联网节点转发效用学习方法,包括以下步骤:

步骤1:基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素,;

步骤2:基于车辆节点间信息交互过程中的信息更新,确定节点接触新鲜度系数,

步骤3:确定节点接触概率,建立车载机会网络中节点转发先用学习模型;

步骤4:根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模 型,所述模型包括动态折扣因子;

步骤5:建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据 包的时刻,并确定两个节点间经历的时间长度,并带入更新模型中确定状态-动作值

步骤6:建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的 学习系数。

优选地,所述步骤1具体为:

确定学习过程中所需要的基本要素,所述要素包括:环境、智能体、状态空间、动作空 间和立即回报;定义节点更新信息表,所述节点更新信息表包括节点接触信息表和节点状态- 动作值表;

环境为数据包从源节点向目的节点的投递过程中,随着数据包的转发城市中整个车载机 会网络提供所需信息,将车载机会网络视为学习模型的环境;

智能体为从源节点向目的节点传递的数据包作为学习算法的智能体;

状态空间为网络中所有车辆节点作为数据包的存储节点,网络中所有节点的集合为智能 体的状态空间;

动作空间为节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,转发节点选择范围包括所有接触过的节点;

立即回报为当数据包成功转发到下一跳节点后,智能体从环境中获得即时回报值,用于 状态-动作值的更新;

节点接触信息表为在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 计算节点s与其他节点间的平均接触间隔和接触新鲜度系数,从而估计节点间的接触概率;

节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值,当回报 值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。

优选地,所述步骤2具体为:

接触新鲜度系数FA,B为节点A和B之间的接触信息新鲜程度,表征当前接触概率的时效 性强度,在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,通过下式进行更新公式:

FA,B=FA,B+(1-FA,B)*Pint

其中,Pint为一个固定常数,设置Pint等于0.85;

当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度降低,需要对较长时间 未接触的节点接触新鲜度系数进行衰减,通过下式进行衰减更新:

其中,η为衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数,时间单位的长度为节点A和B的平均接触间隔时间。

优选地,所述步骤3具体为:

步骤3.1:确定节点接触概率,城市中车辆节点间的接触间隔时间近似服从负指数分布, 以此来估计节点间的接触概率,通过下式表示接触概率:

其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A和B接触间隔负指数分布的均值;

步骤3.2:利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A 和B在时间T内的接触概率通过下式表示:

其中,N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻;

步骤3.3:引入接触新鲜度系数后,通过下式表示节点A和B的接触概率:

优选地,所述步骤4具体为:

根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述 模型包括动态折扣因子,立即回报函数,并将节点接触概率引入更新模型;

立即回报值Rd(s,x)通过下式表示:

其中表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;

动态折扣因子γd(s,x)的通过下式表示:

其中,γ为折扣因子常数,0<γ≤1;表示目的节点为d的数据包从进入节点s到转 发进入节点x所经历的时间长度;

转发效用Q值更新公式通过下式所示:

其中,Qd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状 态-动作值,即s向x转发目的节点为d的数据包对应的转发效用Q值;α为学习系数,0≤α≤1; Rd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值; γd(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子;Nx表示 节点的接触节点集合,该集合包含所有节点x移动过程中遇到的所有节点;Qd′(x,y)为适应 针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。

优选地,所述步骤5具体为:

在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息;当发送数据的节点在收到数据发送确认后,提取出接收节点的ID、数据 包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触 概率的状态-动作值;通过获取发送节点从上一节点中接收该数据包的时刻,计算数据包在两 个节点间经历的时间长度,代入到更新公式计算状态-动作值。

优选地,所述步骤6具体为:通过节点接触交互信息的发送一方面使得节点间的接触信 息得到更新,包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间 接触新鲜度系数的更新,从而实现节点间接触概率的计算;

通过获取接触交互信息中包含的Q值列表信息,实现状态-动作值的节点接触更新,在 节点接触更新过程中,不同于转发更新过程,立即回报值函数和折扣因子函数所用的节点数 据包传输时长被节点间数据包传输时长的平均值代替,在更新过程中采用与转发更新过程不 同的学习系数。

本发明具有以下有益效果:

本发明提供的基于双更新策略的车载机会网络转发效用学习模型,利用节点间的接触信 息计算节点接触新鲜度系数和节点间接触概率,在节点接触概率预测的基础上结合分布式Q 学习框架进行节点转发能力的学习,并利用数据包转发更新和节点接触更新双更新策略加速 节点转发效用值得学习过程,使得节点可以随学习过程逐步获取节点对数据包的转发效用。 转发效用学习模型有助于数据包转发节点的选取,提高车载机会网络的传输性能,包括提高 数据包投递成功率和降低数据包传输时延。

附图说明

图1是车载机会网络体系结构示意图;

图2是车载机会中网络数据包传输过程示意图;

图3是转发效用学习模型设计过程整体框架示意图;

图4是节点s与其他节点的节点接触信息示意图;

图5是节点s中存储的状态-动作值映射示意图;

图6是节点A和B在网络运行期间的接触序列图示意图;

图7是效用学习模型在确认信息示意图;

图8是车辆节点A和B转发数据包后的状态-动作值更新过程示意图;

图9是节点接触时的交互信息内容示意图;

图10是车辆节点A和B接触进行信息交互过程示意图。

具体实施方式

以下结合具体实施例,对本发明进行了详细说明。

具体实施例一:

根据图3至图10所示,本发明提供一种基于双更新策略的车联网节点转发效用学习方 法,一种基于双更新策略的车联网节点转发效用学习方法,包括以下步骤:

步骤1:基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素;

所述步骤1具体为:

确定学习过程中所需要的基本要素,所述要素包括:环境、智能体、状态空间、动作空 间和立即回报;定义节点更新信息表,所述节点更新信息表包括节点接触信息表和节点状态- 动作值表;

环境为数据包从源节点向目的节点的投递过程中,随着数据包的转发城市中整个车载机 会网络提供所需信息,将车载机会网络视为学习模型的环境;

智能体为从源节点向目的节点传递的数据包作为学习算法的智能体;

状态空间为网络中所有车辆节点作为数据包的存储节点,网络中所有节点的集合为智能 体的状态空间;

动作空间为节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,转发节点选择范围包括所有接触过的节点;

立即回报为当数据包成功转发到下一跳节点后,智能体从环境中获得即时回报值,用于 状态-动作值的更新;

节点接触信息表为在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 计算节点s与其他节点间的平均接触间隔和接触新鲜度系数,从而估计节点间的接触概率;

节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值,当回报 值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。

步骤2:基于车辆节点间信息交互过程中的信息更新,确定节点接触新鲜度系数;

所述步骤2具体为:

接触新鲜度系数FA,B为节点A和B之间的接触信息新鲜程度,表征当前接触概率的时效 性强度,在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,通过下式进行更新公式:

FA,B=FA,B+(1-FA,B)*Pint

其中,Pint为一个固定常数,设置Pint等于0.85;

当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度降低,需要对较长时间 未接触的节点接触新鲜度系数进行衰减,通过下式进行衰减更新:

其中,η为衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数,时间单位的长度为节点A和B的平均接触间隔时间。

步骤3:确定节点接触概率,建立车载机会网络中节点转发先用学习模型;

所述步骤3具体为:

步骤3.1:确定节点接触概率,城市中车辆节点间的接触间隔时间近似服从负指数分布, 以此来估计节点间的接触概率,通过下式表示接触概率:

其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A和B接触间隔负指数分布的均值;

步骤3.2:利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A 和B在时间T内的接触概率通过下式表示:

其中,N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻;

步骤3.3:引入接触新鲜度系数后,通过下式表示节点A和B的接触概率:

步骤4:根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模 型,所述模型包括动态折扣因子;

所述步骤4具体为:

根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述 模型包括动态折扣因子,立即回报函数,并将节点接触概率引入更新模型;

立即回报值Rd(s,x)通过下式表示:

其中表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;

动态折扣因子γd(s,x)的通过下式表示:

其中,γ为折扣因子常数,0<γ≤1;表示目的节点为d的数据包从进入节点s到转 发进入节点x所经历的时间长度;

转发效用Q值更新公式通过下式所示:

其中,Qd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状 态-动作值,即s向x转发目的节点为d的数据包对应的转发效用Q值;α为学习系数,0≤α≤1; Rd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值; γd(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子;Nx表示 节点的接触节点集合,该集合包含所有节点x移动过程中遇到的所有节点;Qd′(x,y)为适应 针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。

步骤5:建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据 包的时刻,并确定两个节点间经历的时间长度,并带入更新模型中确定状态-动作值;

所述步骤5具体为:

在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息;当发送数据的节点在收到数据发送确认后,提取出接收节点的ID、数据 包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触 概率的状态-动作值;通过获取发送节点从上一节点中接收该数据包的时刻,计算数据包在两 个节点间经历的时间长度,代入到更新公式计算状态-动作值。

步骤6:建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的 学习系数。

所述步骤6具体为:通过节点接触交互信息的发送一方面使得节点间的接触信息得到更 新,包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜 度系数的更新,从而实现节点间接触概率的计算;

通过获取接触交互信息中包含的Q值列表信息,实现状态-动作值的节点接触更新,在 节点接触更新过程中,不同于转发更新过程,立即回报值函数和折扣因子函数所用的节点数 据包传输时长被节点间数据包传输时长的平均值代替,在更新过程中采用与转发更新过程不 同的学习系数。

具体实施例二:

附图3所示为本发明中转发效用学习模型设计过程整体框架。节点机会接触是车载机会 网络数据包转发的前提,也是节点转发效用更新的必要条件。节点接触可以使得节点对间接 触新鲜度系数和接触概率得到更新,而接触新鲜度系数可以用于节点接触概率新鲜度的动态 调整;转发效用学习模型更新公式的关键组成部分包括节点接触概率、立即回报函数和动态 折扣因子;转发效用的学习过程主要是包括利用Q学习策略实现数据包在车载机会网络节点 间传递过程中的学习和节点接触过程中的学习,利用转发效用学习模型更新公式进行节点对 数据包转发效用Q值的更新,可以用于数据包的转发过程。

车载机会网络中节点转发效用学习模型建立阶段实现过程如下:

步骤一:确定学习过程中所需要的基本要素,包括环境、智能体、状态空间、动作空间 和立即回报,定义节点更新信息表,包括节点接触信息表和节点状态-动作值表。

环境:数据包从源节点向目的节点的投递过程中,随着数据包的转发整个车载机会网络 都能为其提供所需信息,所以将整个车载机会网络视为学习模型的环境。

智能体:从源节点向目的节点传递的数据包作为学习算法的智能体。

状态空间:网络中所有节点都可以作为数据包的存储节点,因此网络中所有节点的集合 为智能体的状态空间。

动作空间:节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,因此转发节点选择范围包括所有接触过的节点。

立即回报:当数据包成功转发到下一跳节点后,智能体会从环境中获得即时回报值,用 于状态-动作值的更新。

节点接触信息表:在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 可以计算节点s与其他节点间的平均接触间隔、接触新鲜度系数,从而可以估计节点间的接 触概率。附图4所示为节点s与其他节点的节点接触信息图表,

节点状态-动作值表:附图5所示为节点s中存储的状态-动作值映射。其中,节点s为 数据包所在的状态,深色竖排表示的是数据包的目的节点,深色横排表示的是节点s移动过 程接触过的节点,为其中一个数据元组,表示节点s向节点A转 发目的节点为D的数据包的次数,表示节点s向节点A传输目的节点D的数据包经历的 平均时间,QD(s,A)表示目的节点为D的数据包在节点s中选择节点A作为下一跳投递节点 能够得到的累计回报值,该值越大表明选择节点A作为下一跳投递节点对于数据包的传递性 能越好。

步骤二:定义节点接触新鲜度系数。

接触新鲜度系数FA,B:节点A和B之间的接触信息新鲜程度,能够表征当前接触概率的 时效性强度。在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,该系数的更新公式如下。其中,Pint为一个固定常数,设置Pint等于0.85。

FA,B=FA,B+(1-FA,B)*Pint (1)

当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度就应该降低,因此需要 对较长时间未接触的节点接触新鲜度系数进行衰减,其衰减更新公式如下所示。其中,η为 衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个 数,时间单位的长度为节点A和B的平均接触间隔时间。

步骤三:确定节点接触概率

附图6所示节点A和B在网络运行期间的接触序列图,一个接触周期包括三个时间节点: 接触终止时刻t2(i-1)、接触开始时刻t2i-1和接触终止时刻t2i。灰色区域表示两个节点处于链接 断开状态,白色区域表示两个节点处于连接状态,A和B的第一个接触周期中,0表示网络运 行开始时刻,t1为接触开始时刻,t2为接触终止时刻,t3为第二次接触周期中的接触开始时刻。 T(A,B)=t2为节点A和B第一个接触周期的时间长度。两节点间的接触周期越短,则两个节 点接触越频繁。D(A,B)=t2-t1为节点A和B第一个接触周期中的节点接触持续时长。两节 点接触时间越长,则两节点的链路越稳定,能够传输的数据流量越多。T(A,B)-D(A,B)=t1为 节点A和B第一个接触周期的接触间隔时长。两节点接触间隔越大,则两个节点接触的概率 越小,传输数据包的可能性也越小。

节点间的接触间隔时间近似服从负指数分布,以此来估计节点间的接触概率,接触概率 如下式所示。其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A 和B接触间隔负指数分布的均值。

利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A和B在时 间T内的接触概率如下式所示。

其中,N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻。

引入接触新鲜度系数后,节点A和B的接触概率公式如下式所示。

步骤四:根据车载机会网络的路由需求和节点机会接触特性,定义转发效用学习更新公 式,包括动态折扣因子,立即回报函数,并将节点接触概率引入更新公式。

立即回报值Rd(s,x)定义如下式所示。其中表示目的节点为d的数据包从进入节点s 到转发进入节点x所经历的时间长度。

动态折扣因子γd(s,x)的定义如下式所示。其中,γ为折扣因子常数,0<γ≤1;表示 目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度。

转发效用Q值更新公式定义如下式所示。其中,Qd(s,x)为目的节点为d的数据包在节点 s中选择节点x作为下一跳转发节点的状态-动作值,即s向x转发目的节点为d的数据包对 应的转发效用Q值;α为学习系数,0≤α≤1;Rd(s,x)为目的节点为d的数据包在节点s中 选择节点x作为下一跳转发节点的立即回报值;γd(s,x)为在节点s中向节点x转发目的节点 为d的数据包所对应的动态折扣因子;Nx表示节点的接触节点集合,该集合包含所有节点x 移动过程中遇到的所有节点;Qd′(x,y)为适应针对车载机会网络动态变化特性引入的节点接 触概率的状态-动作值。

(2)数据包转发更新和节点接触更新双更新策略

步骤一:转发效用值数据包转发更新策略。

在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息,附图7为效用学习模型在确认信息中包含的内容。

附图8为节点A和B转发数据包后的状态-动作值更新过程,其中,A为数据发送节点, B为数据接收节点,数据包的目的节点为D。

当节点B接收到从A转发来的数据包,记录接收该数据包的时刻并判断该数据包的目的 节点是否为自己。如果B为数据包的目的节点,即D=B,则数据包转发过程进入终止态。在 数据包接收确认信息中只需要接收节点的ID、数据包ID和接收数据包的时刻Time,字段Q 值设置为空,节点A收到B发送的确认信息后按照公式(6)计算立即回报值RD(A,D),并按照 公式(9)更新状态-动作值列表中对应的Q值QD(A,D)。

如果B不是数据包的目的节点,则节点B在数据包接收确认信息中需要接收节点的ID、 数据包ID、接收数据包的时刻Time以及数据包在接收节点中最大的引入接触概率的Q值 QD′(B,y)计算公式如(10)所示,按照公式(7)计算动态折扣因子γD(A,B), 并按照公式(11)更新状态-动作值列表中对应的Q值QD(A,B)。同时,节点A接收到接收确认 后需要将目的节点为D转发给节点B的数据包记录次数加1,并将数据包在A和B两个节点 之间所经历的时间长度加入到目的节点D的累计传输时间长度中,用来计算平均传输间隔时 长。

步骤二:转发效用值节点接触更新策略。

附图9所示为效用学习模型中设计的节点接触时的交互信息内容,通过接触交互信息的 发送一方面使得节点间的接触信息可以得到更新,包括接触时间的更新、接触次数的更新、 累计接触间隔时长的更新以及节点间接触新鲜度系数的更新,从而实现节点间接触概率的计 算;另一方面通过获取接触交互信息中包含的Q值列表信息,可以实现状态-动作值的节点接 触更新。

附图10节点A和B接触进行信息交互的过程。节点A和B进入彼此连通范围并建立通信 连接,两个节点分别向对方发送交互信息。当A接收到B的交互信息后,首先更新A与B的接触信息表,包括A与B的最新接触时刻、A与B的接触次数以及与节点B的接触间隔累计 时间,同时更新节点A和B的接触新鲜度系数FA,B;然后查看A是否向B发送过目的节点为B 的数据包,如果发送过则计算此类数据包从A到B经历时间长度的平均值 其中为此类数据包发送的次数,将该均值代替数据包传输时长代 入公式(9)更新状态-动作值列表中对应的Q值QB(A,B),如果没发送过则不更新;最后,按 照节点B发送的交互信息中的Q值列表与节点A的状态-动作值表进行对照逐条更新,例如对 (dn,maxQ)来讲,如果节点A的状态-动作值表中含有对应目的节点dn转发节点B的Q值,则 计算目的节点为dn的数据包从节点A到节点B经历时间长度的平均值 其中为目的节点为dn的数据包从节点A发送到节点B的次数,将 该平均值和对应的maxQ代入到公式(11)更新状态-动作值列表中对应的Q值,如果节点A不 含有Q值则不进行更新。

以上所述仅是一种基于双更新策略的车联网节点转发效用学习方法的优选实施方式,一 种基于双更新策略的车联网节点转发效用学习方法的保护范围并不仅局限于上述实施例,凡 属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说, 在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种发送报文的方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!