一种智能体互动方法、装置、计算机设备及存储介质

文档序号:413371 发布日期:2021-12-21 浏览:23次 >En<

阅读说明:本技术 一种智能体互动方法、装置、计算机设备及存储介质 (Intelligent agent interaction method and device, computer equipment and storage medium ) 是由 邱福浩 韩国安 练振杰 王伟轩 王亮 于 2021-07-22 设计创作,主要内容包括:本申请提供一种智能体互动方法、装置、计算机设备及存储介质,可以应用于云计算领域或人工智能领域,用于解决智能体的互动准确性较低的问题。该方法包括:响应于虚拟账号触发的互动请求指令,加载目标智能体。响应于所述虚拟账号针对目标虚拟互动场景中,与所述虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取所述控制操作对应的目标互动场景图像。从所述目标互动场景图像中提取目标互动状态特征。基于所述目标互动状态特征确定所述目标智能体对应的目标调度操作和目标互动操作。响应于所述目标调度操作和所述目标互动操作,在所述目标虚拟互动场景中对所述目标智能体关联的第二目标虚拟受控元素进行控制。(The application provides an intelligent agent interaction method, an intelligent agent interaction device, computer equipment and a storage medium, which can be applied to the field of cloud computing or the field of artificial intelligence and are used for solving the problem of low interaction accuracy of intelligent agents. The method comprises the following steps: and responding to an interaction request instruction triggered by the virtual account, and loading the target agent. Responding to a control operation triggered by a first target virtual controlled element associated with the virtual account in a target virtual interaction scene by the virtual account, and acquiring a target interaction scene image corresponding to the control operation. And extracting target interaction state characteristics from the target interaction scene image. And determining target scheduling operation and target interaction operation corresponding to the target agent based on the target interaction state characteristics. And responding to the target scheduling operation and the target interaction operation, and controlling a second target virtual controlled element associated with the target agent in the target virtual interaction scene.)

一种智能体互动方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域,尤其涉及一种智能体互动方法、装置、计算机设备及存储介质。

背景技术

随着科技的不断发展,越来越多的设备不仅可以为多个虚拟账号提供虚拟互动场景,还可以为单个虚拟账号提供在虚拟互动场景中进行互动的智能体。例如,以游戏场景为例,某游戏账号可以在未匹配到其他游戏账号时,与智能体进行互动;又例如,游戏账号可以通过与智能体进行互动,来提升自身互动能力。

通常,虚拟账号在针对虚拟账号关联的某一虚拟受控元素执行了控制操作之后,智能体仅能够针对智能体关联的某一虚拟受控元素确定出相应的反馈操作。然而,在虚拟账号执行了控制操作之后,并不是只有虚拟互动场景的单一元素受到影响,控制操作带来的影响是多样化的,传统智能体的互动方法并未考虑虚拟互动场景中真实的互动过程,使得智能体无法灵活地在虚拟互动场景中与虚拟账号进行互动。

可见,已有技术下,智能体的互动准确性较低。

发明内容

本申请实施例提供一种智能体互动方法、装置、计算机设备及存储介质,用于解决智能体的互动准确性较低的问题。

第一方面,提供一种智能体互动方法,包括:

响应于虚拟账号触发的互动请求指令,加载目标智能体;

响应于所述虚拟账号针对目标虚拟互动场景中,与所述虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取所述控制操作对应的目标互动场景图像;

从所述目标互动场景图像中提取目标互动状态特征;

基于所述目标互动状态特征确定所述目标智能体对应的目标调度操作和目标互动操作;

响应于所述目标调度操作和所述目标互动操作,在所述目标虚拟互动场景中对所述目标智能体关联的第二目标虚拟受控元素进行控制。

第二方面,提供一种智能体互动装置,包括:

加载模块:用于响应于虚拟账号触发的互动请求指令,加载目标智能体;

处理模块:用于响应于所述虚拟账号针对目标虚拟互动场景中,与所述虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取所述控制操作对应的目标互动场景图像;

所述处理模块还用于:从所述目标互动场景图像中提取目标互动状态特征;

所述处理模块还用于:基于所述目标互动状态特征确定所述目标智能体对应的目标调度操作和目标互动操作;

所述处理模块还用于:响应于所述目标调度操作和所述目标互动操作,在所述目标虚拟互动场景中对所述目标智能体关联的第二目标虚拟受控元素进行控制。

可选的,所述目标智能体是采用以下方式训练的:

所述处理模块还用于:基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对所述待训练智能体进行多轮迭代训练,直到满足预设的训练目标时,将所述待训练智能体输出作为目标智能体,其中,在一轮迭代训练中,所述处理模块具体用于:

基于所述样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测所述待训练智能体针对所述样本虚拟互动场景中所述待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测所述待训练智能体在执行所述样本调度操作后,针对所述样本虚拟受控元素执行的样本互动操作;

基于执行所述样本调度操作后产生的第二样本互动场景图像对应的第二样本互动状态特征,以及,执行所述样本互动操作后产生的第三样本互动场景图像对应的第三样本互动状态特征,调整所述待训练智能体的模型参数。

可选的,所述处理模块具体用于:

基于所述第二样本互动状态特征,按照预设的调度激励策略,确定所述样本调度操作的调度激励数据,其中,所述调度激励数据用于表征所述样本调度操作的完成程度,以及,所述样本调度操作对所述样本互动结果的影响程度;

基于所述第三样本互动状态特征,按照预设的互动激励策略,确定所述样本互动操作的互动激励数据,其中,所述互动激励数据用于表征所述样本互动操作对所述样本互动结果的影响程度;

分别确定所述调度激励数据和所述互动激励数据,与预设的目标激励数据之间的误差值,并基于获得的各个误差值调整所述待训练智能体的模型参数。

可选的,所述处理模块还用于:

在基于获得的各个误差值调整所述待训练智能体的模型参数之后,基于多轮迭代训练获得的各个调度激励数据和各个互动激励数据,按照预设得分策略,确定所述待训练智能体的评估值,其中,所述评估值用于表征所述待训练智能体的训练程度;

若所述评估值收敛,则将所述待训练智能体输出作为目标智能体。

可选的,所述处理模块具体用于:

基于预设的参考智能体集合中各个参考智能体各自对应的选取概率,在所述各个参考智能体中随机抽取参考智能体;

基于所述待训练智能体与抽取出的参考智能体在样本虚拟互动场景中的互动过程,对所述待训练智能体进行多轮迭代训练;

若在获得所述待训练智能体与抽取出的参考智能体的样本互动结果时,所述待训练智能体不满足所述训练目标,则在所述各个参考智能体中重新抽取参考智能体,继续对所述待训练智能体进行多轮迭代训练;

若所述待训练智能体满足所述训练目标,将所述待训练智能体输出作为目标智能体。

可选的,所述处理模块还用于:

在将所述待训练智能体输出作为目标智能体之前,统计对所述待训练智能体进行迭代训练的训练次数;

若统计的训练次数达到预设的指定次数,则将所述待训练智能体输出作为参考智能体,添加至所述参考智能体集合;

将所述训练次数清零,继续对所述待训练智能体进行迭代训练,并基于重新统计的训练次数,更新所述参考智能体集合。

可选的,所述处理模块还用于:

在基于所述样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测所述待训练智能体针对所述样本虚拟互动场景中所述待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测所述待训练智能体在执行所述样本调度操作后,针对所述样本虚拟受控元素执行的样本互动操作之前,对所述第一样本互动场景图像进行区域识别处理,获得第一互动结果区域、第一全局视角区域和第一局部视角区域;

分别对所述第一互动结果区域、所述第一全局视角区域和所述第一局部视角区域进行图像特征提取处理,分别获得相应的第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵,其中,所述第一特征向量用于表征与所述样本互动结果相关的互动信息,所述第一全局视角特征矩阵用于表征所述样本虚拟受控元素的位置信息、所述参考智能体关联的参考虚拟受控元素的位置信息和所述样本虚拟互动场景包含的场景元素的位置信息,所述第一局部视角特征矩阵用于表征所述第一局部视角区域包含的样本虚拟受控元素的位置信息、所述第一局部视角区域包含的参考虚拟受控元素的位置信息和所述第一局部视角区域包含的场景元素的位置信息;

将所述第一特征向量、所述第一全局视角特征矩阵和所述第一局部视角特征矩阵,作为所述第一样本互动场景图像对应的第一样本互动状态特征。

可选的,所述处理模块具体用于:

基于所述第一特征向量和所述第一全局视角特征矩阵,预测所述待训练智能体针对所述样本虚拟受控元素执行的样本调度操作;

基于所述样本调度操作、所述第一全局视角特征矩阵和所述第一局部视角特征矩阵,预测执行所述样本调度操作后产生的预测互动场景图像对应的预测特征向量、预测全局视角特征矩阵和预测局部视角特征矩阵;

基于所述预测特征向量和所述预测局部视角特征矩阵,预测所述待训练智能体针对所述样本虚拟受控元素执行的样本互动操作。

可选的,所述处理模块具体用于:

将所述第一全局视角区域划分为多个子区域;

基于所述第一特征向量和所述第一全局视角特征矩阵,预测所述样本虚拟受控元素对应的目标子区域;

基于所述样本虚拟受控元素当前所在子区域,以及所述样本虚拟受控元素对应的目标子区域,获得所述样本调度操作。

可选的,所述处理模块还用于:

在基于所述样本虚拟受控元素当前所在子区域,以及所述样本虚拟受控元素对应的目标子区域,获得所述样本调度操作之后,基于所述样本调度操作,控制所述样本虚拟受控元素向对应的目标子区域移动,获得所述待训练智能体产生的第二样本互动场景图像;

提取所述第二样本互动场景图像对应的第二样本互动状态特征,获得第二特征向量、第二全局视角特征矩阵和第二局部视角特征矩阵。

可选的,所述处理模块还用于:

在提取所述第二样本互动场景图像对应的第二样本互动状态特征之后,基于所述样本虚拟受控元素当前所在子区域,与所述样本调度操作指示的所述样本虚拟受控元素对应的目标子区域是否匹配,确定所述样本调度操作的第一调度子激励;

基于所述样本虚拟受控元素对应的所述第一特征向量与所述第二特征向量之间的变化值,确定所述样本调度操作的第二调度子激励;

基于所述第一调度子激励和所述第二调度子激励的加权和,确定所述样本调度操作的调度激励数据。

可选的,所述待训练智能体包括量化信息提取模块,其中,所述量化信息提取模块用于提取各个样本互动场景图像各自对应的样本互动状态特征;

所述待训练智能体还包括训练模块,其中,所述训练模块用于基于各个样本互动状态特征,获得各个调度激励数据和各个互动激励数据,并基于获得的各个调度激励数据和各个互动激励数据,调整所述待训练智能体的模型参数。

可选的,所述处理模块具体用于:

若所述训练模块包括调度模型和互动模型,所述目标激励数据包括调度目标激励数据和互动目标激励数据,则确定所述调度激励数据与所述调度目标激励数据之间的调度误差值,并基于获得的调度误差值调整所述调度模型的模型参数;

确定所述互动激励数据,与所述互动目标激励数据之间的互动误差值,并基于获得的互动误差值调整所述互动模型的模型参数。

第三方面,提供一种计算机设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面所述的方法。

第四方面,提供一种计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中,在响应于虚拟账号针对第一目标虚拟受控元素触发的控制操作时,可以确定出目标智能体对应的目标调度操作和目标互动操作,从而可以响应于目标调度操作和目标互动操作,对第二目标虚拟受控元素进行控制。响应于控制操作获得的目标调度操作可以控制第二目标虚拟受控元素执行调度动作,从宏观的角度反映目标智能体响应于控制操作获得的互动策略,而不是简单的对控制操作进行互动动作上的回应,提高了目标智能体的互动准确性。

同时,在第二目标虚拟受控元素的数量为多个时,并不是单一控制某个第二目标虚拟受控元素来响应虚拟账号的控制操作,而是从所有第二目标虚拟受控元素的整体情况考虑获得的目标调度操作,从而基于目标调度操作对一个第二目标虚拟受控元素或多个第二目标虚拟受控元素进行的控制,进一步提高了目标智能体的互动准确性。

响应于控制操作获得的目标互动操作可以控制第二目标虚拟受控元素执行互动动作,从微观的角度反映目标智能体的互动能力,在正确的互动策略的基础之上能够使得互动能力发挥最大作用,提高了目标智能体的互动准确性。从宏观和微观两个角度,在不降低互动能力的前提下,提高目标智能体的宏观决策能力,从而使得目标智能体可以对虚拟账号进行准确地多样化地反馈。本申请实施例中,目标智能体与虚拟账号之间的互动可以准确地模仿虚拟账号之间的真实互动,提高了目标智能体的互动准确性。

附图说明

图1a为相关技术提供的智能体互动方法的一种原理示意图一;

图1b为本申请实施例提供的智能体互动方法的一种原理示意图二;

图2为本申请实施例提供的智能体互动方法的一种应用场景;

图3a为本申请实施例提供的智能体互动方法的一种原理示意图三;

图3b为本申请实施例提供的智能体互动方法的一种流程示意图一;

图4a为本申请实施例提供的智能体互动方法的一种原理示意图四;

图4b为本申请实施例提供的智能体互动方法的一种原理示意图五;

图4c为本申请实施例提供的智能体互动方法的一种原理示意图六;

图4d为本申请实施例提供的智能体互动方法的一种原理示意图七;

图5a为本申请实施例提供的智能体互动方法的一种原理示意图八;

图5b为本申请实施例提供的智能体互动方法的一种原理示意图九;

图6为本申请实施例提供的智能体互动方法的一种原理示意图十;

图7为本申请实施例提供的智能体互动方法的一种流程示意图二;

图8为本申请实施例提供的智能体互动装置的一种结构示意图一;

图9为本申请实施例提供的智能体互动装置的一种结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

(1)多人在线战术竞技游戏(multiplayer online battle arena,MOBA):

在竞技中多人通常被分为两队,两队在分散的游戏地图中互相竞争,每个人都通过一个界面控制所选的角色,通常无需操作游戏中的建筑群、资源、训练兵种等组织单位。

(2)智能体(agent):

智能体是驻留在某一环境下,能持续自主地发挥作用,具备驻留性、反应性、社会性、主动性等特征的计算实体。智能体是人工智能领域中一个很重要的概念。任何独立的思想能够并可以同环境交互的实体都可以抽象为智能体。

(3)强化学习(reinforcement learning,RL):

强化学习可以用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。如果智能体的某个行为导致环境正的激励,那么智能体以后产生这个行为的趋势便会加强。智能体的目标是在每个离散状态找到最优策略以使期望的激励和最大。

本申请实施例涉及云技术(cloud technology)和人工智能技术(ArtificialIntelligence,AI)。基于云技术中的云计算(cloud computing)和云存储(cloudstorage),以及人工智能技术中的计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML)等而设计。

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。

作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为基础设施即服务(Infrastructure as a Service,IaaS)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS层上可以部署平台即服务(Platform as a Service,PaaS)层,PaaS层之上再部署软件即服务(Software as a Service,SaaS)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。

云存储是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。

目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID entity,ID)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(Redundant Array of Independent Disk,RAID)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面对本申请实施例提供的智能体互动方法的应用领域进行简单介绍。

随着科技的不断发展,越来越多的设备不仅可以为多个虚拟账号提供虚拟互动场景,还可以为单个虚拟账号提供在虚拟互动场景中进行虚拟互动的智能体。以游戏场景为例,例如,某游戏账号可以在未匹配到其他游戏账号时,与智能体进行虚拟互动;又例如,游戏账号可以通过与智能体进行互动,来提升自身互动能力或互动等级等。

以模拟练车场景为例,例如,某虚拟账号可以通过操作方向盘或脚踏板,在客户端模拟开车,智能体可以模拟道路中的其他车辆,该虚拟账号可以与智能体进行虚拟互动,如,打转向灯示意其他车辆,旋转方向盘并道,按喇叭提示其他车辆等,达到练车的目的。

以模拟面试场景为例,例如,某虚拟账号可以通过客户端控制虚拟人物在指定区域找到面试地点,控制虚拟人物在面试地点做面试前的准备,通过语音回答智能体模拟的虚拟面试官的提问,达到提升面试能力的目的。

通常,虚拟账号在针对虚拟账号关联的某一虚拟受控元素执行了控制操作之后,智能体仅能够针对智能体关联的某一虚拟受控元素确定出相应的反馈操作。以游戏场景为例,例如,虚拟账号控制虚拟账号关联的某一英雄执行攻击动作,智能体仅能够控制智能体关联的受到攻击动作的虚拟受控元素执行躲避操作。

然而,在虚拟账号执行了控制操作之后,并不是只有虚拟互动场景的单一元素受到影响,控制操作带来的影响是多样化的。以游戏场景为例,例如,智能体选择的一个英雄受到攻击动作时,可以调度另一个英雄过来为该一个英雄补血,受到攻击动作的英雄就可以不进行躲避动作,而是直接进行攻击动作,使用技能对对手英雄进行击杀等。

进一步的,智能体是基于虚拟互动场景训练得到的,传统的训练智能体的方法是,基于虚拟互动场景的属性信息对智能体进行训练,请参考图1a,基于虚拟互动场景的属性信息包含的虚拟受控元素的控制规则,场景元素的位置和互动时长,对智能体进行训练,使得训练出的智能体在面对虚拟账号时,可以预测出触发的虚拟互动。以游戏场景为例,例如,基于游戏中英雄的技能属性,游戏地图中障碍物的位置和英雄具备的每个技能的作用时长,对智能体进行训练,使得训练出的智能体在面对虚拟账号的攻击动作时,可以预测出触发的躲避动作等。

然而,由于虚拟互动场景的属性信息是预先设定好的,使得训练出的智能体互动能力趋于单一化。智能体在面对虚拟账号关联的一个虚拟受控元素执行的动作时,仅能够控制智能体关联的与该一个虚拟受控元素进行虚拟互动的虚拟受控元素执行对应的动作。以游戏场景为例,例如,智能体在面对虚拟账号选择的任意英雄发出的攻击动作时,通常是控制智能体选择的英雄触发躲避动作,然而,在智能体选择的一个英雄受到攻击动作时,可以调度另一个英雄过来为该一个英雄补血,受到攻击动作的英雄就可以不进行躲避动作,而是直接进行攻击动作,使用技能对对手英雄进行击杀等。

又例如,智能体在面对虚拟账号选择的英雄进入智能体选择的英雄的攻击范围内时,通常是控制智能体选择的英雄对虚拟账号选择的英雄进行攻击动作,然而,虚拟账号选择的英雄进入智能体选择的英雄的攻击范围内时,智能体选择的英雄可以在草丛中执行躲避动作,等待智能体选择的其他英雄达到附近时,再对虚拟账号选择的英雄进行攻击动作,实现队友之间战术上的配合等。

在实际互动过程中,讲究互动的方式方法,互动过程丰富多样,传统的智能体互动方法,以及,传统训练智能体的方法并未考虑虚拟互动场景中真实的互动过程,使得训练出的智能体可能无法从宏观决策角度进行虚拟互动,无法灵活地在虚拟互动场景中与虚拟账号进行虚拟互动。使得虚拟账号在与智能体进行虚拟互动时,无法准确地还原与其他虚拟账号进行虚拟互动时的真实互动体验。可见,已有技术下,智能体的互动准确性较低。

为了解决智能体的互动准确性较低的问题,本申请提出一种智能体互动方法。请参考图1b,该方法响应于虚拟账号触发的互动请求指令,加载目标智能体。响应于虚拟账号针对目标虚拟互动场景中,与虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取控制操作对应的目标互动场景图像。从目标互动场景图像中提取目标互动状态特征。基于目标互动状态特征确定目标智能体对应的目标调度操作和目标互动操作。响应于目标调度操作和目标互动操作,在目标虚拟互动场景中对目标智能体关联的第二目标虚拟受控元素进行控制。

应当说明的是,目标调度操作和目标互动操作仅是对目标智能体可以执行的操作进行了两个角度上的划分,并不限定为某一操作。目标调度操作用于控制第二目标虚拟受控元素执行目标调度动作,目标互动操作用于控制第二目标虚拟受控元素执行目标互动动作。触发目标智能体执行目标调度操作和目标互动操作时,可以是在目标调度操作为没有调度的情况下,仅执行目标互动操作,也可以是在目标互动操作为没有互动的情况下,仅执行目标调度操作,也可以是在目标调度操作为没有调度且目标互动操作为没有互动的情况下,不执行任何操作等。在目标虚拟受控元素为多个时,目标智能体执行的目标调度操作可以包括控制每个目标虚拟受控元素执行的调度动作,目标智能体执行的目标互动操作可以包括控制每个目标虚拟受控元素执行的互动动作。目标智能体可以同时对所有目标虚拟受控元素进行控制,也可以仅针对其中一个或多个目标虚拟受控元素进行控制等,具体可以根据实际场景进行设定,在此不进行具体介绍。

本申请实施例中,在响应于虚拟账号针对第一目标虚拟受控元素触发的控制操作时,可以确定出目标智能体对应的目标调度操作和目标互动操作,从而可以响应于目标调度操作和目标互动操作,对第二目标虚拟受控元素进行控制。响应于控制操作获得的目标调度操作可以控制第二目标虚拟受控元素执行调度动作,从宏观的角度反映目标智能体响应于控制操作获得的互动策略,而不是简单的对控制操作进行互动动作上的回应,提高了目标智能体的互动准确性。

同时,在第二目标虚拟受控元素的数量为多个时,并不是单一控制某个第二目标虚拟受控元素来响应虚拟账号的控制操作,而是从所有第二目标虚拟受控元素的整体情况考虑获得的目标调度操作,从而基于目标调度操作对一个第二目标虚拟受控元素或多个第二目标虚拟受控元素进行的控制,进一步提高了目标智能体的互动准确性。

响应于控制操作获得的目标互动操作可以控制第二目标虚拟受控元素执行互动动作,从微观的角度反映目标智能体的互动能力,在正确的互动策略的基础之上能够使得互动能力发挥最大作用,提高了目标智能体的互动准确性。从宏观和微观两个角度,在不降低互动能力的前提下,提高目标智能体的宏观决策能力,从而使得目标智能体可以对虚拟账号进行准确地多样化地反馈。本申请实施例中,目标智能体与虚拟账号之间的互动可以准确地模仿虚拟账号之间的真实互动,提高了目标智能体的互动准确性。

下面对本申请提供的智能体互动方法的应用场景进行说明。

请参考图2,为本申请实施例提供的智能体互动方法的一种应用场景。该应用场景中包括客户端101、智能体互动端102和智能体训练端103。客户端101和智能体互动端102之间可以通信,智能体互动端102和智能体训练端103之间可以通信,通信方式可以是采用有线通信技术进行通信,例如通过连接网线或串口线进行通信;也可以是采用无线通信技术进行通信,例如通过蓝牙或无线保真(wireless fidelity,WIFI)等技术进行通信,具体不做限制。

客户端101泛指可以登录虚拟账号的设备,例如,终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。例如,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。智能体互动端102泛指可以与虚拟账号或智能体进行虚拟互动的设备,例如,终端设备或服务器等。例如,服务器包括云服务器、本地服务器或关联的第三方服务器等。智能体训练端103泛指可以训练智能体的设备,例如,终端设备或服务器等。客户端101、智能体互动端102和智能体训练端103均可以采用云计算,以减少本地计算资源的占用;同样也可以采用云存储,以减少本地存储资源的占用。

作为一种实施例,客户端101和智能体互动端102可以是同一个设备,智能体互动端102和智能体训练端103可以是同一个设备,客户端101和智能体训练端103可以是同一个设备,客户端101、智能体互动端102和智能体训练端103可以是同一个设备,具体不做限制。本申请实施例中,以客户端101、智能体互动端102和智能体训练端103分别为不同的设备为例进行介绍。

下面基于图2,对本申请实施例提供的智能体互动方法进行具体介绍。

在客户端101与智能体互动端102的目标智能体进行虚拟互动之前,智能体互动端102可以先获得目标智能体。智能体训练端103对待训练智能体进行迭代训练之后,获得目标智能体,智能体训练端103向智能体互动端102发送目标智能体,智能体互动端102接收智能体训练端103发送的目标智能体。

下面先对智能体训练端103训练待训练智能体的过程进行介绍。

请参考图3a,基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练,直到满足预设的训练目标时,将待训练智能体输出作为目标智能体。采用两个智能体仿真的虚拟互动场景,将真实的互动过程的特性融入到针对目标智能体的训练过程中。基于仿真的虚拟互动场景下的真实互动训练智能体,使得训练出的目标智能体可以灵活地在真实的虚拟互动场景中与虚拟账号进行互动,提高了训练获得的智能体的互动准确性。

作为一种实施例,基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练之前,可以先获得预设的参考智能体。获得参考智能体的方法有多种,例如,其他设备向智能体训练端103发送参考智能体,又例如,参考智能体可以是智能体训练端103基于预设的参考智能体集合获得的等。参考智能体集合中可以包括与待训练智能体的互动能力相当的各个参考智能体,从而可以从多次实力相当的互动过程中,学习到获得预期的样本互动结果的互动方法,提高训练出的待训练智能体的互动准确性。参考智能体集合中还可以包括互动能力高于待训练智能体的互动能力的各个参考智能体,从而可以从高能力的参考智能体的互动方法中,学习到高能力的互动方法,提高训练出的待训练智能体的互动准确性。参考智能体集合中还可以包括互动能力低于待训练智能体的互动能力的各个参考智能体,从而可以将低能力的参考智能体的互动方法作为反面教材,学习到高能力的互动方法,提高训练出的待训练智能体的互动准确性。参考智能体集合中还可以包括各种类型的参考智能体,可以随机选择参考智能体,也可以以预设的概率抽取每种类型的参考智能体等,具体不做限制。

下面以智能体训练端103基于预设的参考智能体集合获得参考智能体,对待训练智能体进行训练的过程为例进行介绍。

基于预设的参考智能体集合中各个参考智能体各自对应的选取概率,在各个参考智能体中随机抽取参考智能体。各个参考智能体各自对应的选取概率可以基于各个参考智能体各自被抽取的频次确定,被抽取的频次越高,选取概率越低,被抽取的频次越低,选取概率越高。各个参考智能体各自对应的选取概率也可以基于每个参考智能体的获得时刻确定,获得时刻与当前时刻之间的时长越短的选取概率越高,时长越长的选取概率越低。具体不对各个参考智能体各自对应的选取概率进行限定。

在抽取出参考智能体之后,基于待训练智能体与抽取出的参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练。如果在获得待训练智能体与抽取出的参考智能体的样本互动结果时,待训练智能体当前还不满足训练目标,那么可以在各个参考智能体中重新抽取参考智能体,继续对待训练智能体进行多轮迭代训练。在对待训练智能体进行多轮迭代训练之后,如果待训练智能体当前满足训练目标,那么将待训练智能体输出作为目标智能体。

作为一种实施例,如果在获得待训练智能体与抽取出的参考智能体的样本互动结果时,待训练智能体还不满足训练目标,那么在各个参考智能体中重新抽取参考智能体,继续对待训练智能体进行多轮迭代训练。如果待训练智能体满足训练目标,将待训练智能体输出作为目标智能体。

作为一种实施例,获得参考智能体集合的方法有多种,例如,其他设备向智能体训练端103发送预先设置的参考智能体集合,又例如,参考智能体集合是在训练待训练智能体的过程中获得的等,具体不做限制。

下面以在训练待训练智能体的过程中获得参考智能体集合的过程进行示例介绍。

在待训练智能体未进行训练时,预设的参考智能体集合可以仅包括待训练智能体本身,在基于待训练智能体与参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练时,每进行一轮迭代训练,对训练次数进行累加,统计对待训练智能体进行迭代训练的训练次数。

如果统计的训练次数没有达到预设的指定次数,那么继续进行迭代训练。如果统计的训练次数达到了指定次数,那么将当前的待训练智能体作为参考智能体,添加至参考智能体集合。在将参考智能体添加至参考智能体集合之后,可以将训练次数清零,并继续对待训练智能体进行迭代训练,重新统计新的训练次数,在获得训练出的目标智能体之前,参考智能体集合中包含的参考智能体是一直在更新的,持续有新的参考智能体加入,而多次样本互动结果未达到预设指标的参考智能体可以从参考智能体集合中移除。

以游戏场景为例,例如,如果参考智能体集合中的某个参考智能体与待训练智能体之间,连续多次对战失败,那么说明该参考智能体的对战能力较弱,无法起到用于训练待训练智能体的作用,因此可以将该参考智能体从参考智能体集合中移除,以保证参考智能体集合中的各个参考智能体维持在相同互动水平上,提高基于参考智能体训练待训练智能体的准确性。在对待训练智能体进行训练的过程中,虚拟交互数据是基于智能体与智能体之间的虚拟互动获得的,不需要任何虚拟账号的参与,降低了获得虚拟交互数据的难度。

下面以对待训练智能体进行一轮迭代训练为例进行介绍,请参考图3b,为本申请实施例提供的智能体互动方法的流程示意图。

S301,基于样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测待训练智能体针对样本虚拟互动场景中待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测待训练智能体在执行样本调度操作后,针对样本虚拟受控元素执行的样本互动操作。

在基于第一样本互动状态特征进行预测之前,可以先获得样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,获得第一样本互动状态特征的方法有多种,例如,接收其他设备发送的第一样本互动场景图像对应的第一样本互动状态特征,又例如,在获得第一样本互动场景图像时,实时计算第一样本互动状态特征等,下面对确定样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征的方法进行示例介绍。

在待训练智能体与参考智能体进行虚拟互动的时候,样本虚拟互动场景的每一帧都可以作为一个样本互动场景图像,或者,样本虚拟互动场景的某些帧可以作为各个样本互动场景图像等,具体不做限制。

针对第一样本互动场景图像,待训练智能体可以对第一样本互动场景图像进行区域识别处理,获得第一互动结果区域、第一全局视角区域和第一局部视角区域。其中,第一样本互动场景图像可以是待训练智能体与参考智能体进入样本虚拟互动场景时的第一帧图像,也可以是样本虚拟互动场景中的任意一帧图像,具体不做限制。第一互动结果区域用于表征待训练智能体与参考智能体当前的互动情况,第一全局视角区域用于表征待训练智能体关联的样本虚拟受控元素和参考智能体关联的参考虚拟受控元素在虚拟互动场景中的位置信息,第一局部视角区域用于以某样本虚拟受控元素的视角,表征该视角下包含的样本虚拟受控元素和参考虚拟受控元素在样本虚拟互动场景中的位置信息。

以游戏场景为例,例如,请参考图4a,为第一样本互动场景图像的一种可能的界面示意图。请参考图4b,为第一样本互动场景图像中的第一互动结果区域,第一互动结果区域中可以包括与待训练智能体关联的各个英雄的存活情况,待训练智能体和参考智能体击杀对方英雄的数量,被对方击杀的数量,以及对战时长等信息。请参考图4c,为第一样本互动场景图像中的第一全局视角区域,第一全局视角区域中可以包括待训练智能体关联的各个英雄和参考智能体关联的各个英雄,在样本虚拟互动场景中的位置信息等,具体不做限制。请参考图4d,为第一样本互动场景图像中的第一局部视角区域,第一局部视角区域可以包括以某一英雄视角,该视角包含的待训练智能体关联的英雄和参考智能体关联的英雄,在样本虚拟互动场景中的位置信息,以及,该英雄视角对应的英雄可以使用的技能信息等,具体不做限制。

在获得第一互动结果区域、第一全局视角区域和第一局部视角区域之后,可以分别对第一互动结果区域、第一全局视角区域和第一局部视角区域进行图像特征提取处理,分别获得相应的第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵。将第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵,作为第一样本互动场景图像对应的第一样本互动状态特征。

第一特征向量用于表征与样本互动结果相关的互动信息,第一全局视角特征矩阵用于表征样本虚拟受控元素的位置信息、参考智能体关联的参考虚拟受控元素的位置信息和样本虚拟互动场景包含的场景元素的位置信息,第一局部视角特征矩阵用于表征第一局部视角区域包含的样本虚拟受控元素的位置信息、第一局部视角区域包含的参考虚拟受控元素的位置信息和第一局部视角区域包含的场景元素的位置信息。

作为一种实施例,待训练智能体可以包括量化信息提取模块,其中,量化信息提取模块用于提取预设的各个样本虚拟互动场景中,基于虚拟互动产生的各个样本互动场景图像各自对应的样本互动状态特征。

在获得第一样本互动场景图像对应的第一样本互动状态特征之后,可以基于样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测待训练智能体针对样本虚拟互动场景中待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测待训练智能体在执行样本调度操作后,针对样本虚拟受控元素执行的样本互动操作,下面分别对预测样本调度操作和样本互动操作的过程进行示例介绍。

预测样本调度操作:

基于第一特征向量和第一全局视角特征矩阵,可以预测待训练智能体针对样本虚拟受控元素执行的样本调度操作。基于第一特征向量,可以获得当前的互动情况,通过当前的互动情况可以获得与预期的样本互动结果之间差距;基于第一全局视角特征矩阵,还可以从宏观的角度获得待训练智能体关联的样本虚拟受控元素的位置信息,以及,参考智能体关联的参考虚拟受控元素的位置信息,从而,在预测待训练智能体针对样本虚拟受控元素执行的样本调度操作时,可以向缩小当前的互动情况与预期的样本互动结果之间差距的方向,分析出的样本虚拟受控元素有利的位置信息,获得样本调度操作。以真实互动过程中,虚拟账号操作虚拟受控元素的特性,预测样本调度操作,提高训练出的智能体互动准确性。样本调度操作可以包括调度方向,请参考图5a,可以根据样本虚拟受控元素当前所在位置,划分出指定数量的方向角度。样本调度操作还可以包括调度距离,从而,可以通过样本调度操作,控制样本虚拟受控元素向调度方向移动相应调度距离,以使样本虚拟受控元素从当前所在位置移动到目标位置。

待训练智能体还可以将第一全局视角区域划分为多个子区域。基于第一特征向量和第一全局视角特征矩阵,预测样本虚拟受控元素对应的目标子区域。基于样本虚拟受控元素当前所在子区域,以及样本虚拟受控元素对应的目标子区域,获得样本调度操作。以游戏场景为例,请参考图5b,为划分了多个子区域的第一全局视角区域。

在获得样本调度操作之后,基于样本调度操作,控制样本虚拟受控元素向对应的目标子区域移动,获得待训练智能体产生的第二样本互动场景图像。提取第二样本互动场景图像对应的第二样本互动状态特征,获得第二特征向量、第二全局视角特征矩阵和第二局部视角特征矩阵。

基于样本调度操作,控制样本虚拟受控元素向对应的目标子区域移动,获得待训练智能体产生的第二样本互动场景图像的过程有多种,例如,控制样本虚拟受控元素从当前所在子区域向对应的目标子区域移动,并开始计时。基于针对样本虚拟受控元素预设的移动速度,确定样本虚拟受控元素从当前所在子区域移动到对应的目标子区域的参考时长。若计时时长达到参考时长,则获得待训练智能体产生的第二样本互动场景图像。

又例如,控制样本虚拟受控元素从当前所在子区域向对应的目标子区域移动,记录移动距离,若记录的移动距离达到样本虚拟受控元素当前所在子区域与目标子区域之间的参考距离,则获得待训练智能体产生的第二样本互动场景图像。

预测样本互动操作:

基于样本调度操作、第一全局视角特征矩阵和第一局部视角特征矩阵,预测执行样本调度操作后待训练智能体产生的预测互动场景图像对应的预测特征向量、预测全局视角特征矩阵和预测局部视角特征矩阵。预测互动场景图像为预测出的待训练智能体执行样本调度操作之后,样本虚拟受控元素达到目标子区域时的场景图像。

在获得预测互动场景图像对应的预测特征向量、预测全局视角特征矩阵和预测局部视角特征矩阵之后,基于预测特征向量和预测局部视角特征矩阵,预测待训练智能体针对样本虚拟受控元素执行的样本互动操作。预测特征向量可以表征执行样本调度操作之后可能的互动情况,从而,可以进一步表征执行样本调度操作之后可能的互动情况与预期的样本互动结果之间的差距。预测全局视角特征矩阵可以表征样本虚拟受控元素到达目标子区域之后,样本虚拟受控元素的位置信息和参考虚拟受控元素的位置信息,从而,可以进一步表征样本虚拟受控元素与参考虚拟受控元素之间的相对位置是否有利等信息。预测局部视角特征矩阵可以表征,各个样本虚拟受控元素所在预测局部视角区域中,样本虚拟受控元素的位置信息和参考虚拟受控元素的位置信息,从而,可以进一步表征样本虚拟受控元素与参考虚拟受控元素之间的相对位置是否有利等信息。从而,可以基于预测出的执行样本调度操作后的情况,预测下一步样本互动操作。

在获得预测的样本调度操作和样本互动操作之后,基于执行样本调度操作后产生的第二样本互动场景图像对应的第二样本互动状态特征,以及,执行样本互动操作后产生的第三样本互动场景图像对应的第三样本互动状态特征,调整待训练智能体的模型参数。基于第二样本互动状态特征和第三样本互动状态特征,调整待训练智能体的模型参数的方法有多种,例如,基于第二样本互动状态特征和第三样本互动状态特征与预设互动状态特征之间的误差值,调整待训练智能体的模型参数。又例如,基于第二样本互动状态特征和第三样本互动状态特征各自对应的调度激励数据和互动激励数据调整待训练智能体的模型参数。步骤S302~S304以基于第二样本互动状态特征和第三样本互动状态特征各自对应的调度激励数据和互动激励数据调整待训练智能体的模型参数的方法为例进行介绍。

S302,基于执行样本调度操作后待训练智能体产生的第二样本互动场景图像对应的第二样本互动状态特征,按照预设的调度激励策略,确定样本调度操作的调度激励数据。

基于样本虚拟受控元素当前位置,与样本调度操作指示的样本虚拟受控元素对应的目标位置是否匹配,也可以基于样本虚拟受控元素当前所在子区域,与样本调度操作指示的样本虚拟受控元素对应的目标子区域是否匹配,确定样本调度操作的第一调度子激励。

如果匹配,那么第一调度子激励为正向的激励,如果不匹配,那么第一调度子激励为负向的激励。例如,可以根据样本虚拟受控元素当前位置,与样本调度操作指示的样本虚拟受控元素对应的目标位置之间的距离差,如果确定距离差小于第一指定距离阈值,那么确定样本虚拟受控元素当前位置,与样本调度操作指示的样本虚拟受控元素对应的目标位置匹配,给予预设的激励值。如果距离差大于第一指定距离阈值且小于第二指定距离阈值,那么确定样本虚拟受控元素当前位置,与样本调度操作指示的样本虚拟受控元素对应的目标位置不完全匹配,给予预设的激励值的指定百分比对应的值。如果距离差大于第三指定距离阈值,那么确定样本虚拟受控元素当前位置,与样本调度操作指示的样本虚拟受控元素对应的目标位置不匹配,给予预设的负激励值。

基于样本虚拟受控元素对应的第一特征向量与第二特征向量之间的变化值,确定样本调度操作的第二调度子激励。以游戏场景为例,可以根据英雄经验值的变化、金币变化、血量变化、击杀数量变化、被击杀次数变化以及主要建筑物的血量变化,来确定样本调度操作的第二调度子激励。

在获得第一调度子激励和第二调度子激励之后,可以基于第一调度子激励和第二调度子激励的加权和,确定样本调度操作的调度激励数据,请参考公式(1)。权重可以是预先设定的数值,也可以是在训练待训练智能体的过程中学习到的数值,具体不做限制。

Rt=wd*Rd+we*Re (1)

其中,Rt为第一调度子激励Rd和第二调度子激励Re的加权和,wd为第一调度子激励Rd的权重,we为第二调度子激励Re的权重。

在获得第一调度子激励和第二调度子激励的加权和之后,可以基于贝尔曼方程(Bellman Equation)确定待训练智能体与该参考智能体从当前到互动结束的过程所有获得的第一调度子激励和第二调度子激励的加权和的累加和,请参考公式(2)和(3)。

V(St)=E[Rt+1+λV(St+1)|St=s] (3)

其中,调度激励数据V(St)可以是待训练智能体与该参考智能体从当前到互动结束的过程所有获得的第一调度子激励和第二调度子激励的加权和的累加和的期望值,λk为衰减系数,s表示第一样本互动场景图像对应时刻的虚拟场景。

调度激励数据中不仅包括用于表征样本调度操作对样本互动结果的影响程度的数据,还包括用于表征样本调度操作的完成程度的数据,即结合了稠密的激励数据和稀疏的激励数据来获得调度激励数据,避免了智能体在预测虚拟互动操作时出现局部最优解,降低互动准确性的情况,提高了训练出的目标智能体的决策能力。

S303,基于执行样本互动操作后待训练智能体产生的第三样本互动场景图像对应的第三样本互动状态特征,按照预设的互动激励策略,确定样本互动操作的互动激励数据。

在执行了样本互动操作之后,可以获得第三样本互动场景图像,可以采用量化信息提取模块提取出第三样本互动场景图像对应的第三样本互动状态特征,获得第三特征向量、第三全局视角特征矩阵和第三局部视角特征矩阵。

基于样本虚拟受控元素对应的第二特征向量与第三特征向量之间的变化值,确定样本互动操作的互动激励。基于互动激励确定样本调度操作的调度激励数据。以游戏场景为例,可以根据英雄经验值的变化、金币变化、血量变化、击杀数量变化、被击杀次数变化以及主要建筑物的血量变化,来确定样本互动操作的互动激励。同样,可以基于贝尔曼方程(Bellman Equation)确定待训练智能体与该参考智能体从当前到互动结束的过程所有可能获得的互动激励的累加和或累加和的期望。

作为一种实施例,待训练智能体还可以包括训练模块,其中,训练模块用于基于各个样本互动状态特征,获得各个调度激励数据和各个互动激励数据,并基于获得的各个调度激励数据和各个互动激励数据,调整待训练智能体的模型参数。

S304,分别确定调度激励数据和互动激励数据,与预设的目标激励数据之间的误差值,并基于获得的各个误差值调整待训练智能体的模型参数。

如果训练模块包括调度模型和互动模型,那么可以基于调度激励数据和互动激励数据,分别调整调度模型的模型参数和互动模型的模型参数,对调度模型和互动模型分别进行强化学习。例如,分别确定调度激励数据和互动激励数据,与预设的目标激励数据之间的误差值。在获得各个误差值之后,可以根据获得的各个误差值分别调整调度模型的模型参数和互动模型的模型参数。

又例如,如果目标激励数据包括调度目标激励数据和互动目标激励数据,那么可以确定调度激励数据与调度目标激励数据之间的调度误差值,并基于获得的调度误差值调整调度模型的模型参数。同时,还可以确定互动激励数据与互动目标激励数据之间的互动误差值,并基于获得的互动误差值调整互动模型的模型参数。

通过从宏观和微观两个角度上进行层次化的强化学习的方法,可以将复杂的预测问题简化为两个简单的预测问题在不降低针对智能体的互动能力的训练标准的前提下,加入针对智能体的宏观决策能力的训练,使得训练出的目标智能体可以准确地达到虚拟账号进行虚拟互动时的真实互动效果,提高了目标智能体的互动准确性。

作为一种实施例,在对待训练智能体进行训练的过程中,每进行一轮迭代训练之后,可以对训练出的待训练智能体进行评估,基于之前每次获得的调度激励数据和互动激励数据,以及本次获得的调度激励数据和互动激励数据,确定待训练智能体的评估值,该评估值用于表征待训练智能体的训练程度。例如,通过ELO评估机制,评估待训练智能体的训练程度等。

在对待训练智能体进行训练的过程中,也可以每进行多轮迭代训练之后,对训练出的待训练智能体进行评估等,具体评估时机不做限制。在多次获得的评估值趋于收敛时,将待训练智能体输出作为目标智能体。

在对待训练智能体进行训练的过程中,还可以统计迭代次数,如果迭代次数达到预设的最大次数,那么将待训练智能体输出作为目标智能体。

作为一种实施例,针对待训练智能体的训练过程,可以根据可用机器容量,通过多容器docker镜像方便快速地并行扩充到多个机器上,从而,请参考图6,可以在多个机器上,同时针对待训练智能体与不同参考智能体进行训练,也可以在多个机器上,同时对多个待训练智能体进行训练等,大大提高AI对战数据生成的效率。

在获得目标智能体之后,智能体训练端103可以向智能体互动端102发送目标智能体,以使智能体互动端102在接收智能体训练端103发送的目标智能体之后,使用目标智能体。

下面对使用目标智能体进行互动的过程进行介绍。

请参考图7,为使用目标智能体进行互动的流程示意图。

S701,响应于虚拟账号触发的互动请求指令,加载目标智能体。

虚拟账号可以通过客户端触发互动请求指令,响应于虚拟账号触发的互动请求指令,加载目标智能体。从而,虚拟账号可以与目标智能体在目标虚拟互动场景中进行虚拟互动。

S702,响应于虚拟账号针对目标虚拟互动场景中,与虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取控制操作对应的目标互动场景图像。

虚拟账号可以通过客户端针对目标虚拟互动场景中,与虚拟账号关联的第一目标虚拟受控元素触发控制操作,响应于虚拟账号针对目标虚拟互动场景中,与虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取控制操作对应的目标互动场景图像。

S703,从目标互动场景图像中提取目标互动状态特征。

在获得控制操作对应的目标互动场景图像之后,可以提取目标互动场景图像的目标互动状态特征,提取目标互动状态特征的过程可以参照前文介绍的提取样本互动场景图像的样本互动状态特征的过程,在此不再赘述。

S704,基于目标互动状态特征确定目标智能体对应的目标调度操作和目标互动操作。

在获得目标互动状态特征之后,可以基于目标互动状态特征确定目标智能体对应的目标调度操作和目标互动操作,确定目标调度操作和目标互动操作的过程可以参照前文介绍的确定样本调度操作和样本互动操作的过程,在此不再赘述。

S705,响应于目标调度操作和目标互动操作,在目标虚拟互动场景中对目标智能体关联的第二目标虚拟受控元素进行控制。

在确定出目标调度操作和目标互动操作之后,目标智能体执行目标调度操作和目标互动操作,响应于目标调度操作和目标互动操作,在目标虚拟互动场景中对目标智能体关联的第二目标虚拟受控元素进行控制,实现目标智能体与虚拟账号之间的互动。

目标智能体与虚拟账号之间可以进行多次互动,直到接收到互动结束指令为止,结束目标智能体与虚拟账号之间的互动,本申请中不再针对每次互动进行赘述。如果接收到互动结束指令,那么基于互动结束指令,生成虚拟账号与目标智能体在目标虚拟互动场景下的目标互动结果。互动结束指令可以是虚拟账号通过客户端触发的,也可以是目标智能体触发的,也可以是虚拟互动过程结束时自动生成的,具体不做限制。

其中,目标智能体是基于样本虚拟交互数据进行训练获得的,训练过程具体可以参照前文针对待训练智能体进行训练的过程介绍。

下面以游戏场景为例,对本申请实施例提供的智能体互动方法进行示例介绍。

依次从参考智能体集合中抽取参考智能体对待训练智能体进行强化学习训练,在第一次训练时,待训练智能体可以与自身进行对战游戏,随着参考智能体集合的扩充,在后续训练时可以从参考智能体集合中抽取其他参考智能体对待训练智能体进行强化学习训练,直到待训练智能体的评估值趋于收敛,或训练次数达到上限时,将待训练智能体输出为目标智能体。

在一次训练过程中,待训练智能体可以控制多个样本虚拟受控元素,即样本英雄,参考智能体可以控制多个参考虚拟受控元素,即多个参考英雄。虚拟互动场景中还包括多个环境元素,即对战游戏中的遮蔽物和npc。待训练智能体和参考智能体进入对战游戏之后,在每个样本英雄的视角下,可以获得相应的第一样本互动场景图像。

基于第一样本互动场景图像对应的第一样本互动状态特征,可以预测待训练智能体针对对战游戏中的各个样本英雄执行的样本调度操作,样本调度操作可以包括每个样本英雄对应的调度动作。还可以预测待训练智能体在执行样本调度操作后针对样本英雄执行的样本互动操作,样本互动操作可以包括每个样本英雄对应的技能动作。

在针对每个样本英雄执行了样本调度操作之后,获得第二样本互动场景图像。基于第二样本互动场景图像对应的第二样本互动状态特征,可以确定出样本调度操作的调度激励数据。在针对每个样本英雄执行了样本互动操作之后,获得第三样本互动场景图像。基于第三样本互动场景图像对应的第三样本互动状态特征,可以确定出样本互动操作的互动激励数据。

基于获得的调度激励数据和互动激励数据可以对待训练智能体进行强化学习训练,例如,分别基于调度激励数据和互动激励数据,进行层次化的强化学习训练。

在进行多轮训练得到目标智能体之后,虚拟账号可以在对战游戏中,点击“智能对战”按钮,加载目标智能体。虚拟账号可以控制第一目标虚拟受控元素,即第一目标英雄向目标智能体所在阵营移动,并对目标智能体可以控制的第二目标虚拟受控元素,即第二目标英雄或npc实施技能攻击,以及躲避第二目标英雄或npc对第一目标英雄实施的技能攻击。

如果虚拟账号击杀了所有第二目标英雄或npc,或者对战游戏时间结束,那么可以生成互动结束指令,在获得互动结束指令之后,可以生成目标互动结果,目标互动结果可以表示虚拟账号获胜还是目标智能体获胜,还可以表示虚拟账号中每个第一目标英雄击杀了几个第二目标英雄和几个npc,还可以表示目标智能体中每个第二目标英雄杀了几个第一目标英雄和几个npc等,具体不做限制。

基于同一发明构思,本申请实施例提供一种智能体互动装置,该装置相当于前文论述的目标智能体,能够实现前述的智能体互动方法对应的功能。请参考图8,该装置包括加载模块801和处理模块802,其中:

加载模块801:用于响应于虚拟账号触发的互动请求指令,加载目标智能体;

处理模块802:用于响应于虚拟账号针对目标虚拟互动场景中,与虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取控制操作对应的目标互动场景图像;

处理模块802还用于:从目标互动场景图像中提取目标互动状态特征;

处理模块802还用于:基于目标互动状态特征确定目标智能体对应的目标调度操作和目标互动操作;

处理模块802还用于:响应于目标调度操作和目标互动操作,在目标虚拟互动场景中对目标智能体关联的第二目标虚拟受控元素进行控制。

在一种可能的实施例中,目标智能体是采用以下方式训练的:

处理模块802还用于:基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练,直到满足预设的训练目标时,将待训练智能体输出作为目标智能体,其中,在一轮迭代训练中,处理模块802具体用于:

基于样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测待训练智能体针对样本虚拟互动场景中待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测待训练智能体在执行样本调度操作后,针对样本虚拟受控元素执行的样本互动操作;

基于执行样本调度操作后产生的第二样本互动场景图像对应的第二样本互动状态特征,以及,执行样本互动操作后产生的第三样本互动场景图像对应的第三样本互动状态特征,调整待训练智能体的模型参数。

在一种可能的实施例中,处理模块802具体用于:

基于第二样本互动状态特征,按照预设的调度激励策略,确定样本调度操作的调度激励数据,其中,调度激励数据用于表征样本调度操作的完成程度,以及,样本调度操作对样本互动结果的影响程度;

基于第三样本互动状态特征,按照预设的互动激励策略,确定样本互动操作的互动激励数据,其中,互动激励数据用于表征样本互动操作对样本互动结果的影响程度;

分别确定调度激励数据和互动激励数据,与预设的目标激励数据之间的误差值,并基于获得的各个误差值调整待训练智能体的模型参数。

在一种可能的实施例中,处理模块802还用于:

在基于获得的各个误差值调整待训练智能体的模型参数之后,基于多轮迭代训练获得的各个调度激励数据和各个互动激励数据,按照预设得分策略,确定待训练智能体的评估值,其中,评估值用于表征待训练智能体的训练程度;

若评估值收敛,则将待训练智能体输出作为目标智能体。

在一种可能的实施例中,处理模块802具体用于:

基于预设的参考智能体集合中各个参考智能体各自对应的选取概率,在各个参考智能体中随机抽取参考智能体;

基于待训练智能体与抽取出的参考智能体在样本虚拟互动场景中的互动过程,对待训练智能体进行多轮迭代训练;

若在获得待训练智能体与抽取出的参考智能体的样本互动结果时,待训练智能体不满足训练目标,则在各个参考智能体中重新抽取参考智能体,继续对待训练智能体进行多轮迭代训练;

若待训练智能体满足训练目标,将待训练智能体输出作为目标智能体。

在一种可能的实施例中,处理模块802还用于:

在将待训练智能体输出作为目标智能体之前,统计对待训练智能体进行迭代训练的训练次数;

若统计的训练次数达到预设的指定次数,则将待训练智能体输出作为参考智能体,添加至参考智能体集合;

将训练次数清零,继续对待训练智能体进行迭代训练,并基于重新统计的训练次数,更新参考智能体集合。

在一种可能的实施例中,处理模块802还用于:

在基于样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测待训练智能体针对样本虚拟互动场景中待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测待训练智能体在执行样本调度操作后,针对样本虚拟受控元素执行的样本互动操作之前,对第一样本互动场景图像进行区域识别处理,获得第一互动结果区域、第一全局视角区域和第一局部视角区域;

分别对第一互动结果区域、第一全局视角区域和第一局部视角区域进行图像特征提取处理,分别获得相应的第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵,其中,第一特征向量用于表征与样本互动结果相关的互动信息,第一全局视角特征矩阵用于表征样本虚拟受控元素的位置信息、参考智能体关联的参考虚拟受控元素的位置信息和样本虚拟互动场景包含的场景元素的位置信息,第一局部视角特征矩阵用于表征第一局部视角区域包含的样本虚拟受控元素的位置信息、第一局部视角区域包含的参考虚拟受控元素的位置信息和第一局部视角区域包含的场景元素的位置信息;

将第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵,作为第一样本互动场景图像对应的第一样本互动状态特征。

在一种可能的实施例中,处理模块802具体用于:

基于第一特征向量和第一全局视角特征矩阵,预测待训练智能体针对样本虚拟受控元素执行的样本调度操作;

基于样本调度操作、第一全局视角特征矩阵和第一局部视角特征矩阵,预测执行样本调度操作后产生的预测互动场景图像对应的预测特征向量、预测全局视角特征矩阵和预测局部视角特征矩阵;

基于预测特征向量和预测局部视角特征矩阵,预测待训练智能体针对样本虚拟受控元素执行的样本互动操作。

在一种可能的实施例中,处理模块802具体用于:

将第一全局视角区域划分为多个子区域;

基于第一特征向量和第一全局视角特征矩阵,预测样本虚拟受控元素对应的目标子区域;

基于样本虚拟受控元素当前所在子区域,以及样本虚拟受控元素对应的目标子区域,获得样本调度操作。

在一种可能的实施例中,处理模块802还用于:

在基于样本虚拟受控元素当前所在子区域,以及样本虚拟受控元素对应的目标子区域,获得样本调度操作之后,基于样本调度操作,控制样本虚拟受控元素向对应的目标子区域移动,获得待训练智能体产生的第二样本互动场景图像;

提取第二样本互动场景图像对应的第二样本互动状态特征,获得第二特征向量、第二全局视角特征矩阵和第二局部视角特征矩阵。

在一种可能的实施例中,处理模块802还用于:

在提取第二样本互动场景图像对应的第二样本互动状态特征之后,基于样本虚拟受控元素当前所在子区域,与样本调度操作指示的样本虚拟受控元素对应的目标子区域是否匹配,确定样本调度操作的第一调度子激励;

基于样本虚拟受控元素对应的第一特征向量与第二特征向量之间的变化值,确定样本调度操作的第二调度子激励;

基于第一调度子激励和第二调度子激励的加权和,确定样本调度操作的调度激励数据。

在一种可能的实施例中,待训练智能体包括量化信息提取模块,其中,量化信息提取模块用于提取各个样本互动场景图像各自对应的样本互动状态特征;

待训练智能体还包括训练模块,其中,训练模块用于基于各个样本互动状态特征,获得各个调度激励数据和各个互动激励数据,并基于获得的各个调度激励数据和各个互动激励数据,调整待训练智能体的模型参数。

在一种可能的实施例中,处理模块802具体用于:

若训练模块包括调度模型和互动模型,目标激励数据包括调度目标激励数据和互动目标激励数据,则确定调度激励数据与调度目标激励数据之间的调度误差值,并基于获得的调度误差值调整调度模型的模型参数;

确定互动激励数据,与互动目标激励数据之间的互动误差值,并基于获得的互动误差值调整互动模型的模型参数。

基于同一发明构思,本申请实施例提供一种计算机设备,下面对该计算机设备900进行介绍。

请参照图9,上述智能体互动装置可以运行在计算机设备900上,数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备900上,该计算机设备900包括显示单元940、处理器980以及存储器920,其中,显示单元940包括显示面板941,用于显示由用户交互操作界面等。

在一种可能的实施例中,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板941。

处理器980用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器980读取数据存储程序或文件等,从而在该计算机设备900上运行数据存储程序,在显示单元940上显示对应的界面。处理器980可以包括一个或多个通用处理器,还可包括一个或多个DSP(Digital Signal Processor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。

存储器920一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器920用于存储计算机程序和其他数据,该计算机程序包括各客户端对应的应用程序等,其他数据可包括操作系统或应用程序被运行后产生的数据,该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器920中,处理器980执行存储其中920中的程序指令,实现前文图论述的任意的一种智能体互动方法。

上述显示单元940用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与计算机设备900的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元940可以包括显示面板941。显示面板941例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板941上或在显示面板941的操作),并根据预先设定的程式驱动相应的连接装置。

在一种可能的实施例中,显示面板941可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测玩家的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。

其中,显示面板941可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元940,计算机设备900还可以包括输入单元930,输入单元930可以包括图形输入设备931和其他输入设备932,其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外,计算机设备900还可以包括用于给其他模块供电的电源990、音频电路960、近场通信模块970和RF电路910。计算机设备900还可以包括一个或多个传感器950,例如加速度传感器、光传感器、压力传感器等。音频电路960具体包括扬声器961和麦克风962等,例如计算机设备900可以通过麦克风962采集用户的声音,进行相应的操作等。

作为一种实施例,处理器980的数量可以是一个或多个,处理器980和存储器920可以是耦合设置,也可以是相对独立设置。

作为一种实施例,图9中的处理器980可以用于实现如图8中的加载模块801和处理模块802的功能。

作为一种实施例,图9中的处理器980可以用于实现前文论述的服务端102对应的功能。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

40页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:终端游戏的控制方法及装置、存储介质及终端

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类