确定虚拟对象行为及托管虚拟对象行为的方法

文档序号:1347385 发布日期:2020-07-24 浏览:7次 >En<

阅读说明:本技术 确定虚拟对象行为及托管虚拟对象行为的方法 (Method for determining virtual object behaviors and hosting virtual object behaviors ) 是由 黄超 周大军 张力柯 荆彦青 于 2020-03-27 设计创作,主要内容包括:公开了一种确定虚拟对象行为及托管虚拟对象行为的方法、设备、装置和计算机可读存储介质。该方法包括:一种确定虚拟对象行为的方法,包括:基于虚拟对象的情景图像,利用残差网络获取表征所述虚拟对象所处情景的情景特征;基于所述情景特征,确定虚拟对象行为在预定行为集合中的概率分布;以及基于所述概率分布,确定所述虚拟对象行为。该方法可以通过轻量化的残差深度网络来计算虚拟对象人工智能的行为分布,从而解决了在虚拟对象人工智能的设计中存在训练耗时过长、设计难度过大、无法处理多值问题等的技术问题。(Methods, devices, apparatuses, and computer-readable storage media for determining virtual object behavior and hosting virtual object behavior are disclosed. The method comprises the following steps: a method of determining behavior of a virtual object, comprising: based on the scene image of the virtual object, acquiring scene characteristics representing the scene of the virtual object by using a residual error network; determining probability distribution of virtual object behaviors in a preset behavior set based on the scene features; and determining the virtual object behavior based on the probability distribution. The method can calculate the behavior distribution of the artificial intelligence of the virtual object through the lightweight residual error depth network, thereby solving the technical problems of too long training time, too large design difficulty, incapability of processing multi-value problems and the like in the design of the artificial intelligence of the virtual object.)

确定虚拟对象行为及托管虚拟对象行为的方法

技术领域

本公开涉及人工智能领域,更具体地涉及一种确定虚拟对象行为的方法、 设备、装置和计算机可读存储介质。本公开还涉及一种在对战游戏中托管虚 拟对象行为的方法。

背景技术

随着网络技术的发展,计算机游戏等人机交互应用可以为用户提供虚拟 场景,用户可以在虚拟场景中操控虚拟对象执行操作,以达到娱乐的目的。 在游戏指导、游戏测试、角色托管或非玩家角色(Non-Player Character, NPC)控制等场景中,还需要由计算机自动确定某个虚拟对象待执行的操作, 进而进行操作控制。例如,在游戏托管中,由终端代替玩家对游戏角色所处 的游戏场景进行分析,自动控制该游戏角色执行操作。在上述场景中,计算 机可以通过设计虚拟对象人工智能来确定虚拟对象的操作。目前的虚拟对象 人工智能的设计通常存在训练耗时过长、设计难度过大、无法处理多值问题 等技术问题。

发明内容

本公开的实施例提供了一种确定虚拟对象行为的方法、设备、电子设备 和计算机可读存储介质。本公开的实施例还提供了一种在对战游戏中托管虚 拟对象行为的方法。

本公开的实施例提供了一种确定虚拟对象行为的方法,包括:基于虚拟 对象的情景图像,利用残差网络获取表征所述虚拟对象所处情景的情景特征; 基于所述情景特征,确定虚拟对象行为在预定行为集合中的概率分布;以及 基于所述概率分布,确定所述虚拟对象行为。

本公开的实施例提供了一种在对战游戏中托管虚拟对象行为的方法,包 括:基于虚拟对象的游戏界面,确定虚拟对象行为在预定行为集合中的概率 分布,其中,所述虚拟对象行为包括虚拟对象的移动方向、虚拟对象在下一 时刻的视角角度和虚拟对象在下一时刻的视角幅度;基于所述概率分布,托 管所述虚拟对象行为;其中,在攻击对象出现在所述游戏界面的情况下,所 述虚拟对象在下一时刻的视角角度的概率分布的极值接近于面向所述攻击对 象的视角角度。

本公开的实施例提供了一种确定虚拟对象行为的设备,包括:情景特征 获取模块,被配置为基于虚拟对象的情景图像,利用残差网络获取表征所述 虚拟对象所处情景的情景特征;概率分布确定模块,被配置为基于所述情景 特征,利用确定虚拟对象行为在预定行为集合中的概率分布;和虚拟对象行 为确定模块,被配置为基于所述概率分布,确定所述虚拟对象行为。

本公开的实施例提供了一种确定虚拟对象行为的装置,包括:处理器; 存储器,存储器存储有计算机指令,该计算机指令被处理器执行时实现上述 的方法。

本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机指 令,该计算机指令被处理器执行时实现上述方法。

本公开提出一种确定虚拟对象行为的方法、设备、电子设备和计算机可 读存储介质。本公开的实施例还提供了一种在对战游戏中托管虚拟对象行为 的方法。本公开的实施例通过轻量化的残差深度网络来计算虚拟对象人工智 能的行为分布,解决了在虚拟对象人工智能的设计中存在训练耗时过长、设 计难度过大、无法处理多值问题等的技术问题。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例的描述中 所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性 实施例。

图1是示出根据本公开实施例的虚拟对象的情景图像的示例示意图。

图2A是示出根据本公开实施例的确定虚拟对象行为的方法的流程图。

图2B是示出根据本公开实施例的确定虚拟对象行为的方法的示意图。

图2C示出根据本公开实施例的确定虚拟对象行为的设备的结构图。

图3A是示出根据本公开实施例的残差网络和行为预测网络的示意图。

图3B是示出根据本公开实施例的第一残差模块和第二残差模块的示意 图。

图3C是示出根据本公开实施例的第一残差模块和第二残差模块的示意 图。

图4A是示出根据本公开实施例的训练残差网络和行为预测网络的流程 图。

图4B是示出根据本公开实施例的训练残差网络和行为预测网络的一个 示例的流程图。

图5示出根据本公开实施例的在对战游戏中托管虚拟对象行为的方法的 流程图。

图6是示出根据本公开实施例的确定虚拟对象行为的设备的结构图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详 细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一 部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的 示例实施例的限制。

在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似 的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本 公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为 指示或暗示相对重要性或排序。

为便于描述本公开,以下介绍与本公开有关的概念。

游戏人工智能属于人工智能(Artificial intelligence,AI)的一种。 人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人 的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及 应用系统。游戏人工智能企图了解真人玩家在游戏中操作的实质,并生产出 一种新的能以人类智能相似的方式做出反应的智能游戏机器。本公开通过综 合各种智能机器的设计原理与实现方法,使游戏人工智能在游戏中具有感知、 推理与决策的功能。

游戏人工智能可以通过机器学习来模拟真人玩家操纵游戏角色。机器学 习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、 逼近论、凸分析、算法复杂度理论等多门学科。游戏人工智能通过研究怎样 模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识 结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、 置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本公开不对机 器学习和深度学习涉及的技术进行具体限制。

游戏人工智能做出决策时通常需要对游戏场景进行解析。游戏场景通常 以二维或三维画面的形式展现给真人玩家。游戏人工智能模拟真人玩家看到 二维或三维画面的情况,并基于二维或三维画面来做出决策。此时,游戏人 工智能将采用计算机视觉技术(Computer Vision,CV)。计算机视觉技术计算 机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机 和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形 处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个 科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多 维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图 像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内 容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地 图构建等技术。

可选地,下文中的各个网络都可以是人工智能网络,尤其是基于人工智 能的神经网络。通常,基于人工智能的神经网络被实现为无环图,其中神经 元布置在不同的层中。通常,神经网络模型包括输入层和输出层,输入层和 输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对 在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点, 并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数 据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式,本公开对此不作限制。

本公开的实施例提供的方案涉及人工智能、计算机视觉技术和机器学习 等技术,具体通过如下实施例进行说明。

图1是示出根据本公开实施例的虚拟对象的情景图像100的示例示意图。

本公开的虚拟对象可以是计算机游戏中的各个可由虚拟对象人工智能或 真人玩家操控的各个游戏角色。可选地,计算机游戏为角色扮演类的竞技游 戏,例如可以为人机对战游戏或多人对战游戏等对战游戏。人机对战游戏是 指用户账号的游戏角色与游戏设置的模拟游戏角色在同一场景中进行竞技的 游戏。多人对战游戏是指多个用户帐号在同一场景内进行竞技的游戏。可选 地,多人对战游戏可以是MOBA(Multiplayer OnlineBattle Arena Games, 多人在线战术竞技游戏)。另外,该计算机游戏可以为客户端游戏或网页游戏, 可以为需要网络支持的在线游戏,也可以为不需要网络支持的离线游戏。

本公开实施例提供的方法可以应用于计算机游戏中的游戏指导、角色托 管、NPC控制或游戏测试等场景中,在这些场景中,需要由电子设备自动对某 些游戏角色的操作进行决策和操控,以便这些游戏角色能够像游戏玩家一样, 在各种游戏场景中执行合理操作。其中,电子设备可以为终端或服务器等。

以游戏指导场景为例,为了便于新手玩家快速熟悉游戏,在新手玩家玩 游戏的过程中,可以由终端或服务器对新手玩家的游戏角色所处的游戏场景 进行分析,并预测该新手玩家的游戏角色接下来应该执行的操作,然后将预 测到的操作提示给新手玩家,以对新手玩家进行操作指导。

以游戏托管场景为例,在终端离线或玩家繁忙时,玩家可以将玩家的游 戏角色进行托管,这样,终端或服务器即可代替玩家对其游戏角色进行操控。

以游戏测试场景为例,可以在游戏中设置一个模拟游戏角色作为玩家的 游戏角色的对手,且该模拟游戏角色是由终端或服务器,或者终端或服务器 中的虚拟对象人工智能进行操控的,进而替代测试人员的角色,通过虚拟对 象人工智能玩游戏获得测试数据,以实现游戏性能测试。

在上述的应用场景中,虚拟对象人工智能操控的游戏角色可以为玩家的 游戏角色或游戏设置的模拟游戏角色,也可以为小兵、野怪等NPC。情景图像 是展示应用场景(尤其是游戏场景)的图像。虚拟对象可以“看见”的情景图 像中可以包括虚拟对象的视野范围内的各个对象,包括但不限于敌方角色、 我方队友、障碍物、奖励道具等等。虚拟对象人工智能通过分析视野范围内 的信息来决定其的下一步操作。如图1所示,作为玩家角色的虚拟对象人工 智能的视野范围内出现了敌方对象A、敌方对象B、我方队友等角色。这些信 息通过情景图像展示给虚拟对象人工智能。虚拟对象人工智能通过分析这些 信息,确定其的行为,例如何时射击、以哪个角度射击、视角如何转换、角色 如何移动等等。在某些游戏中,场景图像上还可能显示一个参考图像(例如 小地图),其抽象的示出了敌方对象的位置、障碍物的位置、我方队友的位置、 玩家角色所在的位置等等。

目前,训练虚拟对象人工智能的方式主要是基于深度Q网络(DQN)的算 法和/或基于最小均方误差的模仿学习算法。基于DQN的算法是一种深度强化 学习算法,其需要人工设计奖励函数/惩罚函数。虚拟对象人工智能通过与环 境的不断交互,得到状态、动作和奖励/惩罚的样本集合。然后通过最大化游 戏的期望奖励和/或最小化游戏的期望惩罚来确定该虚拟对象人工智能的计 算模型中的各个参数。基于DQN的虚拟对象人工智能的训练通常需要耗费大 量的时间、同时算法设计人员也很难设计出合适的奖励函数/惩罚函数,从而 导致不易获取合适的虚拟对象人工智能。基于最小均方误差的模仿学习算法 的虚拟对象人工智能则将图像作为其人工智能网络模型的输入,然后将输出 的虚拟对象行为与录制的真人操作的虚拟对象行为进行比较和/或拟合。基于 最小均方误差的模仿学习算法在拟合虚拟对象行为时,采用的是最小均方误 差的损失训练模型参数,该方案不能很好地处理多值问题。也即,当虚拟对 象在虚拟场景中有多种合理的决策时(例如,虚拟对象在图1的场景中既可 以射击敌方对象A也可以射击敌方对象B),由于采用最小均方误差的算法只能虚拟对象行为的均值,因此虚拟对象往往无法选择其中一种行为,从而无 法正确的攻击对象。

本公开提出一种确定虚拟对象行为的方法、设备、电子设备和计算机可 读存储介质。本公开的实施例还提供了一种在对战游戏中托管虚拟对象行为 的方法。本公开的实施例通过轻量化的残差深度网络来计算虚拟对象行为的 概率分布,解决了在虚拟对象人工智能的设计中存在训练耗时过长、设计难 度过大、无法处理多值问题等的技术问题。

图2A是示出根据本公开实施例的确定虚拟对象行为的方法200的流程 图。图2B是示出根据本公开实施例的确定虚拟对象行为的方法200的示意 图。图2C示出根据本公开实施例的确定虚拟对象行为的设备2000的结构图。

本公开实施例提供的虚拟对象的操作控制方法可以应用于计算机游戏或 直播等人机交互场景中,这些人机交互场景能够为用户提供虚拟场景和虚拟 对象,通过本申请提供的方法可以对虚拟场景中虚拟对象自动进行操作控制。

根据本公开的实施例的确定虚拟对象行为的方法200可以应用于任何的 电子设备中。可以理解,电子设备可以是不同种类的硬件设备,例如个人数 字助理(PDA)、音频/视频设备、移动电话、MP3播放器、个人计算机、膝上型 计算机、服务器等等。例如,该电子设备可以是图2C中确定虚拟对象行为的 设备2000。以下,本公开以设备2000为例进行说明,本领域技术人员应当理 解本公开并不以此为限。

参见图2C,设备2000可以包括处理器2001和存储器2002。处理器2001 和存储器2002可以通过总线2003相连。

处理器2001可以根据存储在存储器2002中的程序执行各种动作和处理。 具体地,处理器2001可以是一种集成电路芯片,具有信号的处理能力。上述 处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、 现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻 辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、 步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常 规的处理器等,可以是X87架构或ARM架构的。

存储器2002上存储有计算机指令,该计算机指令被微处理器执行时实现 方法200。存储器2002可以是易失性存储器或非易失性存储器,或可包括易 失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可 编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编 程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM), 其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用, 例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、 增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器 (SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本公开描述 的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

首先,在操作201中,设备2000可以基于虚拟对象的情景图像,利用残 差网络获取表征所述虚拟对象所处情景的情景特征。

参见图2B,情景图像可以例如是图1中示出的情景图像100。情景图像 中包括与虚拟对象有关的各种信息。这些信息例如是,敌方对象的位置、我 方队友的位置、玩家角色的状态等等。残差网络可以从情景图像中提取这些 信息,并将其以情景特征的方式来进行表征。也即,情景特征可以表征虚拟 对象所处的情景,以便于虚拟对象人工智能能够根据该情景特征判断该虚拟 场景中的虚拟对象所处的状态。例如,虚拟对象人工智能可以判断参考虚拟 对象是处于安全状态还是处于被攻击状态,在处于被攻击状态时的被攻击伤 害程度等,便于后续模仿虚拟对象对伤害的感知。

可选地,情景特征可以是多维浮点数向量,如128位浮点型向量,其融 合了敌方防御建筑相关场景、敌方对象对虚拟对象进行伤害相关场景等各种 情景信息。多维浮点数向量中的每个元素是浮点数,并且该向量包括多个维 度。由此,情景特征可以以数值的形式来表征场景信息,以便于后续的分析 计算。例如,情景特征可以通过数值来描述虚拟对象是否处于敌方防御建筑 下、是否正在被敌方防御建筑攻击、虚拟对象是否处于敌方虚拟对象的武器 或技能的伤害范围内、与敌方最近攻击伤害(如子弹、技能等)的距离等等。 情景特征还可以融合虚拟对象自身的信息,如虚拟对象类型、武器类型、虚 拟对象等级或虚拟对象的战斗力等等。以计算机游戏为例,虚拟对象类型可 以包括玩家角色和非玩家角色这两种类型。虚拟对象的战斗力具体可以包括 角色的血量、蓝量、攻击力、等级、装备和击杀数中的至少一种。当然情景信 息也可以包括其他能够对虚拟对象的操作产生影响的信息。本公开对情景特 征的具体表征方式和其可能融合的信息并不做限制。

可选地,如图2B所示,情景图像中可以包括参考图像区域,例如小地图 区域。操作201还包括:从情景图像中截取参考图像区域,所述参考图像区 域示出所述虚拟对象在游戏中的可获知信息。可获知信息例如是敌我双方的 部署布局、地图信息、敌方对象位置、我方队友位置等等。参考图像区域并不 局限于图2B中所示的圆盘形式,只要在情景图像中可以以预定义的形式呈现 信息即可。例如,在参考图像区域中,敌方对象的位置可以以红色矩形小点 来表示、我方队友的位置可以以蓝色圆形小点来表示等等,本公开不对参考 图像区域中如何对信息进行表征进行限制。

由于参考图像区域以抽象的方式表征了情景图像中虚拟对象的大部分的 可获知信息,因此,设备2000可以仅基于所述参考图像区域,利用残差网络 获取表征所述虚拟对象所处情景的情景特征,从而减少了残差网络的输入参 数量,使得残差网络更加轻量高效。

图2B中示意性的示出了残差网络的架构。残差网络的架构中可以包括至 少一个卷积层。这些卷积层中的至少一个卷积层的输出可以与其之前的某个 卷积层的特征进行融合/相加。残差网络能防止神经网络中梯度衰减/梯度爆 炸,进而进一步提升虚拟对象人工智能的残差网络的收敛速度。例如,图2B 所示的残差网络包括两个卷积层,这两个卷积层的卷积核的尺寸都为3×3, 步长都为1。每个卷积层包括C个卷积核。假设该残差网络的输入特征为卷 积特征x1,其空间维度为H×W,通道维度为C。输入特征x1通过这两个卷积 层将获取新的卷积特征x2,其空间维度为H×W,通道维度也为C。将x1和x2相加得到最终的输出特征x3,其空间维度也为H×W,通道维度也为C。此时, 输出特征x3由于融合特征x1和x2的结果,从而输出特征x3中的结果因为每个 卷积层的级联运算而导致误差的持续传导,进而导致出现不正常的虚拟对象 行为。输入特征x1可以是上文中的参考图像区域/情景图像。输出特征x3可 以是上文中的情景特征。

相比于传统的基于DQN的神经网络模型,残差网络不仅结构简单、参数 量少、收敛速度快,而且其也不需要设计奖励/惩罚函数,更便于虚拟对象人 工智能的训练和应用。

接着,在操作202中,设备2000基于该情景特征,确定虚拟对象行为在 预定行为集合中的概率分布。

如图2B所示,虚拟对象行为在预定行为集合中的概率分布既可以是离散 概率分布也可以是连续概率分布,本公开对此并不进行限制。虚拟对象行为 在预定行为集合中的概率分布指示虚拟对象行为作为预定行为集合中的各预 定行为出现的概率。比如,假设虚拟对象行为表示虚拟对象是否要开枪射击, 此时预定行为集合中包括“射击”和“不射击”这两个行为。设备2000根据 情景特征计算出“射击”的概率为0.7,不射击的概率为0.3。此时,虚拟对 象在面对图2B中所示的场景时,有0.7的概率执行射击操作。虚拟对象人工 智能使用该概率分布输出一个随机数。假设该随机数以1表示射击,以0表 示不射击,那么虚拟对象在多次面对相同场景时,输出随机数1的次数占了 70%,输出随机数0的次数占了30%。由此,虚拟对象的行为模式将不再呆板 和容易预测,提高了游戏的趣味性。

可选地,设备2000可以利用行为预测网络来确定虚拟对象行为在预定 行为集合中的概率分布。行为预测网络和残差网络的组合可以被称为混合密 度网络。由于在对战游戏中,尤其是枪战游戏中,真人玩家主要操作虚拟对 象的移动方向、调节虚拟对象的视角角度变化以及调节虚拟对象的视角幅度 值。因此所述虚拟对象行为可以包括虚拟对象的移动方向、虚拟对象在下一 时刻的视角角度和虚拟对象在下一时刻的视角幅度中的至少一部分。本领域 技术人员能够理解根据游戏不同,虚拟对象的行为可以随之变动。比如棋牌 游戏,虚拟对象的行为就可以包括出牌的点数等。在虚拟对象行为包括虚拟 对象的移动方向、虚拟对象在下一时刻的视角角度和虚拟对象在下一时刻的 视角幅度中的至少一部分的情况下,行为预测网络可以包括移动方向预测网 络、视角角度预测网络和视角幅度预测网络中的至少一部分,。

可选地,虚拟对象的移动方向的预定行为集合包括向上,向右上、向 右、向右下、向下、向左下、向左、向左上移动。如图2B所示,通过将情 景特征输入至移动方向预测网络以获取第一概率分布,所述第一概率分布指 示虚拟对象在多个移动方向上移动的概率分布。第一概率分布可以是离散概 率分布。第一概率分布可以有多个相等的最大值。例如,假设向左和向右的 概率都为0.4而其它方向的概率都低于0.4,则第一概率分布表示虚拟对象 向左走向右走都能够最大化的模拟玩家进行操作。

可选地,虚拟对象的视角角度值对应于虚拟对象面对的角度。虚拟对象 的视角角度值的预定行为集合为虚拟对象能够旋转到的视角角度值的区间。 例如,视角角度值的区间可以是从0到1,对应顺时针下的0到360度。设 备2000将所述情景特征输入至视角角度预测网络以获取第二概率分布,所述 第二概率分布指示所述虚拟对象在下一时刻的视角角度值在视角角度值区间 的概率分布。第二概率分布可以是离散概率分布也可以是图2B所示的连续概 率分布。正如图2B的实线所示,第二概率分布可以有多个极值,每个极值代 表在该虚拟场景下的虚拟对象的视角角度的最优解(最优策略)。

又例如,虚拟对象的情景图像可以为对战游戏界面,其中,在攻击对象 出现在该对战游戏界面的情况下,第二概率分布的极值接近于面向所述攻击 对象的视角角度。例如,在图1中所示的对战游戏场景中,面向敌方角色A 和敌方角色B的视角角度将成为第二概率分布的两个极值。

可选地,虚拟对象的视角幅度值的预定行为集合为虚拟对象能够变动的 视角幅度值的区间。例如,视角幅度值的区间可以是从0到1,对应幅度的最 小值和幅度的最大值。设备2000将所述情景特征输入至视角幅度预测网络以 获取第三概率分布,所述第三概率分布指示所述虚拟对象在下一时刻的视角 幅度值在视角幅度值区间的概率分布。第三概率分布可以是离散概率分布也 可以是图2B所示的连续概率分布。正如图2B的虚线所示,第三概率分布可 以有多个极值,每个极值代表在该虚拟场景下的虚拟对象的视角幅度的最优 解(最优策略)。

最后,在操作203中,设备2000基于所述概率分布,确定所述虚拟对象 行为。

可选地,设备2000基于所述第一概率分布确定所述虚拟对象的移动方 向。虚拟对象根据第一概率随机采样移动动作,而非总是执行概率最大的动 作。在某些情况下,执行最大概率的动作可能会导致虚拟对象撞上障碍物, 然后就一直停在障碍物的前端而无法移动。通过第一概率随机采样移动行 为,可以防止虚拟对象在游戏场景中卡住,虚拟对象根据第一概率随机移 动,从而有一定几率脱困。

可选地,设备2000基于第二概率分布确定虚拟对象在下一时刻的视角 角度值。如果敌人出现在右侧,则需要将视角角度往右移动,直至敌人出现 在图像中心,方便虚拟对象攻击敌人。图2B中示出了两个极值,其分别对 应于面对敌人角色A的视角角度和面对敌人角色B的视角角度。根据第二概 率分布来随机输出视角角度值,所输出的视角角度值大概率是接近极值的视 角角度,从而实现了虚拟对象朝着攻击对象的方向移动视线。类似地,设备 2000还可以基于第三概率分布确定虚拟对象在下一时刻的视角幅度值。

可选地,第二概率分布和第三概率分布都可以是混合高斯分布。高斯混 合分布是多个高斯分布的线性组合,其可以很好的拟合各种概率分布。因此 采用高斯混合分布可以更好地拟合虚拟对象的视角变动行为。

虚拟对象是根据概率分布来确定虚拟对象行为,其在面对相同的游戏场 景时可能执行多种合理的游戏策略,从而相比于最小均方误差的损失训练模 型而言,可以更好的解决虚拟对象所面对的多值问题。

方法200通过轻量化的残差深度网络来计算虚拟对象行为的概率分布, 解决了在虚拟对象人工智能的设计中存在训练耗时过长、设计难度过大、无 法处理多值问题等的技术问题。

图3A是示出根据本公开实施例的残差网络和行为预测网络的示意图。图 3B是示出根据本公开实施例的第一残差模块和第二残差模块的示意图。图3C 是示出根据本公开实施例的第一残差模块和第二残差模块的示意图。

参见图3A,行为预测网络包括移动方向预测网络302、视角角度预测网 络303和视角幅度预测网络304。残差网络301包括至少一个第一残差模块 3011和至少一个第二残差模块3012。

残差网络301用于输出情景特征。假设情景特征为包括N个浮点数的一 维向量,N大于1。优选地,N可以等于200。

移动方向预测网络302用于完成子任务1,也即输出虚拟对象在多个移 动方向移动的概率分布(第一概率分布)。可选地,移动方向预测网络302包 括一个全连接层,其输入为情景特征,其输出为虚拟对象在多个移动方向移 动的概率分布。以8个移动方向为例,其输出则包括8个浮点数的数组来作 为第一概率分布。该数组中的每个浮点数表示虚拟对象在某个方向上移动的 概率。设备2000可以基于第一概率分布确定虚拟对象的移动方向。

视角角度预测网络303用于完成子任务2,也即输出虚拟对象在下一时 刻的视角角度值在视角角度值区间的概率分布(第二概率分布)。可选地,视 角角度预测网络303包括三个全连接层:用于计算均值μ的全连接层、用于 计算方差σ的全连接层、用于权重ω的全连接层。例如,每个全连接层的 输入为情景特征,输出为包括32个浮点数的数组,在图3A中,利用每个全 连接层的输出数组中所包括的数据项的数量来简单地表示该全连接层的输出。 通过视角角度预测网络303,设备2000可以得到3数量组{μk}、{σk}、{ωk}, 其中1≤k≤32。每个k所对应的均值μk和方差σk可以构成一个高斯分布, 如下所示。

由此,数组{μk}、{σk}就构成了32个高斯分布,将这32个高斯分布与 其对应的权重{ωk}进行组合就得到第二概率分布,因此第二概率分布是一个 混合高斯分布,其可以由以下公式构成:

其中,K是组成混合高斯分布的高斯分布的数量,ωk是第k个高斯分布 的权重,0≤ωk≤1,同时,μk是第k个高斯分布的均值,σk是第k个高斯分布的标准差。高斯分布是一种在自然界大量的存在的、最为 常见的分布形式,一个高斯分布通常具备一个极值。将多个高斯分布线性组 合而形成混合高斯分布可以具备多个极值(每个极值表示一个最优策略),以 更好地拟合视角角度的概率分布。

本领域技术人员应当理解,32仅是一个示例,视角角度预测网络303可 以输出更多或更少数量的均值μ、方差σ、权重ω。

视角幅度预测网络304用于完成子任务3,也即输出虚拟对象在下一时 刻的视角幅度值在视角幅度值区间的概率分布(第三概率分布)。可选地,视 角幅度预测网络304包括三个全连接层:用于计算均值μ的全连接层、用于 计算方差σ的全连接层、用于权重ω的全连接层。基于这些数值构建第三 概率分布的方法与构建第二概率分布的方式相似,因此本文不再赘述。

本领域技术人员应当理解,第一概率分布、第二概率分布和第三概率分 布都可以是以其它方式定义的概率分布,离散概率分布和混合高斯分布仅仅 是一种示例,本公开并不以此为限。

第一残差模块3011和第二残差模块3012的结构可以如图3B所示。

第一残差模块3011的输入特征的空间维度为其输出特征的空间维度的 两倍,并且第一残差模块3011的输入特征的通道维度为其输出特征的通道 维度的二分之一。第一残差模块可以作为残差网络中的一个模块,在残差网 络的设计中被反复调用,使得残差网络的设计更加简单。

可选地,第一残差模块3011包括:第一数量的第一卷积层,所述第一 卷积层的步长为第一步长,且所述第一卷积层的卷积核的尺寸为第一尺寸; 第二数量的第二卷积层,所述第二卷积层的步长为第二步长,且所述第二卷 积层的卷积核的尺寸为第二尺寸;第二数量的第三卷积层,所述第三卷积层 的步长为第二步长,且所述第三卷积层的卷积核的尺寸为第一尺寸。第一残 差模块的上述设计可以使得残差网络更加轻量高效提取信息。具体地,通过 不同步长、不同尺寸的卷积核可以使得该卷积核以不同的采样率来融合不同 尺寸的领域的信息,提高残差网络的使用效率。

本领域技术人员应当理解,第一数量、第二数量、第一步长、第二步 长、第一尺寸和第二尺寸的具体数值可以根据实际情况进行设置,本公开并 不对这些参数的具体数值进行任何限制。

为便于理解,本公开以第一数量为2、第二数量为1、第一步长为2、 第二步长为2、第一尺寸为1×1、第二尺寸为3×3为例进行说明。

本领域技术人员可以根据情景图像和游戏场景的不同来设置第一残差模 块3011和第二残差模块3012中的各个卷积层中包括的卷积核的数量。本公 开不对卷积层中的卷积核的数量进行限制。

参见图3B,第一残差模块3011可以包括卷积层A、卷积层B、卷积层C 和卷积层D。其中,卷积层A和卷积层B为第一卷积层,卷积层C为第二卷 积层,卷积层D为第三卷积层。值得注意的是,即使卷积层A和卷积层B均 属于第一卷积层,卷积层A和卷积层B中所包括的卷积核的数量既可以相同 也可以不同。以下解释仅是为了便于说明本公开的实施例,本公开不对卷积 层A-D中的卷积核的数量进行限制。

假设第一残差模块的输入特征的空间维度为H×W,通道维度为C。

其中,卷积层A和卷积层B的步长为2,卷积核的尺寸为1×1。由于卷 积层A和卷积层B的步长为2,因此,这两个卷积层的输出的宽和高(也即 空间维度)都将缩小1倍。

此时,假设卷积层A的卷积核的数量为2C(有多少个卷积核就有多少 个输出通道,即卷积核的数量等于输出通道的数量)。因此,卷积层A的输 入空间维度为H×W,输入通道维度为M,输出空间维度为(0.5H)×

(0.5W),输出通道维度为2M。

假设卷积层B的卷积核的数量为M。那么,卷积层B的输入空间维度为 H×W,输入通道维度为M,输出空间维度为(0.5H)×(0.5W),输出通道 维度为M。

假设卷积层C的步长为1,卷积核的尺寸为3×3,卷积核的数量为C。 卷积层C的输入特征和输出特征具有相同的空间维度和通道维度。由于卷积 层B的输入特征为卷积层B的输出特征,因此,卷积层C的输入空间维度为 (0.5H)×(0.5W),输入通道维度为M,输出空间维度为(0.5H)×

(0.5W),输出通道维度为M。

假设卷积层D的步长为1,卷积核的尺寸为1×1,卷积核的数量为 2M。由于卷积层D的输入特征为卷积层M的输出特征,因此,卷积层D的输 入空间维度为(0.5H)×(0.5W),输入通道维度为M,输出空间维度为 (0.5H)×(0.5W),输出通道维度为2M。

将卷积层A和卷积层D的输出特征相加即可得到第一残差模块的输出特 征,第一残差模块的输出空间维度为(0.5H)×(0.5W),输出通道维度为 2M。

第二残差模块3012的输入特征的空间维度和通道维度与其输出特征的 空间维度和通道维度相同。类似地,第二残差模块可以作为残差网络中的一 个模块,在残差网络的设计中被反复调用,使得残差网络的设计更加简单。

第二残差模块3012包括:第一数量的第三卷积层,所述第三卷积层的 步长为第二步长,且所述第三卷积层的卷积核的尺寸为第一尺寸;第二数量 的第二卷积层,所述第二卷积层的步长为第二步长,且所述第二卷积层的卷 积核的尺寸为第二尺寸。第二残差模块的上述设计可以使得残差网络更加轻 量高效提取信息。具体地,通过不同步长、不同尺寸的卷积核可以使得该卷 积核以不同的采样率来融合不同尺寸的领域的信息,提高残差网络的使用效 率。

参见图3B,第二残差模块3012包括卷积层E、卷积层F和卷积层G。 其中卷积层E和卷积层G为第三卷积层,卷积层F为第二卷积层。

值得注意的是,即使卷积层D、卷积层E和卷积层G均属于第三卷积 层,卷积层D、卷积层E和卷积层G中所包括的卷积核的数量既可以相同也 可以不同。即使卷积层C和卷积层F均属于第二卷积层,卷积层C和卷积层 F所包括的卷积核的数量既可以相同也可以不同。本公开不对卷积层E-G中 的卷积核的数量进行限制。

假设第二残差模块3012的输入特征的空间维度为H×W,通道维度为 M。

假设卷积层E的卷积核的数量为0.5M,步长为1,卷积核的尺寸为1× 1。因此,卷积层E的输入空间维度为H×W,输入通道维度为M,输出空间 维度为H×W,输出通道维度为0.5M。

假设卷积层F的步长为1,卷积核的尺寸为3×3,卷积核的数量为 0.5M。卷积层F的输入特征和输出特征具有相同的空间维度和通道维度。由 于卷积层F的输入特征为卷积层E的输出特征,因此,卷积层F的输入空间 维度为H×W,输入通道维度为0.5M,输出空间维度为H×W,输出通道维度 为0.5M。

假设卷积层G的步长为1,卷积核的尺寸为1×1,卷积核的数量为M。 由于卷积层G的输入特征为卷积层F的输出特征,因此,卷积层G的输入空 间维度为H×W,输入通道维度为0.5M,输出空间维度为H×W,输出通道维 度为M。

第一残差模块3011和第二残差模块3012可以以各种顺序与残差网络中 的其它层相级联。图3C示出了一种示例的级联方式。

除了第一残差模块3011和第二残差模块3012以外,残差网络还包括卷 积层、全局平均池化层和全连接层。假设情景图像或情景图像中的参考图像 区域为1024*1024像素,具有RGB三个输入通道。

情景图像或情景图像中的参考图像区域输入至一个卷积层,该卷积层的 具有8个卷积核、每个卷积核的尺寸为7×7、步长为2。经过该卷积层,可 以获得该卷积层的输出特征的空间维度为512×512、通道维度为8。

接着,该输出特征经过一个第一残差模块,该第一残差模块的卷积层A、 卷积层B、卷积层C和卷积层D所具有的卷积核数量分别为[16,8,8,16],由 此,得到一个空间维度为256×256、通道维度为16的输出向量。

接着,该输出特征经过两个第二残差模块,该第二残差模块的卷积层E、 卷积层F和卷积层G所具有的卷积核数量分别为[8,8,16],由此,得到一个空 间维度为256×256、通道维度为16的输出向量。

然后,这两个第二残差模块的输出向量又依次经过1个第一残差模块、 3个第二残差模块、1个第一残差模块、5个第二残差模块、1个第一残差模 块、2个第二残差模块、1个第一残差模块、2个第二残差模块,以获得一个 通道维度为256、空间维度为16*16的输出向量。

最后一个第二残差模块的输出向量(通道维度为256、空间维度为16*16) 将输入至一个全局平均池化层和一个全连接层,最后得到一个一维向量,该 一维向量中具有200个浮点数。这个一维的向量也即情景向量。

图4A是示出根据本公开实施例的训练残差网络和行为预测网络的流程 图。图4B是示出根据本公开实施例的训练残差网络和行为预测网络的一个示 例的流程图。

在操作401中,设备2000录制虚拟对象被操控的视频。设备2000可以 通过人工录制枪战游戏的方式收集半小时左右的枪战游戏样本,其中,游戏 的采样频率是一秒10帧。

在操作402中,设备2000从所述视频中获取多个样本数据,每个样本 数据包括游戏界面样本和虚拟对象针对所述游戏界面样本而执行的移动方向 样本、下一时刻的视角角度样本和下一时刻的视角幅度样本。例如,如图 4B所示,设备2000可以录制枪战游戏样本,然后从中提取虚拟对象行为来 获取移动方向样本、下一时刻的视角角度样本和下一时刻的视角幅度样本。 移动方向样本包括虚拟对象在8个方向上的移动(以45度为间隔,分为上,右上、右、右下,下,左下,左,左上)。下一时刻的视角角度样本包 括玩家在操作虚拟对象时每一帧的视角角度值,也即,游戏人物在游戏视频 中的每一帧的视角角度值。下一时刻的视角幅度样本包括玩家在操作虚拟对 象时每一帧的视角幅度,也即游戏人物的视角角度值在每一帧的变化情况。 设备2000保存游戏的视频和对应的虚拟对象行为。可选地,如图4B所示, 设备2000还可以提取游戏界面中的参考图像区域(也即小地图区域)作为 游戏界面样本。可选地,得到样本数据后,将80%的样本数据训练残差网络 和行为预测网络(其组合又称为混合密度网络),余下的样本数据用于测试 混合密度网络。

在操作403中,基于所述多个样本数据,训练所述残差网络和所述行为 预测网络。残差网络的结构可以类似于图3A至图3B所示的结构。本领域技 术人员能够理解,如图4B所示,虚拟对象人工智能的设计师还可以根据游 戏的不同来设计其它的轻量化的网络结构来作为残差网络,然后训练包括该 残差网络和行为预测网络的混合密度网络。

操作403还包括基于所述多个样本数据中的游戏界面样本和所述游戏界 面样本对应的移动方向样本,通过优化所述移动方向样本和移动方向预测网 络预测的移动方向之间的类别交叉熵损失,来训练残差网络和移动方向预测 网络的参数。

例如,移动方向样本和移动方向预测网络预测的移动方向之间的类别交 叉熵损失可以被定义为:

其中,m是样本的总数,C是类别数目(例如,C=8,表示游戏角色在8 个方向上的移动),yji代表第j个样本的第i个类别的标签。如果第j个样 本的类别是i,则yji为1。如果第j个样本的类别不是i,则yji为0。pji代表第j个样本为第i个类别的概率。以该类别交叉熵损失为目标函数,通 过优化该类别交叉熵损失(当该损失函数收敛时),来对残差网络和移动方 向预测网络的参数进行训练,从而使得残差网络和移动方向预测网络能学会 枪战游戏的移动策略。

操作403还包括基于所述多个样本数据中的游戏界面样本和所述游戏界 面样本对应的下一时刻的视角角度样本,通过优化所述视角角度样本和基于 视角角度预测网络预测的视角角度的概率分布之间的后验概率损失,来训练 残差网络和视角角度预测网络的参数。

例如,视角角度样本和基于视角角度预测网络预测的视角角度的概率分 布之间的后验概率损失可以被定义为:

其中,xn是第n个样本的视角角度值,N是样本的总数。以该后验概率 损失为目标函数,通过优化该损失(当该损失函数收敛时),来对残差网络 和视角角度预测网络的参数进行训练,从而使得残差网络和移动方向预测网 络能学会枪战游戏下视角方向相关的游戏策略。设备2000通过混合高斯分 布的方案能较好地解决游戏中的视角方向相关的多值问题(同一场景有多种 合理策略)。

操作403还包括基于所述多个样本数据中的游戏界面样本和所述游戏界 面样本对应的下一时刻的视角幅度样本,通过优化所述视角幅度样本和基于 视角幅度预测网络预测的视角幅度的概率分布之间的后验概率损失,来训练 残差网络和视角幅度预测网络的参数。类似地,视角幅度样本和基于视角幅 度预测网络预测的视角幅度的概率分布之间的后验概率损失也可以被定义 为:类似地,以该后验概率损失为目标函数,通过优化该损 失(当该损失函数收敛时),来对残差网络和视角角度预测网络的参数进行 训练,从而使得残差网络和移动方向预测网络能学会枪战游戏下视角幅度相 关的游戏策略,而且通过混合高斯分布的方案也能较好地解决游戏中的视角 幅度相关的多值问题(同一场景有多种合理策略)。

在本公开的实施例的实验中,设备2000通过20轮迭代(每轮迭代会遍 历所有训练样本)更新混合密度网络的参数,能完成混合密度网络的训练。 基于10局的游戏样本,1局游戏大概是3分钟,录制10局的时间大概是30 分钟,有GPU的情况下,训练混合密度网络耗时大约是半小时,所以大致需 要一个小时完成得到虚拟对象人工智能。

由于模仿玩家操控虚拟对象,混合密度网络能通过少量录制的样本训练 枪战类游戏人工智能,训练效率得到极大提升,同时轻量化的残差小模型能 提取更具判别力的抽象特征,游戏人工智能在枪战类游戏中能取得较好的成 果。最后通过混合密度网络输出离散概率分布和混合高斯分布的概率参数, 根据概率分布采样视角角度和幅度,能较好地解决游戏的多值问题。

图5示出根据本公开实施例的在对战游戏中托管虚拟对象行为的方法 500的流程图。

游戏托管场景是指,在终端离线或玩家繁忙时,玩家可以将玩家的游戏 角色进行托管,这样,终端或服务器即可代替玩家对其游戏角色进行操控。

在操作501中,设备2000可以基于虚拟对象的游戏界面,确定虚拟对象 行为在预定行为集合中的概率分布。虚拟对象的游戏界面可以是图1中的情 景图像100。情景图像中可以包括参考图像区域,例如小地图区域。

虚拟对象行为在预定行为集合中的概率分布既可以是离散概率分布也可 以是连续概率分布,本公开对此并不进行限制。虚拟对象行为在预定行为集 合中的概率分布指示虚拟对象行为在预定行为集合中出现的概率。比如,假 设虚拟对象行为表示虚拟对象是否要开枪射击,此时预定行为集合中包括“射 击”和“不射击”这两个行为。设备2000根据情景特征计算出“射击”的概 率为0.7,不射击的概率为0.3。此时,虚拟对象在面对图2B中所示的场景 时,有0.7的概率执行射击操作。虚拟对象人工智能使用该概率分布输出一 个随机数。假设该随机数以1表示射击,以0表示不射击,那么虚拟对象在 多次面对相同场景时,输出随机数1的次数占了70%,输出随机数0的次数 占了30%。由此,虚拟对象的行为模式将不再呆板和容易预测,提高了游戏的 趣味性。

可选地,如图2B所示,虚拟对象行为在预定行为集合中的概率分布包括 第一概率分布、第二概率分布、和第三概率分布。所述第一概率分布指示虚 拟对象在多个移动方向上移动的概率分布。所述第二概率分布指示所述虚拟 对象在下一时刻的视角角度值在视角角度值区间的概率分布。所述第三概率 分布指示所述虚拟对象在下一时刻的视角幅度值在视角幅度值区间的概率分 布。

在操作502中,设备2000可以基于所述概率分布,托管所述虚拟对象 行为。其中,在攻击对象出现在所述游戏界面的情况下,所述虚拟对象在下 一时刻的视角角度的概率分布的极值接近于面向所述攻击对象的视角角度。

例如,如果敌人出现在右侧,则需要将视角角度往右移动,直至敌人出 现在图像中心,方便虚拟对象攻击敌人。图2B中示出了第二概率分布的两 个极值,其分别对应于面对敌人角色A的视角角度和面对敌人角色B的视角 角度。根据第二概率分布来随机输出视角角度值,所输出的视角角度值大概 率是接近极值的视角角度,从而实现了虚拟对象朝着攻击对象的方向移动视 线。

由于虚拟对象是根据概率分布来确定虚拟对象行为,其在面对相同的游 戏场景时可能执行多种合理的游戏策略,从而可以更好的解决虚拟对象所面 对的多值问题。

图6是示出根据本公开实施例的确定虚拟对象行为的设备2000的结构 图。

设备2000可以包括情景特征获取模块601、概率分布确定模块602和虚 拟对象行为确定模块603。

情景特征获取模块601可以被配置为基于虚拟对象的情景图像,利用残 差网络获取表征所述虚拟对象所处情景的情景特征。

可选地,情景图像中可以包括参考图像区域,例如小地图区域。情景特 征获取模块601还可以执行:从情景图像中截取参考图像区域,所述参考图 像区域示出所述虚拟对象在游戏中的可获知信息。可获知信息例如是敌我双 方的部署布局、已经探索过的地图信息、敌方对象位置、我方队友位置等等。 由于参考图像区域以抽象的方式表征了情景图像中虚拟对象的可获知信息, 因此,设备2000可以仅基于所述参考图像区域,利用残差网络获取表征所述 虚拟对象所处情景的情景特征,从而减少了残差网络的输入参数量,使得残差网络更加轻量高效。

概率分布确定模块602可以被配置为基于所述情景特征,利用确定虚拟 对象行为的概率分布。

可选地,设备2000可以利用行为预测网络来确定虚拟对象行为在预定 行为集合中的概率分布。行为预测网络和残差网络的组合可以被称为混合密 度网络。其中,行为预测网络包括移动方向预测网络、视角角度预测网络和 视角幅度预测网络,并且所述虚拟对象行为包括虚拟对象的移动方向、虚拟 对象在下一时刻的视角角度和虚拟对象在下一时刻的视角幅度中的至少一部 分。可选地,虚拟对象的移动方向的预定行为集合包括向上,向右上、向 右、向右下、向下、向左下、向左、向左上移动。虚拟对象的视角角度值的 预定行为集合为虚拟对象能够旋转到的视角角度值的区间。虚拟对象的视角 幅度值的预定行为集合为虚拟对象能够变动的视角幅度值的区间。

虚拟对象行为确定模块603可以被配置为基于所述概率分布,确定所述 虚拟对象行为。

可选地,设备2000基于所述第一概率分布确定所述虚拟对象的移动方 向。虚拟对象根据第一概率随机采样移动动作,而非总是执行概率最大的动 作。在某些情况下,执行最大概率的动作可能会导致虚拟对象撞上障碍物, 然后就一直停在障碍物的前端而无法移动。通过第一概率随机采样移动行 为,可以防止虚拟对象在游戏场景中卡住,虚拟对象根据第一概率随机移 动,从而有一定几率脱困。

可选地,设备2000基于第二概率分布确定虚拟对象在下一时刻的视角 角度值。如果敌人出现在右侧,则需要将视角角度往右移动,直至敌人出现 在图像中心,方便虚拟对象攻击敌人。图2B中示出了两个极值,其分别对 应于面对敌人角色A的视角角度和面对敌人角色B的视角角度。根据第二概 率分布来随机输出视角角度值,所输出的视角角度值大概率是接近极值的视 角角度,从而实现了虚拟对象朝着攻击对象的方向移动视线。类似地,设备 2000还可以基于第三概率分布确定虚拟对象在下一时刻的视角幅度值。

本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机指 令,该计算机指令被处理器执行时实现方法200和方法500。

根据本公开的实施例的方法200和方法500通过轻量化的残差网络来计 算虚拟对象行为的分布,解决了在虚拟对象人工智能的设计中存在训练耗时 过长、设计难度过大、无法处理多值问题等的技术问题。

需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施 例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。 在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代 码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实 现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中, 方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两 个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反 的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中 的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功 能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机 指令的组合来实现。

一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固 件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可 以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当 本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形 表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性 的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算 设备,或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的,而不是限制性 的。本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可 对这些实施例或其特征进行各种修改和组合,这样的修改应落入本发明的范 围内。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:碰撞检测的方法和装置、存储介质及电子装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类