游戏数据处理方法、系统、装置、计算机设备和存储介质

文档序号：1838132 发布日期：2021-11-16 浏览：35次 >En<

阅读说明：本技术 游戏数据处理方法、系统、装置、计算机设备和存储介质 (Game data processing method, system, device, computer equipment and storage medium ) 是由刘舟杨帆黎广璘于 2021-07-23 设计创作，主要内容包括：本申请涉及一种游戏数据处理方法、装置、计算机设备和存储介质。该方法包括：从第一服务器中获取当前游戏对应的游戏环境数据,第一服务器用于采集多个游戏的游戏环境数据,当前游戏是多个游戏中的任一个,对游戏环境数据进行转换,得到游戏训练交互数据,将游戏训练交互数据发送至第二服务器,第二服务器根据游戏训练交互数据,对神经网络模型进行训练,得到神经网络模型输出的当前游戏动作和当前游戏奖励值,在当前游戏奖励值达到预设游戏奖励阈值时,停止训练,输出当前游戏动作,生成当前游戏对应的游戏模型文件。采用本方法能够达到不同游戏都可接入同一套A I训练方案的目的,无需编写不同游戏场景对应的A I,降低开发成本,提高开发效率。(The application relates to a game data processing method, a game data processing device, a computer device and a storage medium. The method comprises the following steps: the method comprises the steps of obtaining game environment data corresponding to a current game from a first server, wherein the first server is used for collecting the game environment data of a plurality of games, the current game is any one of the plurality of games, converting the game environment data to obtain game training interaction data, sending the game training interaction data to a second server, training a neural network model by the second server according to the game training interaction data to obtain a current game action and a current game reward value output by the neural network model, stopping training when the current game reward value reaches a preset game reward threshold value, outputting the current game action, and generating a game model file corresponding to the current game. By adopting the method, the aim that different games can access the same A I training scheme can be achieved, A I corresponding to different game scenes does not need to be written, the development cost is reduced, and the development efficiency is improved.)

技术领域

本申请涉及计算机技术领域，特别是涉及一种游戏数据处理方法、装置、计算机设备和存储介质。

背景技术

随着游戏的发展，游戏需要众多的AI(Artificial Intelligence，人工智能)，使得游戏的世界更加真实，更加丰富多彩，传统的AI需要依靠开发人员手工编写行为逻辑，然而，不同的游戏场景需要编写不同的AI进行训练，这种通过开发人员手工编写行为逻辑，容易造成开发成本高，且开发效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种游戏数据处理方法、系统、装置、计算机设备和存储介质，能够将不同游戏对应的游戏环境数据进行标准化格式转换，通过转换后的数据对接同一套神经网络模型进行训练，达到不同游戏都可接入同一套AI训练方案的目的，无需编写不同游戏场景对应的AI，降低开发成本，提高开发效率。

一种游戏数据处理方法，该方法包括：

从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；

对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据；

将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在其中一个实施例中，该游戏数据处理方法还包括：接收第二服务器发送的游戏环境数据采集指令，游戏环境数据采集指令是当前游戏奖励值未达到预设游戏奖励阈值时触发生成的，根据游戏环境数据采集指令从第一服务器获取当前游戏的下一个游戏场景对应的游戏环境数据，返回执行步骤对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

在其中一个实施例中，从第一服务器中获取当前游戏对应的游戏环境数据之前，还包括：在通过预定通信协议与第一服务器成功建立连接时，接收第一服务器发送的初始化参数，基于预定通信协议将初始化参数发送至第二服务器，以使得第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型，接收第二服务器发送的当前游戏重置指令，将当前游戏重置指令发送至第一服务器，以使第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

在其中一个实施例中，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，包括：从游戏环境数据中提取得到游戏环境关键参数，根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。

在其中一个实施例中，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据，包括：根据游戏环境关键参数确定对应的第一信息类型，根据游戏环境数据矩阵确定对应的第二信息类型，将游戏环境关键参数传入至与第一信息类型对应的数据类型为结构体的标准参数中，得到第一游戏训练交互数据，将游戏环境数据矩阵传入至与第二信息类型对应的数据类型为结构体的标准参数中，得到第二游戏训练交互数据，根据第一游戏训练交互数据和第二游戏训练交互数据得到游戏训练交互数据。

在其中一个实施例中，该游戏数据处理方法还包括：从第一服务器中获取目标游戏对应的目标游戏环境数据，将目标游戏环境数据进行标准化数据格式转换，得到对应的目标游戏交互数据，发送目标游戏交互数据至第二服务器，以使第二服务器根据目标游戏交互数据调用匹配的目标游戏模型文件，通过目标游戏模型文件对应的目标神经网络模型基于目标游戏交互数据预测得到目标游戏动作，将第二服务器返回的目标游戏动作发送至第一服务器，以使第一服务器根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

一种游戏数据处理系统，该系统包括：

游戏数据处理设备，用于发送当前游戏环境数据采集请求至第一服务器，当前游戏环境数据采集请求携带当前游戏标识；

第一服务器，用于根据当前游戏环境数据采集请求从多个游戏对应的游戏环境数据中获取与当前游戏标识对应的游戏环境数据，并返回至游戏数据处理设备；

游戏数据处理设备，用于接收游戏环境数据，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，将游戏训练交互数据发送至第二服务器；

第二服务器，用于接收游戏训练交互数据，根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

一种游戏数据处理装置，该装置包括：

获取模块，用于从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；

转换模块，用于对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据；

发送模块，用于将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；

对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；

对游戏环境数据进数据类型行转换，得到标准数据格式的游戏训练交互数据；

上述游戏数据处理方法、系统、装置、计算机设备和存储介质，从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

因此，能够将不同游戏对应的游戏环境数据进行标准化格式转换，通过转换后的数据对接同一套神经网络模型进行训练，达到不同游戏都可接入同一套AI训练方案的目的，无需编写不同游戏场景对应的AI，降低开发成本，提高开发效率。

附图说明

图1为一个实施例中游戏数据处理方法的应用环境图；

图2为一个实施例中游戏数据处理方法的流程示意图；

图3为一个实施例中游戏数据处理方法的流程示意图；

图4为另一个实施例中游戏数据处理方法的流程示意图；

图5为一个实施例中游戏环境数据转换步骤的流程示意图；

图6为一个实施例中游戏训练交互数据生成步骤的流程示意图；

图7为一个实施例中游戏数据处理方法的流程示意图；

图8为一个实施例中游戏数据处理系统的结构框图；

图9为一个实施例中游戏数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的游戏数据处理方法，可以应用于如图1所示的应用环境中。其中，游戏数据处理设备102通过网络与第一服务器104进行通信，游戏数据处理设备102通过网路与第二服务器106进行通信。其中，游戏数据处理102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，还可以是独立的服务器或者是多个服务器组成的服务器集群，第一服务器104和第二服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，游戏数据处理设备102还可以以sdk(SoftwareDevelopment Kit，软件开发工具包)的形式存内嵌在第一服务器或第二服务器上。

具体地，游戏数据处理设备102发送当前游戏环境数据采集请求至第一服务器，当前游戏环境数据采集请求携带当前游戏标识，第一服务器104根据当前游戏环境数据采集请求从多个游戏对应的游戏环境数据中获取与当前游戏标识对应的游戏环境数据，并返回至游戏数据处理设备102。进一步地，游戏数据处理设备102接收游戏环境数据，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，将游戏训练交互数据发送至第二服务器106，第二服务器106接收游戏训练交互数据，根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在一个实施例中，如图2所示，提供了一种游戏数据处理方法，以该方法应用于图1中的游戏数据处理设备为例进行说明，包括以下步骤：

步骤202，从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个。

其中，第一服务器可以是业务相关的服务器，例如游戏服务器，当前游戏可以是目前正在处理的游戏，也可以是根据实际业务需求、产品需求或应用场景确定得到的，其中，第一服务器用于采集多个游戏对应的游戏环境数据，而当前游戏是多个游戏中的任意一个。

其中，游戏环境数据是与当前游戏相关的环境数据，可以是但不限于当前游戏在运行过程中的场景参数，当前游戏对应的控制对象数据等。

具体地，可以通过发送当前游戏环境数据采集请求至第一服务器中，当前游戏环境数据采集请求携带当前游戏标识，第一服务器根据当前游戏环境数据采集请求查找得到与当前游戏标识对应的游戏环境数据。

步骤204，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据。

其中，游戏训练交互数据是标准数据格式的训练交互数据，用来训练神经网络模型的，不同游戏对应的游戏环境数据都可以通过转换，得到标准数据格式对应的游戏训练交互数据，达到不同游戏都可以接入同一套神经网络模型的训练方案。

其中，对游戏环境数据的转换可以是对游戏环境数据的数据格式转换，可以使用同一套标准数据格式转换规则对不同游戏的游戏环境数据进行转换，得到标准数据格式的游戏训练交互数据。

步骤206，将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

其中，这里的第二服务器是神经网络所在的服务器，可以是AI服务器。具体地，将游戏训练交互数据通过网络发送至第二服务器，第二服务器接收到游戏训练交互数据后，调用神经网络模型，将游戏训练交互数据作为神经网络模型的输入参数，通过神经网络模型的计算，得到当前游戏对应的当前游戏动作和当前游戏奖励值。其中，当前游戏动作是用来控制当前游戏中的当前控制对象执行的动作，而当前游戏奖励值可以是当前游戏的一种当前激励手段，可以通过当前游戏奖励值来确定神经网络模型是否达到训练目的。

其中，通过当前游戏奖励值确定神经网络模型是否达到训练目的具体可以是，获取预设游戏奖励阈值，根据当前游戏奖励值和预设游戏奖励阈值来确定神经网络模型是否达到训练目的，具体可以是，在当前游戏奖励值达到预设游戏奖励阈值时，确定神经网络模型达到训练目的，停止神经网络模型的训练，输出当前游戏动作，保存为当前游戏对应的游戏模型文件。其中，游戏模型文件包括当前游戏训练好的神经网络模型。

在另一个实施例中，通过当前游戏奖励值确定神经网络模型是否达到训练目的具体还可以是，获取神经网络模型的训练总次数，在训练总次数达到训练次数阈值时，确定神经网络模型达到训练目的，停止神经网络模型的训练，输出当前游戏动作，保存为当前游戏对应的游戏模型文件。

上述游戏数据处理方法中，从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在一个实施例中，如图3所示，游戏数据处理方法还包括：

步骤302，接收第二服务器发送的游戏环境数据采集指令，游戏环境数据采集指令是当前游戏奖励值未达到预设游戏奖励阈值时触发生成的。

步骤304，根据游戏环境数据采集指令从第一服务器获取当前游戏的下一个游戏场景对应的游戏环境数据，返回执行步骤对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

其中，在当前游戏奖励值未达到预设游戏奖励阈值时，确定神经网络模型未达到训练目的，因此需要继续对神经网络模型进行训练，第二服务器触发生成游戏环境采集指令，并通过执行主体游戏数据处理设备返回至第一服务器。

第一服务器接收到游戏环境采集指令后，获取当前游戏的下一个游戏场景对应的游戏环境数据，当前游戏可以包括多个游戏场景，之前游戏环境数据，还未能使得神经网络模型达到训练目的，需要获取当前游戏的下一个游戏场景对应的游戏环境数据，返回执行步骤对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，以此类推，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

在一个实施例中，如图4所示，从第一服务器中获取当前游戏对应的游戏环境数据之前，还包括：

步骤402，在通过预定通信协议与第一服务器成功建立连接时，接收第一服务器发送的初始化参数。

步骤404，基于预定通信协议将初始化参数发送至第二服务器，以使得第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型。

步骤406，接收第二服务器发送的当前游戏重置指令，将当前游戏重置指令发送至第一服务器，以使第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

其中，预定通信协议是一种自研的通用协议，执行主体游戏数据处理设备通过该预定通信协议分别与第一服务器和第二服务器建立连接，其中，执行游戏数据处理设备还可以以SDK的形式内嵌在第一服务器或第二服务器中。

具体地，通过预定通信协议与第一服务器成功建立连接后，接收第一服务器发送的初始化参数，初始化参数包括种子值、通信版本、包版本与训练能力参数。其中，训练能力参数又包括基础强化学习能力、连接PNG观察设置值、压缩通道传输映射、混合动作、训练分析、可变长度观察设置值、是否多代理组等。其中，初始化参数作用是规范游戏逻辑服务端与训练端，其中，种子值、通信版本、包版本是逻辑服务端与训练端通信训练交互的依据，这些参数主要是用于校验双方的合法性。而训练能力参数是指定训练端的一些基础配置，让训练端以指定的模式进行数据通信交互。

进一步地，基于预定通信协议与第二服务器成功建立连接后，发送初始化参数至第二服务器，第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型，之后第二服务器发送当前游戏重置指令，当前游戏重置指令是用来重置第一服务器中的当前游戏的场景的。

最后，执行主体将第二服务器发送的当前游戏重置指令转发至第一服务器，第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

在一个实施例中，如图5所示，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，包括：

步骤502，从游戏环境数据中提取得到游戏环境关键参数。

步骤504，根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵。

步骤506，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。

其中，游戏环境关键参数是从游戏环境数据中提取出来的，游戏环境关键参数可以是观察值，所谓观察值是第一服务器通过预定通信协议传输的关键参数。

其中，预设矩阵维度信息是预先设定的维度信息，预设矩阵维度信息是表明传输的数据格式的矩阵维度，是一维矩阵还是二维矩阵还是N维矩阵，具体可以根据实际业务需求、产品需求或实际应用场景确定得到，可以根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵，具体可以是，获取游戏环境参数个数，根据游戏环境参数个数与预设矩阵维度信息生成对应的游戏环境数据矩阵。

例如，游戏场景是平衡球，此时需要传递的游戏环境关键参数是平衡球的坐标，方向等信息共6个，而预设矩阵维度信息是一维矩阵，最后生成的游戏环境数据矩阵是1X6的维度矩阵。

最后，可以通过游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。具体可以是，根据游戏环境关键参数和游戏环境数据矩阵对应的信息类型，传入相应的结构体标准参数中，得到游戏训练交互数据。

在一个实施例中，如图6所示，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据，包括：

步骤602，根据游戏环境关键参数确定对应的第一信息类型。

步骤604，根据游戏环境数据矩阵确定对应的第二信息类型。

步骤606，将游戏环境关键参数传入至与第一信息类型对应的数据类型为结构体的标准参数中，得到第一游戏训练交互数据。

步骤608，将游戏环境数据矩阵传入至与第二信息类型对应的数据类型为结构体的标准参数中，得到第二游戏训练交互数据，根据第一游戏训练交互数据和第二游戏训练交互数据得到游戏训练交互数据。

其中，这里的第一信息类型是指游戏环境关键参数对应的信息类型，第二信息类型是指游戏环境数据矩阵对应的信息类型，具体地，获取游戏环境关键参数确定对应的第一信息类型，获取游戏环境数据矩阵对应的第二信息类型。

进一步地，获取与第一信息类型对应的数据类型为结构体的标准参数，将游戏环境关键参数传入至该标准参数中，得到第一游戏训练交互数据。

同样地，获取与第二信息类型对应的数据类型为结构体的标准参数，将游戏环境数据矩阵传入至该标准参数中，得到第二游戏训练交互数据。

例如，游戏场景是平衡球，此时需要传递的游戏场景关键参数是平衡球的坐标，方向等信息共6个，而预设矩阵维度信息是一维矩阵，最后生成的游戏环境数据矩阵是1X6的维度矩阵。因为FloatData(浮点数数据)是Float(浮点数)的集合，将6个参数传入FloatData，而数据矩阵1X6传入Observation(观察值)中。当游戏场景是乒乓球，此时需要传递的游戏场景关键参数是球的坐标与速度，双方选手的位置等信息共8个，而预设矩阵维度信息是一维矩阵，最后生成的游戏环境数据矩阵是1X8的维度矩阵。因为FloatData是Float的集合，将8个参数传入FloatData，而游戏环境数据矩阵1X8传入Observation(观察值)中。其中，FloatData(浮点数数据)是Float(浮点数)类型数据的集合，Observation(观察值)是游戏环境关键参数。

在一个实施例中，如图7所示，游戏数据处理方法还包括：

步骤702，从第一服务器中获取目标游戏对应的目标游戏环境数据。

步骤704，将目标游戏环境数据进行标准化数据格式转换，得到对应的目标游戏交互数据。

步骤706，发送目标游戏交互数据至第二服务器，以使第二服务器根据目标游戏交互数据调用匹配的目标游戏模型文件，通过目标游戏模型文件对应的目标神经网络模型基于目标游戏交互数据预测得到目标游戏动作。

步骤708，将第二服务器返回的目标游戏动作发送至第一服务器，以使第一服务器根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

其中，在得到各个游戏对应的游戏模型文件后，可通过游戏模型文件进行游戏动作的预测。其中，这里的目标游戏是需要进行游戏动作预测的游戏，可以根据实际业务需求、产品需求或实际应用场景进行确定得到。

具体地，从第一服务器中获取目标游戏对应的目标游戏环境数据，具体可以是，发送请求至第一服务器，第一服务器根据请求获取目标游戏对应的目标游戏环境数据。或者还可以是，自动触发，第一服务器在预设时间点内自动获取目标游戏对应的目标游戏环境数据。

进一步地，将目标游戏环境数据进行标准化数据格式的转换，即对目标游戏环境数据进行统一化处理，得到对应的目标游戏交互数据，并发送至第二服务器。

第二服务器接收到目标游戏交互数据，先调用匹配的目标游戏模型文件，不同的游戏是对应不同的游戏模型文件的，再通过目标游戏模型文件对应的目标神经网络模型对目标游戏环境数据进行预测，得到相应的目标游戏动作，并通过执行主体转发至第一服务器。

最后，第一服务器接收到目标游戏动作后，根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

在一个具体的实施例中，提供了一种游戏数据处理方法，具体包括以下步骤：

1、在通过预定通信协议与第一服务器成功建立连接时，接收第一服务器发送的初始化参数。

2、基于预定通信协议将初始化参数发送至第二服务器，以使得第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型。

3、接收第二服务器发送的当前游戏重置指令，将当前游戏重置指令发送至第一服务器，以使第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

4、从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个。

5、对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据。

5-1、从游戏环境数据中提取得到游戏环境关键参数。

5-2、根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵。

5-3、根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。

5-3-1、根据游戏环境关键参数确定对应的第一信息类型。

5-3-2、根据游戏环境数据矩阵确定对应的第二信息类型。

5-3-3、将游戏环境关键参数传入至与第一信息类型对应的数据类型为结构体的标准参数中，得到第一游戏训练交互数据。

5-3-4、将游戏环境数据矩阵传入至与第二信息类型对应的数据类型为结构体的标准参数中，得到第二游戏训练交互数据，根据第一游戏训练交互数据和第二游戏训练交互数据得到游戏训练交互数据。

6、将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

7、接收第二服务器发送的游戏环境数据采集指令，游戏环境数据采集指令是当前游戏奖励值未达到预设游戏奖励阈值时触发生成的。

8、根据游戏环境数据采集指令从第一服务器获取当前游戏的下一个游戏场景对应的游戏环境数据，返回执行步骤对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

9、从第一服务器中获取目标游戏对应的目标游戏环境数据。

10、将目标游戏环境数据进行标准化数据格式转换，得到对应的目标游戏交互数据。

11、发送目标游戏交互数据至第二服务器，以使第二服务器根据目标游戏交互数据调用匹配的目标游戏模型文件，通过目标游戏模型文件对应的目标神经网络模型基于目标游戏交互数据预测得到目标游戏动作。

12、将第二服务器返回的目标游戏动作发送至第一服务器，以使第一服务器根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种游戏数据处理系统，该系统包括：

游戏数据处理设备802，用于发送当前游戏环境数据采集请求至第一服务器，当前游戏环境数据采集请求携带当前游戏标识。

第一服务器804，用于根据当前游戏环境数据采集请求从多个游戏对应的游戏环境数据中获取与当前游戏标识对应的游戏环境数据，并返回至游戏数据处理设备。

游戏数据处理设备802，用于接收游戏环境数据，对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，将游戏训练交互数据发送至第二服务器。

第二服务器806，用于接收游戏训练交互数据，根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在一个实施例中，如图9所示，提供了一种游戏数据处理装置900，包括：获取模块902、转换模块904和发送模块906，其中：

获取模块902，用于从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个。

转换模块904，用于对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据。

发送模块906，用于将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在一个实施例中，游戏数据处理装置900接收第二服务器发送的游戏环境数据采集指令，游戏环境数据采集指令是当前游戏奖励值未达到预设游戏奖励阈值时触发生成的，根据游戏环境数据采集指令从第一服务器获取当前游戏的下一个游戏场景对应的游戏环境数据，返回转换模块904对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

在一个实施例中，游戏数据处理装置900在通过预定通信协议与第一服务器成功建立连接时，接收第一服务器发送的初始化参数，基于预定通信协议将初始化参数发送至第二服务器，以使得第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型，接收第二服务器发送的当前游戏重置指令，将当前游戏重置指令发送至第一服务器，以使第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

在一个实施例中，转换模块904从游戏环境数据中提取得到游戏环境关键参数，根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。

在一个实施例中，转换模块904根据游戏环境关键参数确定对应的第一信息类型，根据游戏环境数据矩阵确定对应的第二信息类型，将游戏环境关键参数传入至与第一信息类型对应的数据类型为结构体的标准参数中，得到第一游戏训练交互数据，将游戏环境数据矩阵传入至与第二信息类型对应的数据类型为结构体的标准参数中，得到第二游戏训练交互数据，根据第一游戏训练交互数据和第二游戏训练交互数据得到游戏训练交互数据。

在一个实施例中，游戏数据处理装置900从第一服务器中获取目标游戏对应的目标游戏环境数据，将目标游戏环境数据进行标准化数据格式转换，得到对应的目标游戏交互数据，发送目标游戏交互数据至第二服务器，以使第二服务器根据目标游戏交互数据调用匹配的目标游戏模型文件，通过目标游戏模型文件对应的目标神经网络模型基于目标游戏交互数据预测得到目标游戏动作，将第二服务器返回的目标游戏动作发送至第一服务器，以使第一服务器根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

关于游戏数据处理装置的具体限定可以参见上文中对于游戏数据处理方法的限定，在此不再赘述。上述游戏数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储游戏训练交互数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种游戏数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种游戏数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10或图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据；将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收第二服务器发送的游戏环境数据采集指令，游戏环境数据采集指令是当前游戏奖励值未达到预设游戏奖励阈值时触发生成的，根据游戏环境数据采集指令从第一服务器获取当前游戏的下一个游戏场景对应的游戏环境数据，返回执行步骤对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据，直至第二服务器中的神经网络模型输出的当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在通过预定通信协议与第一服务器成功建立连接时，接收第一服务器发送的初始化参数，基于预定通信协议将初始化参数发送至第二服务器，以使得第二服务器根据初始化参数将神经网络模型设定为相应的初始训练交互参数，得到初始化后的神经网络模型，接收第二服务器发送的当前游戏重置指令，将当前游戏重置指令发送至第一服务器，以使第一服务器根据当前游戏重置指令，重置当前游戏的游戏场景。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从游戏环境数据中提取得到游戏环境关键参数，根据游戏环境参数和预设矩阵维度信息得到对应的游戏环境数据矩阵，根据游戏环境关键参数和游戏环境数据矩阵生成游戏训练交互数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据游戏环境关键参数确定对应的第一信息类型，根据游戏环境数据矩阵确定对应的第二信息类型，将游戏环境关键参数传入至与第一信息类型对应的数据类型为结构体的标准参数中，得到第一游戏训练交互数据，将游戏环境数据矩阵传入至与第二信息类型对应的数据类型为结构体的标准参数中，得到第二游戏训练交互数据，根据第一游戏训练交互数据和第二游戏训练交互数据得到游戏训练交互数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从第一服务器中获取目标游戏对应的目标游戏环境数据，将目标游戏环境数据进行标准化数据格式转换，得到对应的目标游戏交互数据，发送目标游戏交互数据至第二服务器，以使第二服务器根据目标游戏交互数据调用匹配的目标游戏模型文件，通过目标游戏模型文件对应的目标神经网络模型基于目标游戏交互数据预测得到目标游戏动作，将第二服务器返回的目标游戏动作发送至第一服务器，以使第一服务器根据目标游戏动作控制目标游戏中的目标对象执行下一步动作。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：从第一服务器中获取当前游戏对应的游戏环境数据，第一服务器用于采集多个游戏对应的游戏环境数据，当前游戏是多个游戏中的任一个；对游戏环境数据进行数据类型转换，得到标准数据格式的游戏训练交互数据；将游戏训练交互数据发送至第二服务器，以使第二服务器根据游戏训练交互数据，对神经网络模型进行训练，得到神经网络模型输出的当前游戏对应的当前游戏动作和当前游戏奖励值，在当前游戏奖励值达到预设游戏奖励阈值时，停止神经网络模型训练，输出当前游戏动作，生成当前游戏对应的游戏模型文件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种确定用户活跃度的方法和相关装置

游戏数据处理方法、系统、装置、计算机设备和存储介质

相关技术

网友询问留言