基于深度学习模型的数据处理方法、装置、设备及介质

文档序号：1889427 发布日期：2021-11-26 浏览：3次 >En<

阅读说明：本技术 基于深度学习模型的数据处理方法、装置、设备及介质 (Data processing method, device, equipment and medium based on deep learning model ) 是由蒋佳峻成杰峰于 2021-08-31 设计创作，主要内容包括：本发明实施例涉及人工智能领域,公开了一种基于深度学习模型的数据处理方法、装置、设备及介质,该方法包括：对数据处理参数进行定义,并根据定义对应的逻辑参数生成pip包；接收携带接口标识和多个数据标识的数据集的获取请求；通过与接口标识对应的接口调用pip包获取与数据标识对应的训练数据,并对训练数据进行预处理得到数据集；对数据集进行拆分处理得到训练数据集,并将训练数据集输入深度学习模型进行训练,得到数据推荐模型；将数据推荐请求中携带目标接口标识和待处理数据的数据标识输入数据推荐模型,得到推荐结果数据,提高了数据推荐的效率和准确率。本发明涉及区块链技术,如可将数据集写入区块链中,以用于数据取证等场景。(The embodiment of the invention relates to the field of artificial intelligence, and discloses a data processing method, a device, equipment and a medium based on a deep learning model, wherein the method comprises the following steps: defining data processing parameters, and generating a pip packet according to logic parameters corresponding to the definition; receiving an acquisition request of a data set carrying an interface identifier and a plurality of data identifiers; calling a pip packet through an interface corresponding to the interface identifier to acquire training data corresponding to the data identifier, and preprocessing the training data to obtain a data set; splitting the data set to obtain a training data set, inputting the training data set into a deep learning model for training to obtain a data recommendation model; and inputting the data identifier carrying the target interface identifier and the data to be processed in the data recommendation request into the data recommendation model to obtain recommendation result data, so that the efficiency and accuracy of data recommendation are improved. The present invention relates to blockchain techniques, such as data sets can be written into blockchains for use in scenarios such as data forensics.)

技术领域

本发明涉及人工智能领域，尤其涉及一种基于深度学习模型的数据处理方法、装置、设备及介质。

背景技术

在广告推荐、商品推荐等推荐系统中，推荐模型的传统实现方式是使用机器学习来构建，而目前越来越趋于使用深度学习技术，而深度学习模型训练流程中，第一步需要对数据进行预处理，作为训练的原始数据(如用户、商品等信息)，首先要将他们从数据库中获取出来，然后对获取到的数据进行预处理，成为深度学习模型可输入的数据。

目前从数据库中获取数据的流程通常是通过手动编码的方式，并针对各类需要的数据进行筛选，筛选后做对应的数据预处理，最终持久化存储为文件。文件中内容即为深度学习模型训练时可接收的张量，以对模型进行训练。然而，此流程在获取、筛选、预处理数据上需要花费很多时间进行编码的工作，需要针对不同的模型进行不同的编码工作，整个流程较长需要花费较长时间，从而导致数据推荐的效率较低，准确性较低。因此，如何提高数据推荐的效率和准确率成为一项重要议题。

发明内容

本发明实施例提供了一种基于深度学习模型的数据处理方法、装置、设备及介质，可以减少针对数据获取、数据筛选、数据预处理等需要进行的编码工作，提高了数据推荐的效率和准确率。

第一方面，本发明实施例提供了一种基于深度学习模型的数据处理方法，包括：

根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；

接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；

确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；

对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；

获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。

进一步地，所述根据预设编译规则，使用指定编码语言对数据处理参数进行定义，包括：

获取所述预设的深度学习模型中的自定义算子编译规则；

根据所述自定义算子编译规则使用所述指定编码语言，编写通用的算子定义，以实现对所述数据处理参数的定义。

进一步地，所述通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，包括：

根据所述pip包中对所述数据处理参数的定义确定从所述数据库中获取数据的数据获取规则；

根据所述数据获取规则从所述数据库中获取与所述数据标识对应的训练数据。

进一步地，所述对所述训练数据进行预处理，得到数据集，包括：

根据所述pip包中对所述数据处理参数的定义确定对数据进行预处理的预处理规则；

根据所述预处理规则对从所述数据库中获取与所述数据标识对应的训练数据进行预处理。

进一步地，所述对所述数据集进行拆分处理得到训练数据集，包括：

根据预设比例对所述数据集进行拆分处理，得到所述训练数据集；

所述将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型，包括：

按照预设的批量拆分规则对所述训练数据集进行批量拆分处理，得到多个子训练数据集；

将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型。

进一步地，所述将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型，包括：

将所述多个子训练数据集输入所述预设的深度学习模型，得到损失函数值；

当所述损失函数值不满足预设条件时，根据所述损失函数值调整所述预设的深度学习模型的模型参数，并将所述多个子训练数据集输入调整模型参数后的深度学习模型进行迭代训练；

当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述数据推荐模型。

进一步地，所述将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据，包括：

将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，通过与所述目标接口标识对应的目标接口调用所述数据推荐模型中pip包；

根据所述pip包中对从所述数据处理参数的定义从所述数据库中获取与所述待处理数据的数据标识对应的待处理数据；

根据所述pip包中对所述数据处理参数的定义对所述待处理数据进行预处理得到目标数据，并将所述目标数据输入所述数据推荐模型中，得到所述目标数据对应的推荐结果数据。

第二方面，本发明实施例提供了一种基于深度学习模型的数据处理装置，包括：

生成单元，用于根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；

接收单元，用于接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；

处理单元，用于确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；

训练单元，用于对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；

推荐单元，用于获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。

第三方面，本发明实施例提供了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述计算机程序，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面的方法。

本发明实施例可以根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。通过这种实施方式，可以减少针对数据获取、数据筛选、数据预处理等需要进行的编码工作，提高了数据推荐的效率和准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度学习模型的数据处理方法的示意流程图；

图2是本发明实施例提供的一种基于深度学习模型的数据处理装置的示意框图；

图3是本发明实施例提供的一种计算机设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于深度学习模型的数据处理方法可以应用于一种基于深度学习模型的数据处理装置，在某些实施例中，所述基于深度学习模型的数据处理装置设置于计算机设备中。在某些实施例中，所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。

本发明实施例可以根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。在某些实施例中，所述pip是指通用的Python包管理工具，用于提供对Python包的查找、下载、安装、卸载等功能。

本发明实施例通过将数据获取、数据筛选、预处理流程抽象为深度学习模型训练的其中一个过程，将数据获取、数据筛选、预处理逻辑封装到深度学习模型中训练得到数据推荐模型，有助于减少针对数据库连接、数据获取、数据筛选、数据预处理、拆分数据集、转batch等需要进行的编码工作；通过将待处理数据的数据标识和目标接口标识输入数据推荐模型中，得到所述待处理数据的推荐结果数据，进一步提高了数据推荐的效率和准确性。

本申请实施例可以基于人工智能技术对相关的数据(如数据集)进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例能够应用于多种不同的领域中，如：医疗数据推荐领域、金融数据推荐领域等。

在一种可能的实现方式中，在医疗数据推荐领域中，所述数据可以是与医疗相关联的医疗数据，如与医疗相关联的检查数据、化验数据等。

下面结合附图1对本发明实施例提供的基于深度学习模型的数据处理方法进行示意性说明。

请参见图1，图1是本发明实施例提供的一种基于深度学习模型的数据处理方法的示意流程图，如图1所示，该方法可以由基于深度学习模型的数据处理装置执行，所述基于深度学习模型的数据处理装置设置于计算机设备中。具体地，本发明实施例的所述方法包括如下步骤。

S101：根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包。

本发明实施例中，基于深度学习模型的数据处理装置可以根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包。

在某些实施例中，所述指定编码语言包括但不限于C++，所述数据处理参数包括输入参数和输出参数。

在一个实施例中，基于深度学习模型的数据处理装置在根据预设编译规则，使用指定编码语言对数据处理参数进行定义时，可以获取所述预设的深度学习模型中的自定义算子编译规则；并根据所述自定义算子编译规则使用所述指定编码语言，编写通用的算子定义，以实现对所述数据处理参数的定义。

例如，在对从数据库中获取数据、归一化进行定义时，可以通过如下方式编写通用的算子定义：

REGISTER_OP("RecReadDb")

REGISTER_OP("RecNormalization")

REGISTER_OP(“RecRelationExtra")

其中，所述OP用于指示算子，所述算子是指神经网络计算的基本单元，包括但不限于conv、pooling、activation、normalization等。

在一个实施例中，基于深度学习模型的数据处理装置在获取所述定义对应的逻辑参数时，可以根据对所述数据处理参数的定义，获取实现所述定义需要传入的逻辑参数，具体地，可以根据算子定义确定需要传入的逻辑参数。

例如，假设算子定义为算子RecReadDb，其逻辑为从数据库中读取数据，则可以确定需传入的逻辑参数包括：数据库类型、连接配置、读取数据需要执行的SQL、输出数据需要的字段和类型等。

在一个实施例中，基于深度学习模型的数据处理装置在根据所述逻辑参数将算子代码编译生成pip包生成脚本时，可以根据所述逻辑参数编写python wrap文件，以将算子代码编译生成pip包生成脚本。

在一个实施例中，基于深度学习模型的数据处理装置在根据所述逻辑参数将算子代码编译生成pip包生成脚本时，还可以根据所述逻辑参数将算子代码编译生成共享库文件。

在一个实施例中，所述共享库文件可以为so文件；基于深度学习模型的数据处理装置在编写python wrap文件，并将算子代码编译生成共享库文件和/或pip包生成脚本时，可以按照深度学习模型中的算子标准编写python wrap文件，并将算子代码编译生成so文件和/或pip包生成脚本。

S102：接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识。

本发明实施例中，基于深度学习模型的数据处理装置可以接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识。

在某些实施例中，所述接口标识用于指示Python接口，所述数据标识为用于指示数据库中数据的标识，所述数据库包括但不限于MySql、PostgreSql、Oracle等。

S103：确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集。

本发明实施例中，基于深度学习模型的数据处理装置可以确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集。

在一个实施例中，基于深度学习模型的数据处理装置在通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据时，可以根据所述pip包中对所述数据处理参数的定义确定从所述数据库中获取数据的数据获取规则；并根据所述数据获取规则从所述数据库中获取与所述数据标识对应的训练数据。

在一个实施例中，基于深度学习模型的数据处理装置在对所述训练数据进行预处理，得到数据集时，可以根据所述pip包中对所述数据处理参数的定义确定对数据进行预处理的预处理规则；并根据所述预处理规则对从所述数据库中获取与所述数据标识对应的训练数据进行预处理。

在一种实施方式中，所述预处理规则包括但不限于筛选规则。在一个示例中，假设所述训练数据包括用户信息、用户行为数据、产品信息，则基于深度学习模型的数据处理装置可以根据确定的筛选规则对用户信息、用户行为数据、产品信息进行筛选。

例如，基于深度学习模型的数据处理装置可以根据筛选规则中规定的用户年龄段从用户信息中筛选与该用户年龄段对应的用户信息；也可以根据筛选规则中规定的用户浏览或点击过的某个产品的行为数据对用户行为数据进行筛选；还可以根据筛选规则中规定的产品类别、价格、标签等对产品信息进行筛选。

通过根据pip包中对数据进行预处理的参数的定义，可以实现对数据进行预处理的自动化、智能化，提高了对数据预处理的效率，解决了现有技术中通过手动编码的方式对数据进行预处理的低效率问题。

S104：对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型。

本发明实施例中，基于深度学习模型的数据处理装置可以对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型。

在一个实施例中，基于深度学习模型的数据处理装置在对所述数据集进行拆分处理得到训练数据集时，可以根据预设比例对所述数据集进行拆分处理，得到所述训练数据集。

在一些实施例中，基于深度学习模型的数据处理装置在根据预设比例对所述数据集进行拆分处理时，可以将数据集按照预设比例分成训练数据集、测试数据集、验证数据集等几种集合。

例如，假设数据集有100条数据，依次按预设比例0.7/0.15/0.15进行拆分，那么训练数据集有70条，测试数据集有15条，验证数据集有15条。

在一些实施例中，所述拆分方式可以是随机拆分，也可以是按照数据中某个重要特征的分布进行抽取拆分。

在一个实施例中，基于深度学习模型的数据处理装置在将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型时，可以按照预设的批量拆分规则对所述训练数据集进行批量拆分处理，得到多个子训练数据集；并将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型。

例如，假设训练数据集的总量为1000条，如果预设的批量拆分规则batch_size为50时，则batch的总数即为1000/50＝20，因此每个batch中含50条数据，也就是说拆分得到20个子训练数据集，每个子训练数据集中包含50条数据。

在一个实施例中，基于深度学习模型的数据处理装置在将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型时，可以将所述多个子训练数据集输入所述预设的深度学习模型，得到损失函数值；当所述损失函数值不满足预设条件时，根据所述损失函数值调整所述预设的深度学习模型的模型参数，并将所述多个子训练数据集输入调整模型参数后的深度学习模型进行迭代训练；当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述数据推荐模型。

S105：获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。

本发明实施例中，基于深度学习模型的数据处理装置可以获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。

在一个实施例中，基于深度学习模型的数据处理装置在将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据时，可以将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，通过与所述目标接口标识对应的目标接口调用所述数据推荐模型中pip包；根据所述pip包中对从所述数据处理参数的定义从所述数据库中获取与所述待处理数据的数据标识对应的待处理数据；根据所述pip包中对所述数据处理参数的定义对所述待处理数据进行预处理得到目标数据，并将所述目标数据输入所述数据推荐模型中，得到所述目标数据对应的推荐结果数据。

本发明实施例中，基于深度学习模型的数据处理装置可以根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。本发明实施例通过将数据获取、数据筛选、预处理流程抽象为深度学习模型训练的其中一个过程，将数据获取、数据筛选、预处理逻辑封装到深度学习模型中训练得到数据推荐模型，有助于减少针对数据库连接、数据获取、数据筛选、数据预处理、拆分数据集、转batch等需要进行的编码工作；通过将待处理数据的数据标识和目标接口标识输入数据推荐模型中，得到所述待处理数据的推荐结果数据，进一步提高了数据推荐的效率和准确性。

本发明实施例还提供了一种基于深度学习模型的数据处理装置，该基于深度学习模型的数据处理装置用于执行前述任一项所述的方法的单元。具体地，参见图2，图2是本发明实施例提供的一种基于深度学习模型的数据处理装置的示意框图。本实施例的基于深度学习模型的数据处理装置包括：生成单元201、接收单元202、处理单元203、训练单元204以及推荐单元205。

生成单元201，用于根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；

接收单元202，用于接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；

处理单元203，用于确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；

训练单元204，用于对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；

推荐单元205，用于获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。

进一步地，所述生成单元201根据预设编译规则，使用指定编码语言对数据处理参数进行定义时，具体用于：

获取所述预设的深度学习模型中的自定义算子编译规则；

根据所述自定义算子编译规则使用所述指定编码语言，编写通用的算子定义，以实现对所述数据处理参数的定义。

进一步地，所述处理单元203通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据时，具体用于：

根据所述pip包中对所述数据处理参数的定义确定从所述数据库中获取数据的数据获取规则；

根据所述数据获取规则从所述数据库中获取与所述数据标识对应的训练数据。

进一步地，所述处理单元203对所述训练数据进行预处理，得到数据集时，具体用于：

根据所述pip包中对所述数据处理参数的定义确定对数据进行预处理的预处理规则；

根据所述预处理规则对从所述数据库中获取与所述数据标识对应的训练数据进行预处理。

进一步地，所述训练单元204对所述数据集进行拆分处理得到训练数据集时，具体用于：

根据预设比例对所述数据集进行拆分处理，得到所述训练数据集；

所述训练单元204将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型时，具体用于：

按照预设的批量拆分规则对所述训练数据集进行批量拆分处理，得到多个子训练数据集；

将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型。

进一步地，所述训练单元204将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型时，具体用于：

将所述多个子训练数据集输入所述预设的深度学习模型，得到损失函数值；

当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述数据推荐模型。

进一步地，所述推荐单元205将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据时，具体用于：

将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，通过与所述目标接口标识对应的目标接口调用所述数据推荐模型中pip包；

根据所述pip包中对从所述数据处理参数的定义从所述数据库中获取与所述待处理数据的数据标识对应的待处理数据；

参见图3，图3是本发明实施例提供的一种计算机设备的示意框图，在某些实施例中，如图3所示的本实施例中的计算机设备可以包括：一个或多个处理器301；一个或多个输入设备302，一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器304用于存储计算机程序，所述计算机程序包括程序，处理器301用于执行存储器304存储的程序。其中，处理器301被配置用于调用所述程序执行：

接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；

对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；

进一步地，所述处理器301根据预设编译规则，使用指定编码语言对数据处理参数进行定义时，具体用于：

获取所述预设的深度学习模型中的自定义算子编译规则；

根据所述自定义算子编译规则使用所述指定编码语言，编写通用的算子定义，以实现对所述数据处理参数的定义。

进一步地，所述处理器301通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据时，具体用于：

根据所述pip包中对所述数据处理参数的定义确定从所述数据库中获取数据的数据获取规则；

根据所述数据获取规则从所述数据库中获取与所述数据标识对应的训练数据。

进一步地，所述处理器301对所述训练数据进行预处理，得到数据集时，具体用于：

根据所述pip包中对所述数据处理参数的定义确定对数据进行预处理的预处理规则；

根据所述预处理规则对从所述数据库中获取与所述数据标识对应的训练数据进行预处理。

进一步地，所述处理器301对所述数据集进行拆分处理得到训练数据集时，具体用于：

根据预设比例对所述数据集进行拆分处理，得到所述训练数据集；

所述处理器301将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型时，具体用于：

按照预设的批量拆分规则对所述训练数据集进行批量拆分处理，得到多个子训练数据集；

将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型。

进一步地，所述处理器301将所述多个子训练数据集输入所述预设的深度学习模型进行训练，得到所述数据推荐模型时，具体用于：

将所述多个子训练数据集输入所述预设的深度学习模型，得到损失函数值；

当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述数据推荐模型。

进一步地，所述处理器301将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据时，具体用于：

将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，通过与所述目标接口标识对应的目标接口调用所述数据推荐模型中pip包；

根据所述pip包中对从所述数据处理参数的定义从所述数据库中获取与所述待处理数据的数据标识对应的待处理数据；

本发明实施例中，计算机设备可以根据预设编译规则，使用指定编码语言对数据处理参数进行定义，并获取所述定义对应的逻辑参数，根据所述逻辑参数将算子代码编译生成pip包生成脚本，并根据所述pip包生成脚本生成pip包，其中，所述数据处理参数用于指示从数据库中获取数据和/或对获取的数据进行预处理；接收数据集的获取请求，所述数据集的获取请求中携带接口标识和多个数据标识；确定与所述接口标识对应的接口，并通过所述接口调用所述pip包从所述数据库中获取与所述数据标识对应的训练数据，并对所述训练数据进行预处理，得到数据集；对所述数据集进行拆分处理得到训练数据集，并将所述训练数据集输入预设的深度学习模型进行训练，得到数据推荐模型；获取数据推荐请求，所述数据推荐请求中携带了目标接口标识和待处理数据的数据标识，将所述目标接口标识和所述待处理数据的数据标识输入所述数据推荐模型，得到所述待处理数据的推荐结果数据。本发明实施例通过将数据获取、数据筛选、预处理流程抽象为深度学习模型训练的其中一个过程，将数据获取、数据筛选、预处理逻辑封装到深度学习模型中训练得到数据推荐模型，有助于减少针对数据库连接、数据获取、数据筛选、数据预处理、拆分数据集、转batch等需要进行的编码工作；通过将待处理数据的数据标识和目标接口标识输入数据推荐模型中，得到所述待处理数据的推荐结果数据，进一步提高了数据推荐的效率和准确性。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元(CenSralProcessing UniS，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor，DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS，ASIC)、现成可编程门阵列(Field-Programmable GaSe Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、麦克风等，输出设备303可以包括显示器(LCD等)、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式，也可执行本发明实施例图2所描述的基于深度学习模型的数据处理装置的实现方式，在此不再赘述。

本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图1所对应实施例中描述的基于深度学习模型的数据处理方法，也可实现本发明图2所对应实施例的基于深度学习模型的数据处理装置，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的基于深度学习模型的数据处理装置的内部存储单元，例如基于深度学习模型的数据处理装置的硬盘或内存。所述计算机可读存储介质也可以是所述基于深度学习模型的数据处理装置的外部存储装置，例如所述基于深度学习模型的数据处理装置上配备的插接式硬盘，智能存储卡(SmarS MediaCard,SMC)，安全数字(Secure DigiSal,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述基于深度学习模型的数据处理装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述基于深度学习模型的数据处理装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要强调的是，为进一步保证上述数据的私密和安全性，上述数据还可以存储于一区块链的节点中。其中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本发明的部分实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

18页详细技术资料下载

基于深度学习模型的数据处理方法、装置、设备及介质

相关技术

网友询问留言