敏感数据识别模型训练方法、敏感数据识别方法及系统

文档序号：1831800 发布日期：2021-11-12 浏览：7次 >En<

阅读说明：本技术 敏感数据识别模型训练方法、敏感数据识别方法及系统 (Sensitive data recognition model training method, sensitive data recognition method and system ) 是由吕丹洪俊鑫于 2021-08-16 设计创作，主要内容包括：本发明涉及敏感数据识别模型训练方法、敏感数据识别方法及系统,系统包括服务器节点和AI敏感数据发现服务器。在数据库存储语料数据或样本数据的前提下,服务器节点根据敏感数据识别模型完成敏感数据识别,AI敏感数据发现服务器在敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据并获取服务器节点的识别结果,并训练敏感数据识别模型。通过多次训练得到的敏感数据识别模型进行敏感数据识别,持续提升不规范敏感数据的识别率,以应对传统技术对不规范敏感数据识别率低的问题,同时通过服务器节点的分布式部署,将敏感数据识别横向拓展为多节点集群,以应对敏感数据识别请求量暴增的情况,实现负载的均衡,保证敏感数据识别的稳定性。(The invention relates to a sensitive data identification model training method, a sensitive data identification method and a system. And on the premise that the corpus data or sample data is stored in the database, the server node completes sensitive data identification according to the sensitive data identification model, the AI sensitive data discovery server allocates corpus data, stop words or sample data between the sensitive data identification model and the server node and acquires an identification result of the server node, and trains the sensitive data identification model. Sensitive data identification is carried out through a sensitive data identification model obtained through multiple training, the identification rate of non-standard sensitive data is continuously improved, the problem that the identification rate of the non-standard sensitive data is low in the traditional technology is solved, meanwhile, the sensitive data identification is transversely expanded into a multi-node cluster through distributed deployment of server nodes, the condition that the identification request amount of the sensitive data is suddenly increased is met, load balance is achieved, and the stability of sensitive data identification is guaranteed.)

技术领域

本发明涉及数据安全技术领域，特别是涉及一种敏感数据识别模型训练方法、敏感数据识别方法及系统。

背景技术

敏感数据发现是基于隐私数据保护与行业法规研发出的一项数据安全治理技术，通过企业的业务数据特征，全面、快速、准确地发现敏感数据，构建持续更新的企业数据资产管理目录，为数据安全工作提供基础依据。

在传统的敏感数据发现技术中，对敏感数据进行识别和定位是基于正则表达式匹配、关键字码表映射、数据类型定义判别、数据特征计算等技术手段，对于传统技术手段，能准确发现敏感数据的前提是数据质量比较高的情况，由于存在某些企业的数据采集流程不规范导致数据质量比较差的情况，例如客户地址字段中存在一些特殊字符、缺失省市区等关键识别信息、非地址数据等，运用传统技术手段的识别准确率特别低，无法满足企业对敏感数据发现准确性的要求，而且过多地依赖人工干预也会提高企业的生产成本，同时也会因为肉眼检查遗漏间接导致用户隐私数据泄露。

同时，由于传统的敏感数据发现服务为单点部署方式，当用户请求暴增时容易出现单点故障，难以自动恢复，影响企业的日常业务。

综上，可见传统的敏感数据发现服务还存在以上不足。

发明内容

基于此，有必要针对传统的敏感数据发现服务还存在的不足，提供一种一种敏感数据识别模型训练方法、敏感数据识别方法及系统。

一种敏感数据识别模型训练方法，包括步骤：

获取语料数据和停词；

对语料数据和停词进行预处理，获得预处理结果；

根据预处理结果进行多次模型训练，以获得敏感数据识别模型。

上述的敏感数据识别模型训练方法，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

在其中一个实施例中，对语料数据和停词进行预处理，获得预处理结果的过程，包括步骤：

将语料数据和停词参数封装处理，获得作为预处理结果的参数。

在其中一个实施例中，将语料数据和停词参数封装处理，获得作为预处理结果的参数的过程，包括步骤：

对语料数据进行分词处理，获得分词列表；

去除分词列表的停词，获得针对性分词列表；

将针对性分词列表封装成向量化的参数，作为预处理结果。

在其中一个实施例中，敏感数据识别模型为Doc2Vec模型。

在其中一个实施例中，根据预处理结果进行多次模型训练的过程，包括步骤：

根据预处理结果进行10次以上的模型训练。

一种敏感数据识别模型训练装置，包括：

第一获取模块，用于获取语料数据和停词；

第一预处理模块，用于对语料数据和停词进行预处理，获得预处理结果；

数据训练模块，用于根据预处理结果进行多次模型训练，以获得敏感数据识别模型。

上述的敏感数据识别模型训练装置，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种计算机存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一实施例的敏感数据识别模型训练方法。

上述的计算机存储介质，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例的敏感数据识别模型训练方法。

上述的计算机设备，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种敏感数据识别方法，包括步骤：

获取待识别的样本数据；

对样本数据进行预处理，获得样本处理结果；

将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。

上述的敏感数据识别方法，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

在其中一个实施例中，对样本数据进行预处理，获得样本处理结果的过程，包括步骤：

将样本数据参数封装处理，获得作为样本处理结果的参数。

在其中一个实施例中，将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率的过程，包括步骤：

将样本处理结果加载到敏感数据识别模型中，在敏感数据识别模型输出的识别率大于敏感类型阈值时，将识别率输出为识别结果，否则控制敏感数据识别模型重复模型运算。

一种敏感数据识别装置，包括：

第二获取模块，用于获取待识别的样本数据；

第二预处理模块，用于对样本数据进行预处理，获得样本处理结果；

模型识别模块，用于将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。

上述的敏感数据识别装置，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种计算机存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一实施例的敏感数据识别方法。

上述的计算机存储介质，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例的敏感数据识别方法。

上述的计算机设备，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

一种敏感数据识别系统，包括：

服务器节点，用于根据敏感数据识别模型完成敏感数据识别；

AI敏感数据发现服务器，用于在敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果，并用于训练敏感数据识别模型。

上述的敏感数据识别系统，包括了服务器节点和AI敏感数据发现服务器。在数据库存储了语料数据或样本数据的前提下，服务器节点根据敏感数据识别模型完成敏感数据识别，AI敏感数据发现服务器在数据库、敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果，并用于训练敏感数据识别模型。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题的同时，通过服务器节点的分布式部署，将敏感数据识别横向拓展为多节点集群，以应对敏感数据识别请求量暴增的情况，实现负载的均衡，保证敏感数据识别的稳定性。

在其中一个实施例中，AI敏感数据发现服务器包括：

模型训练模块，用于训练敏感数据识别模型；

AI敏感数据发现服务平台；用于在敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果。

附图说明

图1为一实施方式的敏感数据识别模型训练方法流程图；

图2为另一实施方式的敏感数据识别模型训练方法流程图；

图3为又一实施方式的敏感数据识别模型训练方法流程图；

图4为一实施方式的敏感数据识别模型训练装置模块结构图；

图5为一实施方式的计算机内部构造示意图；

图6为一实施方式的敏感数据识别方法流程图；

图7为另一实施方式的敏感数据识别方法流程图；

图8为一实施方式的敏感数据识别装置模块结构图；

图9为另一实施方式的计算机内部构造示意图；

图10为一实施方式的敏感数据识别系统模块结构图；

图11为另一实施方式的敏感数据识别系统模块结构图；

图12为一具体应用例的敏感数据识别系统模块结构图。

具体实施方式

为了更好地理解本发明的目的、技术方案以及技术效果，以下结合附图和实施例对本发明进行进一步的讲解说明。同时声明，以下所描述的实施例仅用于解释本发明，并不用于限定本发明。

本发明实施例提供了一种敏感数据识别模型训练方法。

图1为一实施方式的敏感数据识别模型训练方法流程图，如图1所示，一实施方式的敏感数据识别模型训练方法包括步骤S100至步骤S102：

S100，获取语料数据和停词；

其中，通过在数据库获取语料数据和停词，为模型训练提供基础数据。在其中一个实施例中，语料数据包括抽取的表字段数据。

在其中一个实施例中，停词包括与语料数据不相干的特殊字符、其他字符串等。

S101，对语料数据和停词进行预处理，获得预处理结果；

通过对语料数据和停词进行预处理，将语料数据和停词转换为与敏感数据识别模型相适应的参数数据，例如向量化数据。

基于此，在其中一个实施例中，图2为另一实施方式的敏感数据识别模型训练方法流程图，如图2所示，步骤S101中对语料数据和停词进行预处理，获得预处理结果的过程，包括步骤S200：

S200，将语料数据和停词参数封装处理，获得作为预处理结果的参数。

将语料数据和停词封装成敏感数据识别模型可接受的参数，作为预处理结果。

在其中一个实施例中，图3为又一实施方式的敏感数据识别模型训练方法流程图，如图3所示，步骤S200中将语料数据和停词参数封装处理，获得作为预处理结果的参数的过程，包括步骤S300至步骤S302：

S300，对语料数据进行分词处理，获得分词列表；

S301，去除分词列表的停词，获得针对性分词列表；

通过去除忽略分词列表的停词，以使后续的模型训练更具有针对性。

S302，将针对性分词列表封装成向量化的参数，作为预处理结果。

S102，根据预处理结果进行多次模型训练，以获得敏感数据识别模型。

其中，模型训练包括代数训练。在其中一个实施例中，敏感数据识别模型包括文本分类模型，包括Doc2vec模型或word2vec模型等。作为一个较优的实施方式，敏感数据识别模型选用Doc2vec模型。

在其中一个实施例中，步骤S102中对预处理结果进行多次模型训练，包括进行10-20次以上的模型训练，生成10-20代的敏感数据识别模型。

在其中一个实施例中，如图2所示，步骤S102中根据预处理结果进行多次模型训练的过程，包括步骤S201：

S201，根据预处理结果进行10次以上的模型训练。

通过对预处理结果进行10次以上的模型训练，获得10代的敏感数据识别模型。

上述任一实施例的敏感数据识别模型训练方法，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

本发明实施例还提供了一种敏感数据识别模型训练装置。

图4为一实施方式的敏感数据识别模型训练装置模块结构图，如图4所示，一实施方式的敏感数据识别模型训练装置包括模块100、模块101和模块102：

第一获取模块100，用于获取语料数据和停词；

第一预处理模块101，用于对语料数据和停词进行预处理，获得预处理结果；

数据训练模块102，用于根据预处理结果进行多次模型训练，以获得敏感数据识别模型。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述任一实施例的敏感数据识别模型训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、终端、或者网络设备等）执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

与上述的计算机存储介质对应的是，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时实现如上述各实施例中的任意一种敏感数据识别模型训练方法。

该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感数据识别模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等

上述计算机设备，在获取到语料数据和停词后，对语料数据和停词进行预处理，获得预处理结果，并根据预处理结果进行多次模型训练，以获得敏感数据识别模型。基于此，通过多次模型训练，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

本发明实施例还提供了一种敏感数据识别方法。

图6为一实施方式的敏感数据识别方法流程图，如图6所示，一实施方式的敏感数据识别方法包括步骤S400至步骤S402：

S400，获取待识别的样本数据；

其中，样本数据包括抽取某表字段的定量数据。

S401，对样本数据进行预处理，获得样本处理结果；

将样本数据封装成敏感数据识别模型可接受的参数，作为样本处理结果。

在其中一个实施例中，图7为另一实施方式的敏感数据识别方法流程图，如图7所示，步骤S401中对样本数据进行预处理，获得样本处理结果的过程，包括步骤S500：

S500，将样本数据参数封装处理，获得作为样本处理结果的参数。

具体的，对样本数据进行分词处理，生成分词列表，并封装成敏感数据识别模型可接受的向量参数。

S402，将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。

在其中一个实施例中，如图7所示，步骤S402中将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率的过程，包括步骤S501：

S501，将样本处理结果加载到敏感数据识别模型中，在敏感数据识别模型输出的识别率大于敏感类型阈值时，将识别率输出为识别结果，否则控制敏感数据识别模型重复模型运算。

其中，敏感类型阈值=已识别样本数/总样本数，包括70%至90%。作为一个较优的实施方式，敏感类型阈值为80%。在敏感数据识别模型输出的识别率大于80%时，将该识别率输出为识别结果，否则控制敏感数据识别模型重复模型运算。

上述任一实施例的敏感数据识别方法，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

本发明实施例还提供了一种敏感数据识别装置。

图8为一实施方式的敏感数据识别装置模块结构图，如图8所示，一实施方式的敏感数据识别装置包括模块200、模块201和模块202：

第二获取模块200，用于获取待识别的样本数据；

第二预处理模块201，用于对样本数据进行预处理，获得样本处理结果；

模型识别模块202，用于将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述任一实施例的敏感数据识别方法。

与上述的计算机存储介质对应的是，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时实现如上述各实施例中的任意一种敏感数据识别方法。

该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感数据识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等

上述计算机设备，在获取到待识别的样本数据后，对样本数据进行预处理，获得样本处理结果，最后将样本处理结果加载到敏感数据识别模型中，获得敏感数据识别模型输出的作为识别结果的识别率。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题。

本发明实施例还提供了一种敏感数据识别系统。

图10为一实施方式的敏感数据识别系统模块结构图，如图10所示，一实施方式的敏感数据识别系统包括模块1000和模块1001：

服务器节点1000，用于根据敏感数据识别模型完成敏感数据识别；

AI敏感数据发现服务器1001，用于在敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果，并用于训练敏感数据识别模型。

其中，服务器节点1000分布式部署，结合分布式技术、负载均衡技术、容器技术、多线程技术等移动互联网先进技术，将传统的单点模式横向扩展为多节点集群，各服务器节点1000可部署在云主机、虚拟机或普通PC机上。由各服务器节点1000完成敏感数据识别。

AI敏感数据发现服务器1001作为中继，完成敏感数据识别模型与服务器节点1000间的数据交互。其中，AI敏感数据发现服务器1001的专用目录存储有文本文件形式的停词。

在其中一个实施例中，图11为另一实施方式的敏感数据识别系统模块结构图，如图11所示，AI敏感数据发现服务器1001包括模块2000和模块2001：

模型训练模块2000，用于训练敏感数据识别模型；

AI敏感数据发现服务平台2001；用于在敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果。

在其中一个实施例中，图12为一具体应用例的敏感数据识别系统模块结构图，如图12所示，数据库由客户生产备库实现；AI敏感数据发现服务平台2001由数据资产管理平台实现；模型训练模块2000由AI敏感数据发现服务实现，包括模型训练服务、敏感数据发现服务、模型分发和Tengine负载均衡-请求轮询转发。服务集群包括多个服务器节点1000，服务器节点1000以uwsgi服务器实现，包括Flask框架接口服务和AI敏感数据发现服务。模型分发下发敏感数据识别模型，由AI敏感数据发现服务根据敏感数据识别模型执行敏感数据识别。

其中，模型训练服务可部署在云端或者普通终端上，例如PC机等。

在其中一个实施例中，为了保证生产备库的数据安全，该服务与数据资产管理平台和生产备库同处于生产网络环境，敏感数据识别模型训练服务流程如下：

数据资产管理平台通过JDBC（Java Database Connectivity Java数据库连接）方式连接生产备库，抽取表字段数据作为模型训练的语料数据，且数据量尽可能多和全。

数据资产管理平台调用模型训练服务外部接口，该接口基于Rest API标准；

模型训练服务接收到请求后提取相关语料数据，加载停词（包括一些不相干的特殊字符、其他字符串等）；

预处理语料数据和停词，主要包括以下几个方面：

语料数据分词处理，生成分词列表；

分词列表忽略停词，使模型训练更具有针对性；

将分词列表封装成Doc2Vec文档向量模型可接受的参数；

调整Doc2Vec模型参数后进行代数训练；

已优化过的Doc2Vec模型参数配置如下表：

对模型训练E个epoch（E建议10个及以上），生成E代Doc2Vec模型；

通过SFTP（SSH File Transfer Protocol SSH文件传输协议）将训练后的模型上传到各个节点相关目录下。

敏感数据发现服务与模型训练服务可部署在同一台机器中，采用Tengine或Nginx作为Web服务器，并配置轮询机制实现负载均衡。AI敏感数据发现服务安装在节点上，节点接口服务采用Flask框架或Aiohttp框架，采用uWsgi容器管理服务。各节点可部署在云主机、虚拟机或普通PC机上。

敏感数据发现服务流程如下：

数据资产管理平台通过JDBC方式连接生产备库，抽取某表字段的定量数据作为敏感识别的样本数据（建议500个及以上）；

数据资产管理平台调用敏感数据发现服务外部接口，该接口基于Rest API标准；

敏感数据发现服务接收到请求后提取表字段的样本数据，通过Tengine的轮询机制将请求转发给集群节点识别处理；

节点服务在接收到转发请求后，对样本数据进行分词处理，生成分词列表，并封装成Doc2Vec模型可接受的向量参数；

AI敏感数据发现线程加载训练过的E代某敏感类模型（例如地址模型、公司名称模型等）；

Doc2Vec模型对该向量参数进行识别运算后输出识别率Q；

敏感类型判定，如果识别率Q大于或等于预置的敏感类型阀值P【说明：P=已识别样本数/总样本数，例如80%】，则样本字段属于该敏感类，否则重复第5步加载其他敏感类模型继续识别运算；

将输出敏感结果通过接口反馈回数据资产管理平台。

上述任一实施例的敏感数据识别系统，包括了服务器节点和AI敏感数据发现服务器。在数据库存储了语料数据或样本数据的前提下，服务器节点根据敏感数据识别模型完成敏感数据识别，AI敏感数据发现服务器在数据库、敏感数据识别模型和服务器节点间调配语料数据、停词或样本数据，并用于获取服务器节点的识别结果，并用于训练敏感数据识别模型。基于此，通过多次训练得到的敏感数据识别模型进行敏感数据识别，持续提升不规范敏感数据的识别率，以应对传统技术对不规范敏感数据识别率低的问题的同时，通过服务器节点的分布式部署，将敏感数据识别横向拓展为多节点集群，以应对敏感数据识别请求量暴增的情况，实现负载的均衡，保证敏感数据识别的稳定性。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

20页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种标准知识库的构建方法及装置

敏感数据识别模型训练方法、敏感数据识别方法及系统

相关技术

网友询问留言