一种数据管理方法及服务器

文档序号:1952549 发布日期:2021-12-10 浏览:18次 >En<

阅读说明:本技术 一种数据管理方法及服务器 (Data management method and server ) 是由 王豪 杨威 于 2021-07-30 设计创作,主要内容包括:本申请提供一种数据管理方法及服务器,涉及数据管理技术领域。对于按照不同分区方式进行存储的隐私数据,采用对应的方式对其进行管理,可以有效提升管理隐私数据的效率。此外,通过本申请可以给不同的用户提供不同的数据管理方式,可以满足用户的个性化要求,提升用户体验。该方法包括:根据多个分区中每个分区的存储路径筛选得到多个第一分区及多个第二分区;每个第一分区包括第一隐私数据文件,每个第二分区包括第二隐私数据文件;当第一隐私数据文件中的第一隐私数据的存储时长大于第一隐私数据的生命周期或删除周期,删除第一隐私数据;当第二隐私数据文件的存在时长大于预设的生命周期或预设的删除周期,删除第二隐私数据文件。(The application provides a data management method and a server, and relates to the technical field of data management. The private data stored according to different partition modes are managed in a corresponding mode, and the efficiency of managing the private data can be effectively improved. In addition, different data management modes can be provided for different users through the application, the personalized requirements of the users can be met, and the user experience is improved. The method comprises the following steps: screening according to the storage path of each partition in the plurality of partitions to obtain a plurality of first partitions and a plurality of second partitions; each first partition comprises a first private data file and each second partition comprises a second private data file; deleting the first privacy data when the storage duration of the first privacy data in the first privacy data file is longer than the life cycle or deletion cycle of the first privacy data; and when the existence duration of the second privacy data file is longer than the preset life cycle or the preset deletion cycle, deleting the second privacy data file.)

一种数据管理方法及服务器

技术领域

本申请涉及数据管理技术领域,尤其涉及一种数据管理方法及服务器

背景技术

目前,终端设备厂商为了提高终端设备的智能化程度,给用户提供个性化服务,会请求用户同意某些隐私协议。在终端设备接收到用户同意隐私协议的操作后,可以收集用户的隐私数据,如用户的位置、电话、语音、图片等。

发明内容

本申请提供一种优化的数据管理方法及服务器。

为达到上述目的,本申请采用如下技术方案:

第一方面,本申请提供一种数据管理方法,应用于第一服务器,第一服务器上部署有分布式文件系统,分布式文件系统包括多个分区,方法包括:根据多个分区中每个分区的存储路径筛选得到多个第一分区及多个第二分区;其中,多个第一分区中的每个第一分区包括第一隐私数据文件,第一隐私数据文件包括多条按照存入时间及用户标识进行分区存储的隐私数据,多个第二分区中的每个第二分区包括第二隐私数据文件,第二隐私数据文件包括多条按照存入时间进行分区存储的隐私数据;当第一隐私数据文件中的第一隐私数据的存储时长大于第一隐私数据的生命周期或删除周期时,删除第一隐私数据;其中,第一隐私数据的生命周期为第一隐私数据的最大存储时长,第一隐私数据的删除周期为第一隐私数据处于待删除状态下的最大存储时长;当第二隐私数据文件的存在时长大于预设的生命周期或预设的删除周期时,删除第二隐私数据文件。

可见,对于按照不同分区方式进行存储的隐私数据(例如第一分区中的隐私数据和第二分区中的隐私数据),采用适用于该类型隐私数据的方式对其进行管理,可以有效提升管理(例如,老化、删除)隐私数据的效率。此外,通过本申请可以给不同的用户提供不同的数据管理方式,可以满足用户的个性化要求,提升用户体验。

在一种可选的实施方式中,方法还包括:获取多条待删除数据的用户标识及存入时间;其中,待删除数据为处于待删除状态下的隐私数据;根据多条待删除数据中的第二隐私数据的用户标识及存入时间,从多个第一分区中确定第三分区;其中,第三分区包括多条按照存入时间及用户标识进行分区存储的隐私数据;获取第三分区包括的多条隐私数据中的每条隐私数据的删除周期;响应于确定多条隐私数据中的任意一条隐私数据的存储时长大于任意一条隐私数据的删除周期,删除任意一条隐私数据。

可见,在对按照存入时间和用户标识进行分区存储的隐私数据进行管理时,可以先通过待删除数据的用户标识和存入时间查找到包括待删除数据的分区(即第三分区),然后再在每个第三分区依次判断每条数据是否需要被删除。如此,可以减少第一服务器查询的分区数量,从而达到提高对数据进行删除操作这一过程的效率。

在一种可选的实施方式中,方法还包括:接收第二服务器对目标数据发起的数据查询请求;其中,数据查询请求包括目标数据的用户标识;响应于确定预设的待删除数据信息包括目标数据的用户标识,根据目标数据的用户标识查询目标数据的撤销时间;其中,待删除数据信息包括多条处于待删除状态的隐私数据的用户标识及对应的撤销时间,目标数据的撤销时间为将目标数据设置为待删除状态的时间;响应于确定目标数据的撤销时间晚于目标数据的存入时间,向第二服务器反馈第一信息;其中,第一信息用于指示第一服务器无法查询到目标数据。

需要说明的是,当用户取消同意隐私协议时,第一服务器需要将关于该用户的在取消同意协议前收集的隐私数据删除。但第一服务器并不能实时删除这些数据,其可以将该用户的隐私数据设置为待删除状态,且第一服务器不能继续使用这些被设置为待删除状态的隐私数据。因此,在接收到其他服务器(例如,第二服务器)发送的数据查询请求时,第一服务器需要先通过查询预设的待删除数据信息中是否包括目标数据的用户标识来确认目标数据是否可能为待删除状态。若确定预设的待删除数据信息包括目标数据的用户标识,则可以认为该用户标识对应的用户曾取消同意协议。在此情况下,若目标数据的撤销时间晚于目标数据的存入时间(例如,2021.07.30晚于2021.07.29),则认为目标数据为第一服务器在取消同意协议前收集的隐私数据,因此向第二服务器发送无法查询到目标数据的信息。

在一种可选的实施方式中,方法还包括:响应于确定目标数据的撤销时间早于目标数据的存入时间,向第二服务器反馈第二信息;其中,第二信息用于指示目标数据的存储路径。

若目标数据的撤销时间早于目标数据的存入时间,则认为目标数据为第一服务器在取消同意协议后收集的隐私数据,因此向第二服务器发送目标数据的存储路径,以便于第二服务器读取。

在一种可选的实施方式中,方法还包括:响应于数据查询请求,根据目标数据的用户标识判断预设的高频数据信息是否包括目标数据;其中,高频数据信息包括多条存储时长小于预设值的隐私数据的用户标识;响应于确定预设的高频数据信息中不包括目标数据,判断预设的待删除数据信息是否包括目标数据的用户标识;响应于确定预设的待删除数据信息不包括目标数据的用户标识,根据目标数据的用户标识从预设的隐私数据信息中查询到目标数据的存储路径;其中,预设的隐私数据信息包括所有隐私数据的用户标识及对应的存储路径;向第二服务器反馈第二信息;其中,第二信息用于指示目标数据的存储路径。

可见,在接收到数据查询请求后,在接收到数据查询请求时,可以先在高频数据信息(例如,高频数据表)中查询是否存在目标数据。若高频数据表中不存在目标数据,第一服务器才根据基于预设的隐私数据信息(例如,隐私数据业务表)预设的待删除数据信息(例如,删除数据业务表)进行查询。如此,可以减少数据查询过程消耗的时间,实现高频数据的高效查询,提升用户体验。

在一种可选的实施方式中,第一隐私数据的生命周期及删除周期是由用户预先配置的,预设的生命周期及预设的删除周期是由第一服务器预先配置的。也即,用户可以自行设置生命周期及删除周期,且这类隐私数据按照存入时间及用户标识进行分区存储;而若用户未设置生命周期及删除周期,则这类隐私数据的隐私数据的生命周期及删除周期均为服务器配置的默认值,且这类隐私数据按照存入时间进行分区存储。

在一种可选的实施方式中,预设的生命周期与预设的删除周期相同。可以理解地,由于常规的数据删除流程,需要先从文件中读出全部隐私数据,然后删除需要被删除的数据,再把剩余的数据写回文件中,即通过对文件完成覆写操作来实现对隐私数据的删除,这样会大量消耗系统性能。而常规的老化操作通常是直接删除整个文件,较为方便、效率。因此,将隐私数据的删除周期设置为与隐私数据的生命周期相同的数值,可以将隐私数据的删除(覆写)流程转换为隐私数据的老化流程,即不主动删除隐私数据,让隐私数据到达其生命周期后,采用数据的老化流程来实现删除,以减少系统消耗。

在一种可选的实施方式中,第一隐私数据的存储时长为当前时间与第一隐私数据的数据分区时间的差值;其中,第一隐私数据的数据分区时间为将第一隐私数据存入对应的第一分区的时间。

在一种可选的实施方式中,第二隐私数据文件的存在时长为当前时间与第二隐私数据文件的数据分区时间的差值;其中,第二隐私数据文件的数据分区时间为存入第二隐私数据文件的时间。

第二方面,本申请还提供了一种服务器,无线通信模块、存储器和一个或多个处理器;无线通信模块、存储器与处理器耦合;其中,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令;当计算机指令被处理器执行时,使得服务器执行第一方面中任一项的方法。

第三方面,本申请还提供了一种计算机可读存储介质,包括计算机指令;当计算机指令在服务器上运行时,使得服务器执行如第一方面中任一项的方法。

第四方面,本申请还提供了一种芯片系统,该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。该芯片系统可以应用于包括通信模块和存储器的服务器。该接口电路可以读取服务器中存储器中存储的指令,并将该指令发送给处理器。当指令被处理器执行时,可使得服务器执行如第一方面中任一项的方法。

第五方面,本申请提供一种计算机程序产品,当计算机程序产品在服务器上运行时,使得服务器执行如第一方面中任一项所述的。

可以理解地,上述提供的第二方面所述的服务器、第三方面所述的计算机存储介质,第四方面所述的芯片系统以及第五方面所述的计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。

附图说明

图1为本申请实施例提供的数据管理系统的结构示意图;

图2为本申请实施例提供的手机200的结构示意图;

图3为本申请实施例提供的服务器的结构示意图;

图4为本申请实施例提供的界面示意图;

图5为本申请实施例提供的界面示意图;

图6为本申请实施例提供的界面示意图;

图7为本申请实施例提供的界面示意图;

图8为本申请实施例提供的界面示意图;

图9为本申请实施例提供的界面示意图;

图10为本申请实施例提供的流程图;

图11为本申请实施例提供的数据提取框图;

图12为本申请实施例提供的流程图;

图13为本申请实施例提供的流程图;

图14为本申请实施例提供的流程图;

图15为本申请实施例提供的芯片系统的结构示意图;

图16为本申请实施例提供的数据管理方法的流程图。

具体实施方式

以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。

为了便于对本申请实施例的理解,下面首先介绍本申请实施例涉及的系统架构以及所涉及到名词的概念。

本申请实施例应用于数据管理系统中。数据管理系统可以包括一个或多个电子设备、数据管理服务器及大数据处理平台。数据管理服务器可以接收一个或多个电子设备采集并发送的用户数据,并将其存储至大数据处理平台。其中,电子设备可以为手机、平板电脑、电视(也可称为智慧屏、大屏设备等)、笔记本电脑、超级移动个人计算机(Ultra-mobilePersonal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal DigitalAssistant,PDA)、可穿戴电子设备、车载设备(也可称为车机)、虚拟现实设备等,本申请实施例对此不做任何限制。

其中,大数据处理平台例如可以为Hadoop。Hadoop是一个由Apache基金会所开发的开源大数据处理平台,它有多个部分组成,其架构如图1所示。Hadoop包括数据仓库工具及Hadoop分布式文件系统(hadoop distributed file system,HDFS)。HDFS可以集成于服务器集群上。服务器集群可以包括两类节点(也可以理解为服务器),一类是用于管理或者控制的管理节点,另一类是用于数据存储的数据节点,用于管理或控制的管理节点可以是多个,用于数据存储的数据节点也可以是多个,管理节点与数据节点之间可以进行通信。

在一种可能的设计中,图1中的数据仓库工具可以为Hive。Hive是基于Hadoop的一个数据仓库工具。在向HDFS中存储文件时,可以先在Hive中写入文件,经过Hive处理后再存储至HDFS。Hive可以呈现一个结构化查询语言(structured query language,SQL)命令行交互界面,以供用户设置分区表的数据的存储策略、以及分区表的相关参数,如分区键的相关信息(也可以称为是分级参数,可以包括分区键的类型和分区键的单位等)等。例如,用户选择按照“天”建立分区,则生成的分区目录为按照天生成。可以理解地,此处只是以“天”为例,具体也可以支持其它时间区间的分区。此处需要说明的是,在分区键的类型为数据的生成时间时,才会对应有分区键的单位,例如,分区键的单位为“一周”等。

在如图1所示的架构中,数据管理服务器可以接收电子设备上传的用户数据,并按照预设的分区策略将用户数据分区存储至HDFS中,并由HDFS对用户数据进行管理。

以手机200作为数据管理系统中的电子设备为例,图2示出了手机200的结构示意图。如图2所示,手机200可以包括:处理器210,外部存储器接口220,内部存储器221,通用串行总线(universal serial bus,USB)接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及用户标识模块(subscriber identification module,SIM)卡接口295等。

其中,上述传感器模块280可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器和骨传导传感器等传感器。

可以理解的是,本实施例示意的结构并不构成对手机200的具体限定。在另一些实施例中,手机200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。

控制器可以是手机200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。

处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。

在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。

可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机200的结构限定。在另一些实施例中,手机200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。

充电管理模块240用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为电子设备供电。

电源管理模块241用于连接电池242,充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210,内部存储器221,外部存储器,显示屏294,摄像头293,和无线通信模块260等供电。在一些实施例中,电源管理模块241和充电管理模块240也可以设置于同一个器件中。

手机200的无线通信功能可以通过天线1,天线2,移动通信模块250,无线通信模块260,调制解调处理器以及基带处理器等实现。在一些实施例中,手机200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得手机200可以通过无线通信技术与网络以及其他设备通信。

天线1和天线2用于发射和接收电磁波信号。手机200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。

移动通信模块250可以提供应用在手机200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块250可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。

移动通信模块250还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。

无线通信模块260可以提供应用在手机200上的包括WLAN(如(wirelessfidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigationsatellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(nearfield communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。

无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。

手机200通过GPU,显示屏294,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏294和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。

显示屏294用于显示图像,视频等。该显示屏294包括显示面板。

手机200可以通过ISP,摄像头293,视频编解码器,GPU,显示屏294以及应用处理器等实现拍摄功能。ISP用于处理摄像头293反馈的数据。摄像头293用于捕获静态图像或视频。在一些实施例中,手机200可以包括1个或N个摄像头293,N为大于1的正整数。

外部存储器接口220可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令,从而执行手机200的各种功能应用以及数据处理。例如,在本申请实施例中,处理器210可以通过执行存储在内部存储器221中的指令,内部存储器221可以包括存储程序区和存储数据区。

其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。

手机200可以通过音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放,录音等。

按键290包括开机键,音量键等。按键290可以是机械按键。也可以是触摸式按键。马达291可以产生振动提示。马达291可以用于来电振动提示,也可以用于触摸振动反馈。指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口295用于连接SIM卡。SIM卡可以通过插入SIM卡接口295,或从SIM卡接口295拔出,实现和手机200的接触和分离。手机200可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡,Micro SIM卡,SIM卡等。

以服务器为图1中的数据管理服务器、HDFS中的管理节点或者存储节点为例,图3示出了服务器的结构示意图。下面对服务器进行具体说明。可以理解的是,本申请实施例示意的结构并不构成对服务器的具体限定。在另一些实施例中,服务器可以包括比图3中更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

如图3所示,服务器可以包括处理器310、存储器320及通信模块330。处理器310可用于读取和执行计算机可读指令。具体地,处理器310可以包括控制器、运算器和寄存器。其中,控制器主要负责指令译码,并为指令对应的操作发出控制信号。运算器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中,处理器310的硬件架构可以是专用集成电路(application specific integrated circuit,ASIC)架构、MIPS(microprocessor without interlocked piped stages)架构、ARM(advanced riscmachines)架构或者网络处理器(net processor,NP)架构等等。

存储器320与处理器310耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储器320可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器320可以存储操作系统,例如uCOS,VxWorks、RTLinux等嵌入式操作系统。

通信模块330可用于通过网络建立服务器与其它通信终端(如图1中的多个电子设备)之间的通信连接,并用于通过网络收发数据。

可以理解的是,本实施例示意的结构并不构成对服务器的具体限定。在另一些实施例中,服务器可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

本申请实施例提供了一种数据管理方法,应用于图1中的HDFS。本方法可以确定隐私数据的来源为第一类用户或者第二类用户,并为不同来源的隐私数据提供不同的存储方式及删除方式,便于满足用户的个性化需求。其中,隐私数据包括用户(第一类用户或第二类用户)的位置信息、通话记录、电话簿、行为操作等等。

在一种可能的设计中,第一类用户为普通用户,第二类用户为高级用户。第一类用户可以通过付费、完成预设任务(例如,下载指定应用程序(application,APP),每日签到)等操作成为第二类用户。电子设备可以为第二类用户额外提供设置隐私数据的生命周期和删除周期的功能,使得第二类用户可以根据自身需求设置隐私数据的生命周期和删除周期。其中,隐私数据的生命周期为第二类用户同意隐私协议的情况下,隐私数据的最大存储时长。当隐私数据的存储时长大于该隐私数据的生命周期时,HDFS需要主动删除该隐私数据。示例性的,生命周期可以为90天,也即HDFS只能保留用户90天内的隐私数据,而需要删除存储时长超过90天的隐私数据。隐私数据的删除周期为第二类用户取消同意隐私协议后,隐私数据的最大存储时长。HDFS需要在第二类用户设置的删除周期内,删除在第二类用户取消同意隐私协议前所收集到的所有隐私数据。示例性的,删除周期可以为30天,则HDFS需要在第二类用户取消同意隐私协议的30天内,删除第二类用户同意隐私协议期间收集到的所有隐私数据。例如,HDFS可以在第二类用户取消同意隐私协议的第1天内删除部分隐私数据,第2天内再删除部分隐私数据,依次类推,保证在30天内删除所有隐私数据即可。而电子设备并未对第一类用户开放设置隐私数据的生命周期和删除周期的功能,因此第一类用户的隐私数据的生命周期和删除周期均为预设的默认值。

示例性的,若隐私数据属于第一类用户,则HDFS可以按照隐私数据的存入时间对收集到的隐私数据进行分区存储。若隐私数据属于第二类用户,则HDFS可以按照隐私数据的用户标识及存入时间对隐私数据进行分区存储。而由于第一类用户的隐私数据及第二类用户的隐私数据的分区粒度不同,其对应的删除流程也并不相同。

接下来,以电子设备为手机为例,分别说明收集数据及管理数据的过程。

手机可以收集用户数据,并将用户数据上传至数据管理服务器。其中,用户数据可以包括隐私数据、普通数据以及删除记录数据等。隐私数据为涉及到用户隐私相关的数据,如用户的位置、身份、电话簿、通话记录等信息。普通数据为不涉及用户隐私的数据,如用户点击某个图标的方式。删除记录数据包括用户撤销同意隐私协议的记录。

在一种可选的实施方式中,在用户未同意隐私协议前,手机无法收集用户数据。示例性的,手机可以具备智能功能(例如,荣耀智慧能力)。通过开启该智能功能,手机可以给用户提供更多个性化服务。其中,个性化服务可以包括智慧搜索、智慧输入法等。智慧搜索可以为用户提供搜索历史记录和分类搜索、设置项、联系人等内容,便于用户搜索,方便快捷。智慧输入法可以自主学习用户的输入习惯和输入场景,根据不同场景优化候选词策略,让输入更高效。若用户希望开启智能功能,则需要同意该智能功能涉及的隐私协议。

示例性的,如图4中的(a)所示,手机可以显示主界面401。若用户希望开启智能功能,可以点击主界面401上的设置选项402。响应于该操作,如图4中的(b)所示,手机可以跳转至界面403。界面403可以包括多个设置选项,例如无线和网络、设备连接、系统等选项。手机可以接收用户点击系统选项404的操作,响应于该操作,如图4中的(c)所示,手机可以跳转至界面405。界面405上包括多个关于系统设置的选项,例如系统更新、系统导航、荣耀智慧能力等,并显示荣耀智慧能力处于已关闭状态。若用户希望开启荣耀智慧能力,可以点击荣耀智慧能力的选项406。手机可以接收用户点击荣耀智慧能力的选项406,响应于该操作,如图5中的(a)所示,手机可以跳转至界面407。界面407可以包括开关选项408及提示信息409。其中,提示信息409用于提示用户开启荣耀智慧能力后,手机可以获取的信息,例如位置信息、电话、短信、日历及日程等,以及说明开启荣耀智慧能力即默认用户同意隐私协议。开关选项408可用于切换荣耀智慧能力的开、关状态;其中,开关选项408处于第一状态,指示荣耀智慧能力处于关闭状态。手机可以接收用户点击/滑动开关选项408的操作,响应于该操作,如图5中的(b)所示,开关选项409切换至第二状态,以开启荣耀智慧能力。需要说明的是,上述开启荣耀智慧能力的用户既可以为第一类用户,也可以为第二类用户,在此不做任何限制。

如图6中的(a)所示,界面407上还包括设置隐私数据的生命周期的选项410。若用户希望自行设置隐私数据的生命周期,如图6中的(a)所示,可以点击选项410。手机可以接收用户点击选项410的操作,响应于该操作,手机可以判断用户为第一类用户或者第二类用户,并根据判断结果显示不同的界面。在一种可选的实施方式中,用户可以在手机上登录预设的帐号。其中,帐号可以指示(显示指示或隐式指示)用户的身份标识。如此,手机可以通过身份标识确定帐号的类型,从而确认用户为第一类用户或者第二类用户。例如,身份标识可以包括pt、vip。若身份标识为pt,则表明用户为第一类用户;若身份标识为vip,则表明用户为第二类用户。需要说明的是,若手机未检测到任何已登录的帐号,则默认用户为第一类用户。

若身份标识指示用户为第一类用户,在一种可能的设计中,手机可以给用户提供成为第二类用户的方式。示例性的,响应于用户点击选项410的操作,如图6中的(b)所示,手机可以显示界面411。界面411可以为用户提供付费成为第二类用户的方式。示例性的,用户可以选择“连续包月”,并点击确认协议并支付的选项412。响应于该操作,用户从第一类用户变为第二类用户,手机为第二类用户开放设置隐私数据的生命周期的权限,并显示如图7中的(a)所示的界面413。界面413上可以包括时间设置框414。时间设置框414中预设有多个时间选项(例如,30、31、32等),用户可以通过滑动多个时间选项来选择时间,并通过点击时间设置框414中的确定选项415进行确认操作。手机可以接收用户点击确定选项415,响应于该操作,手机可以显示如图7中的(b)所示的界面413。示例性的,界面413中显示隐私数据的生命周期为31天。

若身份标识指示用户为第二类用户,手机可以直接显示设置生命周期的界面。示例性的,响应于用户点击选项410的操作,手机可以直接显示如图7中的(a)所示的界面413。

需要说明的是,在手机显示界面411时,用户也可以选择不付费,保持其第一类用户的身份。如此,用户则无法设置隐私数据的生命周期。在这种情况下,隐私数据的生命周期为预设的默认值。可见,第一类用户的隐私数据,其生命周期即为预设的默认值;而第二类用户的隐私数据,其生命周期可以根据用户的操作而有所变化。具体的,若用户进行了相关设置操作,则其生命周期可以为用户自行设置的数值;若用户未进行相关设置操作,其生命周期可以为预设的默认值。

可以理解地,手机在开启荣耀智慧能力(即确认用户同意隐私协议)后,便可以收集用户的隐私数据及普通数据,并将收集到的隐私数据及普通数据上传至数据管理服务器。需要说明的是,手机上传用户数据(隐私数据及普通数据)时,还可以将用户数据对应的身份标识、用户标识及隐私数据的生命周期一同打包上传至数据管理服务器。其中,用户标识用于指示采集用户数据的设备。示例性的,用户标识可以为采集该用户数据的电子设备的通用唯一识别码(universally unique identifier,UUID)。

在手机开启荣耀智慧能力后,用户还可以关闭荣耀智慧能力。需要说明的是,在用户关闭荣耀智慧能力后,手机便停止收集用户的隐私数据及普通数据。示例性的,如图8中的(a)所示,手机可以显示界面801。在界面801中,开关选项802处于第二状态,用于指示荣耀智慧能力处于开启状态。若用户希望关闭荣耀智慧能力,可以点击或滑动开关选项802。手机可以接收用户点击/滑动开关选项802的操作,响应于该操作,如图8中的(b)所示,开关选项802切换至第一状态,指示荣耀智慧能力处于关闭状态。

进一步的,用户若希望快速删除个人的隐私数据,可以点击设置隐私数据的删除周期的选项803。响应于检测到用户点击删除周期的选项803的操作,如图9中的(a)所示,手机可以显示时间设置框804,时间设置框804中预设有多个时间选项(例如,1天、2天、3天等),用户可以通过滑动多个时间选项来选择时间,并通过点击时间设置框804中的确定选项805进行确认操作。手机可以接收用户点击确定选项805,响应于该操作,手机可以显示如图9中的(b)所示的界面801。示例性的,界面801中显示隐私数据的删除周期为1天。需要说明的是,上述设置删除周期的过程仅针对第二类用户,第一类用户无法自行设置隐私数据的删除周期,第一类用户的隐私数据的删除周期为预设的默认值。

可见,第一类用户的隐私数据,其删除周期即为预设的默认值;而第二类用户的隐私数据,其删除周期可以根据用户的操作而有所变化。具体的,若用户进行了相关设置操作,则其删除周期可以为用户自行设置的数值;若用户未进行相关设置操作,其删除周期可以为预设的默认值。

响应于用户取消同意隐私协议的操作(例如,用户点击或滑动图8中的(a)的开关选项802的操作),手机可以生成撤销记录数据,并将撤销记录数据上传至数据管理服务器。其中,撤销记录数据可以包括用户标识、删除周期等信息。

此外,手机收集用户数据时,还可以生成该用户数据的属性标识。属性标识用于指示该用户数据为普通数据、隐私数据或者撤销记录数据。可以理解地,手机也可以将用户数据的属性标识一同上传至HDFS。

如图10所示,数据管理服务器接收到用户数据后,可以记录用户数据的存入时间。存入时间可以指用户数据抵达数据管理服务器的时间,以便于后续进行老化和删除管理。可以理解地,通过记录用户数据抵达数据管理服务器的时间,可以避免用户篡改手机的系统时间后起诉数据所有者对个人数据的管理不当的问题。特别地,对于撤销记录数据的存入时间,可以理解为撤销时间,用于表征用户取消隐私协议的时间。

数据管理服务器可以确认用户数据是否为隐私数据。若确认用户数据不为隐私数据,则按照存入时间进行分区存储。若确认用户数据为隐私数据,可以进一步判断该隐私数据是否来源于第二类用户。若确认隐私数据来源于第二类用户,则按照存入时间和用户标识进行分区存储;若确认隐私数据并非来源于第二类用户(即来源于第一类用户),则可以按照存入时间进行分区存储。

具体的,数据管理服务器可以通过用户数据的属性标识确认用户数据为隐私数据、普通数据或者撤销记录数据。示例性的,若属性标识指示用户数据为普通数据或者撤销记录数据,则数据管理服务器可以按照存入时间将普通数据或者撤销记录数据分区存储至HDFS。例如,粒度可以为年、月、天、周、时、分等。考虑到分区数量不宜过大以及每个分区内的数量不宜过大,本申请实施例以天为单位对用户数据进行分区存储。数据管理服务器可以将每天的用户数据划分至同一个分区。示例性的,该分区的存储路径可以为/hive/data1/i_date=2021-03-01/。也即,在存储普通数据或者撤销记录数据时,数据管理服务器可以在HDFS的/hive/data1/路径下创建一个名为“i_date=2021-03-01”的文件夹,并将普通数据或者撤销记录数据存放于该文件夹中。需要说明的是,不同类型的数据可以存储于不同的分区。示例性的,普通数据可以存储于/hive/data1/i_date=2021-03-01/,撤销记录数据可以存储于/hive/data3/i_date=2021-03-01/。

若属性标识指示用户数据为隐私数据,则数据管理服务器可以进一步根据身份标识确定隐私数据的来源,即确认隐私数据属于第一类用户或者第二类用户。具体的,若身份标识指示隐私数据属于第一类用户,则数据管理服务器可以按照隐私数据的存入时间将隐私数据分区存储至HDFS。需要说明的是,虽然第一类用户的隐私数据与普通数据均以时间为粒度进行分区,但普通数据和隐私数据的存储路径并不相同。示例性的,在2021年3月5日这一天的第一类用户的隐私数据的存储路径可以为/hive/data2/i_date=2021-03-05/,在2021年3月5日这一天的普通数据的存储路径可以为/hive/data1/i_date=2021-03-05/。

若身份标识指示隐私数据属于第二类用户,则数据管理服务器可以按照隐私数据的存入时间和用户标识将隐私数据分区存储至HDFS。其中,按照存入时间和用户标识进行分区可以理解为,先按照存入时间对隐私数据进行分区,然后在存入时间指示的分区下,再按照用户标识对隐私数据再次进行分区操作,从而实现多级分区。考虑到HDFS中的管理节点负责维护着所有的文件和目录,当文件和目录过多时,会导致管理节点压力过大,从而导致HDFS集群崩溃。因此,若直接以单个用户为粒度进行分区,会导致每个用户都对应一个分区,在用户数量大的情况下,文件和目录也会很多,容易影响HDFS的稳定性。因此,在一种可选的实施方式中,数据管理服务器可以按照一定的分区策略,将满足条件的用户标识所对应的隐私数据存储至同一个分区内,以减少HDFS的压力。示例性的,数据管理服务器可以按照用户标识进行分桶操作,即对用户标识进行哈希操作,将哈希值相同的用户标识所对应的隐私数据存储至同一个分区内。又或者,数据管理服务器可以将后4位数相同的用户标识所对应的隐私数据存储至同一个分区。示例性的,第二类用户的隐私数据的存储路径可以为/hive/data2/l_date=2021-03-01/用户标识集/。也即,在存储第二类用户的隐私数据时,数据管理服务器在/hive/data2/l_date=2021-03-01下创建一个名为“用户标识集”的文件夹,并将隐私数据存放于该文件夹中。可见,在/hive/data2/l_date=2021-03-01/这一存储路径下,包括第一文件以及名为“用户标识集”的文件夹。其中,第一文件包括在2021.03.01日采集到的第一类用户的隐私数据,“用户标识集”包括在2021.03.01日采集到的、且用户标识满足预设条件的第二类用户的隐私数据。

在对用户数据进行分区存储后,数据管理服务器便可以获取用户数据的数据分区时间。数据分区时间即为用户数据存入对应分区的时间。在一种可选的实施方式中,数据管理服务器可以通过用户数据的存储路径确定用户数据的数据分区时间。例如,用户数据的存储路径为/hive/data1/i_date=2021-03-05/,则2021.03.05即为该用户数据的数据分区时间。可以理解地,位于同一分区内的所有用户数据具备相同的数据分区时间。

在用户数据被存储至HDFS后,Hive可以定时执行抽取-转换-加载(extract、transform、load,ETL)任务(例如,每天的0:00分执行ETL任务),以实现对用户数据的存储。在执行ETL任务时,HDFS可以按照业务需求,对用户数据的原始表进行抽取、转换、加载等操作,得到用户数据的业务表。业务表中仅包括符合业务需求的有效数据。示例性的,Hive可以根据确定好的数据来源(mysql、SQLService、HBase、CSV)和抽取方式(增量、全量),通过增量抽取或全量抽取,将不做任务处理的用户数据抽取到数据仓库中,然后启动数据转化策略,确定好数据的存储方式(增量、全量、快照、拉链等)和数据处理方式(清洗、脱敏、加密),最后通过HiveSQ的执行过程和执行自定义函数,转化数据,最后存储用户数据。其中,最终存储形态为增量表、全量表、快照表、拉链表。增量表是将用户数据的按照天存储,一天一个分区;全量表是将用户数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的用户数据按天进行存储,一天一个分区;拉链表是展示用户数据的历史记录,只有一个分区。在本申请实施例中,最终得到的业务表可以为全量表。

如图11所示,Hive可以按照业务需求,对普通数据的原始表进行抽取、转换、加载等操作,得到普通数据的业务表(记为普通数据业务表)。Hive可以按照业务需求,对隐私数据的原始表进行抽取、转换、加载等操作,得到隐私数据的业务表(记为隐私数据业务表)。Hive可以按照业务需求,对撤销记录数据的原始表进行抽取、转换、加载等操作,得到撤销记录数据的业务表(记为删除数据业务表)。

其中,隐私数据的业务表中可以包括身份标识、用户标识、存入时间等。示例性的,隐私数据业务表可以如表1所示:

表1

数据 身份标识 用户标识 存入时间
数据1 pt ID1 2021.07.01,00:30
数据2 vip ID2 2021.07.01,10:00
数据3 vip ID3 2021.07.01,15:00
…… …… …… ……

可以理解地,在Hive执行ETL任务之后,普通数据、隐私数据及撤销记录数据才可以被其他设备(例如,客户端、业务云服务器等)查询。也即,由于执行ETL任务与手机收集用户时间存在一定时延,导致手机收集用户数据与用户数据可以被其他设备查询到之间,存在一定时延,并非在手机上传用户数据后,用户数据就可以立刻被查询到。

隐私数据具有时效性,存储时长较长的隐私数据对于业务端并无太大用处,反而会占用较多的存储资源。为此,HDFS可以对隐私数据定时执行老化流程,以释放资源空间。其中,老化流程的作用为自动删除存储时长已经达到生命周期的隐私数据。其中,对于按照存入时间进行分区的隐私数据,以及按照存入时间和用户标识进行分区的隐私数据,其对应的老化流程并不相同。在一种可选的设计中,HDFS可以通过每个分区的存储路径确认其存储的是按照存入时间进行分区的隐私数据,或者是按照存入时间和用户标识进行分区的隐私数据,并采用不同的方式对两类数据进行老化操作和删除操作。接下来将分别讲述这两类数据的老化流程。

(1)对于按照存入时间进行分区存储的隐私数据。

其中,按照存入时间进行分区存储的用户数据可以包括:第一类用户的隐私数据。对于这类数据,用户不可设置其生命周期,即所有的隐私数据均具备相同的生命周期,且均为预设的默认值。HDFS可以采用如图12所示的流程对其进行老化操作。该流程包括:

S1201,HDFS遍历多个第一目标分区中的每个第一目标分区,根据当前时间及每个第一目标分区的数据分区时间计算每个第一目标分区的存在时长。

其中,第一目标分区为包括按照存入时间进行分区存储的隐私数据的分区。第一目标分区的数据分区时间为存入隐私数据的时间。在一种可选的实施方式中,可以通过第一目标分区的存储路径确定第一目标分区对应的数据分区时间。例如,第一目标分区的存储路径为/hive/data1/i_date=2021-03-05/,则2021.03.05即为第一目标分区的数据分区时间。

第一目标分区的存在时长为当前时间与第一目标分区的数据分区时间的差值。示例性的,当前时间为2021.07.28,第一目标分区的数据分区时间为2021.07.25,则第一目标分区的存在时长为3天。

S1202,若任意一个第一目标分区的存在时长大于预设的生命周期,删除该第一目标分区对应的文件。

可以理解地,若任意一个第一目标分区的存储时长大于预设的生命周期,则表明该第一目标分区下的所有隐私数据均过期,直接删除该分区对应的文件即可。其中,预设的生命周期为预先设置的默认值。示例性的,预设的生命周期可以为30天,若当前时间为2021.07.21,则HDFS可以删除在30天前(即2021.06.21日前)按照存入时间进行分区存储的隐私数据。

(2)对于按照存入时间和用户标识进行分区存储的隐私数据。

其中,按照存入时间和用户标识进行分区存储的隐私数据包括:第二类用户的隐私数据。对于这类数据,用户可以自行设置其生命周期。也即,不同用户的隐私数据可以具备不同的生命周期。在一种可能的设计中,HDFS可以采用如图13所示的流程对其进行老化操作。该流程包括:

S1301,对于多个第二目标分区中的每个第二目标分区,HDFS遍历每个第二目标分区下的每条隐私数据,获取每条隐私数据的生命周期。

其中,第二目标分区为包括按照存入时间和用户表标识进行分区存储的隐私数据的分区。由于第二类用户具备设置隐私数据的权限,则每个第二类用户的隐私数据所对应的生命周期可以不同。因此,在对第二类用户的隐私数据执行老化流程时,必须考虑到用户的差异性,需要先获取每条隐私数据的生命周期。

S1302,若任意一条隐私数据的存储时长大于该条隐私数据的生命周期,删除该条隐私数据。

其中,隐私数据的存储时长为当前时间与隐私数据的数据分区时间的差值。若任意一条隐私数据的存储时长大于该条隐私数据的生命周期,则表明该条隐私数据已过期,可以直接删除该条隐私数据。

示例性的,HDFS中可以包括N个第二目标分区,分别为分区1,分区2……,分区N。分区1、分区2……及分区N均包括隐私数据文件,每个隐私数据文件均包括多条隐私数据。HDFS可以先读取分区1下的隐私数据文件,并读取分区1下第一条隐私数据的生命周期,若第一条隐私数据的存储时长大于第一条隐私数据的生命周期,则删除第一条隐私数据;然后继续读取分区1下第二条隐私数据的生命周期,再次判断第二条隐私数据的存储时长是否大于第二条隐私数据的生命周期。依次类推,直至判断完分区1下的每条隐私数据的存储时长是否大于对应的生命周期,然后再读取分区2下的隐私数据文件,并按照前述流程继续判断是否需要删除隐私数据。

此外,按照相关法规要求,在用户取消隐私协议后,HDFS需要删除已经收集到的隐私数据。但由于HDFS无法实时删除隐私数据,本申请实施例可以通过关联隐私数据业务表和删除数据业务表的方法,保证待删除数据对外部设备(例如,业务云服务器、客户端)是不可查的。

示例性的,HDFS可以接收外部设备(例如,业务云服务器)对目标数据发起的数据查询请求。该数据查询请求可以包括目标数据的用户标识。HDFS可以先判断删除数据业务表中是否包括目标数据的用户标识。若确认删除数据业务表中包括目标数据的用户标识,则可以根据目标数据的用户标识查询得到目标数据的撤销时间。若目标数据的存入时间晚于目标数据的撤销时间,则表明目标数据为用户取消隐私协议后收集的隐私数据,HDFS可以从隐私数据业务表中查询得到目标数据的存储路径、存储节点信息等,并将目标数据的存储路径、存储节点信息反馈给外部设备。若目标数据的存入时间早于目标数据的撤销时间,则表明目标数据为用户取消隐私协议前收集的隐私数据,则HDFS可以向外部设备反馈用于指示无法查询到目标数据的信息。在一种可选的实施方式中,若用户曾多次同意隐私协议后再取消隐私协议,则该用户的隐私数据的撤销时间为用户最后一次取消同意隐私协议的时间。示例性的,用户A曾于2021.07.01同意隐私协议,并在2021.07.20取消同意隐私协议,又在2021.07.25再次同意隐私协议,在2021.07.26再次取消同意隐私协议。则HDFS可以将2021.07.26作为用户A的隐私数据的撤销时间。

可以看出,通过关联删除数据业务表与隐私数据业务表,既无需实时删除用户数据,又保证了对外“不可查”,达到使用户选择删除的隐私数据对外部呈现已删除的效果。如此,仅通过记录隐私数据的撤销时间就可推理出可查数据的时间窗,无需依赖除HDFS之外的文件系统,简单快捷,容易实现。

此外,通过关联删除数据业务表与隐私数据业务表,虽然可以使得需要被删除的隐私数据对外不可见,但还未真正删除这些隐私数据。因此,HDFS还可以定时执行删除任务,以删除需要被删除的隐私数据。其中,对于按照存入时间进行分区存储的隐私数据,以及按照存入时间和用户标识进行分区存储的隐私数据,其对应的删除流程并不相同。接下来将分别讲述这两类数据的删除流程。

(1)对于按照存入时间进行分区存储的隐私数据。

其中,按照存入时间分区的用户数据可以包括:第一类用户的隐私数据。对于这类数据,用户不可设置其删除周期。在一种可能的设计中,第一类用户的隐私数据的删除周期与生命周期相同,均为预设的默认值。如此,可以使得隐私数据在其存储时长达到预设的生命周期时自动被删除,即可以认为是通过老化流程去删除待删除数据。换句话说,对于此类数据而言,删除数据的流程与老化数据的流程相同。因此,请参阅前文对按照存入时间分区的隐私数据的老化流程部分的内容,在此不再赘述。

由于常规的数据删除流程,需要先从文件中读出全部隐私数据,然后删除需要被删除的数据,再把剩余的数据写回文件中,即通过对文件完成覆写操作来实现对隐私数据的删除,这样会大量消耗系统性能。而常规的老化操作通常是直接删除整个文件,较为方便、效率。因此,将隐私数据的删除周期设置为与隐私数据的生命周期相同的数值,可以将隐私数据的删除(覆写)流程转换为隐私数据的老化流程,即不主动删除隐私数据,让隐私数据到达其生命周期后,采用数据的老化流程来实现删除,以减少系统消耗。

(2)对于按照存入时间和用户标识进行分区存储的隐私数据。

示例性的,对于此类数据的数据删除流程可以如图14所示。该流程包括:

S1401,根据删除数据业务表获取每条待删除数据的用户标识及存入时间。

其中,删除数据业务表中包括待删除数据的用户标识及存入时间。

S1402,根据待删除数据的用户标识、存入时间及预设的分区策略获取多个待删除分区。

其中,待删除分区为包括待删除数据的分区。由于删除数据业务表中包括的待删除数据可能并不属于一个分区。若直接遍历所有分区来查找待删除数据,效率较为低下。因此,HDFS可以先根据待删除数据的用户标识、存入时间及预设的分区策略获取待删除分区。即HDFS可以先确认哪些分区中包括待删除数据。示例性的,若存入时间为2021.07.20的18:00,用户标识为ID1,则HDFS可以先找到包括数据分区时间为“2021.07.20”及用户标识为ID1对应的分区,并将其作为待删除分区。

S1403,在每个待删除分区中,HDFS遍历该待删除分区所在的文件下的每条隐私数据,获取每条隐私数据的删除周期。

对于第二类用户而言,其可以按照自身需求设置隐私数据的删除周期。因此,每条第二类用户的隐私数据所对应的删除周期可以不同。因此,在执行删除流程时,必须考虑到用户的差异性,需要先获取每条隐私数据的删除周期。

S1404,若任意一条隐私数据的存储时长大于对应的删除周期,删除该条隐私数据。

其中,任意一条隐私数据的存储时长为当前时间与任意一条隐私数据的数据分区时间的差值。

若任意一条隐私数据的存储时长大于对应的删除周期,则可以表明该条隐私数据势必为用户在取消隐私协议前采集到的数据,可以被删除。例如,删除周期为30天,隐私数据的撤销时间为6.30日。则HDFS在6.30日可以第一次执行数据删除流程,并删除在6.1日以前收集到的隐私数据;在7.1日第二次执行数据删除流程,可以删除在6.2日收集到的隐私数据;依次类推,直至7.30日HFDS删除在6.30日收集到的隐私数据。可见,整个删除流程从6.30日持续至7.30日,持续30天时间,并将6.30日以前(包括6.30日)的隐私数据全部删除。

需要说明的是,在实际执行过程中,HDFS可以先获取第一分区的一条隐私数据的删除周期,然后判断该条隐私数据的存储时长是否大于对应的删除周期。在HDFS得到判断结果后,再继续获取下一条隐私数据的删除周期,再判断下一条隐私数据的存储时长是否大于对应的删除周期。直至遍历完第一分区内的每条数据后,HDFS再依次判断下一个分区内的每条数据是否需要被删除。

在一种可选的实施方式中,HDFS还可以根据隐私数据业务表和删除数据业务表生成高频数据表。其中,高频数据表中包括多条存储时长小于预设值的隐私数据的用户标识。在一种可选的实施方式中,该预设值可以为7天。

HDFS在接收到业务云服务器的数据查询请求时,可以先在高频数据表中查询是否存在业务云服务器所请求的隐私数据。若高频数据表中不存在业务云服务器所请求的隐私数据,HDFS才根据基于隐私数据业务表和删除数据业务表进行查询。如此,可以减少查询过程消耗的时间,实现高频数据的高效查询,提升用户体验。

本申请一实施例提供一种芯片系统,如图15所示,该芯片系统包括至少一个处理器1501和至少一个接口电路1502。处理器1501和接口电路1502可通过线路互联。例如,接口电路1502可用于从其它装置(例如,服务器的存储器)接收信号。又例如,接口电路1502可用于向其它装置(例如处理器1501)发送信号。

例如,接口电路1502可读取服务器中存储器中存储的指令,并将该指令发送给处理器1501。当所述指令被处理器1501执行时,可使得服务器执行上述实施例中的各个步骤。

请参阅图16,为本申请实施例提供的一种数据管理方法的流程图。该方法应用于第一服务器,该第一服务器可以指部署图1中HDFS的服务器集群。该包括:

S1601,根据多个分区中每个分区的存储路径筛选得到多个第一分区及多个第二分区。

可以理解地,HDFS中预先包括多个分区。其中,多个第一分区中的每个第一分区包括第一隐私数据文件,第一隐私数据文件包括多条按照存入时间及用户标识进行分区存储的隐私数据,多个第二分区中的每个第二分区包括第二隐私数据文件,第二隐私数据文件包括多条按照存入时间进行分区存储的隐私数据。

示例性的,若某分区的分区路径为/hive/data2/l_date=2021-03-01/用户标识集/,则可以确定该分区是按照存入时间及用户标识进行分区的,从而确定该分区为第一分区。若某分区的分区路径为/hive/data2/l_date=2021-03-01/,则可以确定该分区是按照存入时间进行分区的从而确定该分区为第二分区。

S1602,当第一隐私数据文件中的第一隐私数据的存储时长大于第一隐私数据的生命周期或删除周期时,删除第一隐私数据。

其中,第一隐私数据的生命周期为第一隐私数据的最大存储时长,第一隐私数据的删除周期为第一隐私数据处于待删除状态下的最大存储时长。

其中,第一隐私数据的生命周期的设置过程可以参阅图4-图7,第一隐私数据的删除周期的设置过程图8-图9。此外,当第一隐私数据文件中的第一隐私数据的存储时长大于第一隐私数据的生命周期时,删除第一隐私数据。此过程为对第二类用户的隐私数据的老化流程,具体可以参阅图14及相关文字内容。当第一隐私数据文件中的第一隐私数据的存储时长大于第一隐私数据的删除周期时,删除第一隐私数据。此过程为对第二类用户的隐私数据的老化流程,具体可以参阅图13及相关文字内容。

S1603,当第二隐私数据文件的存在时长大于预设的生命周期或预设的删除周期时,删除第二隐私数据文件。

在一种可选的实施方式中,预设的生命周期或预设的删除周期相同。此部分即为对第一类用户的隐私数据的老化流程及删除流程,具体可以参阅图12及相关文字内容,在此不再赘述。

综上所述,本申请实施例提供的数据管理方法,对于按照不同分区方式进行存储的隐私数据,采用对应的方式对其进行管理,可以有效提升管理隐私数据的效率。此外,通过本申请可以给不同的用户提供不同的数据管理方式,可以满足用户的个性化要求,提升用户体验。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

32页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种分析报告生成方法、装置和电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!