一种基于大数据的数据分类存储系统及方法

文档序号：190314 发布日期：2021-11-02 浏览：23次 >En<

阅读说明：本技术 一种基于大数据的数据分类存储系统及方法 (Data classification storage system and method based on big data ) 是由姜义凡于 2021-07-26 设计创作，主要内容包括：本发明公开了一种基于大数据的数据分类存储系统及方法,所述数据存储系统包括数据库、预判断模块、考察地址划分模块、第一地址分析模块和第二地址分析模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址。(The invention discloses a data classification storage system and a data classification storage method based on big data, wherein the data storage system comprises a database, a pre-judgment module, an investigation address division module, a first address analysis module and a second address analysis module, the databases comprise a common database, a temporary database and a garbage can from high to low in sequence according to the levels, the storage time length of the files in the common database is not limited, the storage time length of the files in the temporary database is a first storage time length, the storage duration of the files in the garbage bin is a second storage duration, the first storage duration is longer than the second storage duration, the pre-judging module is used for setting a batch of files as files to be classified when receiving the batch of files in a preset time period, acquiring the delivery address of each file to be classified, and judging whether the delivery address of a certain file to be classified is the delivery address in the blacklist or not.)

一种基于大数据的数据分类存储系统及方法

技术领域

本发明涉及数据分类存储技术领域，具体为一种基于大数据的数据分类存储系统及方法。

背景技术

随着社会信息化的进度日益加快，越来越多的企业通过互联网等信息技术来进行办公。无论是企业内部的部门之间还是企业内部与企业外部之间，在通过信息技术办公的过程中都会产生很多的行政文件数据，这些行政文件数据有的极为重要，需要进行长期存储保存，有的是无关痛痒，即使不处理也没有关系，如果不对这些行政文件数据进行分类，会导致文件数据的保存不当，容易导致丢失；现有技术中，往往是通过人为的对这些行政文件数据进行分类、整合，但这种人为的分类方式效率较低。

发明内容

本发明的目的在于提供一种基于大数据的数据分类存储系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于大数据的数据分类存储系统，所述数据存储系统包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块，所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱，所述常用数据库中的文件不限制存储时长，所述临时数据库中的文件的存储时长为第一存储时长，所述垃圾箱中的文件的存储时长为第二存储时长，所述第一存储时长大于第二存储时长，所述预判断模块用于在预设时间段内接收到一批文件时，设该批文件为待分类文件，获取各个待分类文件的发件地址，判断某个待分类文件的发件地址是否为黑名单中的发件地址，在判断发件地址是黑名单中的发件地址时，将该待分类文件存入垃圾箱，在判断发件地址为黑名单以外的发件地址时，设待分类文件的发件地址为考察地址，并令考察地址划分模块将考察地址划分为第一地址和第二地址，所述第一地址分析模块对第一地址所发送的文件进行分析，判断各个第一地址所对应的待分类文件的存储方式，所述第二地址分析模块从第一地址中选取第二地址的关联地址，根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式，所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识。

进一步的，所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块，所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度，所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序，选取排序第一所对应的那批文件为参照文件，所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址，待分类文件的发件地址中除第一地址以外的发件地址为第二地址。

进一步的，所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块，所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数，其中，所述回点次数为在接收阅读文件之后再次点击阅读文件的次数，所述回点次数比较模块用于判断回点次数是否大于等于1，在某个第一地址所对应的回点次数大于等于1的时候，将该第一地址所对应的待分类文件存入常用数据库，在某个第一地址所对应的回点次数小于1的时候，所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数，在第一存储指数大于等于第一存储阈值时，将该第一地址所对应的待分类文件存入常用数据库，在第一存储指数小于第一存储阈值时，将该第一地址所对应的待分类文件存入临时数据库。

进一步的，所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块，所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0，那么某个考察地址的第一指数X＝C0/Cz，所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y＝G0/Cz，其中，G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值，所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P＝0.5*C0/Cz+0.5*G0/Cz，所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值，所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序，选取排序第一所对应的第一地址为该第二地址的关联地址，并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库，所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值，那么给该第二地址发送的考察文件添加预降级标识，其中，当某个考察文件添加有预降级标识时，如果它的未读标识的时长大于等于时长阈值，那么将该考察文件移入到下一级的数据库。

一种基于大数据的数据分类存储方法，所述数据分类存储方法包括以下步骤：

预先建立数据库，所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱，所述常用数据库中的文件不限制存储时长，所述临时数据库中的文件的存储时长为第一存储时长，所述垃圾箱中的文件的存储时长为第二存储时长，所述第一存储时长大于第二存储时长；

当预设时间段内接收到一批文件时，设该批文件为待分类文件，获取各个待分类文件的发件地址，当某个待分类文件的发件地址为黑名单中的发件地址时，将该待分类文件存入垃圾箱；

获取待分类文件的发件地址为黑名单以外的发件地址为考察地址，并将考察地址划分为第一地址和第二地址，

对第一地址所发送的文件进行分析，判断各个第一地址所对应的待分类文件的存储方式；

从第一地址中选取第二地址的关联地址，根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式。

进一步的，所述将考察地址划分为第一地址和第二地址包括：

采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度，将各批文件所对应的第一相似度按照从大到小的顺序排序，选取排序第一所对应的那批文件为参照文件，

获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址，待分类文件的发件地址中除第一地址以外的发件地址为第二地址。

进一步的，所述对第一地址所发送的文件进行分析包括：

分别获取各个第一地址所对应的参照文件的回点次数，当回点次数大于等于1时，那么将该第一地址所对应的待分类文件存入常用数据库，并添加未读标识，其中，所述回点次数为在接收阅读文件之后再次点击阅读文件的次数；

否则，采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数，

如果第一存储指数大于等于第一存储阈值，那么将该第一地址所对应的待分类文件存入常用数据库，并添加未读标识，所述未读标识在文件被点击阅读后消失，

如果第一存储指数小于第一存储阈值，那么将该第一地址所对应的待分类文件存入临时数据库，并添加未读标识。

进一步的，所述从第一地址中选取第二地址的关联地址包括：

获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0，那么某个考察地址的第一指数X＝C0/Cz，

获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y＝G0/Cz，其中，G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值；

那么某个考察地址的关联指数P＝0.5*C0/Cz+0.5*G0/Cz，

计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值，并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序，选取排序第一所对应的第一地址为该第二地址的关联地址，并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库，并添加未读标识。

进一步的，所述确认第二地址所对应的待分类文件的存储方式还包括：当第二地址的关联地址所对应的关联差值大于关联阈值，那么给该第二地址发送的考察文件添加预降级标识，其中，当某个考察文件添加有预降级标识时，如果它的未读标识的时长大于等于时长阈值，那么将该考察文件移入到下一级的数据库。

与现有技术相比，本发明所达到的有益效果是：本发明通过将接收到的当前批次的文件的地址与历史接收到批次的文件的地址进行相似度比较，选取相似度比较大的批次所对应的文件作为当前批次的文件的存储方式的参照对象，从而提高了当前批次的文件的存储方式的合理性，同时，本申请中还设置了预降级标识，能够实现文件在数据库之前的自动调整移动，增加了文件数据存储的灵活性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于大数据的数据分类存储系统的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：一种基于大数据的数据分类存储系统，所述数据存储系统包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块，所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱，所述常用数据库中的文件不限制存储时长，所述临时数据库中的文件的存储时长为第一存储时长，所述垃圾箱中的文件的存储时长为第二存储时长，所述第一存储时长大于第二存储时长，所述预判断模块用于在预设时间段内接收到一批文件时，设该批文件为待分类文件，获取各个待分类文件的发件地址，判断某个待分类文件的发件地址是否为黑名单中的发件地址，在判断发件地址是黑名单中的发件地址时，将该待分类文件存入垃圾箱，在判断发件地址为黑名单以外的发件地址时，设待分类文件的发件地址为考察地址，并令考察地址划分模块将考察地址划分为第一地址和第二地址，所述第一地址分析模块对第一地址所发送的文件进行分析，判断各个第一地址所对应的待分类文件的存储方式，所述第二地址分析模块从第一地址中选取第二地址的关联地址，根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式，所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识。

所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块，所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度，所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序，选取排序第一所对应的那批文件为参照文件，所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址，待分类文件的发件地址中除第一地址以外的发件地址为第二地址。

所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块，所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数，其中，所述回点次数为在接收阅读文件之后再次点击阅读文件的次数，所述回点次数比较模块用于判断回点次数是否大于等于1，在某个第一地址所对应的回点次数大于等于1的时候，将该第一地址所对应的待分类文件存入常用数据库，在某个第一地址所对应的回点次数小于1的时候，所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数，在第一存储指数大于等于第一存储阈值时，将该第一地址所对应的待分类文件存入常用数据库，在第一存储指数小于第一存储阈值时，将该第一地址所对应的待分类文件存入临时数据库。

所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块，所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0，那么某个考察地址的第一指数X＝C0/Cz，所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y＝G0/Cz，其中，G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值，所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P＝0.5*C0/Cz+0.5*G0/Cz，所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值，所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序，选取排序第一所对应的第一地址为该第二地址的关联地址，并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库，所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值，那么给该第二地址发送的考察文件添加预降级标识，其中，当某个考察文件添加有预降级标识时，如果它的未读标识的时长大于等于时长阈值，那么将该考察文件移入到下一级的数据库。

一种基于大数据的数据分类存储方法，所述数据分类存储方法包括以下步骤：

预先建立数据库，所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱，所述常用数据库中的文件不限制存储时长，所述临时数据库中的文件的存储时长为第一存储时长，所述垃圾箱中的文件的存储时长为第二存储时长，所述第一存储时长大于第二存储时长；常用数据库中的文件可以人为的设置任意存储时长；

当预设时间段内接收到一批文件时，设该批文件为待分类文件，获取各个待分类文件的发件地址，当某个待分类文件的发件地址为黑名单中的发件地址时，将该待分类文件存入垃圾箱；本实施例中的文件指的是邮件，发件地址是指邮件的发送邮箱，在公司工作过程中，有时会出现采用定时登录邮箱查看邮件的情况，此时如果对该段时间接收到的每一个邮件，用户都要去阅读一下，再对其进行分类存储，将非常耗费时间精力；黑名单用于存储将文件移入垃圾箱的发件地址；

获取待分类文件的发件地址为黑名单以外的发件地址为考察地址，并将考察地址划分为第一地址和第二地址，

所述将考察地址划分为第一地址和第二地址包括：

采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度，将各批文件所对应的第一相似度按照从大到小的顺序排序，选取排序第一所对应的那批文件为参照文件，本申请中的各批文件是指最近一段时间每一个预设时间段内所收到的邮箱邮件，在比较相似度时，是将各批接收到的文件所对应的地址与待分类文件的地址进行比较，比如某一批接收到文件a1、a2、a3、a4、a5，相对应的发送文件的地址为b1、b2、b3、b4、b5，而待分类文件的文件为c1、c2、c3、c4、c5，相对应的发送文件的地址为b1、b3、b5、b2、b6，那么在比较相似度时，是将地址“b1、b2、b3、b4、b5”与“b1、b3、b5、b2、b6”进行比较，两个地址中包含的相同的地址的个数越多，那么他们的相似度也就越高，这里设地址“b1、b2、b3、b4、b5”与“b1、b3、b5、b2、b6”的相似度是最高的，那么“a1、a2、a3、a4、a5”便为参照文件；

获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址，待分类文件的发件地址中除第一地址以外的发件地址为第二地址；在上述例子中“b1、b2、b3、b5”便为第一地址，“b6”变为第二地址；

对第一地址所发送的文件进行分析，判断各个第一地址所对应的待分类文件的存储方式；

对第一地址所发送的文件进行分析包括：

分别获取各个第一地址所对应的参照文件的回点次数，当回点次数大于等于1时，那么将该第一地址所对应的待分类文件存入常用数据库，并添加未读标识，其中，所述回点次数为在接收阅读文件之后再次点击阅读文件的次数；当再次点击阅读文件数据的持续时长大于持续时长阈值时，才算一次回点次数；将新接收到的文件存入数据库时，都会添加未读标识，在阅读相应文件之后，未读标识会消失；在上述例子当中，“a1、a2、a3、a4、a5”是参照文件，所对应的发件地址分别为“b1、b2、b3、b4、b5”，第一地址为“b1、b2、b3、b5”，那么获取文件“a1、a2、a3、a5”的回点次数，

否则，采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数，更深层次的，可以获取参照文件的阅读时长r1与文件大小k1的比值r1/k1，和参考文件所对应的第一地址历史发送文件时的阅读时长与文件大小的比值的平均值e，如果r1/k1在该平均值e的波动范围之外，那么修改r1的值为e*k1，将e*k1与参照文件的总阅读时长的比值为第一存储指数，当然这里的参照文件的总阅读时长也是将r1修改为e*k1后的时长，

如果第一存储指数大于等于第一存储阈值，那么将该第一地址所对应的待分类文件存入常用数据库，并添加未读标识，所述未读标识在文件被点击阅读后消失，未读标识可以当做文件数据在数据库中的存储标志，当文件数据添加有未读标识，将该文件数据进行置顶；

如果第一存储指数小于第一存储阈值，那么将该第一地址所对应的待分类文件存入临时数据库，并添加未读标识。工作人员在实际过程中也可以在阅读文件数据后对数据库内的文件的存储地方进行调整；

从第一地址中选取第二地址的关联地址，根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式；在上述例子中，从“b1、b2、b3、b5”中选取“b6”的关联地址；

所述从第一地址中选取第二地址的关联地址包括：

获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0，那么某个考察地址的第一指数X＝C0/Cz，上述例子中，b1、b3、b5、b2、b6为考察地址，比如，最近一段时间内，考察地址“b1”发送了10次文件，每次的文件阅读情况分别为：阅读、没阅读、没阅读、没阅读、阅读、没阅读、没阅读、阅读、阅读、阅读，那么未点击阅读文件的次数CO＝5，Cz＝10，

获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y＝G0/Cz，其中，G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值；在上述例子中，Cz＝10,G0＝(3+2+0+0)/4＝5/4

那么某个考察地址的关联指数P＝0.5*C0/Cz+0.5*G0/Cz，通过未阅读次数和相邻两次阅读之间间隔的没阅读的次数来判断工作人员对这个发件地址所发送的文件是否有阅读以及频繁阅读的倾向性；

计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值，并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序，选取排序第一所对应的第一地址为该第二地址的关联地址，并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库，并添加未读标识。当两个地址之间的关联差值绝对值差不多大小时，说明工作人员对这两个地址发送的文件的阅读倾向性是类似的；

在上述例子中，比如“b1”中是“b6”的关联地址，如果b1发送的待分类文件存入常用数据库，那么b6发送的待分类文件也存入常用数据库，如果b1发送的待分类文件存入临时数据库，那么b6发送的待分类文件也存入临时数据库；

所述确认第二地址所对应的待分类文件的存储方式还包括：当第二地址的关联地址所对应的关联差值大于关联阈值，那么给该第二地址发送的考察文件添加预降级标识，其中，当某个考察文件添加有预降级标识时，如果它的未读标识的持续时长大于等于时长阈值，那么将该考察文件移入到下一级的数据库。比如当存储在常用数据库的文件a3有预降级标识，当a3文件上的未读标识的时长大于等于时长阈值，就将a3文件移入存储到临时数据库。本申请中的关联差值是指第二地址的关联指数减第一地址的关联指数，当关联指数越大，那么说明工作人员是倾向于不读这个文件，所以在文件长时间没被读的时候，将其存入低一个级别的数据库。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

12页详细技术资料下载

一种基于大数据的数据分类存储系统及方法

相关技术

网友询问留言