数据一般化装置、数据一般化方法、程序

文档序号:144483 发布日期:2021-10-22 浏览:11次 >En<

阅读说明:本技术 数据一般化装置、数据一般化方法、程序 (Data generalization device, data generalization method, and program ) 是由 长谷川聪 于 2020-02-20 设计创作,主要内容包括:提供能够仅使用小容量的主存储装置,将大规模数据高速地进行一般化处理的数据一般化装置。将属性值进行一般化的数据一般化装置包括:排序部,按照辅助存储装置上的一般化层级中的属性值的排列顺序,对辅助存储装置上的属性值进行排序;属性值取得部,将排序后的属性值的一部分从辅助存储装置取得到主存储装置上;一般化层级取得部,将作为一般化层级的一部分、即与取得到主存储装置上的属性值中的处理对象的属性值对应的一般化层级从辅助存储装置取得到主存储装置上;一般化处理部,基于取得到主存储装置上的属性值和取得到主存储装置上的一般化层级,执行一般化处理;以及再排序部,将一般化处理后的属性值移动到辅助存储装置,排序为原来的顺序。(A data generalization device capable of performing generalization processing of large-scale data at high speed using only a small-capacity main storage device is provided. The data generalization device for generalizing the attribute value includes: a sorting unit that sorts the attribute values on the auxiliary storage device in accordance with an order of arrangement of the attribute values in a generalized hierarchy on the auxiliary storage device; an attribute value acquisition unit that acquires a part of the sorted attribute values from the auxiliary storage device to the main storage device; a generalization hierarchy acquisition unit that acquires, from the auxiliary storage device to the main storage device, a generalization hierarchy that is a part of the generalization hierarchy and corresponds to the attribute value of the processing target among the attribute values acquired to the main storage device; a generalization processing unit that executes a generalization process based on the attribute values acquired in the main storage device and the generalization hierarchy acquired in the main storage device; and a re-ordering unit that moves the generalized attribute values to the auxiliary storage device and orders the attribute values in the original order.)

数据一般化装置、数据一般化方法、程序

技术领域

本发明涉及将数据库上的个别数据进行隐匿的技术,涉及数据一般化装置、数据一般化方法、程序。

背景技术

已知将数据库的个别数据通过确定的方法进行隐匿的技术。例如,能够通过将数据库的各值进行一般化处理,来进行数据库的隐匿处理。所谓一般化处理是指将值进行通用化。例如如图1的例子所示,若将性别[男性]一般化则成为[人],若将年龄[13]一般化则成为[11-20]。多数一般化处理会准备用于表示称作一般化层级的值的通用化/特定化关系的树状结构,通过追溯树状结构(提高层级)来进行值的改写。例如,在该图的年龄的层级的情况下,关于13这个数字,若提高1个层级则成为[11-20],若提高2个层级则成为[11-40]。设为将这样在一般化中提高的层级的数量称作层级上升数。

现有技术文献

非专利文献

非专利文献1:西川记史、礒田有哉、出射英臣、茂木和彦、吉野雅之、清水晃、早水悠登、合田和生、喜连川优、“使用了非顺序型数据库引擎的大规模数据的对话性的非特定化手法的研究与初始评价(非順序型データベースエンジンを用いた大規模データの対話的な非特定化手法の検討と初期評価)”,数据工学研究会,p377,电子信息通信学会,2018

发明内容

发明所要解决的课题

实现一般化大致有两个方法。一个是在主存储装置上配置成为对象的数据库以及一般化层级而实现的方法。另一个是在辅助存储装置上配置成为对象的数据库以及一般化层级,并适当将少量的数据配置在主存储装置上而实现的方法。

前者能够高速执行,但在大规模数据库的情况下主存储装置的容量不足,故不能执行一般化处理。后者例如有主要使用RDBMS(关系/数据库管理系统)等来将数据库在辅助存储装置上配置,并使用SQL运算来实现一般化处理的方法(非专利文献1)。但是,在没有准备一般化处理专用的SQL运算而在SQL中实现一般化处理的情况下,需要花费工夫,由于不是专用运算故成为低效率(低速)。

因此在本发明中,以提供仅使用小容量的主存储装置,就能够将大规模数据高速地进行一般化处理的数据一般化装置。

用于解决课题的手段

本发明的数据一般化装置是将属性值进行一般化的数据一般化装置,其包括排序部、属性值取得部、一般化层级取得部、一般化处理部、再排序部。

排序部按照辅助存储装置上的一般化层级中的属性值的排列顺序,对辅助存储装置上的属性值进行排序。属性值取得部将排序后的属性值的一部分从辅助存储装置取得到主存储装置上。一般化层级取得部将作为一般化层级的一部分、即与取得到主存储装置上的属性值中的处理对象的属性值对应的一般化层级从辅助存储装置取得到主存储装置上。一般化处理部基于取得到主存储装置上的属性值和取得到主存储装置上的一般化层级,执行一般化处理。再排序部将一般化处理后的属性值移动到辅助存储装置,排序为原来的顺序。

发明效果

根据本发明的数据一般化装置,能够仅使用小容量的主存储装置,高速地将大规模数据进行一般化处理。

附图说明

图1是示例一般化处理的图。

图2是示例预测处理(lookahead processing)的图。

图3是表示实施例1的数据一般化装置的结构的框图。

图4是表示实施例1的数据一般化装置的动作的流程图。

图5是表示主存储装置上的一般化层级的基于LRU算法的更新例的图。

具体实施方式

以下,详细说明本发明的实施方式。另外,对具有相同功能的结构部附加相同的编号,省略重复说明。

<处理的概要>

在以下的实施例中,公开能够将大规模数据在小容量的主存储装置中高速地进行一般化处理的数据一般化装置、数据一般化方法、程序。实施例1的数据一般化装置、数据一般化方法、程序通过考虑辅助存储装置(例如HDD)的连续存取(sequential access、顺序存取)比随机存取快这样的特征、辅助存储装置(例如HDD)比主存储装置(例如内存)慢这样的特征、辅助存储装置(例如HDD)比主存储装置(例如内存)存储容量大这样的特征,而在算法和数据结构上想办法,实现了高速的处理。

在以下的实施例中,一般化处理按数据库上的每个属性而进行处理。在以下,为了便于说明,设想一个属性的数据库。另外,在想对多个属性进行一般化处理的情况下,将一个属性的一般化处理针对各个属性执行即可。

[步骤1]

将成为一般化的对象的数据库的属性在辅助存储装置上配置。此外一般化层级也同样地在辅助存储装置上配置。属性的各值以值成为连续的方式在辅助存储装置上配置。这里,“连续…地配置”是指将数据连续地配置以使不夹杂其他数据。在参考属性的各值时,设想为被连续存取,在从辅助存储装置向主存储装置读取数据时,进行预测处理。

具体而言,如图2的预测处理的例子所示,在年龄=18、23、34、13这样的属性值被存储于辅助存储装置的情况下,设想将它们依次读出到主存储装置上。在该图的例子中,设主存储装置能够保持最多2个元素。首先如图2A所示,在存取第0个index的值时,将第0个以及第1个index的值转发至主存储装置,取得主存储装置的第0个index的值。接下来,在存取第1个index的值的情况下,从主存储装置读取数据。之后,在存取了第2个index的值的情况下,由于主存储装置中不存在符合的数据,故如图2B所示,从辅助存储装置将第2个以及第3个index的值转发至主存储装置,读取主存储装置中的第0个index的值(与辅助存储装置中的第2个相符)。这样设想连续存取,在从辅助存储装置读取数据时,执行预测处理。

在从辅助存储装置读取对于各值的一般化层级(例如,在值为13的图1的一般化层级的情况下,在取得13→[11-20]→[11-40]的处理中使用的树状结构)的一部分时,优选基于LRU(最近最少使用(Least Recently Used))算法更新一般化层级。

[步骤2]

将对象属性以外部排序(sort)进行排序。

[步骤3]

连续地(sequential)参考对象属性的各属性值,按各值取得符合的一般化层级的一部分,进行一般化处理。

[步骤4]

将一般化处理完毕的属性值返回原来的顺序。

在[步骤2]中预先排序,从而相同的值以连续的状态出现。在相同值的情况下,对一般化层级利用相同的部分即可,通过LRU算法而最近被使用的内容在主存储装置上被配置,故能够减少存取辅助存储装置的次数,能够高效地进行一般化处理。

另外,在以下将属性表示为向量,像a^这样在文字后面附加“^”。另外,这是便于文档创建软件的表示方式,在例如表现为a^的情况下,意为对粗体附加了抑扬符的【数1】

另外设向量的第i个元素表示为ai。此外设将向量a^的元素数表示为|a^|。将一般化层级以大写并在字符后面附加“^”而表示(例如X^)。另外,这是便于文档创建软件的表示方式,在表现为X^的情况下,意为对粗体附加了抑扬符的【数2】

设为将某个属性的值ai的、层级上升数j的一般化层级的值表示为

【数3】

例如在图1中,在将年龄(AGE)的一般化层级设为X^,将属性值13以层级上升数2进行了一般化处理的情况下,成为

【数4】

实施例1

以下,参照图3说明实施例1的数据一般化装置的结构。如该图所示,本实施例的数据一般化装置1包括主存储装置10A、辅助存储装置10B、排序部11、属性值取得部12、一般化层级取得部13、一般化处理部14、以及再排序部15。以下参照图4说明各结构要件的动作。

<排序部11>

排序部11按照辅助存储装置10B上的一般化层级中的属性值的排列顺序,将辅助存储装置10B上的属性值排序(S11)。“一般化层级中的属性值的排列顺序”例如意为表示一般化层级的树状结构的末端的叶子的排列顺序。在图1的例子中,树状结构的末端的叶子以13、18、23、34……的顺序排列。

<属性值取得部12>

属性值取得部12将排序后的属性值的一部分从辅助存储装置10B取得到主存储装置10A上(S12)。在本实施例中,设为属性值取得部12将排序后的属性值的一部分保存在主存储装置10A上预先准备好的向量c^(后述)中。

<一般化层级取得部13>

一般化层级取得部13将作为一般化层级的一部分、即与取得到主存储装置10A上的属性值中的处理对象的属性值对应的一般化层级从辅助存储装置10B取得到主存储装置10A上(S13)。请注意一般化层级取得部13并非是针对一般化层级的全部,而是将与处理对象的属性值对应的一般化层级的一部分从辅助存储装置10B取得到主存储装置10A上。

在本实施例中,设为一般化层级取得部13将一般化层级的一部分保存在主存储装置10A上预先准备好的向量d^(后述)中。另外,优选一般化层级取得部13基于LRU算法来更新主存储装置10A上的一般化层级。

<一般化处理部14>

一般化处理部14基于取得到主存储装置10A上的属性值和取得到主存储装置10A上的一般化层级,执行一般化处理(S14)。

<再排序部15>

再排序部15将一般化处理后的属性值移动至辅助存储装置10B,排序为原来的顺序(S15)。

<<算法1:大规模数据一般化算法>>

Input:记录数N,成为一般化的对象的属性a^,与属性对应的一般化层级X^,层级上升数j,在主存储装置10A上使用的元素数M

Output:被一般化的属性b^

[1]:将对象属性a^以值成为连续的方式在辅助存储装置上配置。这里,“值成为连续的方式配置”是指将数据连续地配置以使不夹杂其他数据。将一般化层级X^在辅助存储装置10B上配置。在主存储装置10A上准备元素数M的向量c^、d^。另外,c^是用于属性的、d^是用于一般化层级的主存储装置10A上的向量。

[2]:将对象属性a^以外部排序进行排序。作为外部排序,例如存在合并排序等(相当于图4的S11)。

[3]:for i=1to N do

[4]:以算法2取得第i个属性的值ai(相当于图4的S12)。

[5]:以算法3取得与ai对应的一般化层级的值

【数5】

(相当于图4的S13)。

[6]:设为第i个属性的值

【数6】

(相当于图4的S14)。

[7]:end for

[8]:将被一般化了的属性b^变为a^的原来的排列(相当于图4的S15)。

[9]:return b^

<<算法2:基于预测算法的值取得>>

Input:在辅助存储装置10B上被配置的属性a^,要参考的元素的位置i,主存储装置10A上的向量c^

Output:值ai

[1]:if第i个元素不存在于c^then

[2]:从辅助存储装置取得第i个至第i+|c^|-1个元素,保存于c^。

[3]:end if

[4]:return c^内的ai

<<算法3:基于LRU算法的值取得>>

Input:在辅助存储装置10B上被配置的一般化层级X^,表示要参考的一般化层级的位置的属性的值ai以及层级上升数j,主存储装置上的向量d^

Output:

【数7】

[1]:if ai不存在于d^then

[2]:if d^为满的then

[3]:将d^中最不被利用的元素替换为

【数8】

[4]:else

[5]:将ai和与其对应的一般化层级的值

【数9】

整理为

【数10】

而加到d^中。

[6]:end if

[7]:end if

[8]:return d^内的【数11】

的【数12】

关于算法3,例如如图5的例子所示,在对主存储装置10A上的向量c保存属性值(T,T,U,U,V,W),对主存储装置10A上的向量d保存作为一般化层级的一部分的(Q←T,Q←U,R←V)的情况下,基于这些一般化层级的一部分的参考次数,将参考次数最少的R←V通过LRU算法替换为作为新的一般化层级的一部分的(S←W)。另外,就在主存储装置10A上的向量d中保存的一般化层级而言,在替换时已经使用完毕,不被再次利用,故以LRU算法以外的任意的算法来替换也没有问题。

<效果>

在数据的一般化中,使数据从辅助存储装置移动至主存储装置,在主存储装置上进行计算后使数据再次从主存储装置向辅助存储装置移动,这是常见的,但辅助存储装置在性质上比主存储装置动作慢,故尽量不进行存取是重要的。此外,在对辅助存储装置进行存取的情况下,为了高速化,并非进行随机存取而是进行连续存取,使得处理效率不落后是重要的。

根据本实施例的数据一般化装置1,通过将数据预先排序等、以及以适合于一般化处理的形式来选择属性值和一般化层级这样的来自辅助存储装置10B的数据的调取方式,从而能够减少对辅助存储装置10B的存取次数,并在对辅助存储装置10B进行存取时设为高效的连续存取,能够仅使用小容量的主存储装置10A对大规模数据高速地进行一般化处理。

<附记>

本发明的装置例如作为单一的硬件实体,具有:能够连接键盘等的输入部、能够连接液晶显示器等的输出部、能够连接可与硬件实体的外部进行通信的通信装置(例如通信电缆)的通信部、CPU(中央处理单元(Central Processing Unit),也可以具有高速缓存或寄存器等)、作为存储器的RAM(随机存取存储器)或ROM(只读存储器)、作为硬盘的外部存储装置、以及总线,该总线被连接为能够实现这些输入部、输出部、通信部、CPU、RAM、ROM、外部存储装置之间的数据的交互。此外根据需要,也可以在硬件实体中设置能够读写CD-ROM等存储介质的装置(驱动器)等。作为具有这种硬件资源的物理实体,有通用计算机等。

在硬件实体的外部存储装置中,存储了用于实现上述的功能所需的程序以及在该程序的处理中所需的数据等(不限于外部存储装置,例如也可以设为存储在作为读取程序专用存储装置的ROM中)。此外,通过这些程序的处理而得到的数据等适当地被存储于RAM或外部存储装置等。

在硬件实体中,被存储于外部存储装置(或者ROM等)的各程序以及该各程序的处理所需的数据根据需要而被读取到存储器中,由CPU适当地解释执行/处理。其结果,CPU实现特定的功能(上述…部、…手段等表示的各结构要件)。

本发明不限于上述实施方式,能够在不脱离本发明的宗旨的范围内适当地变更。此外,上述实施方式中说明的处理不仅按照记载的顺序而以时序执行,也可以根据执行处理的装置的处理能力或需要并行地或个别地执行。

如上所述,在通过计算机实现上述实施方式中说明的硬件实体(本发明的装置)中的处理功能的情况下,硬件实体应具有的功能的处理内容由程序来记述。然后,通过在计算机上执行该程序,在计算机上实现上述硬件实体中的处理功能。

记述了该处理内容的程序可以预先存储在计算机可读取的存储介质中。作为计算机可读取的存储介质,例如可以是磁存储装置、光盘、光磁存储介质、半导体存储器等。具体地,例如,能够将硬盘装置、软盘、磁带等作为磁存储装置使用,能够将DVD(DigitalVersatile Disc,数字多功能盘)、DVD-RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read Only Memory,光盘只读存储器)、CD-R(Recordable,可刻录)/RW(ReWritable,可覆写)等作为光盘使用,能够将MO(Magneto-Optical disc,磁光盘)等作为光磁存储介质使用,能够将EEP-ROM(Electronically Erasable and Programble-ReadOnly Memory,电子可擦除可编程只读存储器)等作为半导体存储器使用。

此外,该程序的流通例如通过销售、转让、出借存储了该程序的DVD、CD-ROM等便携式存储介质来进行。进而,也可以构成为将该程序保存在服务器计算机的存储装置中,通过网络,从服务器计算机向其他计算机传输该程序,从而使该程序流通。

执行这种程序的计算机例如首先将存储在便携式存储介质中的程序或从服务器计算机传送的程序暂时保存在自己的存储装置中。然后,在执行处理时,该计算机读取保存在自己的存储介质中的程序,并按照读取的程序执行处理。另外,作为该程序的另一执行方式,计算机也可以从便携式存储介质直接读取程序,执行按照该程序的处理,并且,每当程序从服务器计算机传送到该计算机时可以依次按照所接收的程序执行处理。此外,也可以构成为,不从服务器计算机向该计算机传送程序,而仅通过执行指示和结果取得来实现处理功能,通过所谓的ASP(Application Service Provider,应用服务提供商)型的服务来执行上述处理。另外,在本方式的程序中,设为包含作为供电子计算机的处理使用的信息的、遵照程序的信息(不是对计算机的直接指令,但具有规定计算机的处理的性质的数据等)。

此外,在该方式中,设为通过在计算机上执行特定程序来构成硬件实体,但是也可以设为仅在硬件上实现这些处理内容的至少一部分。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据置换装置、数据置换方法、程序

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类