一种存储系统及其建立方法

文档序号:1860757 发布日期:2021-11-19 浏览:3次 >En<

阅读说明:本技术 一种存储系统及其建立方法 (Storage system and establishing method thereof ) 是由 徐佳宏 陈华兵 黄金龙 曾珂 于 2020-05-13 设计创作,主要内容包括:本申请公开了一种存储系统及其建立方法,其中,存储系统由多个服务器构成,每个服务器均包括多个存储单元,所有服务器的所有存储单元根据预设规则和数据备份规则划分为多组存储组合,预设规则包括:规则1:存储模块中的存储单元分布于所有的服务器上;规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择。这样每组存储组合中的存储模块中的存储单元尽量平均地分布在所有的服务器中,且每组存储组合中的存储模块均至少包括一个备份,大大降低了某一个或多个服务器损坏或无法使用时对于存储系统的可访问性的影响,保证了访问系统的高可用性。另外,存储系统在每个服务器中设置了多个存储单元,有利于保证存储系统的高存储容量。(The application discloses a storage system and an establishment method thereof, wherein the storage system is composed of a plurality of servers, each server comprises a plurality of storage units, all the storage units of all the servers are divided into a plurality of groups of storage combinations according to preset rules and data backup rules, and the preset rules comprise: rule 1: the storage units in the storage module are distributed on all the servers; rule 2: the storage units in the same storage module are preferably selected from the servers with the most remaining disks. Therefore, the storage units in the storage modules in each group of storage combination are distributed in all the servers as evenly as possible, and the storage modules in each group of storage combination at least comprise one backup, so that the influence on the accessibility of the storage system when one or more servers are damaged or cannot be used is greatly reduced, and the high availability of the access system is ensured. In addition, the storage system is provided with a plurality of storage units in each server, which is beneficial to ensuring high storage capacity of the storage system.)

一种存储系统及其建立方法

技术领域

本申请涉及计算机应用技术领域,更具体地说,涉及一种存储系统及其建立方法。

背景技术

随着大数据时代的到来,数据存储和读取成为大数据应用和分析的基础。

目前实现高容量的存储系统的方式大多是组成利用多台服务器建立分布式存储服务器来实现这一目的。但是开发分布式存储服务器的成本和时间周期很多,一般需要耗时40个人月(即一个开发人员需要耗时40个月,两个开发人员需要耗时20个月……)。

并且在分布式存储服务器的应用过程中,系统中的服务器总会由于断电、重启或网络不通的情况,当程序出现漏洞时死机或重启情况下,如何保证系统中存储数据的访问的高可用性,不至于出现“访问风暴”将某台服务器访问能力溢出而发生异常回应也是本领域技术人员所关注的焦点之一。

发明内容

为解决上述技术问题,本申请提供了一种存储系统及其建立方法,以实现保证存储系统的高存储容量和数据访问的高可用性的目的。

为实现上述技术目的,本申请实施例提供了如下技术方案:

一种存储系统,包括:

多个服务器,每个所述服务器包括多个存储单元;

所有所述服务器的所有存储单元根据预设规则和数据备份规则划分为多组存储组合;每个所述存储组合包括M个存储模块、1个校验模块和N个备用存储单元;其中,M为大于或等于2的正整数,N为大于或等于0的整数;所述存储模块为用于存储数据的存储单元,所述校验模块为用于存储校验数据的存储单元;

所述预设规则包括:

规则1:所述存储模块中的存储单元分布于所有的服务器上;

规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择;

所述数据备份规则包括X备份,X为大于或等于1的正整数。

可选的,所述存储单元包括单个固态硬盘或由多个固态硬盘构成的磁盘组。

可选的,当满足规则1和规则2的分组方案为多个时,所述预设规则还包括:

规则3:当多个服务器中的一半服务器损坏时,数据访问命中率在所有分组方案中最高。

可选的,所述校验模块用于存储校验数据,所述校验数据用于校验预设数据;

所述预设数据包括:存储于所述校验模块所在服务器之外的其他服务器中的数据。

可选的,还包括:访问请求定位模块;

所述访问请求定位模块,用于获取访问请求,根据所述访问请求确定待访问存储组合,并访问所述待访问存储组合中的与所述访问请求对应的目标数据;和用于在当所述待访问存储组合中的任一服务器不包括所述目标数据时,将所述目标数据同步到所述存储系统中。

可选的,所述访问请求定位模块,根据所述访问请求确定待访问存储组合具体用于,对所述访问请求包含的统一资源定位符进行哈希计算,以得到哈希数值,将所述哈希数值对所述存储组合的数量进行求模运算以得到所述待访问存储组合的标识。

一种存储系统的建立方法,包括:

提供多个服务器,每个所述服务器包括多个存储单元;

根据预设规则和数据备份规则对所有所述服务器的所有存储单元进行分组,以获得多组存储组合;每个所述存储组合包括M个存储模块、1个校验模块和N个备用存储单元;其中,M为大于或等于2的正整数,N为大于或等于0的整数;所述存储模块为用于存储数据的存储单元,所述校验模块为用于存储校验数据的存储单元;

所述预设规则包括:

规则1:所述存储模块中的存储单元分布于所有的服务器上;

规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择;

所述数据备份规则包括X备份,X为大于或等于1的正整数。

可选的,所述存储单元包括单个固态硬盘或由多个固态硬盘构成的磁盘组。

可选的,当满足规则1和规则2的分组方案为多个时,所述预设规则还包括:

规则3:当多个服务器中的一半服务器损坏时,数据访问命中率在所有分组方案中最高。

可选的,还包括:

在所述校验模块中存储校验数据,所述校验数据用于校验预设数据;

所述预设数据包括:存储于所述校验模块所在服务器之外的其他服务器中的数据。

从上述技术方案可以看出,本申请实施例提供了一种存储系统及其建立方法,其中,所述存储系统由多个服务器构成,每个服务器均包括多个存储单元,所有所述服务器的所有存储单元根据预设规则和数据备份规则划分为多组存储组合,所述预设规则包括:规则1:所述存储模块中的存储单元分布于所有的服务器上;规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择。这样每组存储组合中的存储模块中的存储单元尽量平均地分布在所有的服务器中,且每组存储组合中的存储模块均至少包括一个备份,大大降低了某一个或多个服务器损坏或无法使用时对于存储系统的可访问性的影响,保证了访问系统的高可用性。

另外,所述存储系统在每个服务器中设置了多个存储单元,有利于保证存储系统的高存储容量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种存储系统的结构示意图;

图2为本申请的一个实施例提供的一种RAID5的架构示意图;

图3为本申请的另一个实施例提供的一种存储系统的结构示意图;

图4为本申请的一个实施例提供的一种存储系统的建立方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供了一种存储系统,如图1所示,包括:

多个服务器20,每个所述服务器20包括多个存储单元10;

所有所述服务器20的所有存储单元10根据预设规则和数据备份规则划分为多组存储组合;每个所述存储组合包括M个存储模块、1个校验模块和N个备用存储单元10;其中,M为大于或等于2的正整数,N为大于或等于0的整数;所述存储模块为用于存储数据的存储单元10,所述校验模块为用于存储校验数据的存储单元10;

所述预设规则包括:

规则1:所述存储模块中的存储单元10分布于所有的服务器20上;

规则2:同一个存储模块中的存储单元10优先从剩余磁盘最多的服务器20中选择;

所述数据备份规则包括X备份,X为大于或等于1的正整数。

在本实施例中,如图2所示,每个所述存储组合中的存储模块和校验模块可以构成一个RAID5(分布式奇偶校验的独立磁盘结构)阵列,例如当一个存储组合包括3个存储单元10时,其中两个存储单元10用作存储模块,剩余的一个存储单元10用作校验模块,此时存储组合中的备用存储单元10的数量为0。还例如当一个存储组合包括8个存储单元10时,可以将其中六个存储单元10用作存储模块,一个存储单元10用作校验模块,最后一个存储单元10用作备用存储单元10,所述备用存储单元10可以在当某一个存储单元10损坏或失效时,根据校验模块中存储的校验数据和存储组合中的其他存储单元10存储的数据进行数据恢复,实现损坏的存储单元10的替换,从而保持存储组合的高可靠性。同时RAID5也可以提升数据的读写性能。附图2中,Disk 0、Disk 1、Disk 2和Disk 3分别表示不同的存储单元10,A1、B1、C1表示存储单元10Disk 0中的存储数据,A2、B2、D1表示存储单元10Disk 1中的存储数据,A3、C2、D2表示Disk 2中的存储数据,B3、C3和D3表示Disk 3中的存储数据,Dp表示Disk 0中的校验数据,Cp表示Disk 1中的校验数据,Bp表示Disk 2中的校验数据,Ap表示Disk 3中的校验数据。

仍然参考图2,在每个存储组合中,所述校验模块用于存储校验数据,所述校验数据用于校验预设数据;

所述预设数据包括:存储于所述校验模块所在服务器20之外的其他服务器20中的数据。

所述校验数据可以包括奇偶校验信息,当存储组合中某一个存储单元10损坏后,可用备用存储单元10进行替换,当损坏的存储单元10被替换后,则可以利用同一个存储组合中其他存储单元10中剩下的奇偶校验信息去重建被替换的存储单元10上的数据,来保持存储组合的高可靠性。

一般情况下,每个服务器20中可以挂载的存储单元10的数量是有限地,以单个固态硬盘为例,每个所述服务器20可以挂载24块固态硬盘。

可选的,为了提高读写速度效率,所述存储单元10可包括单个固态硬盘或包括由多个固态硬盘构成的磁盘组。固态硬盘目前的读取速度可达500MB/S,可在启动、加载和传输速度上大幅提升系统的响应速度;写入速度可达450MB/S,可从源站下载媒资时并写入到存储系统时不成为性能瓶颈,将与网络下载速度与写入速度达到更好的匹配。

假设一块固态硬盘的存储容量为960GB,假设单个服务器20的盘卡上插了24块固态硬盘,当不采用RAID5的方式对其进行分组时,则每块固态硬盘的空间就是其内存容量,即960GB,当采用RAID5阵列,且M=6时,则可利用的硬盘空间是:6×960GB=5760GB,即存储组合的容量为5759GB大小。

另外,在分组获得多个所述存储组合时,可以从1开始作为ID对所述存储组合进行标记。例如当存储组合的数量为6个时,这6个存储组合的ID可以分别为1、2、3、4、5、6。

在上述实施例的基础上,在本申请的一个实施例中,当满足规则1和规则2的分组方案为多个时,所述预设规则还包括:

规则3:当多个服务器20中的一半服务器20损坏时,数据访问命中率在所有分组方案中最高。

所述数据访问命中率是指可命中的存储组合占总的存储组合的数目的比例,除不尽时一般保留一位小数。

当总服务器20的数量为偶数时,则最大坏掉的服务器20数目不超过总服务器20数量的一半,即50%;当总服务器20的数量为奇数时,则最大坏掉的服务器20数目不超过总服务器20的一半加1。

即最大服务器20坏率计算公式为:

总服务器20数/2+((总服务器20数%2)==0?0:1);

其中,%表示求余运算;(总服务器20数%2)==0?0:1表示总服务器20数对2求余后的结果是否等于0,如果是则((总服务器20数%2)==0?0:1)取值为0,如果否则((总服务器20数%2)==0?0:1)取值为1。

下面对具体的分组规则进行距离说明:

假设有3个服务器20,每个服务器20有4块固态硬盘,且采用的备份规则为3备份,即每组存储组合中的存储模块存储的数据均具有3个备份,以4块固态硬盘为一组,那么总共有3个服务器20、12个固态硬盘、分组数目为4个、备用存储单元10为0个。

那么在分组时可能的分组情况可能如下:

服务器20名称---------------------磁盘分组--------------------

[cdnvss1] [1][1][2][2]

[cdnvss2] [1][2][3][3]

[cdnvss3] [1][2][3][3]

其中,cdnvss1、cdnvss2、cdnvss3分别表示3个服务器20的名称,磁盘分组中[X]表示该服务器20的该固态硬盘被分在ID为X的存储组合中,此处x表示分组号,值从1开始,例如[1]表示该固态硬盘被分在ID为1的存储组合中。

在该分组方案中,当一个服务器20坏掉时,访问数据命中率为100.0%,当两个服务器20坏掉时,访问数据命中率(简称命中率)则为66.7%。

在该分组方案中,任意一块盘在另外一台服务器20都有备份,但是分组[3]号在[cdnvss1]服务器20没有任何备份,即不满足规则2。所以需要同时满足分配时优先从剩余盘多的服务器20中选取。如果分组[2]号最后一个时,优先选择[cdnvss1]或[cdnvss2]时,那么分配将无问题。

根据调整,最终的动态分配结果如下:

服务器20名称---------------------磁盘分组--------------------

[cdnvss1] [1][1][2][3]

[cdnvss2] [1][2][2][3]

[cdnvss3] [1][2][3][3]

此时,坏掉1台服务器20时,命中率:100.0%

坏掉2台服务器20时,命中率仍为:100.0%

此时最好的体现是坏掉50%的服务器20数即2个时,其命中率仍为100%.

还例如,假设有4个服务器20,每个服务器20有3块固态硬盘,且采用的备份规则为1备份,即每组存储组合中的存储模块存储的数据均具有1个备份,以2块固态硬盘为一组,那么总共有3个服务器20、12个固态硬盘、分组数目为4个、备用存储单元10为0个。

此时可行的分组方案包括:

方案(1):

服务器20名称---------------------磁盘分组--------------------

[cdnvss1] [1][4][5]

[cdnvss2] [1][2][5]

[cdnvss3] [2][3][6]

[cdnvss4] [3][4][6]

在该方案中,坏掉一个服务器20时,命中率为100.0%;

坏掉两个服务器20时,命中率为66.7%。

方案(1)同时满足规则1和规则2,但同时还有其他的分组方案,此时需要考虑规则3。

方案(2):

服务器20名称---------------------磁盘分组--------------------

[cdnvss1] [1][2][3]

[cdnvss2] [1][4][5]

[cdnvss3] [2][4][6]

[cdnvss4] [3][5][6]

在该方案中,坏掉一个服务器20时,命中率为100.0%;

坏掉两个服务器20时,命中率为100%。

则根据规则3,方案(2)更好,则可作为最终的分组方案。

在上述实施例的基础上,在本申请的另一个实施例中,如图3所示,所述存储系统还包括:

访问请求定位模块30;

所述访问请求定位模块30,用于获取访问请求,根据所述访问请求确定待访问存储组合,并访问所述待访问存储组合中的与所述访问请求对应的目标数据;和用于在当所述待访问存储组合中的任一服务器20不包括所述目标数据时,将所述目标数据同步到所述存储系统中。

具体地,所述访问请求定位模块30,根据所述访问请求确定待访问存储组合具体用于,对所述访问请求包含的统一资源定位符进行哈希计算,以得到哈希数值,将所述哈希数值对所述存储组合的数量进行求模运算以得到所述待访问存储组合的标识。

在本实施例中,对具体地访问请求定位进行了限定,具体地,仍然以RAID5阵列为例,将24块固态硬盘分为3组,每组存储组合中有8块固态硬盘,采用6+1的RAID5阵列,将剩余的3块固态硬盘作为备份存储单元使用。当缓存数据时以三组存储组合划分成相同的存储空间大小、对选取的6+1块固态硬盘做RAID5阵列。按照每块固态硬盘960GB容量,则一组存储组合的容量空间时6×960GB=4.8TB,则三组存储组合可提供3×4.8T=14.4TB的总容量空间。对于已经做过阵列的一组固态硬盘,将直接以一块固态硬盘命名,不再复述。

当将四个服务器构建为一个存储系统(集群)时,以RAID5(6+1)阵列组合成一个容量巨大的磁盘组时,那么按照当单个服务器提供3组磁盘组,则4个服务器则提供12组,以双备份来计算则可以分成6组,每两组都提供相同的存储数据,从而实现更好的访问均衡性、高可用性。

每台服务器上VSS服务程序与CDNVSS下沉服务程序部署在同一台服务器上,为了减少内部流量的交互,不允许从服务器A的CDNVSS下沉服务程序输出流量而从服务器B或C的VSS程序输出流量给客户端。最终VSS程序与CDNVSS下沉服务两者在同一台服务器上的内部网卡上交互数据并输出,即编号VSS-X和CDNVSS-X下沉服务程序,X编号相同的值部署在同一台服务器上。

当客户端的vss发起请求时、CDN集群的某台服务器收到请求URL时,首先对URL进行哈希计算得到其哈希数值,然后根据求模运算得到余数值。以4个服务器,每个服务器带有3块固态硬盘,双备份时的分组数目是3×4/2=6组,即GROUP_ID值范围[1…6]。

计算公式:

HASH(URL)%N=GROUP_ID(其中N值等于最大的存储组合的ID值,即6)

当请求程序到A服务器上的VSS-1上程序时,当通过查看数据库发现此目标数据不存在,则此时需要通过CDNVSS-1下沉服务程序将目标数据同步到所述存储系统中。

在本实施例中,只需要知道当目标数据不在此集群时则需要回源,将源站的目标数据同步到所述存储系统中即可。

发起请求到VSS-1程序,当媒资不存在根据一一对应关系也将请求发到CDNVSS-1下沉服务程序,此时计算其URL的哈希值,得到HASH(URL)=9275293、并根据计算公式得到分组定位:9275293MOD 6=1.VSS-1程序通过哈希计算并求模定位到A服务器(CDNVSS-1下沉服务程序),此时根据分组信息可得待访问存储组合的标识GROUP_ID=1的落在此服务器可以接收请求服务,此时根据磁盘的根路径+访问路径读取相应的目标数据并输出。

当请求程序到D服务器上的VSS-4上程序时,当通过查看数据库发现此媒资不存在。请求发到当前服务器上的CDNVSS-4下沉服务程序时,根据计算公司得到HASH(URL)=9275293,并根据计算公式得到分组定位:9275293MOD6=1.即需要查找GROUP_ID=1的存储组合。根据上面的分组信息无法获取到对应存储组合ID值,通过查询得到GROUP_ID=1的存储组合在服务器A和B都存在,此时选用最简单的轮询策略或随机策略,此时选择服务器B,将通过302将信息通知给VSS-2服务程序。D服务器上的VSS-4服务程序将请求打到B服务器上的VSS-2服务程序。再根据同样的计算公式定位到具体的磁盘的根路径+访问路径读取相应的目标数据并输出。

下面对本申请实施例提供的存储系统的建立方法进行描述,下文描述的存储系统的建立方法可与上文描述的存储系统相互对应参照。

相应的,本申请实施例提供了一种存储系统的建立方法,参考图4,所述存储系统的建立方法包括:

S101:提供多个服务器,每个所述服务器包括多个存储单元;

S102:根据预设规则和数据备份规则对所有所述服务器的所有存储单元进行分组,以获得多组存储组合;每个所述存储组合包括M个存储模块、1个校验模块和N个备用存储单元;其中,M为大于或等于2的正整数,N为大于或等于0的整数;所述存储模块为用于存储数据的存储单元,所述校验模块为用于存储校验数据的存储单元;

所述预设规则包括:

规则1:所述存储模块中的存储单元分布于所有的服务器上;

规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择;

所述数据备份规则包括X备份,X为大于或等于1的正整数。

可选的,所述存储单元包括单个固态硬盘或由多个固态硬盘构成的磁盘组。

可选的,当满足规则1和规则2的分组方案为多个时,所述预设规则还包括:

规则3:当多个服务器中的一半服务器损坏时,数据访问命中率在所有分组方案中最高。

可选的,还包括:

在所述校验模块中存储校验数据,所述校验数据用于校验预设数据;

所述预设数据包括:存储于所述校验模块所在服务器之外的其他服务器中的数据。

综上所述,本申请实施例提供了一种存储系统及其建立方法,其中,所述存储系统由多个服务器构成,每个服务器均包括多个存储单元,所有所述服务器的所有存储单元根据预设规则和数据备份规则划分为多组存储组合,所述预设规则包括:规则1:所述存储模块中的存储单元分布于所有的服务器上;规则2:同一个存储模块中的存储单元优先从剩余磁盘最多的服务器中选择。这样每组存储组合中的存储模块中的存储单元尽量平均地分布在所有的服务器中,且每组存储组合中的存储模块均至少包括一个备份,大大降低了某一个或多个服务器损坏或无法使用时对于存储系统的可访问性的影响,保证了访问系统的高可用性。

另外,所述存储系统在每个服务器中设置了多个存储单元,有利于保证存储系统的高存储容量。

本说明书中各实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据存储方法、装置及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类