一种多节点集群环形通信的方法、装置、设备及可读介质

文档序号:1815843 发布日期:2021-11-09 浏览:29次 >En<

阅读说明:本技术 一种多节点集群环形通信的方法、装置、设备及可读介质 (Method, device and equipment for multi-node cluster ring communication and readable medium ) 是由 罗建刚 于 2021-08-14 设计创作,主要内容包括:本发明公开了一种多节点集群环形通信的方法,包括:对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位和末位GPU中;将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的首位GPU和上一相邻节点的末位GPU中;将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的末位GPU和下一相邻节点的首位GPU中;将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。本发明还公开了一种多节点集群环形通信的装置、计算机设备和介质。(The invention discloses a method for multi-node cluster ring communication, which comprises the following steps: performing intra-node data integration on all GPUs in the current node, and summarizing single-node data obtained by integration into a first GPU and a last GPU; performing inter-node data integration on a first GPU of a current node and a last GPU of a last adjacent node, and summarizing multi-node data obtained by integration into the first GPU of the current node and the last GPU of the last adjacent node; performing inter-node data integration on the last GPU of the current node and the first GPU of the next adjacent node, and summarizing multi-node data obtained by integration into the last GPU of the current node and the first GPU of the next adjacent node; and broadcasting and sending the data in the first GPU of the current node and the data in the last GPU of the current node to other GPUs inside the current node. The invention also discloses a device, computer equipment and medium for multi-node cluster ring communication.)

一种多节点集群环形通信的方法、装置、设备及可读介质

技术领域

本发明涉及数据传输技术领域,尤其涉及一种多节点集群环形通信的方法、装置、设备及可读介质。

背景技术

逐渐成熟的机器学习算法,如深度神经网络(DNN,Deep Neural Networks)、卷积神经网络(CNN,Convolutional Neural Network)等,可以在许多实际应用中实现前所未有的性能并解决许多领域的难题,例如语音识别,文本处理以及图像识别等。但是在单GPU(Graphic Processing Unit,图形处理器)上往往需要很长时间进行训练,效率过低一定程度上制约了其应用。

减少训练时间使用最广泛的方法是执行数据并行训练,在数据并行训练中,每个GPU都具有模型参数的完整副本,并且GPU经常与参与训练的其他GPU交换参数,这导致了极大的通信成本,而且在通信缓慢时成为系统瓶颈。特别是在多节点的GPU服务器上时,通信往往通过IB(information button,既信息钮)卡进行,速度往往仅有25GB/s,甚至更低。这大大增加了深度学习模型的训练时间。在8卡的GPU内部通信速度往往能达到250GB/s。节点之间通信效率过低,也导致了其内部通信带宽的浪费。

为了解决训练时的通信瓶颈,可以从硬件和软件两个方面解决。在硬件方面,采用更先进的GPU互联技术,如PCIE、NVLINK、NVSWITCH等。在NVLINK中最高可以提供300GB/s的带宽。在软件方面,采用先进的现代通信库,例如NVIDIA的集体通信库,Uber的Horovod和百度的Ring AllReduce等。

在现有的通信方法中应用较多的是环形通信方法与Double Binary tree(二叉树)方法。其中环形通信方法可以有效的采用Pipeline技术(管道技术),使其具有良好的扩展性,在大数据量传输时应用较多。而Double Binary tree方法往往在拓扑较为复杂无法建立有效的通信环路和数据量较小时使用。

发明内容

现有的环形通信算法是GPU通信的常用方法,常在数据量较大时使用。图1示出的是现有技术环形通信算法的示意图,如图1所示,在环形通信方法中每个GPU只接收(receive)自己左邻居的数据并将数据发送(send)给右邻居,让数据在GPU形成的环内流动。

ALL_Reduce方式则是深度学习中最常用的通信方式。以ALL_Reduce的环形通信方式Ring_allreduce为例,图2示出的是现有技术Ring_allreduce算法的示意图,如图2所示,Ring_allreduce的过程分为两大步,第一步是scatter_reduce,逐步交换彼此的梯度并融合,最后每个GPU都会包含完整融合梯度的一部分;第二步是All_gather,逐步交换彼此不完整的融合梯度,最后所有GPU都会得到完整的融合梯度。第一步我们将总数据分为k部分,每次传输总数据1/k部分,并再将该数据均等的分为n块,然后指定左右邻居,然后执行n-1次规约操作,其中在第i次操作中GPUj会将自己的第(j-i)%n块数据发送给右邻居,并接收左邻据的(j-i-1)%n块数据。并将接收来的数据进行reduce操作。第二步工作则是通过环形通信的方法,将每个GPU获得reduce数据发送到每个GPU当中。

环形通信软法可以有效的利用pipeline技术,在多GPU上有良好的扩展性。但是在低速网络的限制下,例如在低速IB卡连接下,其传输速度仅有1GB/s左右,这已经逐渐成为了GPU计算的瓶颈。而在多节点传输的情况下,往往要通过网络传输,这对GPU交互计算产生了更为严重的制约。

深度学习的大规模数据并行训练带来了越来越大的时间开销,在高速传输网络,硬件成本高昂的情况下,如何合理高效的利用节点间的低速网络传输,也是我们要解决的问题。在大规模的训练过程中,节点间IB低速网络的低传输效率,大大的浪费了其节点内部的高速传输带宽,也已经逐渐成为了神经网络大规模训练的瓶颈。现有技术中,nccl(nccl是当今最流行、应用最广泛的GPU通信库,在大数据量时主要采用了环形通信方法)在面对多节点的GPU服务器时,会根据IB卡的数量进行建环,当节点内部IB卡数量较少时,往往会造成其节点内部的带宽浪费。除此之外在环形通信过程中,其节点内部GPU会优先完成传输,从而等待节点间GPU的传输,造成进一步的带宽浪费。

有鉴于此,本发明实施例的目的在于提出一种多节点集群环形通信的方法、装置、设备及可读介质,针对特定的多节点GPU服务器,以环形通信算法为基础,扩展了新的传输方法,有效的避免了节点间通信带宽浪费的问题。

基于上述目的,本发明实施例的一方面提供了一种多节点集群环形通信的方法,包括以下步骤:对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位GPU和末位GPU中;将所述当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到所述当前节点的首位GPU和所述上一相邻节点的末位GPU中;将所述当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到所述当前节点的末位GPU和所述下一相邻节点的首位GPU中;以及将所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据广播发送给所述当前节点内部的其他GPU。

在一些实施方式中,方法还包括:将待整合数据分为预设份数个数据块,基于所述节点间数据整合通信复杂度和所述节点内数据整合通信复杂度的比值计算第一数据块和其他数据块的大小。

在一些实施方式中,所述其他数据块的大小相等,且所述第一数据块的大小和所述其他数据块的大小的比值等于所述节点间数据整合通信复杂度和所述节点内数据整合通信复杂度的比值。

在一些实施方式中,对当前节点内部的所有GPU进行节点内数据整合包括:通过NVSwitch连接当前节点内部的所有GPU,并对所述所有GPU进行节点内数据整合。

在一些实施方式中,将所述当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合包括:将所述当前节点的首位GPU和上一相邻节点的末位GPU进行节点间当前数据块整合,同时对当前节点内部的所有GPU进行节点内下一数据块整合;将所述当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合包括:将所述当前节点的末位GPU和下一相邻节点的首位GPU进行节点间当前数据块整合,同时对当前节点内部的所有GPU进行节点内下一数据块整合。

在一些实施方式中,将所述当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合包括:通过IB卡连接所述当前节点的首位GPU和上一相邻节点的末位GPU,并将所述当前节点的首位GPU和所述上一相邻节点的末位GPU进行节点间数据整合;将所述当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合包括:通过IB卡连接所述当前节点的末位GPU和下一相邻节点的首位GPU,并将所述当前节点的末位GPU和所述下一相邻节点的首位GPU进行节点间数据整合。

在一些实施方式中,将所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据广播发送给所述当前节点内部的其他GPU包括:判断所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据是否相同;若是所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据相同,则将所述当前节点的首位GPU中的数据广播发送给所述当前节点内部的其他GPU中的前半部分,并将所述当前节点的末位GPU中的数据广播发送给所述当前节点内部的其他GPU中的后半部分;若是所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据不相同,则分别将所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据广播发送给所述当前节点内部的其他GPU。

本发明实施例的另一方面,还提供了一种多节点集群环形通信的装置,包括:第一模块,配置用于对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位GPU和末位GPU中;第二模块,配置用于将所述当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到所述当前节点的首位GPU和所述上一相邻节点的末位GPU中;第三模块,配置用于将所述当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到所述当前节点的末位GPU和所述下一相邻节点的首位GPU中;以及第四模块,配置用于将所述当前节点的首位GPU中的数据和所述当前节点的末位GPU中的数据广播发送给所述当前节点内部的其他GPU。

本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述方法的步骤。

本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

本发明至少具有以下有益技术效果:针对特定的多节点GPU服务器,以环形通信算法为基础,扩展了新的传输方法,有效的避免了节点间通信带宽浪费的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为现有技术环形通信算法的示意图;

图2为现有技术Ring_allreduce算法的示意图;

图3为本发明提供的多节点集群环形通信的方法的实施例的示意图;

图4为本发明提供的多节点集群环形通信的方法的GPU服务器节点架构图;

图5为本发明提供的多节点集群环形通信的装置的实施例的示意图;

图6为本发明提供的计算机设备的实施例的示意图;

图7为本发明提供的计算机可读存储介质的实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

基于上述目的,本发明实施例的第一个方面,提出了多节点集群环形通信的方法的实施例。图3示出的是本发明提供的多节点集群环形通信的方法的实施例的示意图。如图3所示,本发明实施例包括如下步骤:

S01、对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位GPU和末位GPU中;

S02、将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的首位GPU和上一相邻节点的末位GPU中;

S03、将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的末位GPU和下一相邻节点的首位GPU中;以及

S04、将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。

在本实施例中,以环形或树型通信方法为基础,建立多层环形通信,减少节点间GPU的通信次数,来提升通信带宽,并考虑了深度学习学者的便利性将其集成到了nccl当中。图4示出的是本发明提供的多节点集群环形通信的方法的GPU服务器节点架构图,如图4所示,节点内部GPU通过NVSWITCH连接,理想传输速率为300GB/s,实际测试速率为250GB/s。服务器节点与其他节点通过两个IB卡连接,两个IB卡的传输总共为25GB/s。

在nccl目前的环形通信算法中,受限于IB卡的连接,其ALL_REDUCE的通信实测仅有24GB/s。其内部会产生两个环的构建,节点外通过IB卡连接,即节点1的GPU0、GPU7和节点2的GPU0、GPU7相互连接,构成两个大的环。其通信复杂度为2(p-1)α+2nβ+nγ-(2nβ+nγ)/p,其中p为GPU的个数,α为GPU传输的延迟时间,β为单位数据的传输时间,γ为reduce的计算时间,在由于γ很小为了方便计算我们在此忽略不计,在传输数据量较大时我们也忽略GPU延迟的影响,因此其通信复杂度可以简略的计为2nβ(p-1)/p。

在本实施例中,继续参考图4,两个节点间16个GPU内通过环形通信的方法进行All_reduce操作,同时节点内8个GPU内进行All_reduce操作。节点间仅通过IB卡连接的GPU进行All_reduce操作,即将规约后的数据集中在GPU0和GPU7上。

在本发明的一些实施例中,方法还包括:将待整合数据分为预设份数个数据块,基于节点间数据整合通信复杂度和节点内数据整合通信复杂度的比值计算第一数据块和其他数据块的大小。

在本发明的一些实施例中,其他数据块的大小相等,且第一数据块的大小和其他数据块的大小的比值等于节点间数据整合通信复杂度和节点内数据整合通信复杂度的比值。

在本实施例中,将数据分为k+1块,其中k块数据进行均分,第一块数据的大小和其他数据的大小的比值为节点间环形通信All_reduce的通信复杂度和节点内环形通信All_reduce的通信复杂度的比值,目的是为了保持两个步骤时间的一致。

在本发明的一些实施例中,对当前节点内部的所有GPU进行节点内数据整合包括:通过NVSwitch连接当前节点内部的所有GPU,并对所有GPU进行节点内数据整合。

在本发明的一些实施例中,将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合包括:将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间当前数据块整合,同时对当前节点内部的所有GPU进行节点内下一数据块整合;将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合包括:将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间当前数据块整合,同时对当前节点内部的所有GPU进行节点内下一数据块整合。

在本实施例中,继续参考图4,首先进行第一个数据块的ALL_reduce传输,在此过程中为了避免节点内通信带宽的浪费,本方法会同时对节点内的ALL_reduce操作,结束后两个节点的GPU0和GPU7会有整合后的数据。此操作的复杂度为2nβ1(p1-1)/p1,其中β1=β/10、p1=8。结束后进行节点间的all_reduce操作,使两个节点的GPU0和GPU7得到全部GPU整合后的数据。此过程的复杂度为2nβ(p/8-1)/(p/8)。将GPU0和GPU7的数据广播出去,此过程的复杂度为nβ1(p1/2-1)/(p1/2)),这样数据块2就完成了整个的All_reduce操作。同时开启数据块3节点间的All_reduce操作,开启下一个循环。

在本发明的一些实施例中,将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合包括:通过IB卡连接当前节点的首位GPU和上一相邻节点的末位GPU,并将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合;将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合包括:通过IB卡连接当前节点的末位GPU和下一相邻节点的首位GPU,并将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合。

在本实施例中,在两个节点的A100的高速NVSWITCH网络中,最高可以获得1.87倍的加速效果,并且无任何的精度损失。通过多层环形通信方法,有效的提高了多节点GPU服务器的通信带宽,在一定程度上解决了IB网络通信较慢的问题,取得了一定的加速效果。

在本发明的一些实施例中,将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU包括:判断当前节点的首位GPU中的数据和当前节点的末位GPU中的数据是否相同;若是当前节点的首位GPU中的数据和当前节点的末位GPU中的数据相同,则将当前节点的首位GPU中的数据广播发送给当前节点内部的其他GPU中的前半部分,并将当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU中的后半部分;若是当前节点的首位GPU中的数据和当前节点的末位GPU中的数据不相同,则分别将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。

在本实施例中,继续参考图4,以两个节点为例,此时GPU0和GPU7中数据是相同的,将GPU0和GPU7的数据广播(boardcast)出去,GPU0负责0-3号GPU,GPU7负责4-7号GPU。

需要特别指出的是,上述多节点集群环形通信的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于多节点集群环形通信的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。

基于上述目的,本发明实施例的第二个方面,提出了一种多节点集群环形通信的装置。图5示出的是本发明提供的多节点集群环形通信的装置的实施例的示意图。如图5所示,本发明实施例包括如下模块:第一模块S11,配置用于对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位GPU和末位GPU中;第二模块S12,配置用于将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的首位GPU和上一相邻节点的末位GPU中;第三模块S13,配置用于将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的末位GPU和下一相邻节点的首位GPU中;以及第四模块S14,配置用于将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。

基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图6示出的是本发明提供的计算机设备的实施例的示意图。如图6所示,本发明实施例包括如下装置:至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令S23,指令由处理器执行时实现以上方法的步骤。

本发明还提供了一种计算机可读存储介质。图7示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图7所示,计算机可读存储介质S31存储有被处理器执行时执行如上方法的计算机程序S32。

最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,多节点集群环形通信的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。

此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种多路CPU互联系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!