一种服务器故障离线诊断装置及方法

文档序号:1952436 发布日期:2021-12-10 浏览:13次 >En<

阅读说明:本技术 一种服务器故障离线诊断装置及方法 (Server fault offline diagnosis device and method ) 是由 尤世平 于 2021-08-13 设计创作,主要内容包括:本发明提供一种服务器故障离线诊断装置及方法,包括:控制芯片,所述控制芯片的输入引脚连接基板管理控制器,所述基板管理控制器向控制芯片输入故障灯控制信号,所述故障灯控制信号包括故障灯明灭控制方案;所述控制芯片的输出引脚连接故障灯;所述控制芯片包括第一供电引脚和第二供电引脚,所述第一供电引脚连接服务器主板,所述第二供电引脚连接离线电源;服务器主板和离线电源均与故障灯电连接;所述控制芯片包括存储模块,所述存储模块存储所述故障灯明灭控制方案。本发明方便高密度服务器出现问题时进行离线debug。避免由于配置过于复杂导致服务器内的其他板卡挡住了故障灯,无法解析BIOS的post信息的问题。(The invention provides a server fault offline diagnosis device and method, comprising the following steps: the control chip is characterized in that an input pin of the control chip is connected with the substrate management controller, the substrate management controller inputs a fault lamp control signal to the control chip, and the fault lamp control signal comprises a fault lamp on-off control scheme; an output pin of the control chip is connected with a fault lamp; the control chip comprises a first power supply pin and a second power supply pin, the first power supply pin is connected with the server mainboard, and the second power supply pin is connected with the offline power supply; the server mainboard and the off-line power supply are electrically connected with the fault lamp; the control chip comprises a storage module, and the storage module stores the fault lamp on-off control scheme. The invention is convenient for offline debug when the high-density server has problems. The problem that due to the fact that configuration is too complex, other board cards in the server block fault lamps and the post information of the BIOS cannot be analyzed is solved.)

一种服务器故障离线诊断装置及方法

技术领域

本发明属于服务器技术领域,具体涉及一种服务器故障离线诊断装置及方法。

背景技术

由于硬件技术的发展以及客户需求的多样化,服务器能够实现的功能以及配置也越来越复杂,因此对服务器硬件设计、软硬件交互的要求也越来越高。更加复杂精细的设计带来更高性能的同时也使得服务器运行时出现问题概率的增高。宕机是服务器测试时常见的一类问题,导致宕机的原因多种多样,软件和硬件层面的原因均有包含。因此当出现宕机时,应当在不破坏现象的前提下尽可能地获取服务器的信息,例如硬件配置、固件版本、BIOS和BMC日志等。BIOS的postcode信息是相对重要的一个信息,通过postcode可以了解出现宕机问题时BIOS的post状态,从而缩小问题原因的范围,因此在主板上一般都会设置故障灯或者蜂鸣器等来指示postcode。但是对于一些高密度服务器,尤其是1U服务器,当服务器满配时,主板的故障灯常常会被机箱内其他板卡挡住,仅打开机箱盖无法看到故障灯的状态。由于多数板卡在服务器上电时不能拆装,因此很多情况下现场postcode信息只能舍弃,只能靠之后的复现bug操作来获取。

因此需要一种能够在服务器断电之后让用户依然能够读到宕机时postcode的方法来提高debug效率。

发明内容

针对现有技术的上述不足,本发明提供一种服务器故障离线诊断装置及方法,以解决上述技术问题。

第一方面,本发明提供一种服务器故障离线诊断装置,包括:控制芯片,所述控制芯片的输入引脚连接基板管理控制器,所述基板管理控制器向控制芯片输入故障灯控制信号,所述故障灯控制信号包括故障灯明灭控制方案;所述控制芯片的输出引脚连接故障灯;所述控制芯片包括第一供电引脚和第二供电引脚,所述第一供电引脚连接服务器主板,所述第二供电引脚连接离线电源;服务器主板和离线电源均与故障灯电连接;所述控制芯片包括存储模块,所述存储模块存储所述故障灯明灭控制方案。

进一步的,所述离线电源包括:超级电容和开关,所述超级电容的一端连接服务器主板,超级电容的另一端经过开关分别连接控制芯片和故障灯,控制芯片与故障灯并联。

进一步的,所述开关采用指拨开关。

进一步的,所述离线电源包括蓄电池和开关。

进一步的,所述控制芯片包括多个输出引脚,每个输出引脚均连接一个故障灯。

进一步的,所述控制芯片的输入引脚通过I2C总线连接基板管理控制器,所述基板管理控制器连接平台控制器中心。

进一步的,所述控制芯片为多个。

进一步的,所述离线电源为多个,一个离线电源为一个控制芯片和控制芯片对应的故障灯供电。

第二方面,本发明提供一种服务器故障离线诊断方法,所述方法包括:

在服务器主板供电期间,接收基板管理控制器发送的故障灯控制信号,从故障灯控制信号解析出故障灯明灭控制方案并将故障灯明灭控制方案保存至存储模块,所述存储模块为非易失性内存;

在服务器主板下电且离线电源供电期间,从存储模块读取故障灯明灭控制方案;并通过各输出引脚的电平信号控制各故障灯明灭状态,执行所述故障灯明灭控制方案。

进一步的,通过各输出引脚的电平信号控制各故障灯明灭状态,执行所述故障灯明灭控制方案,包括:

解析故障灯明灭控制方案各故障灯编号对应的明灭状态;

根据故障灯编号查找对应的输出引脚编号,根据故障灯对应的明灭状态判断是否点亮故障灯,若是则根据对应的输出引脚编号控制相应输出引脚输出高电平信号,点亮所述故障灯。

本发明的有益效果在于,

本发明提供的服务器故障离线诊断装置及方法,通过增设控制芯片和离线电源,实现对故障灯明灭控制方案的离线存储,并在服务器主板下电后基于离线电源读取并执行故障灯明灭控制方案,实现服务器故障离线诊断。在服务器主板下电状态下拆除遮挡故障灯的主板,即可查看完整的故障灯信号。本发明方便高密度服务器出现问题时进行离线debug。避免由于配置过于复杂导致服务器内的其他板卡挡住了故障灯,无法在不拆机的情况下了解BIOS的post信息的问题,且装置电路简单、容易实现,使用一组BMC的I2C信号,对于BMC芯片的接口资源占用较小。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的服务器故障离线诊断装置的结构示意图;

图2是本申请一个实施例的服务器故障离线诊断装置的示例性电路图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

实施例1

请参考图1,本实施例提供一种服务器故障离线诊断装置,包括:控制芯片,控制芯片的输入引脚连接基板管理控制器,基板管理控制器(BMC)向控制芯片输入故障灯控制信号,故障灯控制信号包括故障灯明灭控制方案;控制芯片的输出引脚连接故障灯;控制芯片包括第一供电引脚和第二供电引脚,第一供电引脚连接服务器主板,第二供电引脚连接离线电源;服务器主板和离线电源均与故障灯电连接;控制芯片包括存储模块,存储模块存储故障灯明灭控制方案。其中,离线电源包括:超级电容和开关,超级电容的一端连接服务器主板,超级电容的另一端经过开关分别连接控制芯片和故障灯,控制芯片与故障灯并联。本实施例中控制芯片包括多个输出引脚,每个输出引脚均连接一个故障灯。控制芯片的输入引脚通过I2C总线连接基板管理控制器,基板管理控制器连接平台控制器中心(PCH)。

当服务器开机时,LED控制芯片解析BMC的I2C信号点亮postcode LED(故障灯)。若开机过程中出现宕机,BIOS的post进程便会停止,postcode会停留在某个数字不再更新,postcode LED的亮灭状态不会再出现改变。控制芯片将BMC的I2C信号中的故障灯明灭控制方案保存至非易失性内存中。之后将机器断电(主要是主板断电),拆下遮挡住postcodeLED的板卡,按下开关使超级电容给LED控制芯片,控制芯片读取非易失性内存中的故障灯明灭控制方案,再次点亮postcode LED。此时电量的故障灯与宕机前保持一致,实现故障灯复现。而故障灯的明灭顺序是与postcode具有对应关系的,例如共8个LED,每个LED指示一个bit,不同的LED亮灭组合对应不同的postcode值。

具体的,请参考图2,U1为LED控制芯片,DATAIN pin脚接收BMC发来的I2C信号。LED控制芯片通过解析I2C信号来控制其IO引脚DATAOUT0-7 pin脚的高低电平。Q0-Q7为NPNMOS管,高电平时导通。LED0-LED7为绿色LED。U1和LED均由主板的P5V_STBY供电。同时P5V_STBY也给超级电容供电,超级电容和LED间放置一个开关。

当服务器开机时,P5V_STBY为U1和LED供电,同时超级电容开始充电。BMC将postcode信息通过I2C总线发送给U1,U1解析I2C信号,控制其8个DATAOUT pin脚的输出电平,从而控制8个绿色LED的亮灭来指示postcode数字。

当服务器断电后,超级电容继续为U1供电,为了避免超级电容放电过快,在超级电容和LED之间放置一个开关,当需要了解出现问题时的BIOS的post进程停在哪一个环节时,按下开关使超级电容给控制芯片和LED供电,此时控制芯片控制LED按照宕机前的明灭方案点亮,指示出断电前的postcode信息,从而实现离线debug的功能。

本实施例通过增设控制芯片和离线电源,实现对故障灯明灭控制方案的离线存储,并在服务器主板下电后基于离线电源读取并执行故障灯明灭控制方案,实现服务器故障离线诊断。在服务器主板下电状态下拆除遮挡故障灯的主板,即可查看完整的故障灯信号。本发明方便高密度服务器出现问题时进行离线debug。避免由于配置过于复杂导致服务器内的其他板卡挡住了故障灯,无法在不拆机的情况下了解BIOS的post信息的问题,且装置电路简单、容易实现,使用一组BMC的I2C信号,对于BMC芯片的接口资源占用较小。

实施例2

本实施例提供一种服务器故障离线诊断装置,该装置中的离线电源采用带有开关的蓄电池代替实施例1中的超级电容供电电源。其他部分与实施例1相同。

实施例3

本实施例提供一种服务器故障离线诊断装置,包括多个控制芯片,多个控制芯片的输入引脚均连接基板管理控制器,且多个控制芯片均包括多个输出引脚,每个控制芯片的多个输出引脚分别连接故障灯;多个控制芯片均包括第一供电引脚和第二供电引脚,且所有第一供电引脚均连接服务器主板,所有第二供电引脚均连接离线电源;所有故障灯均与服务器主板和离线电源电连接。系统包括多个离线电源,一个离线电源为一个控制芯片和控制芯片对应的故障灯供电;离线电源包括:超级电容和开关,超级电容的一端连接服务器主板,超级电容的另一端经过开关分别连接控制芯片和故障灯,控制芯片与故障灯并联。

由于控制芯片的输出引脚数量有限,当服务器的故障灯较多,数量超过一个控制芯片的输出引脚数量时,就设置多个控制芯片。BMC中存储有各个控制芯片对应的故障灯,BMC将每个控制芯片对应的故障灯明灭方案分别下发,然后各控制芯片根据接收的BMC信息控制自身对应的故障灯明灭情况即可。

在本发明的其他实施方式中,也可以选择一个带有开关的蓄电池为多个控制芯片及相应故障灯供电。

实施例4

本实施例提供一种服务器故障离线诊断方法,包括:

S1、在服务器主板供电期间,接收基板管理控制器发送的故障灯控制信号,从故障灯控制信号解析出故障灯明灭控制方案并将故障灯明灭控制方案保存至存储模块,所述存储模块为非易失性内存;

S2、在服务器主板下电且离线电源供电期间,从存储模块读取故障灯明灭控制方案;并通过各输出引脚的电平信号控制各故障灯明灭状态,执行所述故障灯明灭控制方案。控制芯片控制故障灯明灭的具体方法为:解析故障灯明灭控制方案各故障灯编号对应的明灭状态;根据故障灯编号查找对应的输出引脚编号,根据故障灯对应的明灭状态判断是否点亮故障灯,若是则根据对应的输出引脚编号控制相应输出引脚输出高电平信号,点亮所述故障灯。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:监控K8s任务执行数据的告警管理方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!