一种嵌入式刀片弹性扩展ai边缘服务器的装置和方法

文档序号:1086816 发布日期:2020-10-20 浏览:31次 >En<

阅读说明:本技术 一种嵌入式刀片弹性扩展ai边缘服务器的装置和方法 (Device and method for elastically expanding AI edge server by embedded blade ) 是由 韩磊 于 2020-03-25 设计创作,主要内容包括:本发明属于AI技术领域且公开了一种嵌入式刀片弹性扩展AI边缘服务器的装置和方法,该装置包括:一块或多块计算解码刀片,所述计算解码刀片从网络获取网络摄像头输入视频流,通过CPU自带解码器解码和预处理视频流,得到AI芯片所需的输入数据,通过PCIe将输入数据传输到AI芯片进行推理,采集AI芯片推理返回结果,将推理结果返回远程AI管理平台;从PCIe获取需要推理的输入数据,通过AI芯片推理出结果,通过PCIe返回AI推理组件;所述交换主板通过交换机芯片将网络摄像头视频流输入到AI计算解码刀片计算解码刀片和AI推理刀片配套使用,可以一块计算解码刀片带多开AI推理刀片。本发明拥有高算力、高带宽、高密度、高可靠、低延时和灵活扩展等优点。(The invention belongs to the technical field of AI and discloses a device and a method for an embedded blade to elastically expand an AI edge server, wherein the device comprises: the computing and decoding blade or blades acquire a network camera input video stream from a network, decode and preprocess the video stream through a CPU self-contained decoder to obtain input data required by an AI chip, transmit the input data to the AI chip for reasoning through PCIe, acquire an AI chip reasoning return result and return the reasoning result to the remote AI management platform; acquiring input data needing to be inferred from PCIe, inferring a result through an AI chip, and returning to an AI inference component through PCIe; the exchange mainboard inputs the network camera video stream into the AI calculation decoding blade through the switch chip, and the AI calculation decoding blade and the AI inference blade are matched for use, so that one calculation decoding blade can be provided with a multi-open AI inference blade. The invention has the advantages of high computing power, high bandwidth, high density, high reliability, low time delay, flexible extension and the like.)

一种嵌入式刀片弹性扩展AI边缘服务器的装置和方法

技术领域

本发明涉及AI技术领域,尤其涉及一种嵌入式刀片弹性扩展AI边缘服务器的装置和方法。

背景技术

AI技术可以使计算机像人一样思考,通过软件算法可以智能的从视频或图片中识别人脸、声音和文字等信息。AI技术主要有推理、训练、控制和通信等服务器组合而成。

AI技术需要高性能计算、大容量磁盘存储数据和高带宽传输数据等条件。因此AI技术实现的计算机和方案必须具备高性能、高带宽和高密度等特点。

在AI专用芯片没有开发出来以前,传统的AI算法一般通过CPU和GPU去计算。因为传统CPU和GPU有很多无关的指令,并且没有AI算法专用指令,所以导致传统的AI技术方案的算力低、功耗高和成本高等。为了实现AI技术,目前,大部分AI技术的都是通过将算法和数据上传到云端服务器,利用云服务器的超大算力和海量存储等技术,达到AI技术所要求的算力和响应时间。这种方式存在功耗大、成本高和延迟大等缺点。

发明内容

本发明要解决的技术问题是克服现有的缺陷,提供一种嵌入式刀片弹性扩展AI边缘服务器的装置和方法,拥有高算力、高带宽、高密度、高可靠、低延时和灵活扩展等优点,可以有效解决背景技术中的问题。

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明提供一种嵌入式刀片弹性扩展AI边缘服务器的装置,包括:

一块或多块计算解码刀片,所述计算解码刀片从网络获取网络摄像头输入视频流,通过CPU自带解码器解码和预处理视频流,得到AI芯片所需的输入数据,通过PCIe将输入数据传输到AI芯片进行推理,采集AI芯片推理返回结果,将推理结果返回远程AI管理平台;

AI推理组件,从PCIe获取需要推理的输入数据,通过AI芯片推理出结果,通过PCIe返回AI推理组件;

交换主板,所述交换主板通过交换机芯片将网络摄像头视频流输入到AI计算解码刀片计算解码刀片和AI推理刀片配套使用,可以一块计算解码刀片带多开AI推理刀片;

电源,所述电源为CPU以及交换主板提供电量;

硬盘,所述硬盘与CPU连接,用于将信息储存。

作为本发明的一种优选技术方案,每块所述计算解码刀片可处理0-16路1080p视频流。

作为本发明的一种优选技术方案,所述AI推理组件为AI推理刀片,所述AI推理刀片从PCIe获取需要推理的输入数据,通过AI芯片推理出结果,通过PCIe返回计算解码刀片。

作为本发明的一种优选技术方案,主板上设置有多个带PCIe和网口的插槽,可根据性能和需求插不同数量的计算解码刀片和AI推理刀片。

作为本发明的一种优选技术方案,所述AI推理组件为一台服务器整机,不同角色的整机通过网络交换机通信。

作为本发明的一种优选技术方案,所述一台服务器整机的通信包括:

通用服务器通过网络交换机往GPU训练服务器下发软件算法和数据;

通用服务器通过网络交换机往AI推理服务器下发软件算法和数据;

GPU训练服务器和AI推理服务器计算通过网络交换机返回结果给通用服务器;

通用服务器获取返回结果后进一步处理和输出结果。

一种嵌入式刀片弹性扩展AI边缘服务器的方法,包括以下步骤:

S1:多路网络摄像头、图片或视频通过网络进入AI服务器,由网络交换机将数据分发传输到不同的AI计算解码刀片;

S2:根据当前计算解码刀片和AI刀片的负载情况,做负载均衡;

S3:由AI计算解码刀片解码和预处理网络摄像头视频流,得到AI芯片所需的输入数据后;

S4:通过PCIe接口传输到AI推理刀片进行推理出数据特征;

S5:通过PCIe接口将特征数据回传到计算解码刀片;

S6:通过计算解码刀片的网络回传到管理平台。

本发明中提供的一个或多个技术方案,至少具有如下技术效果或者优点:

1)算力密度大

一台AI服务器可以插更多的计算解码刀片和AI加速刀片,算力密度比传统架构大1000倍以上,能处理的摄像头数量比传统架构多64倍以上。

2)低功耗技术

ARM计算解码CPU功耗很低,AI芯片是ASIC专用芯片,对于专用指令的算力快,功耗低,成本低。

3)组合灵活

可以根据要处理的数量特点,配置不同数量的计算解码刀片或AI刀片。

4)带宽高、延时小

AI刀片与刀片之间、AI刀片与主控刀片之间的数据是通过PCIe和网络连接,带宽高、延时小。

5)功耗低

ARM计算解码CPU功耗很低,AI芯片是ASIC专用芯片,对于专用指令的算力快,功耗低,成本低。

6)速度快

计算解码刀片采用ARM 芯片的硬件解码,然后直接通过PCIe和网络进行数据传输到相应的组建来立即处理。

7)可靠性

热插拔AI刀片计算卡,可在应用程序运行期间增加或减少计算解码刀片和AI刀片以增减算力,也可以将有故障卡热拔出替换。

8)数据传输方式灵活

可以将不同的要处理的数据指定到不同的刀片进行处理,灵活的分配计算资源。

9)高扩展性

对于不同的客户或应用要求,可以更换不同厂家的计算解码刀片和AI推理刀片等组件,以快速灵活的满足客户或应用需求。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

在附图中:

图1是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的装置和方法的工作流程图;

图2是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的装置计算解码刀片示意图;

图3是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的装置AI刀片示意图;

图4是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的装置AI弹性扩展服务器整机示意图;

图5是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的计算解码刀片示意图;

图6是本发明实施例所述的一种嵌入式刀片弹性扩展AI边缘服务器的装置一台服务器整机,不同角色的整机通过网络交换机通信示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

为了更好地理解上述技术方案,下面将结合说明书附图以及具体实施方式对上述技术方案进行详细的说明。

实施例一:

请参阅图1-5,本发明一种嵌入式刀片弹性扩展AI边缘服务器的装置,包括:

一块或多块计算解码刀片,所述计算解码刀片从网络获取网络摄像头输入视频流,通过CPU自带解码器解码和预处理视频流,得到AI芯片所需的输入数据,通过PCIe将输入数据传输到AI芯片进行推理,采集AI芯片推理返回结果,将推理结果返回远程AI管理平台。AI芯片也可以直接设计到计算解码刀片上;

AI推理组件,从PCIe获取需要推理的输入数据,通过AI芯片推理出结果,通过PCIe返回AI推理组件;

交换主板,所述交换主板通过交换机芯片将网络摄像头视频流输入到AI计算解码刀片计算解码刀片和AI推理刀片配套使用,可以一块计算解码刀片带多开AI推理刀片,交换主板支持的刀片的安装方式可以是横插、竖插和斜插等,支持行业标准COM、Q7、DIMM、smarc和MXM等规范;

电源,所述电源为CPU以及交换主板提供电量;

硬盘,所述硬盘与CPU连接,用于将信息储存,CPU采用低功耗的ARM芯片,带强劲视频解码能力。

每块所述计算解码刀片可处理0-16路1080p视频流。

所述AI推理组件为AI推理刀片,所述AI推理刀片从PCIe获取需要推理的输入数据,通过AI芯片推理出结果,通过PCIe返回计算解码刀片。

主板上设置有多个带PCIe和网口的插槽,可根据性能和需求插不同数量的计算解码刀片和AI推理刀片。

所述AI推理组件为一台服务器整机,不同角色的整机通过网络交换机通信。

所述一台服务器整机的通信包括:

通用服务器通过网络交换机往GPU训练服务器下发软件算法和数据;

通用服务器通过网络交换机往AI推理服务器下发软件算法和数据;

GPU训练服务器和AI推理服务器计算通过网络交换机返回结果给通用服务器;

通用服务器获取返回结果后进一步处理和输出结果。

一种嵌入式刀片弹性扩展AI边缘服务器的方法,包括以下步骤:

S1:多路网络摄像头、图片或视频通过网络进入AI服务器,由网络交换机将数据分发传输到不同的AI计算解码刀片;

S2:根据当前计算解码刀片和AI刀片的负载情况,做负载均衡;

S3:由AI计算解码刀片解码和预处理网络摄像头视频流,得到AI芯片所需的输入数据后;

S4:通过PCIe接口传输到AI推理刀片进行推理出数据特征;

S5:通过PCIe接口将特征数据回传到计算解码刀片;

S6:通过计算解码刀片的网络回传到管理平台。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:多个协议层封装互连的虚拟链路状态

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!