用于检测和预测工业过程自动化系统中的故障的系统和方法

文档序号：214445 发布日期：2021-11-05 浏览：15次 >En<

阅读说明：本技术 用于检测和预测工业过程自动化系统中的故障的系统和方法 (System and method for detecting and predicting faults in an industrial process automation system ) 是由 B.辛哈 A.巴塔查亚 M.塞沙德里于 2020-03-24 设计创作，主要内容包括：用于检测和预测工业过程自动化系统中的故障的系统和方法使用趋势数据来预测警告并允许在问题发生之前采取动作。该系统和方法提供随时间推移改进的故障/失效预测,因为为相关的系统组件集收集了更多的经验数据。该系统和方法可以标识过程自动化系统的组件之间的关系；标识并收集对系统配置的改变；标识并收集数据以告知可靠性和预测模型；为一个或多个组件开发特定于域的预测模型,该预测模型允许基于组件的失效或劣化预测；开发系统预测模型,该系统预测模型利用可靠性和关键性关系、基于组件的预测和操作参数来预测部分或整个过程自动化系统的健康状况；提供划分优先顺序的警告系统；以及标识组件的根本失效原因。(Systems and methods for detecting and predicting faults in industrial process automation systems use trend data to predict alerts and allow actions to be taken before problems occur. The system and method provide improved fault/failure prediction over time because more empirical data is collected for a relevant set of system components. The system and method can identify relationships between components of a process automation system; identifying and collecting changes to the system configuration; identifying and collecting data to inform reliability and predictive models; developing a domain-specific prediction model for one or more components, the prediction model allowing for component-based failure or degradation prediction; developing a system prediction model that predicts a health of a portion or an entire process automation system using reliability and criticality relationships, component-based predictions, and operating parameters; providing a prioritized warning system; and identifying a root cause of failure of the component.)

相关申请的交叉引用

本专利申请要求在2019年3月25日提交的题为“Systems and Methods forDetecting and Predicting Faults in an Industrial Process Automation System”的美国临时申请号62/823,377；在2019年3月25日提交的题为“Systems and Methods forPerforming Industrial Plant Diagnostics and Operations”的美国临时申请号62/823,469；以及在2019年5月3日提交的题为“Systems and Methods for PerformingIndustrial Plant Diagnostics”的美国临时申请号62/842,929的优先权权益并通过参考将其并入本文。

技术领域

本公开的各方面总地涉及工业过程自动化和控制系统。更具体地，本公开的各方面涉及用于检测和预测工业过程自动化系统中的故障的系统和方法。

背景技术

典型的工业工厂使用许多相互关联和相互连接的过程自动化系统来控制和操作工厂过程。每个系统通常以特定于该系统的操作的日志文件的形式生成数据。日志文件提供系统内发生的事件的记录(包括发生日期和时间)以及系统的不同组件之间的消息和通信。此类日志文件允许人员监视各种系统的故障，跟踪任何故障的根本原因，并采取适当的纠正措施。

现代过程自动化系统以极高速率生成数据和错误消息，这导致在短时间内产生大量数据。庞大的数据量可能通常使工厂人员和试图监视并解译数据的人员不堪重负。另外，每个系统都以特定于系统的格式生成数据，该格式通常与其它系统不同，这使得数据和错误消息的解译变得困难。此外，由每个系统生成的数据和错误消息往往具有很高的技术性，要求工厂人员具有该特定系统的专业知识。更复杂的是，每个系统都在通常不易辨别的单独位置中维护数据和错误消息。

因此，需要在工业过程自动化领域进行改进，特别是在监视和维护工业过程自动化系统的健康状况(health)方面进行改进。

发明内容

本公开的实施例提供用于检测和预测工业过程自动化系统中的故障的系统和方法。该实施例在采用分布式控制系统的工业过程自动化系统中特别有用。在一些实施例中，该系统和方法使用趋势数据来预测警告并允许在问题发生之前采取动作。该系统和方法提供随时间推移改进的故障(fault)/失效(failure)预测，因为为相关的系统组件集收集了更多的经验数据。该系统和方法可以标识过程自动化系统的组件之间的相互关系；标识并收集对系统配置的改变；标识并收集数据以告知可靠性和预测模型；为一个或多个组件开发特定于域的预测模型，该预测模型允许基于组件的失效或劣化预测；开发系统预测模型，该系统预测模型利用可靠性和关键性(criticality)关系、基于组件的预测和操作参数来预测部分或整个过程自动化系统的健康状况；提供划分优先顺序的警告系统；标识组件的根本失效原因。

与第一一个或多个设备相关联的故障可以通过显示与系统中的其它设备相关联的故障而引起用户的注意。在一些实施例中，本文中用于检测工业过程自动化系统中的故障的系统和方法可以确定并显示所显示故障的根本原因(即，显示与第一一个或多个设备相关联的故障是与其它设备相关联的故障的根本原因的指示)。在一些实施例中，该系统和方法可以跟踪过去和/或当前系统健康状况问题的解决方法以验证所提议的未来解决方案的效果。

在一些实施例中，本文中用于检测过程自动化系统中的故障的系统和方法可以对诊断和预测系统问题的主题专业知识进行编码和自动化。这可以降低对专用主题专家的需求并提高分析和响应的速度。在一些实施例中，本文的系统和方法可以基于可靠性、系统交互和关键性而将单独的警告置于上下文中。该系统和方法可以将根本失效原因检测自动化并且附加地标识源自系统的另一组件或配置改变的根本失效原因。在一些实施例中，该系统和方法可以将一个或多个日志消息和/或警告、系统数据、上下文或关系映射到人类可读文本摘录(excerpt)中。

在一些实施例中，本文中用于检测过程自动化系统中的故障的系统和方法可以为一个或多个过程自动化系统组件生成定制的系统可靠性和警告模型；基于组件之间的关系集成系统可靠性和警告模型；执行基于趋势的警告；基于历史动作和系统影响执行解决方法效果预测；以及在系统级执行根本原因标识。

在一些实施例中，本文中用于检测过程自动化系统中的故障的系统和方法可以使用过程自动化系统及其组件的结构视图来标识一个或多个关键组件和连接并生成关系数据库；基于主题专业知识为一个或多个组件和连接构建可靠性/警告模型；标识和捕获一个或多个组件的相关数据；根据组件/系统的特定特性调节模型；标识一个或多个组件的操作和趋势数据；检测一个或多个实体何时具有异常状况或预测的异常状况；评估异常状况的根本原因(例如，实体本身、另一相关实体或配置改变)并评估该状况对系统的影响；将所标识的状况转换为人类可读文本摘录；并记录一个或多个纠正动作，并将它们与先前的警告、模式和纠正动作相关联以预测一个或多个动作的效果。

一般而言，在一个方面中，本公开的实施例涉及一种用于工业工厂的监视系统。该监视系统尤其包括一个或多个处理器以及通信地耦合到该一个或多个处理器的存储单元。该存储单元存储处理器可执行指令，该处理器可执行指令在由该一个或多个处理器执行时使该监视系统运行为工业工厂输入数据文件的过程，该数据文件包含与工业工厂中的节点相关的数据，每个数据文件中的数据呈不同的数据格式。该处理器可执行指令还使该监视系统运行从该数据文件中提取该数据的过程，所提取的数据包括时间戳、设备名称、设备健康状况和消息内容，并且使该监视系统运行将来自该数据文件的该时间戳、设备名称、设备健康状况和消息内容转换为同构格式的过程。该处理器可执行指令还使该监视系统运行使用机器学习从转换后的时间戳、设备名称、设备健康状况和消息内容中提取特征以识别该特征的过程，并且使该监视系统运行使用机器学习标识该工业工厂中正经历警报的节点来识别该正经历警报的节点的过程，该警报指示该节点已失效或将在指定时间内失效。

根据任何一个或多个前述实施例，该处理器可执行指令进一步使该监视系统运行为该工业工厂中的该节点构建网络拓扑的过程，该网络拓扑为该工业工厂中的该节点建立层次结构。根据任何一个或多个前述实施例，该处理器可执行指令进一步使该监视系统运行使用机器学习标识该警报的根本原因以识别该根本原因的过程，运行使用机器学习估计该根本原因的概率以计算该概率的过程，运行基于该根本原因的该概率显示该警报的失效前时间(time-to-failure)的过程，和/或运行基于该警报的该失效前时间和/或该警报对工厂操作的影响以图形方式显示该警报的严重性级别的过程。根据任何一个或多个前述实施例，该处理器可执行指令进一步使该监视系统运行针对该工业工厂中正经历警报的该节点以图形方式显示指定时间段内的所有数据的过程，和/或运行使用机器学习以图形方式显示该工业工厂中正经历警报的所有节点来识别该节点的过程。根据任何一个或多个前述实施例，该处理器可执行指令进一步使该监视系统运行使用机器学习根据捕获的知识标识针对该警报的纠正动作以提取该纠正动作的过程，该捕获的知识包括用于该工业工厂的维护日志。根据任何一个或多个前述实施例，该处理器可执行指令进一步使该监视系统通过运行使用机器学习将特征提取规则应用于转换后的时间戳、设备名称、设备健康状况和消息内容的过程来提取特征。

一般而言，在另一个方面中，本公开的实施例涉及一种用于监视工业工厂的方法。该方法尤其包括为该工业工厂输入数据文件，该数据文件包含与该工业工厂中的节点相关的数据，每个数据文件中的该数据呈不同的数据格式；以及从该数据文件中提取该数据，所提取的数据包括时间戳、设备名称、设备健康状况和消息内容。该方法还包括将来自该数据文件的该时间戳、设备名称、设备健康状况和消息内容转换为同构格式；以及使用机器学习从转换后的时间戳、设备名称、设备健康状况和消息内容中提取特征以识别该特征。该方法进一步包括使用机器学习标识该工业工厂中正经历警报的节点来识别该正经历警报的节点，该警报指示该节点已失效或将在指定时间内失效。

根据任何一个或多个前述实施例，该方法进一步包括为该工业工厂中的该节点构建网络拓扑，该网络拓扑为该工业工厂中的该节点建立层次结构。根据任何一个或多个前述实施例，该方法进一步包括使用机器学习标识该警报的根本原因以识别该根本原因。根据任何一个或多个前述实施例，该方法进一步包括使用机器学习估计该根本原因的概率以计算该概率；基于该根本原因的该概率显示该警报的失效前时间，和/或基于该警报的该失效前时间和/或该警报对工厂操作的影响以图形方式显示该警报的严重性级别。根据任何一个或多个前述实施例，该方法进一步包括针对该工业工厂中正经历警报的该节点以图形方式显示指定时间段内的所有数据，和/或使用机器学习以图形方式显示该工业工厂中正经历警报的所有节点来识别该节点。根据任何一个或多个前述实施例，该方法进一步包括使用机器学习根据捕获的知识标识针对该警报的纠正动作以提取该纠正动作和/或使用机器学习将特征提取规则应用于转换后的时间戳、设备名称、设备健康状况和消息内容，该捕获的知识包括用于该工业工厂的维护日志。

一般而言，在又一方面中，本公开的实施例涉及一种存储计算机可读指令的计算机可读介质，该计算机可读指令用于使该一个或多个处理器执行根据任何一个或多个前述实施例的方法。

附图说明

可以通过参考各种实施例获得对以上简要概括的本公开的更详细描述，其中一些实施例在附图中示出。尽管附图示出了本公开的选择实施例，但是这些附图不应被视为对其范围的限制，因为本公开可允许有其它同等有效的实施例。

图1示出了根据本公开的实施例的示例性工业工厂监视系统；

图2示出了可以与本公开的实施例一起使用的示例性机器学习过程；

图3示出了根据本公开的实施例的监视工业工厂的示例性方法；

图4示出了根据本公开的实施例的示例性网络拓扑；

图5A至5B示出了根据本公开的实施例的用于示例性工业工厂监视器的HMI的示例性失效分析屏幕；

图6示出了根据本公开的实施例的用于示例性工业工厂监视器的HMI的设备错误趋势屏幕；并且

图7示出了根据本公开的实施例的用于示例性工业工厂监视器的HMI的聚合警报屏幕；

图8示出了根据本公开的实施例的用于示例性工业工厂监视器的HMI的详细警报屏幕；并且

图9示出了根据本公开的实施例的用于示例性工业工厂监视器的HMI的聚合日志消息屏幕。

酌情地使用相同的附图标记来表示图中共有的相同元件。然而，在一个实施例中公开的元件可以有益地用于其它实施例，而无需具体叙述。

具体实施方式

本说明书和附图示出了本公开的示例性实施例并且不应被视为限制性，其中权利要求限定本公开的范围(包括等效物)。在不脱离本说明书和权利要求的范围(包括等效物)的情况下，可以进行各种机械、组成、结构、电气和操作改变。在一些情况下，没有详细示出或描述公知结构和技术以免模糊本公开。此外，参考一个实施例详细描述的元件及其相关联的方面(只要试用)都可以包括在未具体示出或描述它们的其它实施例中。例如，如果参考一个实施例详细描述了一个元件而没有参考第二实施例详细描述该元件，则该元件仍然可以被要求保护为包括在第二实施例中。

现在参考图1，工业过程自动化系统100被示出用于执行工业过程，诸如炼油过程、化学处理过程、制造过程等。这里描述的特定工业过程自动化系统100通常被称为分布式控制系统(distributed control system，DCS)。DCS100通常包括执行工业过程中的一些子过程的多个现场设备，其中一个现场设备被指示为102。这些现场设备102可以包括例如传感器、致动器、马达、阀等。若干现场设备102连接到允许向设备102发出消息和从设备102发出消息的设备总线，其中一条设备总线被指示为104。每条设备总线104连接到将设备102链接到控制处理器108的I/O模块，其中一个I/O模块被指示为106。I/O模块106负责调节去往和来自设备102的消息并且可以是例如现场总线模块(fieldbus module，FBM)。控制处理器108基本上自主地操作以控制设备102的操作并且可以是例如可编程逻辑控制器(PLC)、远程终端单元(remote terminal unit，RTU)、可编程自动化控制器(programmableautomation controller，PAC)等。控制网络110允许控制处理器108彼此通信并与网络110上的其它系统通信。控制网络110可以使用以太网交换机、千兆接口转换器(gigabitinterface converter，GBIC)、光纤、电缆等来实施，和/或可以是无线的。

一个或多个数据服务器112和一个或多个应用工作站/工作站处理器(application workstation/workstation processor，AW/WP)114以及其它组件也连接到网络110。应用工作站/工作站处理器114允许工厂人员通常通过图形用户界面手动地执行关于工业过程的各种任务，诸如运行测试、配置硬件、安装软件、修改过程参数等。数据服务器112自动地向控制处理器108提供用于执行工业过程(或其部分)的数据，并且还自动地从控制处理器108获取用于监视工业过程的数据。由数据服务器112获取的一些数据可以包括在控制处理器108处发生的事件(包括发生日期和时间)以及由控制处理器108发出和接收的消息和通信。这些事件和消息通常由在数据服务器112上运行的过程监视应用获取，该过程监视应用通常将数据记录在日志文件和系统健康状况数据中。

日志文件和系统健康状况数据然后可以由数据服务器112通过工业网络116发送到监控整个工业过程的工业工厂诊断系统120。工业工厂诊断系统120尤其提供单独的过程控制器108的高级监视，这允许工厂人员监督工业过程并协调各种过程控制器108的操作。在所示的示例中，示例性工业工厂诊断系统120具有典型的系统架构，其包括一个或多个处理器122、内部输入和/或输出(“I/O”)接口124和存储器126，所有这些都彼此通信地耦合和/或电连接。系统120的这些组件的操作在本领域中通常是公知的，因此在这里仅简要提及。

一般而言，一个或多个处理器122适于执行存储在存储器126中的处理器可执行指令。I/O接口124允许处理器122与外部系统(和用户)交互和通信。该通信可以通过一个或多个通信网络(诸如工业网络110、广域网(WAN)、局域网(LAN)等)完成。存储器126适于由此根据请求向处理器122提供处理器可执行指令。在本公开的范围内，本领域技术人员已知的其它计算组件也可以包括在工业工厂诊断系统120中。

如上所述，数据服务器112、或者更确切地说在其上运行的过程监视应用可以极高速率生成日志文件和系统健康状况数据，从而在短时间内产生大量数据。另外，所生成的数据可能具有高度技术性和系统特定性，要求工厂人员具备该特定系统的专业知识。可以在数据服务器112上运行的过程监视应用的示例包括SMON(系统监视器)、Wireshark、Multicast、Netsight、Syslog、System Auditor、以及数据历史和归档应用、来自本地观察数据库的计数器、应用工作站空间报告、控制处理器负载报告、CRC(循环冗余校验)和其它错误校验应用，以及本领域技术人员已知的系统和网络陷阱及中断例程。庞大的数据量和数据的高度技术性通常会使需要使用数据来检测DCS 100中的故障并确定其根本原因的工厂人员不堪重负。

因此，根据本公开的实施例，存储器126存储工业工厂监视器130，该工业工厂监视器130可以自动地处理由数据服务器112生成的数据以检测和预测DCS 100(和类似的工业过程自动化系统)中的故障。工业工厂监视器130尤其可以自动地聚合来自各种数据服务器112的日志文件和系统健康状况数据，并分析不同组件之间的影响和交互以标识可能的组件失效、估计失效前的时间、针对失效发出警报并确定失效的可能根本原因。工业工厂监视器130还可以直观的、基于上下文的格式呈现数据，这允许工厂人员快速评估潜在的故障状况、其关键性、其根本原因，并确定可能的纠正动作。简而言之，工业工厂监视器130可以为整个DCS 100而不仅仅是为其中的单独设备提供系统级健康状况监视器。

在一些实施例中，工业工厂监视器130包括多个功能模块，该多个功能模块一起工作以提供上述系统级健康状况监视。这些功能模块可以包括例如数据提取器132、网络拓扑构建器134、特征提取器136、根本原因标识符138、根本原因概率估计器140、失效前时间估计器142、模式匹配模块144、一个或多个ML算法146以及HMI应用148。尽管这里将功能模块示为离散框，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以将两个或多个框组合为单个框，并且可以将任何单个框划分为若干个组成框。本文稍后描述了工业工厂监视器130的操作的更详细描述。

接下来参考图2，示出了示例性机器学习过程200，其在一些实施例中可以与工业工厂监视器130一起使用。机器学习过程200可以由需要某种形式的机器学习来分析来自各种数据服务器112的日志文件和系统健康状况数据的功能模块132至144中的任一者应用。在所示的示例中，机器学习过程200包括数据输入组件202、一个或多个机器学习模型或算法204、自动反馈/纠正组件206、用户应用208、手动反馈/纠正组件210以及分析器212。可以与机器学习过程200一起使用的算法的示例包括长短期记忆(Long Short-Term Memory，LSTM)、随机森林、决策树、自然语言处理等。

在一般操作中，数据输入组件202接收数据(例如，日志文件、系统健康状况数据等)，并且在适当的预处理之后，将数据馈送到一个或多个机器学习模型204。机器学习模型204使用机器学习和神经网络处理技术从数据中提取相关特征(例如，事件、发生的日期时间、错误消息等)。自动反馈/纠正组件206应用被配置为检测从机器学习模型204接收的输出中的错误的规则和算法。这些错误用于自动纠正模型输出，并经由分析器212馈送回机器学习模型204以更新机器学习模型204的处理。来自自动反馈/纠正组件206的处理后的输出然后被显示给用户以经由用户应用208进行验证。由用户做出的纠正被手动反馈/纠正组件210捕获并经由分析器212馈送回机器学习模型204中。这允许机器学习模型204不断改进对来自输入数据的相关特征的评估和提取。

图3是示出根据本公开的实施例的工业工厂监视器130的示例性操作流程图300。流程图300具有两个主要阶段：配置阶段302和应用阶段304。在配置阶段302中，工业工厂监视器130为DCS 100构建网络拓扑并执行其它软件和硬件配置任务。在应用阶段304中，工业工厂监视器130对日志文件和系统健康状况数据执行分析以检测故障，针对失效预测失效前时间并标识根本原因。工业工厂监视器130根据需要持续地执行两个阶段302和304，因此它们基本上彼此并行运行。

在配置阶段302中，为DCS 100获得来自网络发现应用的输出并将该输出存储在组件和模块库存数据库306中。可以使用可以搜索像DCS 100这样的网络并发现网络节点、连接性、路由协议等的任何合适的网络发现应用来提供存储在组件和模块库存数据库306中的信息。然后，在框308处，工业工厂监视器130使用该库存为DCS 100构建网络拓扑。在一些实施例中，构建网络拓扑涉及聚合DCS 100中的所有节点以及基于节点彼此的关系和它们彼此的连接性将节点定位在层次结构中。该信息可以包括唯一地标识每个节点的信息，诸如每个节点的IP地址、MAC地址、标识码(letterbug)(例如，字母数字标识符)等，以及每个节点的任何硬件、软件和固件的编号以及由每个节点使用的网络路由协议。在容错设备的情况下，还可以收集与主设备和辅助或备用设备相关的信息。工业工厂监视器130然后可以使用该信息来构建网络拓扑，该网络拓扑详细说明节点如何相互连接以及数据如何在网络中的节点之间传输。

图4示出了DCS 100的网络拓扑400的示例，该网络拓扑由工业工厂监视器130根据配置阶段302中的搜寻(ferret)输出而构建。该示例中的网络拓扑400包括彼此连接以形成整体网络拓扑400的多个分支402。每个分支包括通过网状网络406连接在一起的一个或多个根设备402(例如，根桥)和一个或多个交换机404。一个或多个工作站408通过网状网络406连接到交换机404中的一个或多个，一个或多个控制处理器410也是如此。在提供备用或辅控制处理器(shadow control processor)的情况下，辅控制处理器还可以通过网状网络406连接到交换机404中的一个或多个。一个或多个控制处理器410进而连接到一条或多条现场总线414，该一条或多条现场总线经由一个或多个现场总线模块418(FBM)(诸如现场设备系统集成模块(field device system integrator module，FDSI))将一个或多个控制处理器410链接到一个或多个现场设备416。这种网络拓扑400然后可以存储在网络数据库310中以供随后在应用阶段306中使用以检测故障针对失效预测失效前时间并确定根本原因。

应用阶段306(图3)通常开始于在框312处将数据源输入到工业过程监视器130中。数据源可以包括由在前面提到的数据服务器上运行的过程监视应用(例如，SMON、Wireshark、Syslog、System Auditor、CRC等)生成的日志文件和系统健康状况数据以及其它时间序列数据。在框314处，工业过程监视器130从各种数据源中提取相关数据。这种数据提取可以涉及从各种数据源读取时间序列数据并将数据加载到存储器中，然后将来自各种源的数据转换为同构格式。示例性同构格式可以包括时间戳字段、数据源字段、用于生成数据的设备的字段、用于与数据相关的消息的字段、用于作为消息的对象的设备的名称的字段等。所提取的数据然后可以用于用根据该数据标识的尚未包括在网络拓扑中的任何设备动态地更新网络拓扑。

在框316处，工业过程监视器130从所提取的数据中提取相关特征以与前面提及的机器学习过程200(图2)一起使用。该特征提取可以涉及将各种规则应用于所提取的数据以根据数据标识相关特征。然后可以定期(例如，10分钟、20分钟、30分钟等)对数据重新采样，并再次从数据中提取相关特征。可以应用于所提取的数据的规则的示例如下表1所示。

表1：特征提取器规则

可以将上述规则应用于从各种数据源中提取(框314)的数据以标识用于机器学习目的的相关特征。可以提取的特征的示例性类型包括以下各项：设备类型、每日ARP计数、ARP搜索设备、每日总GBIC错误计数、每日间歇性GBIC错误计数、GBIC趋势计数、ReadLM错误计数、示出错误的控制处理器百分比、装备失效、每日拓扑改变计数、间歇性拓扑计数、每日总线错误计数、间歇性总线错误、模数错误计数、间歇性模数错误计数、结合-再结合(marry-remarried)间歇模式等。

在框318处，工业过程监视器130根据所提取的特征(例如，使用机器学习过程200)标识潜在失效和该失效的根本原因。这种失效/根本原因标识可以涉及训练机器学习模型，诸如随机森林或决策树，以使用历史日志文件数据标识根本原因。用于根本原因标识的网络拓扑信息由网络数据库310提供。在一个示例中，使用了来自工业过程自动化系统(如DCS100)的9个月历史日志文件数据。从这种数据中选择了6周数据，其中4周数据用于训练，并且2周数据用于验证该训练。

训练涉及使用实际数据(例如，消息)和特征标签创建特征矩阵。该矩阵的维度为N×M，其中N是特征的数量，而M是特征提取规则(例如，表1)的数量。特征标签是从工厂维护日志导出并从主题专家输入。为逻辑相关的特征组创建中间标签。因此，与拓扑改变、ARP模式增加、ReadLM错误等相关的特征被赋予例如“交换机硬件问题”的中间标签。类似地，与拓扑改变增加、GBIC错误、ARP搜索增加等相关的特征被标记为例如“交换机GBIC问题”。总线访问错误被标记为例如“总线访问错误”，并且A-to-D故障被标记为例如“A-to-D设备失效”，而控制处理器再结合失效和模块复位错误被标记为例如“控制处理器硬件错误”。诸如间歇性ReadLM错误和间歇性ARP消息之类的错误被标记为例如“交换机与控制处理器之间的光纤变脏”，而所有连接设备的间歇性ARP消息被标记为例如“响应时间慢”。

在框320处，工业过程监视器130根据所标识的失效/根本原因标识失效/根本原因的概率(例如，使用机器学习过程200)。该概率标识可以涉及使用如上文关于框318描述的历史日志文件数据训练机器学习模型(例如，随机森林、决策树等)的类似过程。在一些实施例中，还可以提供与所标识的根本原因相关联的设备作为用于训练机器学习模型的输入。

在框322处，工业过程监视器132基于在框318中确定的失效/根本原因概率来预测失效前时间(例如，使用机器学习过程200)。这种失效前时间预测可以涉及基于给定失效/根本原因的概率为给定失效/根本原因指派预定义的时间间隔。失效前时间间隔的持续时间可以基于例如历史日志文件、系统健康状况数据和错误数据。例如，如果给定失效的概率大于99％，则失效已经发生并且可以由工业过程监视器130指派零天的失效前时间。如果给定失效的概率为90％或更高，则失效已经发生或即将发生，并且可能会被指派24小时的失效前时间。

如果给定失效的概率大于30％但小于90％，则工业过程监视器130可以预测针对该失效提取的特征将在1天内发生(即，将数据向前投射或插入1天)。工业过程监视器130然后可以重新运行具有这些特征的根本原因和概率标识以查看概率是否已经达到90％。如果是，则为该失效保留1天的失效前时间。如果否，则工业过程监视器130将失效前时间再增加一天并重复该过程直到概率达到90％为止。如果增加的天数超过5天，则不指派失效前时间。

在一些实施例中，工业过程监视器可以使用随机森林回归(Random ForestRegression，RFR)模型来寻找失效前时间间隔(而随机森林分类(Random ForestClassification，RFC)可以用于寻找根本原因)。构建RFR涉及将失效的实际日(例如，如现场工程师报告的)设置为训练数据中该失效的第0天，然后查看时间追溯到例如前5天的数据中的特征。表2示出了用于RFR模型的示例性训练数据集。该数据是针对导致控制处理器和现场总线模块之间通信出现问题的组件问题。可以看到两个趋势与PIO总线访问错误和容错MAC复位计数相关。

PIO总线访问错误	容错MAC复位错误	剩余小时数
			214	595	0
162	400	24
			162	200	48
100	95	72
			35	22	96

表2：示例性RFR训练数据

在框324处，工业过程监视器130对来自知识捕获数据库326的数据执行模式匹配以确定之前是否发生了相同或类似的失效/根本原因以及采取了哪些纠正动作来解决失效。存储在知识捕获数据库326中的数据通常包括维护日志和由工厂人员先前为纠正DCS100中随时间发生的各种错误而采取的动作的记录。可以包括文本文档、电子表格等的这些维护日志和记录通常由工厂人员使用常用词和短语来维护。因而，工业过程监视器130经由机器学习过程200使用自然语言处理(NLP)以从维护日志和记录中提取相关信息。自然语言处理允许工业过程监视器130快速滤除无关的词和短语并专注于关键信息。因此，例如，如果因为紧接在前的动作无效而采取多个不同的纠正动作A、B和C来解决特定失效，则工业过程监视器130可以直接回到修复了失效的最终纠正动作(动作C)。

在框328处，工业过程监视器130以HMI(在本文被称为仪表板)的形式向工厂人员提供上述分析。仪表板本质上是工业过程监视器130可以生成并向用户显示的屏幕的集合，其以直观的、基于上下文的格式向用户提供数据，这允许用户快速评估潜在的故障状况、其关键性、其根本原因，并确定可能的纠正动作。该仪表板对大量(可能数以百万计)日志文件和系统健康状况数据的内容(该内容已被聚合并转换为可用的、可执行的信息)以图形方式进行可视化。用户从HMI/仪表板可能能够快速看到例如某个交换机(例如，交换机TT2061)在某个组件(例如，GBIC17)中存在问题，该问题可能导致交换机很快(例如，在接下来的五天内)失效。

图5A至5B示出了示例性工业工厂监视器的仪表板的示例性失效分析屏幕500。屏幕500包括交换机502，该交换机502通过光纤504经由控制处理器506的若干端口508中的一个连接到控制处理器506。控制处理器506进而通过总线514(例如，HDLC)经由若干端口510中的一个连接到现场总线模块512。在图5A的示例中，工业工厂监视器已经基于来自控制处理器506的日志消息确定在控制处理器506的端口510中的一个与现场总线模块512之间存在故障状况。另外，基于这些日志消息，工业工厂监视器已确定故障状况很可能是由总线514引起的。相比之下，在图5B的示例中，工业工厂监视器已经基于来自控制处理器506和交换机502的日志消息确定故障状况很可能是由光缆504引起的。

图6示出了可以由工业工厂监视器生成和显示的仪表板的示例性设备错误趋势屏幕600。该屏幕提供在602处指示的设备错误趋势，其示出与设备相关联的每个日志源的错误计数的图。本示例中的设备是TT2061，并且在808处指示从其中获取设备数据的日志源。在一些实施例中，日志源可以进行颜色译码和/或符号译码以在不同的日志源之间进行区分。用户可以从该屏幕快速查看设备的错误计数开始增加的时间间隔，由此警告该用户在该时间间隔内设备存在潜在问题。在604处提供日期和时间信息，并且在606处提供缩放选项(例如，1小时、3小时、6小时、1天、3天、1周等)。

图7示出了可以由工业工厂监视器生成和显示的仪表板的示例性聚合警报屏幕700。该屏幕的主要目的是提供DCS中的所有警报和潜在故障状况的列表(在702处指示)。在所示实施例中，列表702包括日期、设备名称、严重性指示器以及包含列表中的每个警报的可用和可执行信息的消息字段。在该示例中，消息字段包含警报的根本原因标识连同警报的概率估计。基于概率估计(例如，第一警报的概率为39％)，工业工厂监视器预测所讨论的设备的失效前时间(例如，三天内)。因而，严重性指示器可以为该设备提供严重性“高”。在一些实施例中，严重性指示器可以是基于颜色的(例如，红色代表关键性的，黄色代表高，橙色代表低等)，基于符号的(例如，感叹号代表关键性的，问号代表高，破折号代表低等)，或两者的组合。在一些实施例中可以包括在704处指示的附加和/或替代信息，诸如当前分析的日期和时间。在一些实施例中可以包括搜索框706以允许用户使用自然语言查询来搜索警报和故障状况。(例如，通过轻敲、双击等)选择列表702中的警报中的一个(诸如针对设备01CP21的警报)会将用户带到该警报的详细警报屏幕。

在一些实施例中，工业工厂监视器基于警报将对工厂和/或业务运营的连续性产生的影响向警报指派严重性级别(例如，关键性的、高、低等)。相对于具有较小影响(例如，吞吐量降低)的警报，具有更显著影响(例如，潜在的过程关闭)的警报被指派有更高的严重性。因此，例如，可以为交换机和控制处理器指派相对于应用工作站、FBM、现场设备等具有更高关键性的设备。类似地，由受控处理器控制的区域可以基于由处理器的区域执行的功能以及对业务运营的影响而被指派有高优先级或中/低优先级。在一些情况下，严重性指派可以由操作员在系统配置期间手动进行，和/或严重性指派可以由系统使用以历史警报训练数据训练的机器学习算法持续进行。在任何一种情况下，为各种警报指派不同严重性级别的能力允许工业工厂监视器为操作员提供警报的上下文，使得可以将更高的优先级转移到工厂中受关键设备影响的过程/区域。

图8示出了可以由工业工厂监视器生成和显示的仪表板的示例性详细警报屏幕800。顾名思义，该屏幕显示关于所选警报的详细信息，包括在802处指示的错误详细信息，诸如日期、严重性、分析详细信息等等，以及在804处指示的设备详细信息，诸如设备标识码、设备描述、软件/硬件/固件版本等等。屏幕还可以在806处提供与图7中的设备错误趋势类似的设备错误趋势，其示出了与设备相关联的每个日志源的错误计数的图808。为了提供上下文，该屏幕还示出了设备所处的网络拓扑的相关网络部分810，因此用户可以看到设备驻留在DCS内的位置。在一些实施例中，屏幕还提供根据需要放大和缩小网络部分810的选项。

图9示出了可以由工业工厂监视器生成和显示的仪表板的聚合日志消息屏幕。该屏幕聚合日志错误消息，并根据日志文件和系统健康状况数据以及按时间对它们进行分组。因此，在902处指示的错误消息是从一个日志文件中获得的，而在904处指示的错误消息是从不同的日志文件中获得的，等等。在一些实施例中，错误消息可以进行颜色译码以便于查看。用户从该屏幕可以快速查看DCS中当前正经历故障状况的所有设备的错误消息。

因此，如本文所描述的，本公开的实施例提供用于检测和预测工业过程自动化系统中的故障的系统和方法。此类实施例可以包括专用计算机，其包括如下文更详细描述的多种计算机硬件。

本公开的范围内的实施例还包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。此类计算机可读介质可以是可以由专用计算机访问的任何可用介质，并且包括计算机存储介质和通信介质。通过示例而非限制的方式，计算机存储介质包括以任何方法或技术实施的用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的易失性和非易失性、可移除和不可移除介质两者。计算机存储介质是非暂时性的，并且包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)、数字多功能磁盘(DVD)或其它光盘存储设备、固态驱动器(SSD)、磁带盒、磁带、磁盘存储设备或其它磁存储设备，或可以用于承载或存储呈计算机可执行指令或数据结构形式的期望的非暂时性信息并且可以被计算机访问的任何其它介质。当通过网络或另一种通信连接(硬连线、无线或硬接线或无线的组合)向计算机传递或提供信息时，计算机适当地将连接视为计算机可读介质。因此，将任何此类连接适当地称为计算机可读介质。上述组合也应包括于计算机可读介质的范围内。计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行某个功能或功能组的指令和数据。

以下讨论旨在提供对可以在其中实施本公开的各方面的合适计算环境的简要、一般描述。尽管不是必需的，但是将在由网络环境中的计算机执行的计算机可执行指令(诸如程序模块)的一般上下文中描述本公开的各方面。通常，程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开的方法的步骤的程序代码部件的示例。此类可执行指令或相关联的数据结构的特定序列表示用于实施在此类步骤中描述的功能的对应动作的示例。

本领域技术人员应当理解，本公开的各方面可以在具有许多类型的计算机系统配置的网络计算环境中实践，该计算机系统配置包括个人计算机、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型计算机、大型计算机等。本公开的各方面还可以在分布式计算环境中实践，在该分布式计算环境中，任务由通过通信网络链接(通过硬连线链路、无线链路或通过硬连线或无线链路的组合)的本地和远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备两者中。

用于实施本公开的各方面的示例性系统包括呈常规计算机形式的专用计算设备，包括处理单元、系统存储器和将包括系统存储器的各种系统组件耦合到处理单元的系统总线。系统总线可以是多种类型的总线结构中的任何一种，包括存储器总线或存储器控制器、外围总线和使用多种总线架构中的任何一种的本地总线。系统存储器包括计算机存储介质，包括非易失性和易失性存储器类型。基本输入/输出系统(BIOS)可以存储在ROM中，该基本输入/输出系统包含帮助在计算机内的元件之间(诸如在启动期间)传递信息的基本例程。此外，计算机可以包括能够从互联网无线接收IP地址或将IP地址无线地发送到互联网的任何设备(例如，计算机、膝上型计算机、平板计算机、PDA、手机、移动电话、智能电视等)。

计算机还可以包括用于从磁性硬盘读取和写入其中的磁性硬盘驱动器、用于从可移除磁盘读取或写入其中的磁盘驱动器，以及用于从可移除光盘(诸如CD-ROM或其它光学介质)读取或写入其中的光盘驱动器。磁性硬盘驱动器、磁盘驱动器和光盘驱动器分别通过硬盘驱动器接口、磁盘驱动器接口和光驱接口连接到系统总线。驱动器及其相关联的计算机可读介质为计算机提供对计算机可执行指令、数据结构、程序模块和其它数据的非易失性存储。尽管本文描述的示例性环境采用磁性硬盘、可移除磁盘和可移除光盘，但是也可以使用用于存储数据的其它类型的计算机可读介质，包括磁带、闪存卡、数字视频盘、伯努利磁带盒、RAM、ROM、SSD等。

通信介质通常以诸如载波或其它传输机制之类的调制数据信号体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息递送介质。

包括一个或多个程序模块的程序代码设备可以存储在硬盘、磁盘、光盘、ROM和/或RAM上，包括操作系统、一个或多个应用程序、其它程序模块和程序数据。用户可以通过键盘、定点设备或其它输入设备(诸如麦克风、操纵杆、游戏手柄、卫星天线、扫描仪等)将命令和信息输入计算机中。这些和其它输入设备通常通过耦合到系统总线的串行端口接口连接到处理单元。替代地，输入设备可以通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其它接口连接。监视器或另一种显示设备也经由诸如视频适配器之类的接口连接到系统总线。除了监视器之外，个人计算机通常还包括其它外围输出设备(未示出)，诸如扬声器和打印机。

本公开的一个或多个方面可以体现在作为应用程序、程序模块和/或程序数据存储在系统存储器或非易失性存储器中的计算机可执行指令(即，软件)、例程或函数中。替代地，该软件可以远程存储，诸如存储在具有远程应用程序的远程计算机上。通常，程序模块包括在由计算机或其它设备中的处理器执行时执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令可以存储在一个或多个有形、非暂时性计算机可读介质(例如，硬盘、光盘、可移除存储介质、固态存储器、RAM等)上并由一个或多个处理器或其它设备执行。如本领域技术人员应当理解，在各种实施例中，程序模块的功能性可以根据需要进行组合或分布。另外，该功能性可以全部或部分地体现在固件或硬件等效物(诸如集成电路、专用集成电路、现场可编程门阵列(FPGA)等)中。

计算机可以使用与一台或多台远程计算机的逻辑连接在联网环境中操作。远程计算机可以各自是另一台个人计算机、平板计算机、PDA、服务器、路由器、网络PC、对等设备或其它公共网络节点，并且通常包括上文相对于计算机描述的许多或所有元件。逻辑连接包括在这里通过示例而非限制的方式呈现的局域网(LAN)和广域网(WAN)。此类联网环境在办公室范围或企业范围的计算机网络、内部网和互联网中很常见。

当在LAN联网环境中使用时，计算机通过网络接口或适配器连接到本地网络。当在WAN联网环境中使用时，计算机可以包括调制解调器、无线链路或用于在广域网(诸如互联网)上建立通信的其它部件。调制解调器(其可以是内部的也可以是外部的)经由串行端口接口连接到系统总线。在联网环境中，相对于计算机描绘的程序模块或其部分可以存储在远程存储器存储设备中。应当理解，所示的网络连接是示例性的，并且可以使用在广域网上建立通信的其它部件。

优选地，计算机可执行指令存储在诸如硬盘驱动器之类的存储器中并由计算机执行。有利地，计算机处理器具有实时执行所有操作(例如，执行计算机可执行指令)的能力。

除非另有说明，否则本文示出和描述的本公开的实施例中的操作的执行(execution/performance)顺序不是必要的。即，除非另有说明，否则可以任何顺序执行操作，并且本公开的实施例可以包括比本文公开的那些操作更多或更少的操作。例如，可预期在另一操作之前、在其同时或之后执行特定操作在本公开的各方面的范围内。

本公开的实施例可以用计算机可执行指令来实施。计算机可执行指令可以被组织成一个或多个计算机可执行组件或模块。本公开的各方面可以用任何数量和组织的此类组件或模块来实施。例如，本公开的各方面不限于特定的计算机可执行指令或图中所示出和本文描述的特定组件或模块。本公开的其它实施例可以包括不同的计算机可执行指令或组件，其具有比本文所示出和描述的更多或更少的功能性。

当介绍本公开的各方面的元件或其实施例时，冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或多个元件。术语“包括(comprising、including)”和“具有”旨在是包含性的，并且意味着可以存在除所列元件之外的其它元件。

在已经详细描述了本公开的各方面之后，显而易见的是，在不脱离如所附权利要求限定的本公开的各方面的范围的情况下，可进行许多修改和改变。由于在不脱离本公开的各方面的范围的情况下可在上述结构、产品和方法中做出各种改变，因此希望在以上描述中包含并且在附图中所示的所有内容应被解释为说明性的而不是限制性的意义。

27页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：载具管理

用于检测和预测工业过程自动化系统中的故障的系统和方法

相关技术

网友询问留言