实现工单分析的热词检测方法

文档序号:1073215 发布日期:2020-10-16 浏览:15次 >En<

阅读说明:本技术 实现工单分析的热词检测方法 (Hot word detection method for realizing work order analysis ) 是由 卢翔 苏杨 王玮 袁捷 白雪 刘维嘉 卢仁猛 李琨 余萱 宋奕 丁群峰 俞茜 于 2020-05-22 设计创作,主要内容包括:本发明公开了一种实现工单分析的热词检测方法,包括以下步骤:步骤S1:采集工单分析的文本数据作为数据源;步骤S2:对文本数据进行预处理;步骤S3:对专有词汇及关键短语进行收集并输出至分词处理模块;步骤S4:分词处理;步骤S5:进行词频统计;步骤S6:利用提取出高频的工单故障热词信息,以热词统计展示的方式进行工单的数据挖掘分析。本发明实现工单热词提取和分析,以热词统计展示的方式进行工单的故障统计、故障变化趋势等数据挖掘分析,发挥数据的内在隐藏价值和作用,从而提高IT运维服务的整体服务效率和服务质量。(The invention discloses a hot word detection method for realizing work order analysis, which comprises the following steps: step S1: collecting text data analyzed by a work order as a data source; step S2: preprocessing the text data; step S3: collecting the special vocabulary and the key phrases and outputting the special vocabulary and the key phrases to a word segmentation processing module; step S4: word segmentation processing; step S5: carrying out word frequency statistics; step S6: and performing data mining analysis on the work order in a hot word statistical display mode by using the extracted high-frequency work order fault hot word information. The invention realizes extraction and analysis of the hot words of the work order, carries out data mining analysis such as fault statistics, fault change trend and the like of the work order in a hot word statistics display mode, and exerts the internal hidden value and function of the data, thereby improving the overall service efficiency and service quality of the IT operation and maintenance service.)

实现工单分析的热词检测方法

技术领域

本发明涉及数据分析技术领域,特别涉及一种实现工单分析的热词检测方法。

背景技术

随着数据时代的到来,数据成几何倍数的爆发性增长,掌握数据能力,开采数据蕴含价值,发挥数据作用,提升数据运用能力已成为企业核心竞争力和软实力的表现。在电网企业中,IT客服工单记录了企业内部IT用户日常的使用问题和需求,阐述和体现了IT用户的真实诉求,以及各类IT系统在设计、功能和服务上可能存在的短板及问题。为了更好、更全面和更深入挖掘与分析IT客户服务工单数据隐含的有用信息,充分发挥数据隐藏的内在价值。按照IT服务智能大数据分析监控管理的要求,需要我们对IT运维工单进行数据挖掘和分析,实现工单的故障统计、故障变化趋势的监控和预测,但是,现有技术中,只是通过人工对工单数据进行简单的统计分析,无法实现IT运维工单的全面分析和监控,并且工作效率低,还占用大量人力。

发明内容

有鉴于此,本发明的目的是提供一种实现工单分析的热词检测方法,以热词统计展示的方式实现工单的故障统计、故障变化趋势等数据挖掘分析功能。

本发明的目的是通过以下技术方案实现的:

实现工单分析的热词检测方法,其特征在于:所述方法包括以下步骤:

步骤S1:采集工单分析的文本数据作为数据源;

步骤S2:对文本数据进行预处理,将处理后得到的数据输出至分词处理模块;

步骤S3:对专有词汇及关键短语进行收集并输出至分词处理模块;

步骤S4:分词处理模块利用分词工具,结合专有词汇和关键短语,采用N最短路分词算法对工单文本进行分词处理,提取出满足专有场景下的分词数组,然后过滤掉无意义的分词;

步骤S5:进行词频统计;

步骤S6:利用提取出高频的工单故障热词信息,以热词统计展示的方式进行工单的数据挖掘分析。

特别地,所述步骤S1中的数据源包括IT运维工单管理系统工单数据、Excel离线历史工单数据和录音文件。

特别地,所述IT运维工单管理系统工单数据是IT运维工单管理系统通过rest接口实时采集工单数据,通过配置的用户token进行用户信息验证,实现和IT运维工单管理系统进行数据集成,实时获取最新工单数据,从而提取工单相关信息形成文本数据。

特别地,所述Excel离线历史工单数据是通过excel的形式导入形成的文本数据。

特别地,所述录音文件是通过工具将IT呼叫系统中的通话录音文件导出后,经过语音转译工具,将语音转译为文本形成的文本数据。

特别地,所述步骤S2中,文本预处理是通过对IT运维工单字段进行分析,过滤掉无意义的字段内容,将关键字段内容整合到文本文档中,然后去除无意义的符号。

特别地,步骤S3中,对专有词汇及关键短语进行收集是通过对专有词汇和电力客户系统关键短语收集整理,形成配置文档,利用NLP分词技术对工单文本数据进行专有词汇、关键短语进行提取。

特别地,步骤S4中,词频统计处理过程中先进行停用词过滤处理,然后结合TF-IDF算法实现词频统计。

本发明的有益效果是:本发明提供的一种工单分析的热词检测方法,通过建立热词检测方法,实现工单热词提取和分析,以热词统计展示的方式进行工单的故障统计、故障变化趋势等数据挖掘分析,发挥数据的内在隐藏价值和作用,从而提高IT运维服务的整体服务效率和服务质量。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:

图1为本发明的方法流程图。

图2为本发明的数据来源示意图。

图3为工单热词词频统计内部处理流程图。

具体实施方式

以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。

如图1所示,本发明的一种实现工单分析的热词检测方法,其特征在于:所述方法包括以下步骤:

步骤S1:采集工单分析的文本数据作为数据源;本实施例中,数据源包括IT运维工单管理系统工单数据、Excel离线历史工单数据和录音文件。

IT运维工单管理系统工单数据是IT运维工单管理系统通过rest接口实时采集工单数据,通过配置的用户token进行用户信息验证,实现和IT运维工单管理系统进行数据集成,实时获取最新工单数据,从而提取工单相关信息形成文本数据。

Excel离线历史工单数据是通过excel的形式导入形成的文本数据。

录音文件是通过工具将IT呼叫系统中的通话录音文件导出后,经过语音转译工具,将语音转译为文本形成的文本数据。

步骤S2:对文本数据进行预处理,将处理后得到的数据输出至分词处理模块;

本实施例中,文本预处理是通过对IT运维工单字段进行分析,过滤掉无意义的字段内容,将关键字段内容整合到文本文档中,然后去除无意义的符号。

步骤S3:对专有词汇及关键短语进行收集并输出至分词处理模块;

对专有词汇及关键短语进行收集是通过对专有词汇和电力客户系统关键短语收集整理,形成配置文档,利用NLP分词技术对工单文本数据进行专有词汇、关键短语进行提取。

步骤S4:分词处理模块利用分词工具,结合专有词汇和关键短语,采用N最短路分词算法对工单文本进行分词处理,提取出满足专有场景下的分词数组,然后过滤掉无意义的分词;

步骤S5:进行词频统计;词频统计处理过程中先进行停用词过滤处理,然后结合TF-IDF算法实现词频统计。停用词过滤包括:通用停用词过滤、专有停用词过滤。通用停用词,采用业界通过的停用词(如:你好、啊等语气助词)。专有停用词,通过人工录入的形式在系统中录入专有停用词(如:催单、无法上网等),形成专有停用词词典。停用词过滤,分词结果根据专有停用词词典和通用停用词词典进行停用词过滤。

TF-IDF算法,是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,对每个词在工单中出现的次数进行统计,输出最终的热词词频。

步骤S6:利用提取出高频的工单故障热词信息,以热词统计展示的方式进行工单的数据挖掘分析。数据挖掘分析包括故障统计、故障变化趋势分析。

需要说明的是,本发明中的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:人机交互对话处理方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!