一种企业经营数据识别系统及方法
阅读说明:本技术 一种企业经营数据识别系统及方法 (Enterprise operation data identification system and method ) 是由 杜素娟 于 2021-09-10 设计创作,主要内容包括:本发明提出了一种企业经营数据识别系统及方法,涉及数据识别领域。一种企业经营数据识别系统通过数据获取模块获取企业经营数据;预处理模块将企业经营数据进行预处理,生成预处理数据;分类模块将预处理数据进行分类,生成多个类别数据;时间格式识别模块提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,筛选模块根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,数组生成模块将各个时间格式的数据进行排序,生成多个数组,识别模块将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性。(The invention provides an enterprise operation data identification system and method, and relates to the field of data identification. An enterprise operation data identification system acquires enterprise operation data through a data acquisition module; the enterprise operation data is preprocessed by the preprocessing module to generate preprocessed data; the classification module classifies the preprocessed data to generate a plurality of classification data; the time format identification module extracts and identifies time data corresponding to each data in each category data to generate a plurality of time format information, the screening module screens the data in each category data according to the time format information to obtain a plurality of time format data, the array generation module sorts the time format data to generate a plurality of arrays, and the identification module identifies the arrays respectively by adopting an anomaly detection algorithm to obtain a plurality of abnormal data, so that the abnormal data can be identified without being checked by professionals, and the accuracy of an analysis result is improved.)
技术领域
本发明涉及数据识别领域,具体而言,涉及一种企业经营数据识别系统及方法。
背景技术
企业经营数据分析,是根据研究的目的和要求,运用科学的方法和手段,对企业统计数据进行定性和定量分析,揭示现象的本质和规律,为决策和管理提供咨询服务的过程。
目前企业经营数据分析是采用人工进行专业的分析,而在数据资料数量较大时,需要花费较多的时间;同时,专业人员在查看这些数据时,由于数据较大,专业人员不容易识别到其中的异常数据,从而影响分析结果。
发明内容
本发明的目的在于提供一种企业经营数据识别系统及方法,用以改善现有技术中专业人员在查看企业经营数据时,由于数据较大,专业人员不容易识别到其中的异常数据的问题,从而影响分析结果。
第一方面,本申请实施例提供一种企业经营数据识别系统,其包括数据获取模块、预处理模块、提取模块和识别模块;
数据获取模块,用于获取企业经营数据;
预处理模块,用于将企业经营数据进行预处理,生成预处理数据;
分类模块,用于根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;
时间格式识别模块,用于提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息;
筛选模块,用于根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据;
数组生成模块,用于将各个时间格式的数据按照时间顺序进行排序,生成多个数组;
识别模块,用于将多个数组分别采用异常检测算法进行识别,得到多个异常数据。
上述实现过程中,通过数据获取模块获取企业经营数据;预处理模块将企业经营数据进行预处理,生成预处理数据;分类模块根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;时间格式识别模块提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,筛选模块根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,数组生成模块将各个时间格式的数据按照时间顺序进行排序,生成多个数组,识别模块将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。
基于第一方面,在本发明的一些实施例中,上述预处理模块包括:
优化单元,用于将企业经营数据采用主成分分析法进行优化,生成预处理数据。
基于第一方面,在本发明的一些实施例中,上述数组生成模块包括:
初始数组生成单元,用于将各个时间格式的数据按照时间顺序进行排序,生成多个初始数组;
去重单元,用于将各个初始数组中的数据进行去重,生成多个数组。
基于第一方面,在本发明的一些实施例中,还包括:
标识模块,用于将多个异常数据进行标识,生成新的企业经营数据。
基于第一方面,在本发明的一些实施例中,还包括:
报告生成模块,用于将多个异常数据进行排序,生成异常数据报告。
第二方面,本申请实施例提供一种企业经营数据识别方法,包括以下步骤:
获取企业经营数据。
将企业经营数据进行预处理,生成预处理数据。
根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据。
提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息。
根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据。
将各个时间格式的数据按照时间顺序进行排序,生成多个数组。
将多个数组分别采用异常检测算法进行识别,得到多个异常数据。
上述实现过程中,通过获取企业经营数据;然后将企业经营数据进行预处理,生成预处理数据;然后根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;然后提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,然后根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,然后将各个时间格式的数据按照时间顺序进行排序,生成多个数组,最后将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。
基于第二方面,在本发明的一些实施例中,上述将企业经营数据进行预处理,生成预处理数据的步骤包括:
将企业经营数据采用主成分分析法进行优化,生成预处理数据。
基于第二方面,在本发明的一些实施例中,上述将各个时间格式的数据按照时间顺序进行排序,生成多个数组的步骤包括:
将各个时间格式的数据按照时间顺序进行排序,生成多个初始数组;
将各个初始数组中的数据进行去重,生成多个数组。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当上述一个或多个程序被上述处理器执行时,实现如上述第一方面中任一项上述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种企业经营数据识别系统及方法,通过数据获取模块获取企业经营数据;预处理模块将企业经营数据进行预处理,生成预处理数据;分类模块根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;时间格式识别模块提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,筛选模块根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,数组生成模块将各个时间格式的数据按照时间顺序进行排序,生成多个数组,识别模块将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。通过报告生成模块将多个异常数据进行排序,生成异常数据报告,方便专业人员快速了解到异常数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种企业经营数据识别系统结构框图;
图2为本发明实施例提供的一种企业经营数据识别方法流程图;
图3为本发明实施例提供的一种电子设备的结构框图。
图标:110-数据获取模块;120-预处理模块;130-分类模块;140-时间格式识别模块;150-筛选模块;160-数组生成模块;170-识别模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
请参看图1,图1为本发明实施例提供的一种企业经营数据识别系统结构框图。该企业经营数据识别系统,包括数据获取模块110、预处理模块120、提取模块和识别模块170。
数据获取模块110,用于获取企业经营数据;上述企业经营数据可以是手动输入,也可以是从其他的系统进行导入,还可以是通过图片进行识别得到。上述企业经营数据包括有企业的基本信息、企业成本预测数据、目标利润、企业资金实力、偿债能力、每月营业额等信息,上述企业经营数据可以是包括多个年限的企业经营数据。
预处理模块120,用于将企业经营数据进行预处理,生成预处理数据;上述预处理是指将企业经营数据进行优化,企业经营数据中多个数据之间具有关联,为方便对比数据,需要将企业经营数据进行降维处理。上述预处理模块120可以通过以下单元进行预处理:优化单元,用于将企业经营数据采用主成分分析法进行优化,生成预处理数据。采用主成分分析算法对企业经营数据进行降维处理,以消除企业经营数据集的相关性,从而得到能够反映出主要原始变量信息的预处理数据。通过主成分分析算法对企业经营数据进行处理可以消除企业经营数据中各个变量之间的冗余性和相关性,为后面数据识别节约了时间。上述主成分分析算法属于现有技术,在此就不再赘述。
分类模块130,用于根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;上述经过优化后的预处理数据包括有多个数据类别,例如可以是销售成本数据、纯收入数据、营业收益数据等。上述进行分类的过程是指将预处理数据按照类别分别进行筛选,从而得到各个类别的数据。例如,经过筛选,将预处理数据中所有的销售成本类的数据都归到销售成本数据,将预处理数据中所有的纯收入的数据都归到纯收入数据,将预处理数据中所有的营业收益的数据都归到营业收益数据。上述类别数据可以包括多个月份的数据,也可以是多个年份的数据。例如:销售成本数据可以是包括2020年的销售成本数据、2019年的销售成本数据、2018年的销售成本数据;还可以是2019年1月到12月的销售成本数据。
时间格式识别模块140,用于提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息;上述生成多个时间格式信息的过程是指提取各个类别数据中各个数据对应的时间数据,根据时间数据识别出时间数据的格式。上述时间格式信息可以包括有:xxxx年xx月、xxxx年等。上述识别可以采用现有的技术就能实现,在此就不再赘述。例如:销售成本数据中包括有2019年1月的销售成本数据、2019年2月的销售成本数据、2019年3月的销售成本数据、2019年4月的销售成本数据、2019年5月的销售成本数据、2020年的销售成本数据、2018年的销售成本数据。提取出的时间数据分别为2019年1月、2019年2月、2019年3月、2019年4月、2019年5月、2020年、2018年,通过对时间数据进行识别得到时间格式信息分别为:xxxx年xx月、xxxx年xx月、xxxx年xx月、xxxx年xx月、xxxx年xx月、xxxx年、xxxx年。
筛选模块150,用于根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据。上述进行筛选的过程是指:将时间格式信息相同的数据归为一类,从而得到多个时间格式的数据。上述多个时间格式的数据可以是时间格式为xxxx年的数据、时间格式为xxxx年xx月的数据。例如:销售成本数据中包括有2019年1月的销售成本数据、2019年2月的销售成本数据、2019年3月的销售成本数据、2019年4月的销售成本数据、2019年5月的销售成本数据、2020年的销售成本数据、2018年的销售成本数据。经过筛选得到时间格式为xxxx年xx月的数据包括有2019年1月的销售成本数据、2019年2月的销售成本数据、2019年3月的销售成本数据、2019年4月的销售成本数据、2019年5月的销售成本数据,时间格式为xxxx年的数据为2020年的销售成本数据、2018年的销售成本数据。
数组生成模块160,用于将各个时间格式的数据按照时间顺序进行排序,生成多个数组;上述按照时间顺序进行排序是指,将各个时间格式的数据中的数据按照时间先后顺序进行排序。上述排序的过程还可以经过以下单元进行去重后排序得到。
初始数组生成单元,用于将各个时间格式的数据按照时间顺序进行排序,生成多个初始数组;上述排序可以是按时间先后进行的排序,例如:时间格式为xxxx年xx月的数据包括有2019年7月的销售成本数据、2019年2月的销售成本数据、2019年3月的销售成本数据、2019年4月的销售成本数据、2019年5月的销售成本数据,经过时间排序后得到初始数组为:2019年2月的销售成本数据、2019年3月的销售成本数据、2019年4月的销售成本数据、2019年5月的销售成本数据、2019年7月的销售成本数据。
去重单元,用于将各个初始数组中的数据进行去重,生成多个数组。上述去重是指将各个初始数组中的数据分别一一进行对比,得到重复的数据,并将重复的数据进行去除,只保留一个数据。例如:2019年2月的销售成本数据为100万、2019年3月的销售成本数据为100万、2019年4月的销售成本数据为101万、2019年5月的销售成本数据为99万、2019年7月的销售成本数据为77万,经过去重处理后,得到的数组为:[100万、101万、99万、77万]。2018年的纯收入数据为300万、2019年的纯收入数据为400万、2020年的纯收入数据为400万、2021年的纯收入数据为100万,经过去重处理后,得到的数组为:[300万、400万、100万]。
识别模块170,用于将多个数组分别采用异常检测算法进行识别,得到多个异常数据。上述异常检测算法可以使采用Isolation Forest算法,上述在进行异常检测算法进行识别时,首先是在数组中抽取多个样本数据,根据样本数据构建多棵二叉树,然后,综合多棵二叉树的结果,计算每个数据点的异常分值,从而得到异常数据。上述进行识别过程中可以设定二叉树的个数为100棵树;训练单棵二叉树的时候抽取样本的数目为256条。上述提到的异常检测算法属于现有技术,在此就不再赘述。
上述实现过程中,通过数据获取模块110获取企业经营数据;预处理模块120将企业经营数据进行预处理,生成预处理数据;分类模块130根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;时间格式识别模块140提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,筛选模块150根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,数组生成模块160将各个时间格式的数据按照时间顺序进行排序,生成多个数组,识别模块170将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。
其中,为方便专业人员进行查看,还可以在企业经营数据中标识出异常数据。该企业经营数据识别系统还包括:标识模块,用于将多个异常数据进行标识,生成新的企业经营数据。上述标识过程是指在企业经营数据中进行颜色标识或是高亮标识,根据得到的异常数据在企业经营数据中进行查询,找到在异常数据在企业经营数据中的位置,并进行颜色标识或是高亮标识,从而使得专业人员可以很方便的在企业经营数据中查看到异常数据,节约了时间。
其中,还包括:报告生成模块,用于将多个异常数据进行排序,生成异常数据报告。上述进行排序是指,通过将多个异常数据按照对应的类别进行排列,从而得到异常数据报告。上述异常数据报告包括有:异常数据,以及异常数据对应的类别数据。例如:销售成本数据中的异常数据为3万,纯收入数据为1万,经过排序得到的异常数据报告为:销售成本数据:3万,纯收入数据:1万。
上述实现过程中,通过报告生成模块将多个异常数据进行排序,生成异常数据报告,方便专业人员快速了解到异常数据。
基于同样的发明构思,本发明还提出一种企业经营数据识别方法,请参看图2,图2为本发明实施例提供的一种企业经营数据识别方法流程图。该企业经营数据识别方法包括以下步骤:
步骤S110:获取企业经营数据。
步骤S120:将企业经营数据进行预处理,生成预处理数据。
步骤S130:根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据。
步骤S140:提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息。
步骤S150:根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据。
步骤S160:将各个时间格式的数据按照时间顺序进行排序,生成多个数组。
步骤S170:将多个数组分别采用异常检测算法进行识别,得到多个异常数据。
上述实现过程中,通过获取企业经营数据;然后将企业经营数据进行预处理,生成预处理数据;然后根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;然后提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,然后根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,然后将各个时间格式的数据按照时间顺序进行排序,生成多个数组,最后将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。
其中,上述将企业经营数据进行预处理,生成预处理数据的步骤包括以下步骤:将企业经营数据采用主成分分析法进行优化,生成预处理数据。
其中,上述将各个时间格式的数据按照时间顺序进行排序,生成多个数组的步骤包括以下步骤:
首先,将各个时间格式的数据按照时间顺序进行排序,生成多个初始数组。
然后,将各个初始数组中的数据进行去重,生成多个数组。
其中,还包括将多个异常数据进行标识,生成新的企业经营数据。
其中,还包括将多个异常数据进行排序,生成异常数据报告。
请参阅图3,图3为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的一种企业经营数据识别系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上,本申请实施例提供的一种企业经营数据识别系统及方法,该企业经营数据识别系统通过数据获取模块110获取企业经营数据;预处理模块120将企业经营数据进行预处理,生成预处理数据;分类模块130根据预处理数据中的类别将预处理数据进行分类,生成多个类别数据;时间格式识别模块140提取并识别各个类别数据中各个数据对应的时间数据,生成多个时间格式信息,筛选模块150根据时间格式信息对各个类别数据中的数据进行筛选,得到多个时间格式的数据,数组生成模块160将各个时间格式的数据按照时间顺序进行排序,生成多个数组,识别模块170将多个数组分别采用异常检测算法进行识别,得到多个异常数据,使得在不需要专业人员进行查看的情况下就能识别到异常数据,从而提高了分析结果的准确性,还节约了时间。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种调表车判断方法、装置和电子设备