特征处理方法和系统

文档序号:1938475 发布日期:2021-12-07 浏览:2次 >En<

阅读说明:本技术 特征处理方法和系统 (Feature processing method and system ) 是由 刘伟 李凯 李昆仑 张敏 胡晓娟 李星 于 2020-06-01 设计创作,主要内容包括:本公开公开了一种特征处理方法和系统,涉及人工智能领域。该方法包括:获取与目标关联度大于阈值的异常特征;根据异常特征的数据属性,对异常特征的取值分布进行转换,得到新增特征数据;以及将新增特征数据作为模型训练数据。本公开确保了人工智能模型建立的性能和效率,又为问题分析定位提供基础。(The disclosure discloses a feature processing method and a feature processing system, and relates to the field of artificial intelligence. The method comprises the following steps: acquiring abnormal features of which the degree of association with the target is greater than a threshold value; converting the value distribution of the abnormal features according to the data attributes of the abnormal features to obtain newly added feature data; and using the newly added feature data as model training data. The method and the system ensure the performance and efficiency of artificial intelligence model establishment and provide a foundation for problem analysis and positioning.)

特征处理方法和系统

技术领域

本公开涉及人工智能领域,尤其涉及一种特征处理方法和系统。

背景技术

人工智能技术已经在各个行业得到了广泛应用。人工智能可简单分为机器学习和深度学习两大类。特征工程是机器学习处理流程中的关键步骤,主要包括数据预处理、特征选择、模型选择、性能评估四个步骤。

特征是对数据各个维度的描述。在数据预处理的过程中,需要尽可能采集到并且提取出适合机器学习任务的多维数据特征,对于缺失的特征值需要进行弥补,对于异常的特征值需要过滤或者修复。在特征选择过程中,需要挑选出那些和任务相关度大的特征,过滤掉冗余的特征,一方面进行了大粒度地去除噪声,从而提升模型性能,另一方面可以大大减少模型训练过程中的存储和计算开销。

为了使特征数据更好地呈现规律性,更明显的呈现出数值分布属性,便于人工智能模型更好地识别、学习到数据特征,在传统的特征工程中都会对特征异常值,也就是噪音数据进行清洗。

在普通的业务场景中,通用的数据清洗方法是直接将噪音数据剔除,能够使特征取值更加收敛、更好的符合各种数学分布规律、更好地促进模型学习效果。但在某些特定业务场景中,例如通过机器学习的方法发现生产中存在的问题,这时特征的某些异常取值可能就是问题的具体体现,直接将其剔除,模型可能会有很好的学习效果,但实用效果不佳。

发明内容

本公开要解决的一个技术问题是,提供一种特征处理方法和系统,确保了模型建立的性能和效率,又为问题分析定位提供基础。

根据本公开一方面,提出一种特征处理方法,包括:获取与目标关联度大于阈值的异常特征;根据异常特征的数据属性,对异常特征的取值分布进行转换,得到新增特征数据;将新增特征数据作为模型训练数据。

在一些实施例中,得到新增特征数据包括:确定异常特征在历史数据中出现的频率和至少一个时间范围内的乖离率,将异常特征的出现的频率和乖离率作为新增特征数据。

在一些实施例中,异常特征的乖离率为异常特征在预定时间范围内最后一天对应的特征值与预定时间范围内的平均特征值之差,与预定时间范围内的平均特征值的比值。

在一些实施例中,根据异常特征的分布情况,确定异常特征的乖离率的个数。

在一些实施例中,获取与目标关联度大于阈值的异常特征包括:基于特征评分和专家经验库,计算样本特征与目标的关联度;提取与目标关联度大于阈值的样本特征中的异常特征。

根据本公开的另一方面,还提出一种特征处理系统,包括:重要性评估单元,被配置为获取与目标关联度大于阈值的异常特征;特征转换留存单元,被配置为根据异常特征的数据属性,对异常特征的取值分布进行转换,得到新增特征数据,将新增特征数据作为模型训练数据。

在一些实施例中,特征转换留存单元被配置为确定异常特征在历史数据中出现的频率和至少一个时间范围内的乖离率,将异常特征的出现的频率和乖离率作为新增特征数据。

在一些实施例中,异常特征的乖离率为异常特征的预定时间范围内最后一天对应的特征值与预定时间范围内的平均特征值之差,与预定时间范围内的平均特征值的比值。

根据本公开的另一方面,还提出一种特征处理系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的特征处理方法。

根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的特征处理方法。

本公开实施例中,对于与目标关联度高的异常特征,不是直接进行剔除,而是对异常特征的取值分布进行转换,得到新增特征数据,并将新增特征数据作为模型训练数据,使得模型的训练数据既符合数学分布,又尽可能的保留了特征原始数据中所包含的价值信息,确保了人工智能模型建立的性能和效率,又为问题分析定位提供基础。

通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1为本公开的特征处理方法的一些实施例的流程示意图。

图2为本公开的特征处理方法的另一些实施例的流程示意图。

图3为本公开的特征处理系统的一些实施例的结构示意图。

图4为本公开的特征处理系统的另一些实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

图1为本公开的特征处理方法的一些实施例的流程示意图。

在步骤110,获取与目标关联度大于阈值的异常特征。

在一些实施例中,基于特征评分和专家经验库,计算样本特征与目标的关联度,进而提取与目标关联度大于阈值的样本特征中的异常特征。异常特征即噪音特征。

在步骤120,根据异常特征的数据属性,对异常特征的取值分布进行转换,得到新增特征数据。

在一些实施例中,确定异常特征在历史数据中出现的频率和至少一个时间范围内的乖离率,将异常特征的出现的频率和乖离率作为新增特征数据。其中,可以根据异常特征的分布情况,确定异常特征的乖离率的个数。例如,异常特征越分散越复杂,则需要计算的乖离率个数越多。保留真实数据特性的同时,又完成数据清洗。

在步骤130,将新增特征数据作为模型训练数据。

在上述实施例中,对于与目标关联度高的异常特征,不是直接进行剔除,而是对异常特征的取值分布进行转换,得到新增特征数据,并将新增特征数据作为模型训练数据,使得模型的训练数据既符合数学分布,又尽可能的保留了特征原始数据中所包含的价值信息,为问题分析定位提供基础。

图2为本公开的特征处理方法的另一些实施例的流程示意图。

在步骤210,计算样本特征与目标的关联度。

在一些实施例中,基于特征评分和专家经验库,计算样本特征与目标的关联度,以便提高特征提取的准确性。特征评分算法例如包括卡方检验、互信息、皮尔森相关系数、费希尔得分等算法。例如,以皮尔森相关系数算法为例,借助热力图,确定图中颜色最亮的一些特征作为与目标高度相关的特征。如在目标为确定电脑是否卡顿时,通过热力图选择出CPU使用率特征和显示器尺寸特征。然后基于专家经验库可知,CPU和内存与电能性能强度相关,因此,可以进一步确定CPU使用率特征是与目标最相关的特征。

在步骤220,判断样本特征与目标的关联度是否大于阈值,若是,则执行步骤230,否则,执行步骤250。

在步骤230,统计样本特征中异常特征在历史数据中出现的频率和乖离率。

在该步骤中从时间和空间上对异常特征进行分析。例如,出现的频率设置为0或1,其中,0表示历史数据中没有出现该异常特征,1表示历史数据中出现了该异常特征。

特征的乖离率即特征的偏离程度,可以用-1~1的区间表示。在一些实施例中异常特征的乖离率为异常特征的预定时间范围内最后一天对应的特征值与预定时间范围内的平均特征值之差,与预定时间范围内的平均特征值的比值。例如,公式BIAS=(value-MA(filed,L))/MA(filed,L)*100%,其中,BIAS为异常特征的乖离率,value为异常特征在预定时间范围内最后一天对应的特征值,MA(filed,L))为预定时间范围内的异常特征的平均特征值,filed为特征名。L为预定时间范围,代表不同时间间隔,例如为3天、5天等。

例如,连续采集9天的基站数据如表1所示。

1 2 3 4 5 6 7 8 9
用户数 2 4 6 7 8 9 10 11 12
流量 90 80 70 60 50 40 30 20 33

表1

例如,异常特征为用户数,则可以分别计算9天、6天、3天等。BIAS1=(12-MA(用户数,9))/MA(用户数,9)*100%,MA(用户数,9)=(2+4+6+7+8+9+10+11+12)÷9。

若异常特征为流量,若计算9天内乖离率,则BIAS2=(12-MA(流量,9))/MA(流量,9)*100%,MA(流量,9)=(90+80+70+60+50+40+30+20+33)÷9。

在步骤240,将异常特征在历史数据中出现的频率和乖离率作为新增特征数据。

在步骤250,进行特征清洗、转码、归一化等处理。

在该实施例中,可以对与目标的关联度小于等于阈值的样本特征以及新增特征数据进行清洗、转码、归一化等处理。

在步骤260,将处理后的特征数据作为模型训练数据。

在上述实施例中,判断特征对目标的贡献度,即可以最大程度的对重要特征进行噪音数据的转换和保留,又完成了特征清洗,能够实现故障定位,提高了模型实用价值。

本公开上述方案能够应用于各行各业,例如,在电信领域中结合网络运行质量数据建立模型来分析定位故障问题的时候,需要观察的故障问题本身就是噪音,如何直接对噪音特征进行过滤,则导致了数据的缺失。而通过对噪音重要信息的转换和保留,确保了人工智能模型建立的性能和效率,又能够为问题分析定位提供基础。例如,将该方案应用在无线问题定位案例中,通过对基站历史KPI(Key Performance Indicator,关键绩效指标)数据的特征转化,模型跑分从70%提升至83%,提高了模型实用价值。

图3为本公开的特征处理系统的一些实施例的结构示意图。该特征处理系统包括重要性评估单元310和特征转换留存单元320。

重要性评估单元310被配置为获取与目标关联度大于阈值的异常特征。

例如,基于特征评分和专家经验库,计算样本特征与目标的关联度;提取与目标关联度大于阈值的样本特征中的异常特征。

特征转换留存单元320被配置为根据异常特征的数据属性,对异常特征的取值分布进行转换,得到新增特征数据,将新增特征数据作为模型训练数据。

确定异常特征在历史数据中出现的频率和至少一个时间范围内的乖离率,将异常特征的出现的频率和乖离率作为新增特征数据。其中,异常特征的乖离率为异常特征在预定时间范围内最后一天对应的特征值与预定时间范围内的平均特征值之差,与预定时间范围内的平均特征值的比值。保留真实数据特性的同时,又完成数据清洗。

在一些实施例中,根据异常特征的分布情况,确定异常特征的乖离率的个数。例如,异常特征越分散越复杂,则计算的乖离率个数越多。

在上述实施例中,对于与目标关联度高的异常特征,不是直接进行剔除,而是对异常特征的取值分布进行转换,得到新增特征数据,并将新增特征数据作为模型训练数据,使得模型的训练数据既符合数学分布,又尽可能的保留了特征原始数据中所包含的价值信息,确保了人工智能模型建立的性能和效率,为问题分析定位提供基础。

图4为本公开的特征处理系统的另一些实施例的结构示意图。该特征处理系统包括400包括存储器410和处理器420。其中:存储器410可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器420耦接至存储器410,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器420用于执行存储器中存储的指令。

在一些实施例中,处理器420通过BUS总线430耦合至存储器410。该特征处理系统400还可以通过存储接口440连接至外部存储系统450以便调用外部数据,还可以通过网络接口460连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,确保了人工智能模型建立的性能和效率,并且为问题分析定位提供基础。

在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1-2所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种训练数据获取方法、装置及模型训练方法、装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!