一种确定模型特征分箱方案的方法及装置

文档序号:1963838 发布日期:2021-12-14 浏览:13次 >En<

阅读说明:本技术 一种确定模型特征分箱方案的方法及装置 (Method and device for determining model characteristic binning scheme ) 是由 郭琰琰 陆凌 于 2021-11-02 设计创作,主要内容包括:本发明提供了一种确定模型特征分箱方案的方法及装置,该方法为:根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集;从建模数据集中读取特征变量名称;从特征变量名称中确定目标变量名称;响应于用户在特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案;根据分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果;根据分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果;根据筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,降低特征分箱所耗费的时间以及提高特征分箱的效率。(The invention provides a method and a device for determining a model characteristic binning scheme, wherein the method comprises the following steps: acquiring a corresponding modeling data set according to a modeling data set name input by a user from a characteristic box-dividing operation interface; reading a characteristic variable name from a modeling dataset; determining a target variable name from the characteristic variable names; responding to a configuration instruction of a user in a characteristic box-dividing operation interface, and setting box-dividing parameters and a corresponding box-dividing scheme; performing box separation processing on the target characteristic variable according to the box separation parameters to generate and display box separation results; screening and sorting the target characteristic variables according to the box separation result to obtain a screening and sorting result; and determining the box separation scheme meeting the preset conditions as an optimal box separation scheme according to the screening sorting result. Technicians are not required to test the box separation methods of different combinations and the box separation effects of the box separation numbers one by one, the time consumed by characteristic box separation is reduced, and the efficiency of the characteristic box separation is improved.)

一种确定模型特征分箱方案的方法及装置

技术领域

本发明涉及数据处理技术领域,具体涉及一种确定模型特征分箱方案的方法及装置。

背景技术

在数据模型的开发流程中,需要对数据模型的特征变量进行特征分箱处理。

现有的特征分箱处理方式为:技术人员指定分箱方法和分箱个数并进行特征分箱,当指定多个分箱方法和分箱个数时,还需要技术人员对不同组合的分箱方法和分箱个数的分箱效果进行测试和比较。但是,随着分箱方法和分箱个数的组合的增多,测试分箱方法和分箱个数的不同组合的分箱效果的工作量呈指数级增长,并且需要人工逐一对各个分箱效果进行比较,特征分箱所耗费的时间较长和特征分箱的效率较低。

发明内容

有鉴于此,本发明实施例提供一种确定模型特征分箱方案的方法及装置,以解决现有特征分箱处理方式存在的耗费时间长及效率较低的问题。

为实现上述目的,本发明实施例提供如下技术方案:

本发明实施例第一方面公开一种确定模型特征分箱方案的方法,所述方法包括:

根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集;

从所述建模数据集中读取特征变量名称;

从所述特征变量名称中确定目标变量名称,所述目标变量名称对应的目标特征变量至少携带指定标签;

响应于所述用户在所述特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案;

根据所述分箱参数对所述目标特征变量进行分箱处理,生成并展示分箱结果,所述分箱结果至少包含每个所述目标特征变量对应的预设指标值;

根据所述分箱结果对所述目标特征变量进行筛选和排序,得到筛选排序结果;

根据所述筛选排序结果,确定满足预设条件的所述分箱方案为最优分箱方案。

优选的,所述从所述建模数据集中读取特征变量名称,包括:

从所述建模数据集中读取多个字段对应的字段名称,确定所读取的字段名称为特征变量名称。

优选的,所述指定标签为good标签或bad标签。

优选的,所述分箱参数至少包含分箱个数和分箱方法。

优选的,所述根据所述分箱参数对所述目标特征变量进行分箱处理,生成并展示分箱结果,包括:

根据所述分箱参数对所述目标特征变量进行网格化组合,生成并展示分箱结果。

优选的,所述预设指标值至少包含:缺失率、信息量IV值、KS值和群体稳定性指数PSI值。

优选的,所述根据所述分箱结果对所述目标特征变量进行筛选和排序,得到筛选排序结果,包括:

将所述预设指标值不满足预设筛选条件的所述目标特征变量剔除,并按照所述预设指标值对剩余的所述目标特征变量进行排序,得到筛选排序结果。

优选的,根据所述分箱结果对所述目标特征变量进行筛选和排序得到筛选排序结果之后,还包括:

若根据所述筛选排序结果未确定得到满足预设条件的所述分箱方案,响应于所述用户的调整指令,调整所述分箱参数及对应的分箱方案,返回执行根据所述分箱参数对所述目标特征变量进行分箱处理生成并展示分箱结果这一步骤。

优选的,确定满足预设条件的所述分箱方案为最优分箱方案之后,还包括:

生成与所述最优分箱方案对应的所述分箱结果的赋值代码语句。

本发明实施例第二方面公开一种确定模型特征分箱方案的装置,所述装置包括:

获取单元,用于根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集;

读取单元,用于从所述建模数据集中读取特征变量名称;

确定单元,用于从所述特征变量名称中确定目标变量名称,所述目标变量名称对应的目标特征变量至少携带指定标签;

设置单元,用于响应于所述用户在所述特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案;

生成单元,用于根据所述分箱参数对所述目标特征变量进行分箱处理,生成并展示分箱结果,所述分箱结果至少包含每个所述目标特征变量对应的预设指标值;

处理单元,用于根据所述分箱结果对所述目标特征变量进行筛选和排序,得到筛选排序结果;根据所述筛选排序结果,确定满足预设条件的所述分箱方案为最优分箱方案。

基于上述本发明实施例提供的一种确定模型特征分箱方案的方法及装置,该方法为:根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集;从建模数据集中读取特征变量名称;从特征变量名称中确定目标变量名称;响应于用户在特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案;根据分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果;根据分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果;根据筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。本方案中,用户通过特征分箱操作界面设置不同的分箱参数及其对应的分箱方案。利用分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。利用分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。根据所得到的筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,降低特征分箱所耗费的时间以及提高特征分箱的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种确定模型特征分箱方案的方法的流程图;

图2为本发明实施例提供的分箱方案的示意图;

图3为本发明实施例提供的对目标特征变量进行筛选后的结果示意图;

图4为本发明实施例提供的一种确定模型特征分箱方案的方法的另一流程图;

图5为本发明实施例提供的一种确定模型特征分箱方案的装置的结构框图;

图6为本发明实施例提供的一种确定模型特征分箱方案的装置的另一结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知,目前进行特征分箱处理的方式,主要依赖于技术人员逐一对不同组合的分箱方法和分箱个数的分箱效果进行测试和比较。但是由于分箱方法和分箱个数的组合的增多,测试分箱效果的工作量呈指数级增长,并且需要人工逐一对各个分箱效果进行比较,特征分箱所耗费的时间较长和特征分箱的效率较低。

因此,本发明实施例提供一种确定模型特征分箱方案的方法及装置,用户通过特征分箱操作界面设置不同的分箱参数及其对应的分箱方案。利用分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。利用分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。根据所得到的筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,以降低特征分箱所耗费的时间以及提高特征分箱的效率。

需要说明的是,在数据模型的开发流程中,一个数据模型的备选特征变量(其中包含了离散型和连续型的变量)的数量较多(如上千个),为使数据模型更加稳定以及避免数据模型过拟合,需要从备选特征变量中筛选出有效的且能够输入数据模型的特征变量。因此,需要对备选特征变量进行特征分箱处理,以筛选出有效的且能够输入数据模型的特征变量。本方案所提供的一种确定模型特征分箱方案的方法及装置,能够自动确定最优分箱方案,从而降低特征分箱所耗费的时间以及提高特征分箱的效率,具体内容详见以下实施例。

参见图1,示出了本发明实施例提供的一种确定模型特征分箱方案的方法的流程图,该方法包括:

步骤S101:根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集。

在具体实现步骤S101的过程中,显示可视化的特征分箱操作界面,用户可在特征分箱操作界面中输入需要进行特征分箱计算的建模数据集名称。利用该用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集。

需要说明的是,建模数据集中包含了经过去重和填充缺失值等数据清洗操作的数据。

步骤S102:从建模数据集中读取特征变量名称。

需要说明的是,建模数据集中的每个字段即为一个特征变量,在具体实现步骤S102的过程中,从建模数据集中读取多个字段对应的字段名称,确定所读取的字段名称为特征变量名称。

步骤S103:从特征变量名称中确定目标变量名称。

需要说明的是,特征变量需携带指定标签才能进行后续的特征分箱以及相关数据处理流程,也就是目标变量名称对应的目标特征变量至少携带指定标签。

在一些具体实施例中,指定标签为good标签(也就是好标签)或bad标签(也就是坏标签),例如:对于某一目标特征变量,若该目标特征变量所携带的指定标签的取值为0,则该目标特征变量所携带的指定标签为good标签;若该目标特征变量所携带的指定标签的取值为1,则该目标特征变量所携带的指定标签为bad标签。

在具体实现步骤S103的过程中,响应于用户特征分箱操作界面中的设置指令,得到所设置的目标变量名称,也就是从所有特征变量名称中选取需要进行特征分箱的变量名称(即目标变量名称)。

步骤S104:响应于用户在特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案。

在具体实现步骤S104的过程中,响应于用户在特征分箱操作界面中的配置指令,设置多组分箱参数及与其对应的分箱方案。

在一些具体实施例中,分箱参数至少包含分箱个数和分箱方法。也就是说,响应于用户在特征分箱操作界面中的配置指令,设置分箱个数和分箱方法(可多选)等分箱参数,并设置与分箱参数对应的分箱方案。

需要说明的是,分箱方案也就是分箱结果输出数据集,分箱方案需要进行保存,以及需指定分箱方案对应的文件名和位置。分箱方案的示意图如图2所示(图2仅用于举例),图2中,将“学历”这一目标特征变量名称对应的目标特征变量分为3箱(分箱个数为3),将“代发工资年收入”这一目标特征变量名称对应的目标特征变量分为5箱(分箱个数为5);其中,“好客户”即为good标签,“坏客户”即为bad标签,证据权重(weight of evidence,WOE)为分箱过程中计算得到的参数,WOE具体根据好客户的数量、坏客户的数量、好客户总数和坏客户总数进行计算。

需要说明的是,在设置分箱参数时,可分别对各个目标特征变量设置不同的分箱参数,也可以统一对各个目标特征变量设置分箱参数,在此对于设置分箱参数的方式不做限定。

步骤S105:根据分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。

需要说明的是,分箱结果至少包含每个目标特征变量对应的预设指标值。

在一些具体实施例中,预设指标值至少包含:缺失率、信息量(informationvalue,IV)值、KS(Kolmogorov-Smirnov)值和群体稳定性指数(PopulationStabilityIndex,PSI)值。可以理解的是,前述关于预设指标值的具体内容仅用于举例说明,预设指标值还包含了其它相关系数,在此不一一举例。

在具体实现步骤S105的过程中,响应于用户在特征分箱操作界面的执行指令,执行预设的分箱程序脚本,根据上述所设置的分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。具体而言,执行预设的分箱程序脚本,根据上述所设置的分箱参数对目标特征变量进行网格化组合,生成分箱结果,并在特征分箱操作界面展示分箱结果。

可以理解的是,由上述内容可知,预先设置多组分箱参数及其对应的分箱方案,在每一次利用一组分箱参数对目标特征变量进行分箱处理后,需计算各个目标特征变量的预设指标值,进而得到该次分箱处理的分箱结果。

也就是说,每个目标特征变量根据不同的分箱参数可以有多个分箱结果,例如:针对单个目标特征变量,不同的分箱方案导致该目标特征变量存在不同的IV值。

步骤S106:根据分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。

需要说明的是,预先设置用于筛选目标特征变量的预设筛选条件(例如根据单调性表现和变量相关性等因素进行设置),以及预先设置用于排序目标特征变量的预设排序条件(如根据IV值和KS值等排序)。

在具体实现步骤S106的过程中,执行用于对目标特征变量进行筛选和排序的程序脚本,根据分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。具体而言,将预设指标值不满足预设筛选条件的目标特征变量剔除,并按照预设指标值和预设排序条件对剩余的目标特征变量进行排序,得到筛选排序结果。

也就是说,预设筛选条件设置了预设指标值的阈值,保留预设指标值达到阈值的目标特征变量,即预设指标值达到阈值的目标特征变量可以进入数据模型,预设指标值未达到阈值的目标特征变量则被剔除掉。

例如:假设预设筛选条件为IV值大于0.1且缺失率小于0.05,根据IV值和缺失率对目标特征变量进行筛选后的结果如图3所示,需要说明的是,图3中的变量名称即为目标特征变量名称,图3仅用于举例说明。

在对目标特征变量进行筛选并排序后,得到相应的筛选排序结果,输出该筛选排序结果,并在特征分箱操作界面中展示该筛选排序结果。

需要说明的是,筛选排序结果中至少包含:目标特征变量名称、KS值、筛选规则的说明和筛选结果等内容。

步骤S107:根据筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。

需要说明的是,预先根据设定阈值、专家经验、变量回选和变量剔除等内容,设置预设条件。在具体实现步骤S107的过程中,根据筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。

在一些具体实施例中,由上述内容可知,在特征分箱操作界面中展示筛选排序结果,用户可通过预设条件对筛选排序结果进行定性分析,从而确定得到最优分箱方案,此时,响应于用户在特征分箱操作界面的指令,确定满足预设条件的分箱方案为最优分箱方案。

优选的,输出最优分箱方案对应的分箱结果,并在特征分箱操作界面中展示最优分箱方案对应的分箱结果。

优选的,若根据筛选排序结果未确定得到满足预设条件的分箱方案,响应于用户的调整指令,调整分箱参数及对应的分箱方案,返回执行步骤S105。

在具体实现中,若未能确定得到满足预设条件的分箱方案(也就是未能确定得到最优分箱方案),为用户预留能够修改分箱参数的接口,响应于用户在特征分箱操作界面的调整指令,调整分箱参数及对应的分箱方案,返回执行步骤S105继续进行分箱处理,直至确定得到最优分箱方案。

优选的,确定得到最优分箱方案之后,生成与最优分箱方案对应的分箱结果的赋值代码语句,利用所生成的赋值代码语句留档分箱结果,以用于后续的数据建模。

在本发明实施例中,用户通过特征分箱操作界面设置不同的分箱参数及其对应的分箱方案。利用分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。利用分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。根据所得到的筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,降低特征分箱所耗费的时间以及提高特征分箱的效率。

为更好解释说明上述本发明实施例图1示出的内容,通过图4示出的一种确定模型特征分箱方案的方法的另一流程图进行举例说明,图4包括以下步骤:

步骤S401:显示特征分箱操作界面。

步骤S402:获取建模数据集名称。

步骤S403:从建模数据集中读取特征变量名称。

步骤S404:从特征变量名称中确定目标变量名称。

步骤S405:设置分箱参数及对应的分箱方案。

步骤S406:执行分箱程序脚本。

步骤S407:输出并展示分箱结果。

步骤S408:设置筛选条件和排序条件。

步骤S409:根据分箱结果对目标特征变量进行筛选和排序。

步骤S410:输出并展示筛选排序结果。

步骤S411:确定最优分箱方案。

步骤S412:输出并展示最优分箱方案对应的分箱结果。

步骤S413:生成与最优分箱方案对应的分箱结果的赋值代码语句。

需要说明的是,步骤S401至步骤S413的执行原理,参见上述本发明实施例图1中的内容,在此不再进行赘述。

与上述本发明实施例提供的一种确定模型特征分箱方案的方法相对应,参见图5,本发明实施例还提供了一种确定模型特征分箱方案的装置的结构框图,该装置包括:获取单元501、读取单元502、确定单元503、设置单元504、生成单元505和处理单元506;

获取单元501,用于根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集。

读取单元502,用于从建模数据集中读取特征变量名称。

在具体实现中,读取单元502具体用于:从建模数据集中读取多个字段对应的字段名称,确定所读取的字段名称为特征变量名称。

确定单元503,用于从特征变量名称中确定目标变量名称,目标变量名称对应的目标特征变量至少携带指定标签。

在一些具体实施例中,指定标签为good标签或bad标签。

设置单元504,用于响应于用户在特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案。

在一些具体实施例中,分箱参数至少包含分箱个数和分箱方法。

生成单元505,用于根据分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果,分箱结果至少包含每个目标特征变量对应的预设指标值。

在具体实现中,生成单元505具体用于:根据分箱参数对所述目标特征变量进行网格化组合,生成并展示分箱结果。

在一些具体实施例中,预设指标值至少包含:缺失率、信息量IV值、KS值和群体稳定性指数PSI值。

处理单元506,用于根据分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果;根据筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。

在具体实现中,用于得到筛选排序结果的处理单元506具体用于:将预设指标值不满足预设筛选条件的目标特征变量剔除,并按照预设指标值对剩余的目标特征变量进行排序,得到筛选排序结果。

优选的,处理单元506还用于:若根据筛选排序结果未确定得到满足预设条件的分箱方案,响应于用户的调整指令,调整分箱参数及对应的分箱方案,执行生成单元505。

在本发明实施例中,用户通过特征分箱操作界面设置不同的分箱参数及其对应的分箱方案。利用分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。利用分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。根据所得到的筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,降低特征分箱所耗费的时间以及提高特征分箱的效率。

优选的,结合图5,参见图6,示出了本发明实施例提供的一种确定模型特征分箱方案的装置的另一结构框图,该装置还包括:

语句生成单元507,用于生成与最优分箱方案对应的分箱结果的赋值代码语句。

综上所述,本发明实施例提供一种确定模型特征分箱方案的方法及装置,用户通过特征分箱操作界面设置不同的分箱参数及其对应的分箱方案。利用分箱参数对目标特征变量进行分箱处理,生成并展示分箱结果。利用分箱结果对目标特征变量进行筛选和排序,得到筛选排序结果。根据所得到的筛选排序结果,确定满足预设条件的分箱方案为最优分箱方案。不需要技术人员逐一测试不同组合的分箱方法和分箱个数的分箱效果,降低特征分箱所耗费的时间以及提高特征分箱的效率。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法、装置、计算机可读存储介质及计算机设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!