预测用户欺诈行为的方法及装置

文档序号：1954353 发布日期：2021-12-10 浏览：14次 >En<

阅读说明：本技术 预测用户欺诈行为的方法及装置 (Method and device for predicting user fraud behavior ) 是由李玉仙于 2021-09-17 设计创作，主要内容包括：本发明公开了一种预测用户欺诈行为的方法及装置,涉及人工智能技术领域,其中该方法包括：获取待预测的用户的基本信息和当前交易数据；将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型,得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到,所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成。本发明可以实现高效准确地预测用户欺诈行为。(The invention discloses a method and a device for predicting user fraud, which relate to the technical field of artificial intelligence, wherein the method comprises the following steps: acquiring basic information and current transaction data of a user to be predicted; inputting basic information of a user to be predicted and current transaction data into a pre-established fraud prediction model to obtain a prediction result of whether the user has fraud; the fraud behavior prediction model is obtained by fusing a LightGBM model and a Catboost model, and the LightGBM model and the Catboost model are generated by pre-training according to basic information of a plurality of users and sample data of historical transaction data. The invention can realize the high-efficiency and accurate prediction of the user fraud behavior.)

预测用户欺诈行为的方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种预测用户欺诈行为的方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着我国经济的蓬勃发展和国际化水平的提升，我国金融行业个人信贷余额占比也在逐步的提高。在信息化智能化的今天，不管是传统金融机构还是互联网金融平台，都沉淀了大量的用户数据，而线上业务的流行导致金融机构急需构建一个可靠的、智能高效的风险控制方案。因此，如何利用已有的用户信息和用户在平台的交易数据识别出交易是否存在欺诈行为，从而为客户提供安全可靠的金融交易环境的决策提供依据。现有预测欺诈行为的方案主要靠人工核查来实现，存在效率和准确率低的问题。

发明内容

本发明实施例提供一种预测用户欺诈行为的方法，用以实现高效准确地预测用户欺诈行为，该方法包括：

获取待预测的用户的基本信息和当前交易数据；

将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到，所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成。

本发明实施例还提供一种预测用户欺诈行为的装置，用以实现高效准确地预测用户欺诈行为，该装置包括：

获取单元，用于获取待预测的用户的基本信息和当前交易数据；

预测单元，用于将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到，所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述预测用户欺诈行为的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述预测用户欺诈行为的方法的计算机程序。

本发明实施例中，预测用户欺诈行为的方案，通过：获取待预测的用户的基本信息和当前交易数据；将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到，所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成，可以实现高效准确地预测用户欺诈行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中预测用户欺诈行为的方法的流程示意图；

图2为本发明实施例中建立欺诈行为预测模型的原理示意图；

图3为本发明实施例中预先建立所述欺诈行为预测模型的流程示意图；

图4为本发明另一实施例中预先建立所述欺诈行为预测模型的流程示意图；

图5为本发明实施例中对获取的样本数据进行预处理的流程示意图；

图6为本发明实施例中对预处理后的样本数据进行特征工程处理的流程示意图；

图7为本发明实施例中预测用户欺诈行为的装置的结构示意图；

图8为本发明实施例中建立单元的结构示意图；

图9为本发明另一实施例中建立单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在介绍本发明实施例之前，首先介绍本发明实施例涉及的名词。

1.机器学习：一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

2.训练数据：用来进行机器学习的数据集。是机器学习的输入。

特征工程：其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过特征工程时，将数据属性转换为数据特征，属性代表了数据的所有维度，在数据建模时，如果对原始数据的所有属性进行学习，并不能很好的找到数据的潜在趋势，而通过特征工程对你的数据进行预处理的话，算法模型能够减少受到噪声的干扰，这样能够更好的找出趋势。

3.CATBOOST：一种能够很好地处理类别型特征的梯度提升算法库。

4.LightGBM：Gradient Boosting Decision Tree即GBDT，是一种迭代的决策树算法。在python中有开源算法。LightGBM是GBDT的一个进阶算法，有更好的训练效率。

5.AUC：Area Under Curve，被定义为ROC曲线下与坐标轴围成的面积，数值不会大于1，是一个模型的评价标准，AUC值越大，分类器的效果越好。

6.PCA降维：principal component analysis(主成分分析法)，将高维数据映射到低维空间，从而避免维度灾难。

发明人发现现有人工核查来预测刷卡欺诈行为方案的缺点包括：

1、海量数据，信息纷杂：每年每天平台产生巨量用户交易操作数据，内容纷繁，真假难辨，人工一一判断抉择，想要精准营销简直是不可能完成的任务。

2、重复核查，效率低：同一种用户特征也需要重复核查，仍旧依靠业务人员主观判断，效率低。

3、缺乏知识积累：业务人员经验无法固化，难以传承。本发明可以自动学习用户以往在平台上的交易记录，并结合数据挖掘的算法，自动给出是否为欺诈行为的概率预测，大大降低决策难度。

4、准确率低：现有机器学习模型预测准确率低，亟待新方法提升。

综上，现有人工核查来预测刷卡欺诈行为方案存在效率和准确率低的问题，因此无法保证刷卡交易的安全性。

考虑到上述技术问题，本发明实施例提出了一种预测用户欺诈行为的方案，该方案主要通过对海量用户数据进行预处理、构建特征工程、衍生特征、提取特征、选择算法模型以及进行模型的集成，在此基础上进行训练，从这些数据中挖掘出一些能够有效分类的规则(策略)，生成分类器(总结出的规则集合)。新输入的用户通过分类器可以得到其行为为欺诈行为的概率值，从而为是否人工介入交易的决策提供依据。下面对该预测用户欺诈行为的方案进行详细介绍。

图1为本发明实施例中预测用户欺诈行为的方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤101：获取待预测的用户的基本信息和当前交易数据；

步骤102：将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到，所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成。

本发明实施例提供的预测用户欺诈行为的方法可以实现高效准确地预测用户欺诈行为。下面结合附图2进行详细介绍。

一、首先，介绍预先建立欺诈行为预测模型的步骤。

在一个实施例中，如图3所示，上述预测用户欺诈行为的方法还可以包括：按照如下方法预先建立所述欺诈行为预测模型：

步骤301：获取多个用户的基本信息和历史交易数据作为样本数据；所述样本数据包括存在欺诈行为的正样本和不存在欺诈行为的负样本；

步骤304：将所述样本数据划分为训练集、测试集和验证集；

步骤305：利用所述训练集对LightGBM模型和CatBoost模型进行训练，得到训练好的LightGBM模型和CatBoost模型；

步骤306：对训练好的LightGBM模型和CatBoost模型进行加权融合处理，得到融合后的欺诈行为预测模型；

步骤307：利用所述测试集对融合后的欺诈行为预测模型进行测试，得到测试后的欺诈行为预测模型；

步骤308：利用所述验证集对测试后的欺诈行为预测模型进行验证，得到预先建立的欺诈行为预测模型。

具体实施时，上述预先建立所述欺诈行为预测模型的实施方式进一步提高了模型建立的效率和准确率，进而提高了利用该建立的模型进行预测的准确率和效率。下面对该建立的步骤进行详细介绍。

1.首先介绍上述步骤301，获取多个用户(海量用户)的基本信息(即基本特征数据，例如用户的学历、职业、客户归属地、婚姻状况以及客户等级等)和历史交易数据(例如用户在某历史时间段内的刷卡交易数据或用户在某历史时间段内的贷款交易数据)作为样本数据，即首先从金融机构平台上拿到用户信息和交易数据，并且明确是否每条记录是否有逾期等，其中正样本可以是存在欺诈行为的样本，例如欺诈刷卡行为样本或是存在贷款逾期未还欺诈行为的样本；负样本可以是不存在欺诈行为的样本。

本发明实施例基于的数据结构如下表1所示，其为已将标记完成的用于训练等的数据：

表1

在一个实施例中，如图4所示，上述预测用户欺诈行为的方法还可以包括：

步骤302：对获取的样本数据进行预处理，得到预处理后的样本数据；

步骤303：对预处理后的样本数据进行特征工程处理，得到特征工程处理后的样本数据；

将所述样本数据划分为训练集、测试集和验证集，可以包括：将特征工程处理后的样本数据划分为训练集、测试集和验证集。

具体实施时，对获取的样本数据进行预处理后，在进行特征工程处理后，进行后续训练、测试和验证，最终得到建立好的欺诈行为预测模型，进一步提高了模型预测的精度，进而提高了用户欺诈行为预测的精度。下面对该步骤302和步骤303进行详细介绍。

2.接着，介绍上述步骤302，即为了保证训练数据的准确性与多样性，对海量历史客户的获取及清洗等预处理。

在一个实施例中，如图5所示，对获取的样本数据进行预处理，得到预处理后的样本数据，可以包括：

步骤3021：对样本数据中预设类别的用户特征数据进行缺失值处理，得到缺失值处理后的特征数据；

步骤3022：对缺失值处理后的特征数据中异常程度大于预设异常值的特征数据进行异常值处理，得到异常值处理后的特征数据；

步骤3023：对异常值处理后的特征数据进行时间戳处理，得到预处理后的样本数据。

具体实施时，图2中提到的数据预处理的过程如下：

(1)缺失值处理：对于学历、职业、客户归属地、婚姻状况以及客户等级等类别特征(预设类别的用户特征数据，即)，用“-1”进行填充，用于区分这一类。其他不做处理，后续由模型进行填充。

(2)异常值处理：对于明显异常的特征(异常程度大于预设异常值的特征数据)进行处理，比如大于99的年龄，用均值填充。特征列的值在训练集和测试集中只出现一次，用均值填充。

(3)时间戳处理：将时间戳转化为时间类型，并抽取年、月、日、时、分、秒、星期、每年的第几周等时间特征。

具体实施时，上述对获取的样本数据进行预处理的实施方式可以进一步提高模型输入数据的精度，进一步提高建立模型的精度，进而进一步提高模型预测的精度，即提高了用户欺诈行为预测的精度。

3.接着，介绍上述步骤303，即特征衍生、特征的筛选过程及参数优化过程。

在一个实施例中，如图6所示，对预处理后的样本数据进行特征工程处理，得到特征工程处理后的样本数据，可以包括：

步骤3031：对预处理后的样本数据中相关系数为负的特征数据均乘以预设负数，得到再次处理后的样本数据；

步骤3032：将经过再次处理后的样本数据缩放到预设范围区间内，得到缩放处理后的样本数据；

步骤3033：对缩放处理后的样本数据进行特征衍生处理，得到特征衍生处理后的样本数据；

步骤3034：对特征衍生处理后的样本数据进行PCA降维处理，得到特征工程处理后的样本数据。

具体实施时，图2中提到的特征工程的过程如下：

(1)针对相关系数为负的特征，均乘以预设负数，例如-1。

(2)缩放到(-1,1)区间(预设范围区间)，为神经网络模型(欺诈行为预测模型)做数据准备。由于在深度学习中需要进行大量的计算，特性缩放是必须的。特征缩放标准化了自变量的范围。

(3)特征衍生：共200个特征，每一个特征衍生出6个新特征。

attr_n:原来的特征做(0,1)缩放；

concat_count_attr_n:attr_n中每个值在对应列出现的次数；

concat_count_round4_attr_n:对attr_n的值做(attr_n*10^4*2+1)//2/10^4的变换；

concat_count_round3_attr_n:对attr_n的值做(attr_n*10^3*2+1)//2/10^3的变换；

concat_count_round2_attr_n:对attr_n的值做(attr_n*10^2*2+1)//2/10^2的变换；

attr_num:attr_n所在的特征序列。

(4)PCA降维：经过上述特征衍生处理后，衍生出6个新特征，由于原有的特征多，所以对特征先升维再降维，避免维度灾难，且只留下影响较大的特征。

具体实施时，特征工程处理的实施方式进一步提高了模型建立的效率和精度，进而进一步提高了后续模型预测的精度和效率。

4.接着，介绍上述步骤304。

具体实施时，可以划分80％的数据为训练数据(训练集)，20％的数据为测试数据(测试集)。当然，还可以根据需要划分一部分给验证数据(验证集)。

5.接着，介绍上述步骤305。

具体实施时，图2中提到的模型训练可以使用LightGBM和CatBoost对数据进行5折交叉验证训练，验证集的误差迭代在50次没有降低，就停止训练，即利用所述训练集对LightGBM模型和CatBoost模型进行训练，得到训练好的LightGBM模型和CatBoost模型。即，本发明实施例选择了LGB模型和CatBoost模型，将上述特征工程处理后的特征输入模型，调参并训练模型，分别得到两个局部最优的模型。

6.接着，介绍上述步骤306。

具体实施时，图2中提到的模型融合可以为：对训练好的LightGBM模型和CatBoost模型(图2中提到的算法选择的LightGBM模型和CatBoost模型，即分类算法的选取及参数优化)进行加权融合处理，得到融合后的欺诈行为预测模型，即通过将上述两个局部最优的模型进行加权组合得到一个新模型。

7.接着，一同介绍上述步骤306和步骤307，即图2中提到的模型预测及验证。

具体实施时，利用所述测试集对融合后的欺诈行为预测模型进行测试，得到测试后的欺诈行为预测模型，然后，在测试集数据上进行模型验证，即利用所述验证集对测试后的欺诈行为预测模型进行验证，得到预先建立的欺诈行为预测模型。

具体实施时，使用新模型在验证集上测试，在AUC指标没有提升之时，认为得到一个好模型，可以用此时的欺诈行为预测模型来预测新数据。

二、接着，为了方便理解，一同介绍上述步骤101和步骤102，在建立好了欺诈行为预测模型后利用该模型进行实际预测步骤。

具体实施时，获取待预测的用户的基本信息和当前交易数据，将待预测的用户的基本信息和当前交易数据输入上述“一”预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果。

另外，本发明实施例涉及使用以下相关技术工具及协议：1.Python编程语言；2.LightGBM；3.CatBoost。本发明实施例中特征工程处理实现纵向特征的衍生和处理。

综上，本发明实施例提供的预测用户欺诈行为的方法可以帮助金融平台通过客户基本信息和交易数据得到客户贷款逾期概率，有助于帮助相关业务人员对是否放贷提供决策依据，减轻金融机构业务人员的工作压力并提高效率，进一步提升机构的智能风控水平。

本发明实施例中还提供了一种预测用户欺诈行为的装置，如下面的实施例所述。由于该装置解决问题的原理与预测用户欺诈行为的方法相似，因此该装置的实施可以参见预测用户欺诈行为的方法的实施，重复之处不再赘述。

图7为本发明实施例中预测用户欺诈行为的装置的结构示意图，如图7所示，该装置包括：

获取单元01，用于获取待预测的用户的基本信息和当前交易数据；

预测单元02，用于将待预测的用户的基本信息和当前交易数据输入预先建立的欺诈行为预测模型，得到用户是否存在欺诈行为的预测结果；所述欺诈行为预测模型根据LightGBM模型和CatBoost模型融合得到，所述LightGBM模型和CatBoost模型根据多个用户的基本信息和历史交易数据的样本数据预先训练生成。

在一个实施例中，上述预测用户欺诈行为的装置还可以包括建立单元，用于按照如下方法预先建立所述欺诈行为预测模型；如图8所示，所述建立单元包括：

样本获取模块031，用于获取多个用户的基本信息和历史交易数据作为样本数据；所述样本数据包括存在欺诈行为的正样本和不存在欺诈行为的负样本；

样本划分模块034，用于将所述样本数据划分为训练集、测试集和验证集；

训练模块035，用于利用所述训练集对LightGBM模型和CatBoost模型进行训练，得到训练好的LightGBM模型和CatBoost模型；

融合处理模块036，用于对训练好的LightGBM模型和CatBoost模型进行加权融合处理，得到融合后的欺诈行为预测模型；

测试模块037，用于利用所述测试集对融合后的欺诈行为预测模型进行测试，得到测试后的欺诈行为预测模型；

验证模块038，用于利用所述验证集对测试后的欺诈行为预测模型进行验证，得到预先建立的欺诈行为预测模型。

在一个实施例中，如图9所示，所述建立单元还包括：

预处理模块032，用于对获取的样本数据进行预处理，得到预处理后的样本数据；

特征工程处理模块033，用于对预处理后的样本数据进行特征工程处理，得到特征工程处理后的样本数据；

所述样本划分模块具体用于：将特征工程处理后的样本数据划分为训练集、测试集和验证集。

在一个实施例中，所述预处理模块具体用于：

对样本数据中预设类别的用户特征数据进行缺失值处理，得到缺失值处理后的特征数据；

对缺失值处理后的特征数据中异常程度大于预设异常值的特征数据进行异常值处理，得到异常值处理后的特征数据；

对异常值处理后的特征数据进行时间戳处理，得到预处理后的样本数据。

在一个实施例中，所述特征工程处理模块具体用于：

对预处理后的样本数据中相关系数为负的特征数据均乘以预设负数，得到再次处理后的样本数据；

将经过再次处理后的样本数据缩放到预设范围区间内，得到缩放处理后的样本数据；

对缩放处理后的样本数据进行特征衍生处理，得到特征衍生处理后的样本数据；

对特征衍生处理后的样本数据进行PCA降维处理，得到特征工程处理后的样本数据。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述预测用户欺诈行为的方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

19页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：交易处理方法及装置

预测用户欺诈行为的方法及装置

相关技术

网友询问留言