异常行为用户识别方法、装置、设备及存储介质

文档序号:1953081 发布日期:2021-12-10 浏览:21次 >En<

阅读说明:本技术 异常行为用户识别方法、装置、设备及存储介质 (Abnormal behavior user identification method, device, equipment and storage medium ) 是由 黄移军 于 2021-09-18 设计创作,主要内容包括:本发明涉及人工智能领域,公开了一种异常行为用户识别方法、装置、设备及存储介质,该方法包括:获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度;从而可实现对用户行为的监控。此外,本发明还涉及区块链领域,行为数据可存储于区块链中。(The invention relates to the field of artificial intelligence, and discloses a method, a device, equipment and a storage medium for identifying users with abnormal behaviors, wherein the method comprises the following steps: the method comprises the steps of obtaining dimension characteristics of behavior data of each user inquiry service system data, selecting a target user, calculating characteristic distances between the target user and other users according to the dimension characteristics, comparing the characteristic distances with a preset radius based on an abnormal behavior recognition model, and determining the abnormal behavior user according to a comparison result. The method and the device realize the identification of the abnormal behavior user, and the abnormal behavior user is identified through the abnormal behavior identification model and the characteristic distance, so that the identification efficiency and accuracy are improved; therefore, the monitoring of the user behavior can be realized. In addition, the invention relates to the field of blockchains, in which behavior data can be stored.)

异常行为用户识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种异常行为用户识别方法、装置、设备及存储介质。

背景技术

针对企业数据安全,存在两方面风险。一方面是外部风险,为外部人员通过各种手段进入企业内部,获取企业数据或者破坏企业数据,造成企业数据丢失或者外泄,导致企业数据的安全事故。另一种是企业内部风险,为企业内部内网用户通过各种风险行为将企业数据丢失或者外泄,造成企业数据的安全事故。并且,一般情况下,企业内部内网用户的风险行为造成的企业数据的安全事故数量,远大于外部风险造成的企业数据安全事故的数量。

在一般情况下,通过设置黑名单方式可实现对内网异常行为用户的识别。具体的,管理人员将需要限制的用户名加入黑名单中。但通过设置黑名单的方式对内网异常用户进行识别时,仅能对当前管理人员已知的异常用户进行识别,对当前管理人员未知且无法发现异常行为的用户仍然无法进行识别,因此导致识别异常行为用户的识别效率差、可靠性低。

发明内容

本发明的主要目的在于解决现有技术中对异常行为用户的识别效率差的技术问题。

本发明第一方面提供了一种异常行为用户识别方法,所述异常行为用户识别方法包括:获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。

可选的,在本发明的第一方面的第一种实现方式中,在所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离之前,还包括:统计所述用户对应的维度特征的特征个数;根据所述特征个数,计算各所述维度特征的均值以及标准差;根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。

可选的,在本发明的第一方面的第二种实现方式中,所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离包括:从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。

可选的,在本发明的第一方面的第三种实现方式中,所述根据比较的结果确定异常行为用户包括:从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;若是,则将所述第一目标用户作为异常行为用户。

可选的,在本发明第一方面的第四种实现方式中,当所述用户个数不小于预设的个数阈值时,所述根据比较的结果确定异常行为用户包括:将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;从所有所述用户中剔除所述核心用户,得到第二用户;计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;根据比较的结果确定异常行为用户。

可选的,在本发明第一方面的第五种实现方式中,在所述将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较之前,还包括:获取各所述用户的历史行为数据;采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。

本发明第二方面提出一种异常行为用户识别装置,所述异常行为用户识别装置包括:获取模块,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;计算模块,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;比较模块,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;确定模块,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。

可选的,在本发明第二方面的第一种实现方式中,所述异常行为用户识别装置还包括标准化模块,所述标准化模块包括:统计单元,用于统计所述用户对应的维度特征的特征个数;计算单元,用于根据所述特征个数,计算各所述维度特征的均值以及标准差;标准化单元,用于根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。

可选的,在本发明第二方面的第二种实现方式中,所述计算模块包括:第一获取单元,用于从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;第一运算单元,用于将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;第二运算单元,用于将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。

可选的,在本发明第二方面的第三种实现方式中,所述确定模块具体用于:从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;若所述用户个数小于预设的个数阈值,则将所述第一目标用户作为异常行为用户。

可选的,在本发明第二方面的第四种实现方式中,当所述用户个数不小于预设的个数阈值时,所述确定模块还具体用于:将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;从所有所述用户中剔除所述核心用户,得到第二用户;计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;根据比较的结果确定异常行为用户。

可选的,在本发明第二方面的第五种实现方式中,所述异常行为用户识别装置还包括模型训练模块,所述模型训练模块包括:第二获取单元,用于获取各所述用户的历史行为数据;样本训练单元,用于采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;模型训练单元,用于采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。

本发明第三方面提供了一种异常行为用户识别设备,所述异常行为用户识别设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述异常行为用户识别设备执行上述的异常行为用户识别方法的步骤。

本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的异常行为用户识别方法的步骤。

在本发明提供的技术方案中,通过获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。相比传统技术中仅通过实体监控规则对内网的各业务系统的用户日常行为安全监控,本发明能够提高对用户异常行为的识别效率、准确性和全面性,助力安全运营风险处理,避免企业内部内网用户查询各业务系统的敏感信息的风险行为,对内部用户安全、数据外泄安全及内部用户账号安全起到积极作用。

附图说明

图1为本发明实施例中异常行为用户识别方法的第一个实施例示意图;

图2为本发明实施例中异常行为用户识别方法的第二个实施例示意图;

图3为本发明实施例中异常行为用户识别方法的第三个实施例示意图;

图4为本发明实施例中异常行为用户识别方法的第四个实施例示意图;

图5为本发明实施例中异常行为用户识别装置的一个实施例示意图;

图6为本发明实施例中异常行为用户识别装置的另一个实施例示意图;

图7为本发明实施例中异常行为用户识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种异常行为用户识别方法、装置、设备及存储介质,通过获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体内容进行描述,请参阅图1,本发明实施例中异常行为用户识别方法的第一个实施例包括:

101,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;

服务器获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征。在本实施例中,维度特征的维度包括查询时间维度、查询量维度和异常行为维度;查询时间维度是指查询业务数据时间和业务数据出现异常状态的时间差、业务数据投诉时间和查询业务数据的时间差、新产生的业务数据和业务数据出现异常状态的时间差等;查询量维度是指用户个人当月查询量和个人前3月月均查询量的比值、个人当月工作时段(如9-12点,14-18点的时段)查询量和个人前3月工作时段月均查询量的比值、个人当月非工作时段查询量和个人前3个月非工作时段月均查询量的比值、个人月均查询量和用户个人同机构同职级岗位的同事月均查询量比值等;异常行为维度是指多次查询单个业务数据、查询异地业务数据量、查询异地业务数据占比、查询业务数据为异常状态的量及占比等。

另外,本发明实施例可以基于人工智能技术对用户的行为数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

102,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;

服务器将所有用户查询业务系统数据的行为数据以用户身份标识号为主键,构建宽表,即宽表记录有所有用户的行为数据,宽表的记录条数对应所有用户的用户个数,一条记录对应一个用户的行为数据。

服务器从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离。其中,目标用户的数量为至少一个;计算目标用户与其他用户的特征距离时,首先提取宽表中的目标用户的历史数据,将其标记为第一数据点,并提取宽表中剩余用户中一个用户的历史数据,将其标记为第二数据点;然后计算这两个数据点之间的距离。其中,计算目标用户与其他用户的特征距离可以是计算目标用户与其他用户之间的欧氏距离或曼哈顿距离或马氏距离等,在此不做限定。

欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个数据点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两数据点之间的实际距离。曼哈顿距离为在欧几里德空间的固定直角坐标系上两数据点所形成的线段对轴产生的投影的距离总和。马氏距离也可以定义为两个数据点服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

103,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;

104,根据比较的结果确定异常行为用户。

服务器将计算得到的特征距离输入至预设的异常行为识别模型中,采用异常行为识别模型对特征距离与预设的半径进行数值上的比较,得到一个比较结果。其中,预设的异常行为识别模型能够根据目标用户与其他用户之间的特征距离与预设的半径进行比较的结果识别出异常查询业务系统的敏感信息的用户,即异常行为用户。

当目标用户与其他用户之间的特征距离不小于半径,则统计相应的其他用户的用户数量,并判断该用户数量是否小于预设的个数阈值(min_sample),若用户数量小于min_sample,则将该目标用户作为异常行为用户。

在本发明实施例中,通过获取各用户查询业务系统数据的行为数据,选取目标用户并计算目标用户与其他用户的特征距离,根据异常行为识别模型和特征距离识别异常行为用户。本发明实施例实现了对异常行为用户的识别,根据各用户的行为数据和预设的异常行为识别模型进行异常行为用户的识别,提高了识别的效率和准确度。

请参阅图2,本发明实施例中异常行为用户识别方法的第二个实施例包括:

201,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;

服务器获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征。在本实施例中,维度特征的维度包括查询时间维度、查询量维度和异常行为维度;查询时间维度是指查询业务数据时间和业务数据出现异常状态的时间差、业务数据投诉时间和查询业务数据的时间差、新产生的业务数据和业务数据出现异常状态的时间差等;查询量维度是指用户个人当月查询量和个人前3月月均查询量的比值、个人当月工作时段(如9-12点,14-18点的时段)查询量和个人前3月工作时段月均查询量的比值、个人当月非工作时段查询量和个人前3个月非工作时段月均查询量的比值、个人月均查询量和用户个人同机构同职级岗位的同事月均查询量比值等;异常行为维度是指多次查询单个业务数据、查询异地业务数据量、查询异地业务数据占比、查询业务数据为异常状态的量及占比等。

202,统计用户对应的维度特征的维度数;

203,根据维度数,计算各维度特征的均值以及标准差;

204,根据均值以及标准差,对各维度特征进行标准化处理,得到标准维度特征;

为了消除量纲影响,需要将各维度特征进行标准化处理。服务器统计所有用户对应的维度特征的维度数,根据维度数计算各维度特征的均值以及标准差。其中,各维度的维度特征对应不同的维度,统计用户对应的维度特征的维度的数量为维度数。

服务器根据计算得到的各维度特征的均值和标准差,对各维度特征进行标准化处理,得到标准维度特征。在本实施例中,标准维度特征=(维度特征-均值)/标准差;例如,用户xi的第一个维度特征标准化后的值xi1_new=(xi1-第一个维度的维度特征的均值)/第一个维度的维度特征的标准差)。其中,用户xi的第一个维度的维度特征的均值=sum(第一个维度的维度特征的特征值)/用户个数。

其中,标准差公式为:

例如,计算第一个维度的维度特征的标准差,其中N对应所有用户的用户总数,这里的xi为第一个维度的维度特征所对应的第i个用户的维度特征值,为所有用户的第一个维度的维度特征值的均值。

205,从所有用户中任意选取目标用户,并获取各用户的行为数据中各标准维度特征的特征值;

206,将目标用户与其他用户隶属于同一维度的特征值对应进行完全平方差运算,得到各标准维度特征的特征差值;

服务器从所有的用户中任意选取至少一个用户作为目标用户,并获取所有用户的行为数据,从行为数据中提取各标准维度特征的特征值。提取目标用户与其他用户隶属于同一维度的特征值,即在同一个维度下,提取所有用户该维度的标准维度特征的特征值,并根据该特征值进行完全平方差运算,从而得到各用户的标准维度特征的特征差值。

207,将各特征差值的和进行平方根运算,得到目标用户与其他用户的特征距离;

服务器对各特征差值进行算术和运算,得到各特征差值的和,并对各特征差值的和进行平方根运算,即计算各特征差值的平方根,将计算得到的结果作为该目标用户与其他用户的特征距离。其中,特征距离可选取欧氏距离、曼哈顿距离、马氏距离等计算规则进行距离计算,本实施例以欧氏距离说明,其公式如下:

D(xi,xj)=sqrt((xi1-xj1)^2+(xi2-xj2)^2+…+(xin-yin)^2);

其中,xi、xj指两个用户,即目标用户与另一个其他用户,xi1指用户xi的第一个标准维度特征的特征值,xin指员工xi的第n个标准维度特征的特征值,n指特征个数。

208,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;

209,根据比较的结果确定异常行为用户。

在本发明实施例中,步骤208-209与上述的异常行为用户识别方法的第一个实施例中的步骤103-104一致,在此不做赘述。

在本发明实施例中,统计各用户对应的维度特征的维度数,根据维度数计算各维度特征的均值以及标准差,从而对维度特征进行标准化处理,得到标准维度特征,根据标准维度特征计算用户之间的特征距离,提高了特征距离的计算准确度,从而提高了后续识别异常行为用户的准确度。

请参阅图3,本发明实施例中异常行为用户识别方法的第三个实施例包括:

301,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;

302,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;

303,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;

304,从所有用户中提取与目标用户之间的特征距离不大于预设半径的用户,得到第一用户;

服务器将目标用户与其他用户的特征距离与预设的半径(eps)进行比较,判断该特征距离是否不大于预设半径,从而从所有用户中提取与目标用户之间的特征距离小于预设半径的用户,得到第一用户。

在本实施例中,预设半径为服务器预先设置的,其半径的具体数值可取默认值0.5,也可以按照下述方式获取:eps可以通过k-距离计算得到,在k-距离曲线图明显拐点为对应最好的参数。k-距离为指给定k领域参数k,其中,k一般取4,对应数据中的每个点,计算对应的第k个最近邻域距离,即计算每个点的最近4个点距离值,并将数据集所有点对应的最近邻域距离按照降序方式排序,选择第一个最低点对应的距离值作为eps。

305,统计第一用户的用户个数,并判断用户个数是否小于预设的个数阈值;

306,若用户个数小于预设的个数阈值,则将目标用户作为异常行为用户;

在得到第一用户之后,统计第一用户中所包含的用户的用户个数,并将用户个数与预设的个数阈值(min_sample)进行比较,即判断该用户个数是否小于预设的个数阈值。当第一用户的用户个数小于个数阈值时,将目标用户作为异常行为用户,其中,该异常行为用户为异常查询业务系统的敏感信息的用户。

在本实施例中,预设的个数阈值(min_sample)一般取min_sample>=dim+1,其中,dim为特征维度值,即行为数据中各维度特征的特征个数。

307,当用户个数不小于预设的个数阈值时,将目标用户标记为核心用户,并对目标用户分配簇标签;

当第一用户的用户个数不小于预设的个数阈值时,服务器将目标用户标记为核心用户,并判断该目标用户是否被分配有簇标签,若该目标用户没有被分配簇标签,则创建一个簇标签,并将簇标签分配给目标用户。一个簇标签对应一个簇,簇定义为密度相连的用户的最大集合。其中,簇标签只是用来进行标记,可以用数字自增(初始值设为0,逐次标识1,下一个标识2,依次类推)进行标识,本实施例不对簇标签进行设定。

308,从所有用户中剔除核心用户,得到第二用户;

309,计算各第二用户的特征距离,并将各第二用户的特征距离与半径进行比较;

310,根据比较的结果确定异常行为用户。

从所有用户中将核心用户进行剔除,并将剩余的用户作为第二用户。计算第二用户中各用户的特征距离,即从第二用户中选取一个新目标用户,并计算该新目标用户与其他用户的特征距离,并将特征距离与预设的半径进行比较,从而提取出特征距离不大于半径的用户,判断这些用户的用户个数是否小于预设的个数阈值,若其用户个数小于预设的个数阈值,则将新目标用户作为异常行为用户,若其用户个数不小于预设的个数阈值,则将新目标用户作为核心用户,若新目标用户没有被分配簇标签,则分配给新目标用户新创建的簇标签。然后依次访问新目标用户的所有邻居(在距离eps以内的其他用户)。如果它们还没有被分配一个簇标签,那么就将刚刚创建的新的簇标签分配给它们。如果它们是核心样本,那么就依次访问其邻居,以此类推。簇逐渐增大,直到在簇的eps距离内没有更多的核心用户为止。

在本发明实施例中,步骤301-303与上述的异常行为用户识别方法的第一个实施例中的步骤101-103一致,在此不做赘述。

在本发明实施例中,根据用户之间的特征距离以及特征距离不大于预设半径的用户个数相结合识别异常行为用户,提高了异常行为用户的效率和准确度。

请参阅图4,本发明实施例中异常行为用户识别方法的第四个实施例包括:

401,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;

402,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;

403,获取各用户的历史行为数据;

404,采用预设的基于密度的聚类算法对历史行为数据进行样本训练,得到异常行为数据样本;

405,采用异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型;

服务器获取所有用户的历史行为数据,并采用预设的基于密度的聚类算法(DBSCAN算法)对历史行为数据进行样本训练,得到异常行为数据样本,并根据该异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。

在本实施例中,采用基于密度的聚类算法对预设的异常行为识别工具进行模型训练的过程为,任意选取一个历史行为数据对应的用户,将该用户作为起始用户,然后找到这个用户的距离小于等于预设半径(eps)的所有用户。如果距起始用户的距离在半径(eps)之内的用户个数小于预设个数阈值(min_samples),那么这个用户被标记为异常行为用户。如果距离在eps之内的用户个数大于min_samples,则这个用户被标记为核心用户,并被分配一个新的簇标签。然后访问该核心用户的所有邻居(在距离eps以内)。如果它们还没有被分配一个簇,那么就将刚刚创建的新的簇标签分配给它们。如果它们是核心用户,那么就依次访问其邻居,以此类推。簇逐渐增大,直到在簇的eps距离内没有更多的核心用户为止。选取另一个尚未被访问过的用户,并重复相同的过程。其中,eps设置得非常小,则意味着没有用户是核心用户,可能会导致所有用户被标记为异常行为用户,eps设置得非常大,可能会导致所有用户形成单个簇。虽然不需要显示设置簇的个数,但设置eps可以隐式地控制找到eps的个数。使用StandarScaler或MinMaxScaler对所有历史行为数据进行缩放,有时更容易找到eps的较好取值。因为使用缩放技术将确保所有历史行为数据中各维度特征具有相似的范围。

406,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;

407,根据比较的结果确定异常行为用户。

在本发明实施例中,步骤401-402、步骤406-407与上述的异常行为用户识别方法的第一个实施例中的步骤101-102、步骤103-104一致,在此不做赘述。

在本发明实施例中,根据用户的历史行为数据进行样本训练,得到异常行为数据样本,并采用该异常行为数据样本进行模型训练得到异常行为识别模型,从而可以采用训练好的异常行为识别模型对异常行为用户进行识别,提高了异常行为用户识别的效率和准确度。

上面对本发明实施例中的异常行为用户识别方法进行了描述,下面对本发明实施例中的异常行为用户识别装置进行描述,请参照图5,本发明实施例中的异常行为用户识别装置的一个实施例包括:

获取模块501,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;

计算模块502,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;

比较模块503,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;

确定模块504,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。

在本发明实施例中,通过异常行为用户识别装置获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。。

请参阅图6,本发明实施例中的异常行为用户识别装置的另一个实施例包括:

获取模块501,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;

计算模块502,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;

比较模块503,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;

确定模块504,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。

其中,所述异常行为用户识别装置还包括标准化模块505,所述标准化模块505包括:

统计单元5051,用于统计所述用户对应的维度特征的特征个数;

计算单元5052,用于根据所述特征个数,计算各所述维度特征的均值以及标准差;

标准化单元5053,用于根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。

其中,所述计算模块502包括:

第一获取单元5021,用于从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;

第一运算单元5022,用于将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;

第二运算单元5023,用于将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。

其中,所述确定模块504具体用于:

从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;

统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;

若所述用户个数小于预设的个数阈值,则将所述第一目标用户作为异常行为用户。

其中,当所述用户个数不小于预设的个数阈值时,所述确定模块504还具体用于:

将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;

从所有所述用户中剔除所述核心用户,得到第二用户;

计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;

根据比较的结果确定异常行为用户。

其中,异常行为用户识别装置还包括模型训练模块506,所述模型训练模块506包括:

第二获取单元5061,用于获取各所述用户的历史行为数据;

样本训练单元5062,用于采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;

模型训练单元5063,用于采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。

在本发明实施例中,通过异常行为用户识别装置获取各用户查询业务系统数据的行为数据,选取目标用户并计算目标用户与其他用户的特征距离,并根据用户之间的特征距离对异常行为用户进行识别,提高了异常行为用户识别的效率和准确度,实现了对用户异常行为的监控。

请参阅图7,下面从硬件处理的角度对本发明实施例中的异常行为用户识别设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种异常行为用户识别设备的结构示意图,该异常行为用户识别设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对异常行为用户识别设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在异常行为用户识别设备700上执行存储介质730中的一系列指令操作。

异常行为用户识别设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和或或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的异常行为用户识别设备结构并不构成对异常行为用户识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明所指服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述异常行为用户识别方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于大数据的风险行为分析方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类