基于大数据的画像生成系统

文档序号:923970 发布日期:2021-03-02 浏览:1次 >En<

阅读说明:本技术 基于大数据的画像生成系统 (Portrayal generation system based on big data ) 是由 张静雅 朱金星 葛丹妮 段力阁 于 2021-01-28 设计创作,主要内容包括:本发明涉及一种基于大数据的画像生成系统,包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现步骤S1、从第一数据库中获取待测设备id的输入特征信息,并输入到设备id分类模型中,判断是否为目标类型设备id,若是,则执行步骤S2;步骤S2、基于待测设备id、预设的第一时间段和待测设备id对应的目标地址从第二数据库中获取目标wifi ssid;步骤S3、基于目标wifi ssid和预设的第二时间段从第二数据库中获取目标设备id集合;步骤S4、基于目标设备id集合、第一数据库和/或第二数据库和/或第三数据库生成目标画像。本发明能够准确全面地获取小微企业的特征信息,提高了小微企业画像的精确度。(The invention relates to an portrait generating system based on big data, which comprises a first database, a second database, a third database, a processor and a memory for storing a computer program, wherein when the computer program is executed by the processor, the step S1 is realized, input characteristic information of an id of a device to be tested is obtained from the first database and is input into a device id classification model, whether the device id is a target type device id is judged, and if the device id is the target type device id, the step S2 is executed; step S2, acquiring a target wifi ssid from a second database based on the device id to be tested, a preset first time period and a target address corresponding to the device id to be tested; step S3, acquiring a target device id set from a second database based on the target wifi ssid and a preset second time period; step S4, generating a target representation based on the set of target device ids, the first database and/or the second database and/or the third database. The method can accurately and comprehensively acquire the characteristic information of the small and micro enterprises, and improves the accuracy of the portrait of the small and micro enterprises.)

基于大数据的画像生成系统

技术领域

本发明涉及计算机技术领域,尤其涉及一种基于大数据的画像生成系统。

背景技术

用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,随着计算机技术以及大数据技术的不断发展,用户画像已经各个领域得到了广泛的应用。所谓用户画像,是指根据用户社会属性、生活习惯和消费行为等信息抽象出的标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。

企业作为社会经济活动的主体,它涉及社会经济活动的各个方面。相应的,人们对企业画像(也即:企业级的用户画像)的需求也在不断提高。针对中型企业或大企业,可以从大数据中获取全面准确的企业信息构建企业画像。小微企业是我国经济和社会发展中的一支重要支撑力量,但是,由于小微企业较难获取到准确全面的企业信息,因此很难构建准确的企业画像,因此,如何基于大数据生成精确的小微企业画像成为亟待解决的技术问题。

发明内容

本发明目的在于,提供一种基于大数据的画像生成系统,能够准确全面地获取小微企业的特征信息,提高了小微企业画像的精确度。

根据本发明第一方面,提供了一种基于大数据的画像生成系统,包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库用于存储设备id和设备id对应的特征信息和对应的时间信息,所述第二数据库用于存储设备id和设备id连接的wifi ssid信息、wifi位置信息和wifi连接时间信息,所述第三数据库用于存储设备id和设备id对应的标签信息,当所述计算机程序被处理器执行时,实现以下步骤:

步骤S1、从所述第一数据库中获取待测设备id对应的特征信息作为对应的输入特征信息,并输入预先训练好的设备id分类模型中,判断所述待测设备id是否为目标类型设备id,若是,则执行步骤S2,所述目标类型设备id为小微企业主的设备id;

步骤S2、基于所述待测设备id、预设的第一时间段和待测设备id对应的目标地址从所述第二数据库中获取目标wifi ssid,所述目标地址为待测设备id对应的工作地,所述目标wifi ssid为待测设备id的工作地wifi ssid;

步骤S3、基于所述目标wifi ssid和预设的第二时间段从所述第二数据库中获取所有目标设备id,构建目标设备id集合,所述目标设备id为所述待测设备id对应的小微企业的员工的设备id;

步骤S4、基于所述目标设备id集合、所述第一数据库和/或第二数据库和/或第三数据库生成目标画像,所述目标画像为所述待测设备id对应的小微企业的画像。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于大数据的画像生成系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:

本发明通过设置三个数据库,先判断设备id是否为小微企业主的设备id,再通过小微企业主的设备id从第二数据库中确定出小微企业的工作wifi,通过小微企业的工作wifi从第二数据库中确定员工的设备id,最后通过员工的设备id从第一数据库和/或第二数据库和/或第三数据库中获取对应的特征或标签,生成小微企业画像,本发明能够准确全面地获取小微企业的特征信息,提高了生成小微企业画像的准确度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的基于大数据的画像生成系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的画像生成系统的具体实施方式及其功效,详细说明如后。

本发明实施例提供了一种基于大数据的画像生成系统,如图1所示,包括第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库用于存储设备id和设备id对应的特征信息和对应的时间信息,设备id对应的特征信息可包括安装APP的名称、安装APP的活跃特征、设备更换通信卡信息、家庭地信息、工作地信息等等。所述第二数据库用于存储设备id和设备id连接的wifi ssid信息、wifi位置信息和wifi连接时间信息,第二数据库中每条记录的字段可包括设备id、设备id连接的wifi ssid信息、wifi位置信息和wifi连接时间信息,其中,wifi ssid是每一wifi的唯一标识,wifi位置信息指的是wifi ssid对应的地理位置信息,例如可以为geohash信息,wifi连接时间信息是指每条记录对应的连接时间信息。所述第三数据库用于存储设备id和设备id对应的标签信息,标签信息为预先计算出的设备id对应的人员信息的标签,例如可以是年龄、性别、收入水平、消费能力等等。当所述计算机程序被处理器执行时,实现以下步骤:

步骤S1、从所述第一数据库中获取待测设备id对应的特征信息作为对应的输入特征信息,并输入预先训练好的设备id分类模型中,判断所述待测设备id是否为目标类型设备id,若是,则执行步骤S2,所述目标类型设备id为小微企业主的设备id;

其中,所述输入特征信息包括以下特征的任意一个或任意多个的组合:预设的第三时间段内第一类预设APP的数量、预设的第三时间段内第一类预设APP的活跃特征、预设的第三时间段内设备稳定性特征、预设的第三时间段内对应的家庭地标签数量、预设的第三时间段内对应的工作地标签数量,所述第一类预设APP包括企业APP、工商APP和税务APP中的一种或多种。

可以理解的是,由于小微企业信息的不易全面获取,很多应用场景下,并不能直接获知某一设备id是否为小微企业主设备id,因此可以通过步骤S1对待测设备id进行判断。当然,基于步骤S1可以将第一数据库中所有的设备id进行判断,批量筛选出小微企业主的设备id。

步骤S2、基于所述待测设备id、预设的第一时间段和待测设备id对应的目标地址从所述第二数据库中获取目标wifi ssid,所述目标地址为待测设备id对应的工作地,所述目标wifi ssid为待测设备id的工作地wifi ssid;

其中,待测设备id对应的工作地可以直接通过现有的技术或方法直接获取,例如通过已公开的信息平台获取,亦可通过线下定位的方式获取小微企业真实的位置,本发明对此不作限定。第一时间段可以通过具体的应用需求来设定,例如可以设置为3个月。

步骤S3、基于所述目标wifi ssid和预设的第二时间段从所述第二数据库中获取所有目标设备id,构建目标设备id集合,所述目标设备id为所述待测设备id对应的小微企业的员工的设备id;

其中,第二时间段可以与第一时间段相同,也可以不同,具体的根据应用需求来设定,优选的,第二时间段也可以设置为3个月。

步骤S4、基于所述目标设备id集合、所述第一数据库和/或第二数据库和/或第三数据库生成目标画像,所述目标画像为所述待测设备id对应的小微企业的画像。

本发明实施例通过设置三个数据库,先判断设备id是否为小微企业主的设备id,再通过小微企业主的设备id从第二数据库中确定出小微企业的工作wifi,通过小微企业的工作wifi从第二数据库中确定员工的设备id,最后通过员工的设备id从第一数据库和/或第二数据库和/或第三数据库中获取对应的特征或标签,生成小微企业画像,本发明实施例能够准确全面地获取小微企业的特征信息,提高了生成小微企业画像的准确度。

根据本发明,所述系统可以物理实现为一个服务器,也可以实现为包括多个服务器的服务器群组。本领域技术人员知晓,服务器的型号、规格等参数并不影响本发明的保护范围

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

作为一种实施例,当所述计算机程序被处理器执行时,还实现步骤S10、训练得到所述设备id分类模型,具体包括:

步骤S101、获取多个小微企业主的设备id和多个非小微企业主的设备id,所述获取的小微企业主的设备id为第一设备id,所获取的非小微企业主的设备id为第二设备id;

步骤S102、基于每一所述第一设备id从所述第一数据库中获取对应的特征信息作为对应的输入特征信息,构建正样本特征集合,基于每一所述第二设备id从所述第一数据库中获取对应的特征信息作为对应的输入特征信息,构建负样本特征集合;

步骤S103、基于所述正样本特征集合和负样本特征集合训练得到所述设备id分类模型。

其中,所述设备id分类模型优选为逻辑回归模型,直接将所述正样本特征集合和负样本特征集合属于逻辑回归模型中进行训练,得到所述设备id分类模型。

作为一种实施例,所述步骤S101包括:

步骤S111、从预设的小微企业主设备id集合中随机抽取多个小微企业主的第一设备id;

预设的小微企业主设备id集合为已知为小微企业主的设备id组成的集合。

步骤S112、从所述第一数据库中随机抽取多个与所述第一设备id对应的特征信息相似度低于预设的相似度阈值的第二设备id。

通过步骤S112可以基于小微企业主的设备id的特征信息,从第一数据库的海量数据中随机抽选出多个与所述第一设备id对应的特征信息相似度低于预设的相似度阈值的第二设备id,第二设备id即作为非小微企业主的设备id。基于此获取的正负样本集进行模型训练,可以提高模型的精确度。

作为一种实施例,所述步骤S2可包括:

步骤S21、基于所述待测设备id、预设的第一时间段从所述第二数据库中获取所述待测设备id在所述第一时间段内连接过的连接频率超过预设连接频率阈值的所有wifi ssid,组成第一wifi ssid列表;

其中,由于设备id在一个时间断内可能会连接到多个wifi ssid,但存在一些连接次数很少的非目标wifi,因此可以直接通过设定连接频率阈值滤除一些噪声,减少后续计算的工作量,并提升结果的准确性。

通过步骤S21获取到的第一wifi ssid列表中的wifi ssid通常有多个,因此可以通过步骤S22-步骤S24进一步过滤。

步骤S22、获取所述第一wifi ssid列表中每一wifi ssid在所述预设的第一时间段中每一预设时间点对应的连接设备的数量;

步骤S23、基于所述第一wifi ssid列表中每一wifi ssid在所述预设的第一时间段中每一预设时间点对应的连接设备的数量以及预设的工作时间段和非工作时间段,获取所述第一wifi ssid列表中每一wifi ssid在预设的工作时间段和非工作时间段内的连接设备的数量分布特征;

步骤S24、基于所述第一wifi ssid列表中每一wifi ssid在预设的工作时间段和非工作时间段内的连接设备的数量分布特征判断该wifi ssid是否为工作地wifi ssid,若是,则将该wifi ssid和对应的wifi位置信息存储至预设的第二wifi ssid列表中;

可以理解的是,工作地wifi ssid在工作时段和非工作时段有明显的分布特征,因此可基于分布特征,通过步骤S22-步骤S24从第一wifi ssid列表中过滤非工作地wifi ssid,得到工作地wifi ssid 。

步骤S25、将所述第二wifi ssid列表中wifi位置信息与所述待测设备id对应的目标地址距离最近的wifi ssid确定为目标wifi ssid。

作为一种实施例,所述步骤S3包括:

步骤S31、基于所述目标wifi ssid和预设的第二时间段从所述第二数据库中获取所述第二时间段内,连接所述目标wifi ssid超过预设连接次数阈值和/或连接总时间阈值的目标设备id,构建目标设备id集合。

其中,目标wifi ssid在预设的第二时间段内是有可能存在一些到访用户的设备id等情况,这些设备id并非员工设备id,因此可通过设置接次数阈值和/或连接总时间阈值来过滤噪声, 减少后续计算的工作量,提高计算结果的准确性。

作为一种实施例,所述步骤S4包括:

步骤S41、基于所述目标设备id集合从所述第一数据库中获取第一维度画像特征,包括每一目标设备id在预设的第四时间段内对应的第二类预设APP的数量和预设的第四时间段内第二类预设APP的活跃特征,所述第二类预设APP为求职类APP;

和/或,

基于所述目标设备id集合从所述第二数据库中获取第二维度画像特征,包括预设的第四时间段内在预设的非工作时间段内连接所述目标wifi ssid的目标设备id数量和第四时间段内连接所述目标wifi ssid的新增设备id的数量;

和/或,

基于所述目标设备id集合从所述第三数据库中获取第三维度画像特征,包括每一目标设备id对应的标签信息;

其中,第一维度画像特征可以刻画小微企业员工的稳定性;第二维度画像特征可以表征小微企业员工加班行为特征、新入职员工数量特征;第三维度画像特征中所有员工的多个维度的标签能够从多个维度表征企业画像。

步骤S42、基于所述第一维度画像特征和/或第二维度画像特征和/或第三维度画像特征生成目标画像。

作为一种实施例,所述系统还可包括显示装置,用于显示所述目标画像,供用户查看。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于物联网的信息检测处理方法、设备、介质及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!