面向防贫预警的用户画像构建方法、装置及存储介质

文档序号:1963737 发布日期:2021-12-14 浏览:14次 >En<

阅读说明:本技术 面向防贫预警的用户画像构建方法、装置及存储介质 (User portrait construction method and device for poverty prevention early warning and storage medium ) 是由 孙圣力 陈忠毅 李青山 司华友 于 2021-08-20 设计创作,主要内容包括:本发明提供了一种面向防贫预警的用户画像构建方法、装置、电子设备及存储介质,其中的用户画像构建方法包括:建立用户画像标签体系,所述用户画像标签体系包括若干基础属性标签和若干挖掘属性标签;将从多个外部数据源中采集到的用户数据整合至数据仓库内;基于用户画像标签体系,对于每一个基础属性标签及挖掘属性标签,从数据仓库中获取到相应的用户数据处理后保存至用户画像数据库。本发明通过对用户数据进行搜集、整理及标签化处理,从而形成用户画像,其显著提升了防贫预警的预警效果,为提升精准扶贫成效提供了更加有效的数据支撑。(The invention provides a user portrait construction method and device for poverty prevention early warning, electronic equipment and a storage medium, wherein the user portrait construction method comprises the following steps: establishing a user portrait label system, wherein the user portrait label system comprises a plurality of basic attribute labels and a plurality of mining attribute labels; integrating user data collected from a plurality of external data sources into a data warehouse; and acquiring corresponding user data from the data warehouse and storing the corresponding user data into the user image database after processing for each basic attribute tag and mining attribute tag based on the user image tag system. According to the invention, the user data is collected, sorted and labeled, so that the user figure is formed, the early warning effect of poverty prevention early warning is obviously improved, and more effective data support is provided for improving the accurate poverty alleviation effect.)

面向防贫预警的用户画像构建方法、装置及存储介质

技术领域

本发明涉及大数据领域,具体而言,本申请涉及一种面向防贫预警的用户 画像构建方法、装置及存储介质。

背景技术

用户画像是通过收集用户各个维度如社会属性、偏好、消费习惯等各个维 度的信息数据,对用户或产品的特征进行刻画,并对这些特征进行分析、统计、 挖掘其中的包含价值的信息,继而抽象出用户的全貌的一种技术。其核心在于 对用户信息的标签化和标签的管理。

当前用户画像技术所面向的业务场景往往是电商、信息流等,所刻画的用 户信息也大多是企业的用户和商品,如何将用户画像技术应用至防贫预警领域 中以推动精准扶贫的实施效果无疑是一项非常有意义的工作。

发明内容

为了实现上述目标,本发明第一方面提供了一种面向防贫预警的用户画像 构建方法,其包括:

建立用户画像标签体系,所述用户画像标签体系包括若干基础属性标签和 若干挖掘属性标签;

将从多个外部数据源中采集到的用户数据整合至数据仓库内;

基于用户画像标签体系,对于每一个基础属性标签及挖掘属性标签,从数 据仓库中获取到相应的用户数据处理后保存至用户画像数据库。

在一些实施例中,所述将从多个外部数据源中采集到的外部数据整合至数 据仓库内包括:在数据仓库内预先创建实体表和事实表,所述实体表用于存储 用户的自然属性数据,所述事实表用于存储用户行为数据;根据用户画像标签 体系,对从多个外部数据源中采集到的用户数据进行整合并将整合后的用户数 据存储至数据仓库内预先创建的实体表和事实表内。

在一些实施例中,所述对从多个外部数据源中采集到的用户数据进行整合 并将整合后的用户数据存储至数据仓库内预先创建的实体表和事实表内包括: 从若干外部数据源中采集用户数据并基于用户的身份标识完成对用户数据的融 合;按预定的转换规则对融合后的用户数据进行转换,经转换后的用户数据具 有若干属性,各属性均对应于基础属性标签、挖掘属性标签中的至少一个;将 转换后的用户数据写入至消息队列中;从消息队列中获取数据并将数据长存储 至数据仓库中。

在一些实施例中,所述从若干外部数据源中采集用户数据并基于用户的身 份标识完成对用户数据的融合包括:所述多个外部数据源至少包括关系型数据 库和非关系型数据库,所述从若干外部数据源中采集用户数据并基于用户的身 份标识完成对用户数据的融合包括:经JDBC接口与所述多个外部数据源分别 连接以采集用户数据;将采集到的用户数据转化成具有统一格式的用户数据; 基于用户的身份标识完成对用户数据的融合。

在一些实施例中,通过对从多个外部数据源中采集到的用户数据进行挖掘 生成所述挖掘属性标签。

在一些实施例中,所述通过对从多个外部数据源中采集到的用户数据进行 挖掘生成所述挖掘属性标签包括:利用基于熵值修正G2的灰色关联SVM算法 对从多个外部数据源中采集到的用户数据进行挖掘,获得所述挖掘属性标签。

本发明第二方面提供了一种面向防贫预警的用户画像构建装置,其包括:

标签体系构建模块,用于建立用户画像标签体系,所述用户画像标签体系 包括若干基础属性标签和若干挖掘属性标签;

存储模块,用于将从多个外部数据源中采集到的用户数据整合至数据仓库 内,其中,

用户画像生成模块,用于基于用户画像标签体系,对于每一个基础属性标 签及挖掘属性标签,从数据仓库中获取到相应的用户数据处理后保存至用户画 像数据库。

本发明第三方面提供了一种电子装置,包括存储器、处理器及存储在存储 器内并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程 序时实现上述的用户画像构建方法。

本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介 质上存储有计算机程序,该程序被处理器执行时实现上述的用户画像构建方法。

本发明通过对用户数据进行搜集、整理及标签化处理,从而形成用户画像, 其显著提升了防贫预警的预警效果,为提升精准扶贫成效提供了更加有效的数 据支撑。

附图说明

图1为本发明的一个实施例的面向防贫预警的用户画像构建方法的执行流 程图;

图2为本发明的另一个实施例的面向防贫预警的用户画像构建方法的执行 流程图;

图3为本发明的又一个实施例的面向防贫预警的用户画像构建方法的执行 流程图;

图4为本发明实施例的面向防贫预警的用户画像构建装置的执行流程图;

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和 具体实施方式对本发明作进一步详细的说明。

本申请提供的面向防贫预警的用户画像构建方法、装置、电子设备及计算 机存储介质,旨在通过对用户数据进行搜集、整理及标签化处理,形成用户画 像,从而提升了防贫预警的预警效果。

实施例一

本申请实施例提供了一种面向防贫预警的用户画像构建方法,如图1所示, 其包括:

步骤S100、建立用户画像标签体系,用户画像标签体系包括若干基础属性 标签和若干挖掘属性标签。

基础属性标签,可以根据具体的业务规则构建,自顶向下地建立用户的基 础标签体系,基础标签体系包括统计类标签、规则类标签。其中:

统计类标签是最为基础也最为常见的标签类型,例如,对于某个用户来说, 其年度收入、季度医疗费、年度教育支出等可以从用户的收入流水、医疗支出 流水及教育支出流水进行计算统计获取。

规则类标签基于用户行为及确定的规则产生,例如,“年度收入在5000元 至10000元之间”、“年度收入低于5000元”、“季度医疗费在500至1000之间”、 “季度医疗费在高于1000元”、“年度教育支出高于1000元”等。实际开发画 像的过程中,由于业务人员对业务更为熟悉,而数据人员对数据的结构、分布、 特征更为熟悉,因此规则类标签的规则由业务人员和数据人员共同协商确定。

挖掘属性标签,则通过对从多个外部数据源中采集到的用户数据进行机器 学习挖掘生成。用于对用户的某些属性或某些行为进行预测判断。例如,根据 一个用户的收入流水、医疗支出流水、教育支出流水等情况判断该用户的致贫 原因、贫困状态等。该类标签需要通过机器算法挖掘产生。

一般来说,上述三类标签,统计类标签、规则类标签基于结构化用户数据 产生,挖掘类标签则很可能是基于非结构化用户数据产生。

用于产生挖掘类标签的成熟机器算法有很多,如Apriori算法、聚类分析算 法、卷积神经网络算法等。实际应用过程中,可以根据具体需要选择合适的机 器挖掘算法。本发明的发明人在实施本发明的过程中,通过对各种机器挖掘算 法的实施效果进行比较,发现基于熵值修正G2的灰色关联SVM算法在自动生 成挖掘标签方面的性能较优。下文对该算法的执行过程进行简要描述。

步骤一、专家从被确定为贫困户的用户特征集{x1,…,xn}中选取最不重要 的特征xjm,将该特征作为唯一参照物,利用指标熵值与专家经验判断确定各特 征与该特征的重要程度比:

步骤二、计算各特征的特征权重:

步骤三、将待评估凭困户的特征数据进行归一化处理,计算待评估贫困户 和已评估贫困户在相对应特征上的绝对差值和两级最小和最大差。

步骤四、计算灰色关联系数:

步骤五、基于灰色关联系数及用户数据训练SVM分类模型,并将训练好的 模型利用python-joblib包保存成模型文件存入系统中。

步骤S200、将从多个外部数据源中采集到的用户数据整合至数据仓库内。

具体的,如图2所示,步骤S200包括如下子步骤:

S201、在数据仓库内预先创建实体表和事实表,所述实体表用于存储用户 的自然属性数据,所述事实表用于存储用户行为数据。

自然属性数据即指用户的身份标识、姓名、地址等信息,用户行为数据即 指用户的收入、医疗支出、教育支出等。

S202、根据用户画像标签体系,对从多个外部数据源中采集到的用户数据 进行整合并将整合后的用户数据存储至数据仓库内预先创建的实体表和事实表 内。

具体的,如图3所示,步骤S202包括:

S2021、从若干外部数据源中采集用户数据并基于用户的身份标识完成对用 户数据的融合。

外部数据源包括关系型数据库和非关系型数据库,各外部数据源内均存储 有一类业务数据,且各业务数据均与用户的身份标识相关联。

例如,在一个实施例中,外部数据源包括来源于人社部门、教育部门等的 业务数据,每条业务数据均对应于一个用户,如,人社部门的业务数据包括用 户的身份证号码、收入流水、医疗支出流水等属性。教育部门的业务数据包括 用户的身份证号码、教育支出流水等属性。

一般来说,当用户为个人时,身份证号码作为用户的身份标识,而当用户 为家庭户时,可选择户主的身份证号码作为用户的身份标识。以该唯一的身份 标识为主键,即能将来源于不同的外部数据源的属于同一用户的数据进行融合。

可选的,为了实现从不同的数据源中采集业务数据,通过JDBC接口与多 各外部数据源分别连接,从而实现对业务数据的采集。接着,将采集到的不同 格式的业务数据转化成具有统一格式的数据。

S2022、按预定的转换规则对融合后的用户数据进行转换,经转换后的用户 数据具有若干属性,各属性均对应于基础属性标签、挖掘属性标签中的至少一 个。

即,在完成对实体的数据融合后,通过对其收入流水、医疗支出流水及教 育支出流水进行统计计算及机器挖掘后,获得年度收入、季度医疗费用、年度 教育支出费用、致贫原因、贫困状态等属性。

可见,经转换后的用户数据包括的各属性与基础属性标签、挖掘属性标签 对应,其为后续的用户画像奠定了数据基础。

S2023、将转换后的用户数据写入至消息队列中。

可选的,消息队列为Kafka消息队列。

S2024、从消息队列中获取数据并将数据长存储至数据仓库中。

数据仓库中已经预先定义好用于存储转换后的数据的实体表和事实表, Kafka消息队列中的数据被高速地分类存放至实体表和事实表内。

至此,完成了对用户数据的整合及存储,接下来,即可以完成用户画像。

S300、基于用户画像标签体系,对于每一个基础属性标签及挖掘属性标签, 从数据仓库中获取到相应的用户数据处理后保存至用户画像数据库。

至此,用户画像标签体系中的每个标签下均已经关联上了相应的标签数据。 最后通过可视化系统进行可视化展示即可获得用户的最终画像。

实施例二

图4为本申请实施例提供的面向防贫预警的用户画像构建装置10的结构示 意图。

该面向防贫预警的用户画像构建装置10包括标签体系构建模块11、存储 模块12和用户画像生成模块13,其中:

标签体系构建模块11,用于建立用户画像标签体系,所述用户画像标签体 系包括若干基础属性标签和若干挖掘属性标签。

基础属性标签,可以根据具体的业务规则构建,自顶向下地建立用户的基 础标签体系,基础标签体系包括统计类标签、规则类标签。其中:

统计类标签是最为基础也最为常见的标签类型,例如,对于某个用户来说, 其年度收入、季度医疗费、年度教育支出等可以从用户的收入流水、医疗支出 流水及教育支出流水进行计算统计获取。

规则类标签基于用户行为及确定的规则产生,例如,“年度收入在5000元 至10000元之间”、“年度收入低于5000元”、“季度医疗费在500至1000之间”、 “季度医疗费在高于1000元”、“年度教育支出高于1000元”等。实际开发画 像的过程中,由于业务人员对业务更为熟悉,而数据人员对数据的结构、分布、 特征更为熟悉,因此规则类标签的规则由业务人员和数据人员共同协商确定。

挖掘属性标签,则通过对从多个外部数据源中采集到的用户数据进行机器 学习挖掘生成。用于对用户的某些属性或某些行为进行预测判断。例如,根据 一个用户的收入流水、医疗支出流水、教育支出流水等情况判断该用户的致贫 原因、贫困状态等。该类标签需要通过机器算法挖掘产生。

一般来说,上述三类标签,统计类标签、规则类标签基于结构化用户数据 产生,挖掘类标签则很可能是基于非结构化用户数据产生。

用于产生挖掘类标签的成熟机器算法有很多,如Apriori算法、聚类分析算 法、卷积神经网络算法等。实际应用过程中,可以根据具体需要选择合适的机 器挖掘算法。本发明的发明人在实施本发明的过程中,通过对各种机器挖掘算 法的实施效果进行比较,最后确定基于熵值修正G2的灰色关联SVM算法在自 动生成挖掘标签方面的性能较优。

存储模块12,用于将从多个外部数据源中采集到的用户数据整合至数据仓 库内。具体的,存储模块12的执行过程如下:

在数据仓库内预先创建实体表和事实表,所述实体表用于存储用户的自然 属性数据,所述事实表用于存储用户行为数据。其中,自然属性数据即指用户 的身份标识、姓名、地址等信息,用户行为数据即指用户的收入、医疗支出、 教育支出等。

根据用户画像标签体系,对从多个外部数据源中采集到的用户数据进行整 合并将整合后的用户数据存储至数据仓库内预先创建的实体表和事实表内。

用户画像生成模块13,用于基于用户画像标签体系,对于每一个基础属性 标签及挖掘属性标签,从数据仓库中获取到相应的用户数据处理后保存至用户 画像数据库。

由于本实施例提供的面向防贫预警的用户画像构建装置10的各功能模块的 处理过程与前述实施例一的面向防贫预警的用户画像构建装方法的处理过程一 致,因此本实施例不再对面向防贫预警的用户画像构建装置10的各功能模块的 进一步具体的处理过程进行重复描述,可以参考实施例一的相关描述。

实施例三

图5为本申请实施例提供的电子设备20的结构示意图,如图5所示,该电 子设备20包括处理器21和存储器23,处理器21和存储器23相连,如通过总 线22相连。

处理器21可以是CPU,通用处理器、DSP,ASIC,FPGA或者其他可编 程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结 合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器21也 可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处 理器的组合等。

总线22可以包括一通路,在上述组件之间传送信息。总线22可以是PCI 总线或EISA总线等。总线22可以分为地址总线、数据总线、控制总线等。为 了便于表示,图中仅以一条粗线表示,但是并不表示仅有一根总线或一种类型 的总线。

存储器23可以是ROM或可存储静态信息和指令的其他类型的静态存储设 备,RAM或者可以储存信息和指令的其他类型的动态存储设备,也可以是 EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储 设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能 够由计算机存取的任何其他介质,但不限于此。

存储器23用于存储本申请方案的应用程序代码,并由处理器21来控制执 行。处理器21用于执行存储器23中存储的应用程序代码,以实现实施例一中 的防贫预警方法过程。

本申请实施例最后还提供了一种计算机可读存储介质,该计算机可读存储 介质上存储有计算机程序,该程序被处理器执行时实现实施例一中的面向防贫 预警的用户画像构建装方法过程。

本申请实施例最后还提供了一种计算机可读存储介质,该计算机可读存储 介质上存储有计算机程序,该程序被处理器执行时实现实施例一、实施例二中 任一项的面向防贫预警的用户画像构建装方法过程。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上 述技术问题进行详细说明。下面这几个具体实施例可以相互结合,对于相同或 相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请 的实施例进行描述。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中 部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术 方案的本质脱离本发明权利要求所限定的范围。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普 通技术人员应该理解,实施例中的描述仅仅是示例性的,在不偏离本发明的真 实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所 要求保护的范围是由所述的权利要求书进行限定的,而不是由实施例中的上述 描述来限定的。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:光伏组串的故障检测方法、装置及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!