一种焦点小组成员筛选方法、装置、终端及存储介质
阅读说明:本技术 一种焦点小组成员筛选方法、装置、终端及存储介质 (Focus team member screening method, device, terminal and storage medium ) 是由 赖信君 黄桂涛 于 2021-08-25 设计创作,主要内容包括:本申请公开了一种焦点小组成员筛选方法、装置、终端及存储介质,本申请提供的一种基于网络社交媒体数据挖掘的焦点小组成员筛选方法,通过爬取用户在社交平台发表的与产品信息相关的会话数据,并根据回复用户对针对该会话数据的回复观点,确定发帖用户的用户影响力系数,根据该用户影响力系数,再加上根据利用GraphSage模型得到的发帖用户的用户特征表示向量,通过聚类和特征相似度计算得到的用户区分度系数,从社交平台的用户中自动找到符合条件的焦点小组候选人,而不会因为人的主观因素造成偏差,还可以节省出大量的人力挑选时间,解决了目前产品调研工作存在投入高、成效低的技术问题。(The application discloses a focus team member screening method based on network social media data mining, which comprises the steps of crawling conversation data relevant to product information published by a user on a social platform, determining a user influence coefficient of a posting user according to a reply viewpoint of the replying user to the conversation data, automatically finding focus team candidates meeting conditions from users of the social platform according to the user influence coefficient and a user feature expression vector of the posting user obtained by utilizing a GraphSage model through a user discrimination coefficient obtained by clustering and feature similarity calculation, avoiding deviation caused by human subjective factors, saving a large amount of manpower selection time, and solving the problems that the investment is high, and the like in the current product research work, Low effect.)
技术领域
本申请涉及大数据技术领域,尤其涉及一种焦点小组成员筛选方法、装置、终端及存储介质。
背景技术
在新产品投放市场前,企业通常会组织焦点小组对产品进行试用,并收集试用后的用户意见以更好地改进产品设计。焦点小组成员一般为新产品所面向的目标人群。特别地,访谈需耗费一定的时间、人力及成本,因此焦点小组规模一般不大(约为十人),所以构成小组成员的个人属性应尽量各不相同,以最大限度包括各种用户群体。
在现实中,要通过人为组织的方式组建一个焦点小组,往往存在如下共性问题:(1)对某些产品而言,可能难以找到合适的目标人群或对这类产品较为熟悉的候选人。(2)可能混进某些滥竽充数的候选人。这类人群为骗取调研费用,在初筛阶段找寻“枪手”帮忙回答问题以进入焦点小组,但却在正式调研阶段难以提供深入的意见反馈,导致访谈效果较差。(3)难以找到背景或用户属性各不相同的小组成员。不少调研公司有固定的受访人员群体,导致受访人员高度同质化,对产品的改善有误导作用,导致了目前产品调研工作存在投入高、成效低的技术问题。
发明内容
本申请提供了一种焦点小组成员筛选方法、装置、终端及存储介质,用于解决目前产品调研工作存在投入高、成效低的技术问题。
本申请第一方面提供了一种焦点小组成员筛选方法,包括:
根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与所述产品信息相关联的用户会话数据,所述用户包括:发帖用户,以及与所述发帖用户关联的回复用户;
将所述用户会话数据输入到会话意见挖掘模型,以通过所述会话意见挖掘模型提取所述用户会话数据的观点特征;
根据第一观点特征与各个第二观点特征的比对结果,确定所述发帖用户的影响因子系数,并根据所述影响因子系数计算所述发帖用户的用户影响力系数,其中,所述第一观点特征为根据所述发帖用户的用户会话数据提取得到的观点特征,所述第二观点特征为根据所述回复用户的用户会话数据提取得到的观点特征;
根据所述发帖用户的用户特征,通过特征相似度计算方式,计算各个所述发帖用户间的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数;
根据所述用户影响力系数和用户区分度系数,确定焦点小组的成员筛选名单。
优选地,所述产品信息具体包括:产品名称信息和产品领域信息。
优选地,所述根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与所述产品信息相关联的用户会话数据具体包括:
根据所述产品领域信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与所述产品领域信息相关联的用户会话数据。
优选地,所述观点特征具体包括:观点对象特征、观点属性特征以及情感极性特征。
优选地,所述根据第一观点特征与各个第二观点特征的比对结果,确定所述发帖用户的影响因子系数具体包括:
当所述第一观点特征与当前的第二观点特征的比对结果为观点对象特征、观点属性特征以及情感极性特征均相同时,则对所述发帖用户的影响因子系数进行自增运算;
当所述第一观点特征与当前的第二观点特征的比对结果为观点对象特征、观点属性特征均相同,但情感极性特征不相同时,则对所述发帖用户的影响因子系数进行自减运算;
根据各个所述比对结果,确定所述发帖用户的影响因子系数。
优选地,所述根据所述影响因子系数计算所述发帖用户的用户影响力系数具体包括:
根据所述影响因子系数,通过PageRank算法计算所述发帖用户的用户影响力系数。
优选地,所述根据所述发帖用户的用户特征,通过特征相似度计算方式,计算所述发帖用户与其他发帖用户间的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数具体包括:
根据所述发帖用户的用户特征,通过余弦相似度计算方式,计算所述发帖用户与其他发帖用户间的余弦相似度,以根据所述余弦相似度的平均值换算得到所述发帖用户的用户区分度系数。
本申请第二方面提供了一种焦点小组成员筛选装置,包括:
会话数据爬取单元,用于根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与所述产品信息相关联的用户会话数据,所述用户包括:发帖用户,以及与所述发帖用户关联的回复用户;
观点特征提取单元,用于将所述用户会话数据输入到会话意见挖掘模型,以通过所述会话意见挖掘模型提取所述用户会话数据的观点特征;
用户影响力系数计算单元,用于根据第一观点特征与各个第二观点特征的比对结果,确定所述发帖用户的影响因子系数,并根据所述影响因子系数计算所述发帖用户的用户影响力系数,其中,所述第一观点特征为根据所述发帖用户的用户会话数据提取得到的观点特征,所述第二观点特征为根据所述回复用户的用户会话数据提取得到的观点特征;
聚类处理单元,用于将所述发帖用户的用户特征输入到预设的GraphSage模型,得到用户特征表示向量,并基于所述用户特征表示向量对所述发帖用户进行聚类处理,得到若干个聚类簇;
用户区分度系数计算单元,用于通过特征相似度计算方式,计算不同聚类簇间发帖用户的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数;
成员名单确定单元,用于根据所述用户影响力系数和用户区分度系数,确定焦点小组的成员筛选名单。
本申请第三方面提供了一种焦点小组成员筛选终端,包括:存储器和处理器;
所述存储器用于存储程序代码,所述程序代码与如本申请第一方面提供的焦点小组成员筛选方法相对应;
所述处理器用于执行所述程序代码。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如本申请第一方面提供的焦点小组成员筛选方法相对应的程序代码。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供的一种基于网络社交媒体数据挖掘的焦点小组成员筛选方法,通过爬取用户在社交平台发表的与产品信息相关的会话数据,并根据回复用户对针对该会话数据的回复观点,确定发帖用户的用户影响力系数,根据该用户影响力系数,再加上根据利用GraphSage模型得到的发帖用户的用户特征表示向量,通过聚类和特征相似度计算得到的用户区分度系数,从社交平台的用户中自动找到符合条件的焦点小组候选人,而不会因为人的主观因素造成偏差,还可以节省出大量的人力挑选时间,解决了目前产品调研工作存在投入高、成效低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种焦点小组成员筛选方法的一个实施例的流程示意图。
图2为本申请提供的一种焦点小组成员筛选装置的一个实施例的结构示意图。
具体实施方式
本申请实施例提供了一种焦点小组成员筛选方法、装置、终端及存储介质,用于解决目前产品调研工作存在投入高、成效低的技术问题。
目前,互联网社交媒体上的海量用户大数据为解决上述问题提供了契机:(1)社交网络具有用户量大,用户自发传播,个人信息量大的特点。可以通过收集用户的个人信息对候选人进行条件筛选(2)社交网络中获取用户的信息成本低,可以极大的降低组建焦点小组的成本。(3)大量产品的忠实用户会借助社交平台发表自己对产品的观点,通过收集这些用户的社交平台的发言记录,可以挑选出优质的候选人。(4)用户在社交网络平台上会自发性的组建社群,社交网络用户这一性质可以帮助我们缩小挑选候选人的范围,降低筛选候选人的成本。(5)通过对用户大数据分析可对候选人员生成针对产品的用户画像,方便调研人员进行筛选或在访谈中提出有针对性的问题,提高准备及调研的效率。随着移动互联网及通讯工具的日益发展,以及疫情及后疫情时代网络会议的文化普及,为本申请通过网络进行焦点小组成员的筛选甚至是访谈打下了基础。
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,本申请第一个实施例提供了一种焦点小组成员筛选方法,包括:
步骤101、根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与产品信息相关联的用户会话数据,用户包括:发帖用户,以及与发帖用户关联的回复用户。
需要说明的是,要实施本申请提供的方法,首先,通过网络爬虫技术,爬取用户在社交平台上发表的,与产品信息相关联的用户会话数据,本申请提及的用户包括:发帖用户,以及与发帖用户关联的回复用户,其中,回复用户具体指的是对发帖用户发起的会话数据进行了回复的用户,假设,用户B对用户A发表的消息贴进行回复,则此时用户A可以视为是发帖用户,该用户B可以视为用户A关联的回复用户。
步骤102、将用户会话数据输入到会话意见挖掘模型,以通过会话意见挖掘模型提取用户会话数据的观点特征。
步骤103、根据第一观点特征与各个第二观点特征的比对结果,确定发帖用户的影响因子系数,并根据影响因子系数计算发帖用户的用户影响力系数,其中,第一观点特征为根据发帖用户的用户会话数据提取得到的观点特征,第二观点特征为根据回复用户的用户会话数据提取得到的观点特征。
本实施例的步骤102和步骤103是确定发帖用户的用户影响力系数的过程,具体通过将用户会话数据输入到预先训练好的会话意见挖掘模型,利用该会话意见挖掘模型提取出用户会话数据中的观点特征,根据用户类型的不同,提取出的观点特征具体分为两类,包括:根据发帖用户的用户会话数据提取得到的第一观点特征,以及根据回复用户的用户会话数据提取得到的第二观点特征。
通过第一观点特征与各个第二观点特征的比对,根据其比对结果,若与第一观点特征相同的第二观点特征数量越多,则发帖用户的影响因子系数越大,可确定发帖用户最终的影响因子系数,进而基于影响因子系数计算出发帖用户的用户影响力系数。
步骤104、将所述发帖用户的用户特征输入到预设的GraphSage模型,得到用户特征表示向量,并基于所述用户特征表示向量对所述发帖用户进行聚类处理,得到若干个聚类簇;
步骤105、通过特征相似度计算方式,计算不同聚类簇间发帖用户的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数。
本实施例的步骤104和步骤105是确定发帖用户的用户区分度系数的过程,根据发帖用户的用户特征,包括但不限于由该用户的年龄、地区、社交平台年龄、性别、兴趣等个人信息形成的特征,通过特征相似度计算方式,计算各个发帖用户间的特征相似度,以根据特征相似度换算得到发帖用户的用户区分度系数,一般情况下,某用户的用户特征与其他用户的用户特征越相似,其用户区分度系数越低,反之越高。
步骤106、根据用户影响力系数和用户区分度系数,确定焦点小组的成员筛选名单。
再接着,根据上述步骤得到的用户影响力系数和用户区分度系数作为筛选标准,确定焦点小组的成员筛选名单,一般情况下,一个用户的用户影响力系数/用户区分度系数越高,排名则越靠前,越容易被判定为焦点小组的候选成员,最后,调研公司可以根据得到的成员筛选名单,可以参照下面的表格1,向名单中的用户发出加入焦点小组的邀请,组建线上和/或线下的焦点小组,从而开展产品调研工作。
表格1焦点小组最终成员名单部分数据
本申请实施例提供的一种基于网络社交媒体数据挖掘的焦点小组成员筛选方法,通过爬取用户在社交平台发表的与产品信息相关的会话数据,并根据回复用户对针对该会话数据的回复观点,确定发帖用户的用户影响力系数,根据该用户影响力系数,再加上根据发帖用户的用户特征得到的用户区分度系数,从社交平台的用户中自动找到符合条件的焦点小组候选人,而不会因为人的主观因素造成偏差,还可以节省出大量的人力挑选时间,解决了目前产品调研工作存在投入高、成效低的技术问题。
以上为本申请提供的一种焦点小组成员筛选方法的一个实施例的详细说明,下面为本申请提供的一种焦点小组成员筛选方法的第二个实施例的详细说明。
在上述第一个实施例的基础上,本申请第二个实施例提供了一种焦点小组成员筛选方法,包括:
进一步地,产品信息具体包括:产品名称信息和产品领域信息。
进一步地,根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与产品信息相关联的用户会话数据具体包括:
根据产品领域信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与产品领域信息相关联的用户会话数据。
需要说明的是,可以进入与产品调研相关的社交平台,抽取一张与本次待调研产品领域相同产品的产品发帖,例如手机,服装等,收集回复用户关于该产品领域信息的发帖,得到这些用户关于产品调研的用户会话数据。
进一步地,观点特征具体包括:观点对象特征、观点属性特征以及情感极性特征。
其中,观点对象特征可以理解为:被评价的产品名、类型等特征,如小米10,华为P40、小米平板等;观点属性特征可以理解为:对被评价产品的评价属性,如做工、材质、使用流畅度等;情感极性特征可以理解为:用户对其评价产品的满意程度,如果用户对一个产品的评价表现出消极的情感,则反映出该用户对该产品的不满意。反之则是满意。
进一步地,根据第一观点特征与各个第二观点特征的比对结果,确定发帖用户的影响因子系数具体包括:
当第一观点特征与当前的第二观点特征的比对结果为观点对象特征、观点属性特征以及情感极性特征均相同时,则对发帖用户的影响因子系数进行自增运算;
当第一观点特征与当前的第二观点特征的比对结果为观点对象特征、观点属性特征均相同,但情感极性特征不相同时,则对发帖用户的影响因子系数进行自减运算;
根据各个比对结果,确定发帖用户的影响因子系数。
通过情感词典分析观点词的词性,最后通过对比对话中两个用户的观点是否一致来计算用户的影响因子系数,例如一名发帖用户通过发帖对A产品的散热问题进行了批评,以此发帖为例,可以确定,第一观点特征的观点对象特征为A产品,观点属性特征为散热,情感极性特征为消极,然后通过该第一观点特征与各个回复用户的第二观点特征进行比对,若回复用户的观点对象特征、观点属性特征以及情感极性特征均与发帖用户的相同,则说明该发帖用户针对A产品散热问题的观点已得到该回复用户的认同,若观点对象特征、观点属性特征均相同,但情感极性特征不相同,则说明该发帖用户针对A产品散热问题的观点未得到该回复用户的认同。
最后,根据各个比对结果,统计认同观点与不认同观点的差值,即可得到该发帖用户的影响因子系数。
进一步地,根据影响因子系数计算发帖用户的用户影响力系数具体包括:
根据影响因子系数,通过PageRank算法计算发帖用户的用户影响力系数。
将用户之间的影响因子系数作为两个用户之间的权重,利用PageRank算法计算不同用户的用户影响力系数,
进一步地,通过特征相似度计算方式,计算不同聚类簇间发帖用户的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数具体包括:
根据所述发帖用户的用户特征,通过余弦相似度计算方式,计算所述发帖用户与其他聚类簇的发帖用户间的余弦相似度,以根据所述余弦相似度的平均值换算得到所述发帖用户的用户区分度系数。
通过将用户的所有信息包括但不限于年龄、地区、社交平台年龄、性别、兴趣和其他信息作为用户的基础特征作为用户特征,再使用graphsage模型进行图嵌入以添加用户之间的对话信息,最后使用kmeans算法进行用户聚类。利用手肘法则确定聚类的簇数,将某个簇的目标用户的用户特征向量与其他簇用户的特征向量求余弦相似度作为用户区分度。最后将目标用户与其他簇用户的用户区分度进行平均,得到用户区分度系数。
以上为本申请提供的一种焦点小组成员筛选方法的第二个实施例的详细说明,下面为本申请提供的一种焦点小组成员筛选装置的第一个实施例的详细说明。
请参阅图2,本申请第三个实施例提供了一种焦点小组成员筛选装置,与本申请第一个实施例提供的焦点小组成员筛选方法对应,包括:
会话数据爬取单元201,用于根据待调研产品的产品信息,通过网络爬虫方式,对用户在社交平台上发表的数据进行爬取,以得到与产品信息相关联的用户会话数据,用户包括:发帖用户,以及与发帖用户关联的回复用户;
观点特征提取单元202,用于将用户会话数据输入到会话意见挖掘模型,以通过会话意见挖掘模型提取用户会话数据的观点特征;
用户影响力系数计算单元203,用于根据第一观点特征与各个第二观点特征的比对结果,确定发帖用户的影响因子系数,并根据影响因子系数计算发帖用户的用户影响力系数,其中,第一观点特征为根据发帖用户的用户会话数据提取得到的观点特征,第二观点特征为根据回复用户的用户会话数据提取得到的观点特征;
聚类处理单元204,用于将所述发帖用户的用户特征输入到预设的GraphSage模型,得到用户特征表示向量,并基于所述用户特征表示向量对所述发帖用户进行聚类处理,得到若干个聚类簇;
用户区分度系数计算单元205,用于通过特征相似度计算方式,计算不同聚类簇间发帖用户的特征相似度,以根据所述特征相似度换算得到所述发帖用户的用户区分度系数;
成员名单确定单元206,用于根据用户影响力系数和用户区分度系数,确定焦点小组的成员筛选名单。
此外,本申请第四个实施例提供了一种焦点小组成员筛选终端,包括:存储器和处理器;
存储器用于存储程序代码,程序代码与如本申请第一个实施例或第二个实施例提供的焦点小组成员筛选方法相对应;
处理器用于执行程序代码,以实现本申请第一个实施例或第二个实施例提供的焦点小组成员筛选方法。
本申请第五个实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有如本申请第一个实施例或第二个实施例提供的焦点小组成员筛选方法相对应的程序代码。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的终端,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。