互联网用户所属企业的识别方法、装置和终端

文档序号:1614452 发布日期:2020-01-10 浏览:3次 >En<

阅读说明:本技术 互联网用户所属企业的识别方法、装置和终端 (Method, device and terminal for identifying enterprise to which Internet user belongs ) 是由 彭继东 杨敬 刘鹏 万程 于 2018-07-03 设计创作,主要内容包括:本发明提出一种互联网用户所属企业的识别方法、装置和终端,所述方法包括:获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络;构建企业信息库,并在企业信息库中提取企业的实体特征;计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系;获取目标用户使用无线访问接入点的数据信息,以建立无线访问接入点与所述目标用户的第二映射关系;根据第一映射关系和第二映射关系生成所述目标用户所属企业的识别结果。(The invention provides an identification method, a device and a terminal of an enterprise to which an internet user belongs, wherein the method comprises the following steps: acquiring a service set identifier for accessing a wireless access point, and screening out an enterprise wireless network according to the service set identifier and a physical address of the wireless access point; constructing an enterprise information base, and extracting entity characteristics of enterprises from the enterprise information base; calculating the similarity between the entity characteristics of the enterprise wireless network and the enterprise to establish a first mapping relation between the enterprise wireless network and the enterprise; acquiring data information of a target user using a wireless access point to establish a second mapping relation between the wireless access point and the target user; and generating an identification result of the enterprise to which the target user belongs according to the first mapping relation and the second mapping relation.)

互联网用户所属企业的识别方法、装置和终端

技术领域

本发明涉及计算机技术领域,具体涉及一种互联网用户所属企业的识别方法、装置和终端。

背景技术

随着互联网大数据的发展,如何挖掘用户的公司一直是用户画像的技术瓶颈,对用户所属公司的判断正确率较低。然而,挖掘用户的所属公司越来越重要,例如,在金融风控方面,用户的公司,代表其收入水平、工作稳定性,对评估用户的信用水平、合理授信有巨大的价值。在互联网信息流产品中,如果知道用户的公司,就能推测出用户属性、兴趣爱好,对提升信息推荐算法收益巨大。

目前,对用户所属公司的挖掘方法有两种,方案一:用户所属公司的样本收集,特征选择,训练模型进行分类,然而受限于样本稀缺,特征区分度、种类繁多等问题,这些样本的准确率和召回并不如人意。方案二:通过计算机应用程序(APP)、小程序等方式,让用户主动填所属公司,缺点是覆盖的用户量小,质量没有保证,价值有限,而且让用户产生隐私被侵犯的顾虑。

发明内容

本发明实施例提供一种互联网用户所属企业的识别方法、装置以及终端,以至少解决现有技术中的以上技术问题。

第一方面,本发明实施例提供了一种互联网用户所属企业的识别方法,包括:

获取用于接入无线访问接入点的服务集标识符,根据所述服务集标识符和所述无线访问接入点的物理地址筛选出企业类无线网络;

构建企业信息库,并在所述企业信息库中提取企业的实体特征;

计算所述企业类无线网络和所述企业的实体特征之间的相似度,以建立所述企业类无线网络和所述企业之间的第一映射关系;

获取目标用户使用所述无线访问接入点的数据信息,以建立所述无线访问接入点与所述目标用户的第二映射关系;

根据所述第一映射关系和所述第二映射关系生成所述目标用户所属企业的识别结果。

结合第一方面,本发明在第一方面的第一种实施方式中,根据所述服务集标识符和所述无线访问接入点的物理地址筛选出企业类型的无线网络,包括:

根据所述服务集标识符和所述物理地址,对所述无线访问接入点进行聚簇,生成无线访问接入点簇;

根据无线网络使用特征对所述无线访问接入点簇进行分类,以筛选出企业类的无线接入点簇作为所述企业类型的无线网络。

结合第一方面的第一实施方式,本发明在第一方面的在第二实施方式中,所述无线网络使用特征包括无线访问接入点簇的流量时间分布、无线访问接入点簇周边的兴趣点主题特征和无线访问接入点簇的用户黏度中的至少一项。

结合第一方面,本发明在第一方面的第三种实施方式中,计算所述企业类无线网络和所述企业的实体特征之间的相似度,以建立所述企业类无线网络和所述企业之间的第一映射关系,包括:

根据所述服务集标识符和所述企业的实体特征中的所述企业的名称,计算所述企业类无线网络和所述企业的实体特征之间的语义相似度;

根据所述无线访问接入点的物理地址与所述企业的地理位置,计算所述企业类无线网络和所述企业的实体特征之间的相对距离;

根据所述语义相似度和所述相对距离,建立所述第一映射关系。

结合第一方面,本发明在第一方面的第四种实施方式中,建立所述无线访问接入点与所述目标用户的第二映射关系,包括:

根据所述数据信息计算所述无线访问接入点属于各个所述目标用户的工作环境下的接入点的概率值;

根据所述概率值建立所述工作环境下的接入点与所述目标用户的第二映射关系。

第二方面,本发明实施例提供了一种互联网用户所属企业的识别装置,包括:

企业类无线网络筛选模块,用于获取用于接入无线访问接入点的服务集标识符,根据所述服务集标识符和所述无线访问接入点的物理地址筛选出企业类无线网络;

企业实体特征提取模块,用于构建企业信息库,并在所述企业信息库中提取企业的实体特征;

无线网络和企业映射关系建立模块,用于计算所述企业类无线网络和所述企业的实体特征之间的相似度,建立所述企业类无线网络和所述企业之间的第一映射关系;

无线网络和用户映射关系建立模块,用于获取目标用户使用所述无线访问接入点的数据信息,根据所述数据信息建立所述无线访问接入点与所述目标用户的第二映射关系;

用户所属企业识别模块,用于根据所述第一映射关系和所述第二映射关系生成所述目标用户所属企业的识别结果。

结合第二方面,本发明在第二方面的第一种实施方式中,所述企业类无线网络筛选模块包括:

接入点聚簇单元,用于根据所述服务集标识符和所述物理地址,对所述无线访问接入点进行聚簇,生成无线访问接入点簇;

无线网络分类筛选单元,用于将根据无线网络使用特征对所述无线访问接入点簇进行分类,以筛选出企业类的无线接入点簇作为所述企业类型的无线网络。

结合第二方面,本发明在第二方面的第二种实施方式中,所述无线网络和企业映射关系建立模块包括:

语义相似度计算单元,用于根据所述服务集标识符和所述企业的实体特征中的所述企业的名称计算所述企业类无线网络和所述企业的实体特征之间的语义相似度;

距离计算单元,用于根据所述无线访问接入点的物理地址与所述企业的地理位置计算之间的所述企业类无线网络和所述企业的实体特征之间的相对距离;

第一映射建立单元,用于根据所述企业类无线网络和所述企业之间的所述语义相似度和所述相对距离,建立所述第一映射关系。

结合第二方面,本发明在第二方面的第三种实施方式中,所述无线网络和用户映射关系建立模块包括:

概率计算单元,用于根据所述数据信息计算所述无线访问接入点属于各个所述目标用户的工作环境下的接入点的概率值;

第二映射建立单元,用于根据所述概率值建立所述工作环境下的接入点与所述目标用户的第二映射关系。

所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面,本发明提供的互联网用户所属企业的结构中包括处理器和存储器,所述存储器用于存储支持互联网用户所属企业的识别装置执行上述第一方面中互联网用户所属企业的识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述互联网用户所属企业的识别装置还可以包括通信接口,用于互联网用户所属企业的识别装置与其他设备或通信网络通信。

第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储互联网用户所属企业的识别装置所用的计算机软件指令,其包括用于执行上述第一方面中互联网用户所属企业的识别方法为互联网用户所属企业的识别装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果:通过获取用于接入无线访问接入点的服务集标识符,筛选出企业类无线网络,以及提取企业的实体特征,来建立企业类无线网络和企业之间的第一映射关系,通过获取目标用户使用无线访问接入点的数据信息,建立无线访问接入点与目标用户的第二映射关系,根据第一映射关系和第二映射关系生成目标用户所属企业的识别结果。不仅提高了挖掘用户所属公司的效率,而且还提高了挖掘用户所属公司的准确率。在金融风控方面,准确的挖掘用户所属公司对评估用户的信用水平、合理授信有巨大的价值,在互联网信息流产品方面,准确的挖掘用户所属公司对提升信息推荐算法具有巨大的帮助。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的互联网用户所属企业的识别方法流程图;

图2为本发明实施例提供的互联网用户所属企业的识别过程示意图;

图3为本发明实施例提供的互联网用户所属企业的识别装置结构框图;

图4为本发明实施例提供的计算机可读存储介质结构图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中,提供了一种互联网用户所属企业的识别方法,如图1和图2所示,包括如下步骤:

步骤S100:获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络。

无线访问接入点(AP,Access Point)的部署者设置服务集标识符(SSID ServiceSet Identifier)。多个服务集标识符构成服务集标识符库。过识别服务集标识符来获取无线访问接入点。其中,每个无线访问接入点都有唯一标识的物理地址。无线访问接入点之间的位置相对固定。无线访问接入点来源于服务定位接口(LBS,Location Based Services)、人工收集以及网上的公开数据等。

有些企业部署无线访问接入点时,用于接入无线访问接入点的服务集标识符的名称就是企业的名称。因此,通过辨认服务集标识符的名称是否为企业名称来确认是否为企业类无线网络。或者,当多个无线访问接入点的物理地址很近时,同时属于同一个服务集标识符,可能属于企业类无线网络。

步骤S200:构建企业信息库,并在企业信息库中提取企业的实体特征。

企业信息库包括所有企业的信息,例如,企业的名称办公地点、企业网站URL、规模、领导姓名等。企业的实体特征包括企业的简称、企业的法人、企业的名称、企业的英文、企业名的中文缩写、企业事件等。可以通过自然语言处理技术从企业的网站、企业名称以及新闻语料等内容中提取企业的实体特征。

步骤S300:计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系。

例如,由于服务集标识符的名称和企业的名称之间可能相同或相似,无线访问接入点的物理地址与企业的位置相同或相似等其它存在的关联关系,则通过计算相似度,当相似度大于阈值时确定无线网络属于相应公司,进而形成企业类无线网络和企业之间的第一映射关系。

步骤S400:获取目标用户使用无线访问接入点的数据信息,以建立无线访问接入点与目标用户的第二映射关系。

数据信息是目标用户使用无线访问接入点的上网数据,包括目标用户连接无线访问接入点的时间分布、连接时长以及使用的互联网服务内容等。例如,目标用户A在一天的时间中连接AP1的时间是上午九点至下午五点,说明目标用户A在工作环境下接入AP1;连接AP2的时间是晚上七点到晚上十一点,说明目标用户A在家中接入AP2;根据上述依据建立目标用户A与AP1和AP2的映射关系。当然,建立第二映射关系的依据不仅仅包括上述所列举的上网时间,还可以是物理地址等其它数据信息,均在本实施例的保护范围内。

步骤S500:根据第一映射关系和第二映射关系生成目标用户所属企业的识别结果。

第一映射关系可以包括企业类无线网络和企业之间的关联关系。第二映射关系可以包括企业类无线网络与目标用户之间的关联关系。因此,能够得到目标用户与企业之间的关联关系。例如,服务集标识符为Baidu,在Baidu下接入物理地址116.280,40.049的AP3,目标用户B接入AP3的时间是上午九点至下午五点,因此,目标用户B为百度公司的员工。

本实施例提供的互联网用户所属企业的识别方法,不仅提高了挖掘用户所属公司的效率,还提高了挖掘用户所属公司的准确率。在金融风控方面,可以准确的挖掘用户所属公司对评估用户的信用水平,进而合理授信,有巨大的价值。在互联网信息流产品方面,可以准确的挖掘用户所属公司对提升信息推荐算法具有巨大的帮助。

在一种实施方式中,根据服务集标识符和无线访问接入点的物理地址筛选出企业类型的无线网络,包括:

根据服务集标识符和物理地址,对无线访问接入点进行聚簇,生成无线访问接入点簇;

根据无线网络使用特征对无线访问接入点簇进行分类,以筛选出企业类的无线接入点簇作为企业类型的无线网络。

其中,可以将具有相同或相似的服务集标识符且物理地址相近的无线访问接入点进行聚簇,生成无线访问接入点簇。无线网络使用特征包括无线访问接入点簇的流量时间分布、无线访问接入点簇周边的兴趣点主题特征和无线访问接入点簇的用户黏度中的至少一项。当然,无线网络使用特征还可以是其它与用户使用相关的类型,均在本实施例的保护范围内。

在一种实施方式中,计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系,包括:

根据服务集标识符和企业的实体特征中的企业的名称,计算企业类无线网络和企业的实体特征之间的语义相似度;

根据无线访问接入点的物理地址与企业的地理位置,计算企业类无线网络和企业的实体特征之间的相对距离;

根据语义相似度和相对距离,建立第一映射关系。

将企业类无线网络和企业的实体特征之间的语义相似或相同的,以及无线访问接入点的物理地址与企业的地理位置相对距离为零或者相对距离较小的条件视为可建立第一映射关系的依据,当然,建立第一映射关系的依据还可以是其它类型,均在本实施例的保护范围内。

在一种实施方式中,建立无线访问接入点与目标用户的第二映射关系,包括:

根据数据信息计算无线访问接入点属于各个目标用户的工作环境下的接入点的概率值;

根据概率值建立工作环境下的接入点与目标用户的第二映射关系。

例如,目标用户A在工作日中分别接入无线访问接入点AP1、AP2和AP3,概率值分别为80%、15%和5%,接入的时间段分别是:上午九点至晚上六点、晚上七点至晚上十一点、中午十二点至中午一点。可以判断出该目标用户在工作环境下接入公司的无线网络是AP1,在未工作环境下接入家中的无线网络是AP2,接入公共场合的无线网络是AP3。因此,建立目标用户A与在工作环境下接入公司的无线网络是AP1的第二映射关系。当然,建立第二映射关系的依据包括但不限于上述实施方式,还可以根据不同的数据信息来调整,均在本实施方式的保护范围内。

实施例二

在另一种具体实施方式中,提供了一种互联网用户所属企业的识别装置,如图3所示,包括:

企业类无线网络筛选模块10,用于获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络;

企业实体特征提取模块20,用于构建企业信息库,并在企业信息库中提取企业的实体特征;

无线网络和企业映射关系建立模块30,用于计算所述企业类无线网络和企业的实体特征之间的相似度,建立企业类无线网络和企业之间的第一映射关系;

无线网络和用户映射关系建立模块40,用于获取目标用户使用无线访问接入点的数据信息,根据数据信息建立所述无线访问接入点与目标用户的第二映射关系;

用户所属企业识别模块50,用于根据第一映射关系和第二映射关系生成目标用户所属企业的识别结果。

在一种实施方式中,企业类无线网络筛选模块10包括:

接入点聚簇单元,用于根据服务集标识符和所述物理地址,对无线访问接入点进行聚簇,生成无线访问接入点簇;

无线网络分类筛选单元,用于将根据无线网络使用特征对无线访问接入点簇进行分类,以筛选出企业类的无线接入点簇作为企业类型的无线网络。

在一种实施方式中,无线网络和企业映射关系建立模块30包括:

语义相似度计算单元,用于根据服务集标识符和企业的实体特征中的企业的名称计算企业类无线网络和企业的实体特征之间的语义相似度;

距离计算单元,用于根据无线访问接入点的物理地址与企业的地理位置计算之间的企业类无线网络和企业的实体特征之间的相对距离;

第一映射建立单元,用于根据企业类无线网络和企业之间的语义相似度和相对距离,建立第一映射关系。

在一种实施方式中,无线网络和用户映射关系建立模块40包括:

概率计算单元,用于根据数据信息计算无线访问接入点属于各个目标用户的工作环境下的接入点的概率值;

第二映射建立单元,用于根据概率值建立工作环境下的接入点与目标用户的第二映射关系。

实施例三

本发明实施例提供了一种流量归因的终端,如图4所示,包括:

存储器400和处理器500,存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的互联网用户所属企业的识别方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600,用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现,则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器400、处理器500以及通信接口600集成在一块芯片上,则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

一种计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时实现如实施例一包括的任一所述的互联网用户所属企业的识别方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:聚类处理方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!