基于网络爬虫的招聘信息可视化分析系统

文档序号:1324302 发布日期:2020-07-14 浏览:1次 >En<

阅读说明:本技术 基于网络爬虫的招聘信息可视化分析系统 (Recruitment information visualization analysis system based on web crawler ) 是由 郭盛 于 2020-02-18 设计创作,主要内容包括:本发明公开了一种基于网络爬虫的招聘信息可视化分析系统,包括:数据处理模块包括:数据采集单元;数据提取单元;数据清洗单元用于过滤重复信息形成一级筛选数据集;求职者检索模块包括:检索输入单元;信息匹配单元用于筛选一级筛选数据集中满足检索信息要求的招聘信息形成二级筛选数据集;目的地识别单元;居住地限定单元;要求输入单元;信息筛选单元用于根据要求信息筛选出符合要求信息的招聘信息形成三级筛选数据集;可视化显示模块,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上。本发明具有能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示的有益效果。(The invention discloses a recruitment information visualization analysis system based on web crawlers, which comprises the following steps: the data processing module comprises: a data acquisition unit; a data extraction unit; the data cleaning unit is used for filtering repeated information to form a primary screening data set; the job seeker retrieval module comprises: a search input unit; the information matching unit is used for screening the recruitment information meeting the retrieval information requirement in the primary screening data set to form a secondary screening data set; a destination identifying unit; a residence defining unit; a request input unit; the information screening unit is used for screening the recruitment information meeting the requirement information according to the requirement information to form a three-level screening data set; and the visual display module is used for displaying the recruitment information in the three-level screening data set on the electronic map according to the destination information. The invention has the advantages that the invention can meet the search requirement of a searcher (job seeker), and meanwhile, the invention can recommend and display the information individually and visually according to the convenience degree of the destination.)

基于网络爬虫的招聘信息可视化分析系统

技术领域

本发明涉及招聘信息可视化分析技术领域。更具体地说,本发明涉及一种基于网络爬虫的招聘信息可视化分析系统。

背景技术

随着互联网的发展,网上求职和招聘已成为主流的求职招聘途径,网上招聘系统为求职者和用人单位/牵线搭桥,为双方最大限度地提供了便利。然而,求职者面对海量的职场信息,他们可能花大量的时间也难以找到合适的职位信息。一些招聘网站推出了基于关键词列表的职位搜索器,允许注册的用户订阅多个这样的搜索器,网站招聘系统根据用户描述向用户发布招聘信息,向用户发布招聘信息时,多以列表文字的形式进行罗列展现,直观表达不够清晰,且对于有固定居所的求职者,如何满足其个性化需求,在满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示是目前急需解决的问题。

应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作,因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看、模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。

发明内容

本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于网络爬虫的招聘信息可视化分析系统,其能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示。

为了实现根据本发明的这些目的和其它优点,提供了一种基于网络爬虫的招聘信息可视化分析系统,包括:

数据处理模块,其包括:

数据采集单元,用于采用网络爬虫技术在人力资源网站上采集目标数据源;

数据提取单元,其与数据采集单元连接,用于抽取目标数据源中的招聘数据构成招聘数据集,招聘数据集包括多条招聘信息,每条招聘信息包括展示信息,展示信息包括公司性质、职位薪水、工作地点中的至少一种和公司名称、职位类别;

数据清洗单元,其与数据提取单元连接,数据清洗单元中预存储职位类别分类表,数据清洗单元按照预存职位类别分类表将职位类别名称统一,然后过滤重复信息形成一级筛选数据集,其中,若展示信息包括工作地点,重复信息为公司名称、工作地点、职位类别相同的招聘信息,若展示信息不包括工作地点,重复信息为公司名称、职位类别相同的招聘信息;

求职者检索模块,其包括:

检索输入单元,其包括用于检索者输入检索信息的公司名称输入框、职位薪水输入框、公司性质输入框、工作地点输入框、职位类别输入框,其中,职位薪水输入框包括用于输入薪资上限的框体和用于输入薪资下限的框体,公司性质输入框包括选项为私企、国企、外企、事业单位的既定义关键词,工作地点输入框包括按照被包含关系由大至小设置的省、城市、详细地址的既定义关键词选项,职位类别输入框用于输入职位类别名称,每个输入框还包括不限的既定义关键词选项;

信息匹配单元,其与检索输入单元及数据清洗单元连接,用于获取检索者输入的检索信息,并筛选一级筛选数据集中满足检索信息要求的招聘信息,形成二级筛选数据集;

目的地识别单元,其与信息匹配单元连接,用于识别二级筛选数据集中招聘信息对应的地理位置,作为目的地信息;

居住地限定单元,其用于检索者输入居住地信息;

要求输入单元,其包括用于输入要求信息的交通工具限定框、显示要求限定框,其中,交通工具限定框包括公共交通、自驾、出租车、不限的既定义关键词选项,显示要求限定框包括时间要求、路程要求、收费要求的既定义关键词选项,交通工具限定框的优先级优于显示要求限定框;

信息筛选单元,其与目的地识别单元、居住地限定单元及要求输入单元连接,用于依据目的地信息和居住地信息,并根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集;

可视化显示模块,其与信息筛选单元连接,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上。

优选的是,展示信息还包括发布时间,数据清洗单元在过滤重复信息前还包括剔除发布时间长于一个月的招聘信息。

优选的是,每条招聘信息还包括限定信息,限定信息包括年龄限定、身高限定、体重限定、政治面貌限定、工作经验限定、性别限定、学历限定、专业限定、外语水平限定、计算机水平限定中的至少一种;

检索输入单元还包括用于检索者输入基本信息的年龄输入框、身高输入框、体重输入框、政治面貌输入框、工作经验输入框、性别输入框、学历输入框、专业输入框、外语水平输入框、计算机水平输入框;

信息匹配单元在计算与一级筛选数据集中的招聘信息的相似度前,剔除一级筛选数据集中招聘信息中限定信息与检索者基本信息不匹配的招聘信息。

优选的是,目的地识别单元识别二级筛选数据集中招聘信息对应的地理位置作为目的地信息具体为:

判断工作地点是否为具体地址,若是,以工作地点作为目的地信息;

若否,依据公司名称获取公司具体地址,判断公司地址是否归属于工作地点,若是,以公司地址作为目的地信息;

若否,以工作地点代表范围内的最优地点作为目的地信息,并标注为模糊信息,对应筛选的招聘信息作为模糊招聘信息。

优选的是,三级筛选数据集中的模糊招聘信息显示区别于其他招聘信息的显示。

优选的是,其他招聘信息按照符合程度渐变显示。

本发明至少包括以下有益效果:

能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示,具体为:通过数据清洗单元、信息匹配单元、信息筛选单元配合逐步实现三级筛选,第一步剔除无效重复数据,第二步,剔除不满足检索者要求信息数据,有效提高输出数据有效性,进一步,个性化判断目的地和居住地间关系,进行第三级筛选,有效满足居住地固定检索者的个性化需求;以地理位置为纽带,实现地图可视化,为我们对信息的理解提供更为清晰的空间认知框架。

本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一种技术方案所述基于网络爬虫的招聘信息可视化分析系统的结构框图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1所示,本发明提供一种基于网络爬虫的招聘信息可视化分析系统,包括:

数据处理模块,其包括:

数据采集单元,用于采用网络爬虫技术在人力资源网站上采集目标网页,构成目标数据源;

数据提取单元,其与数据采集单元连接,用于抽取目标数据源中的招聘数据构成招聘数据集,招聘数据集包括多条并列平行的招聘信息,每条招聘信息包括展示信息,展示信息包括公司性质、职位薪水、工作地点中的至少一种,和公司名称、职位类别;

数据清洗单元,其与数据提取单元连接,数据清洗单元中预存储职位类别分类表,按照被包含关系将职位类别由小至大分为职位类别细类、职位类别小类、职位类别大类,职位类别的限定具体可以参考现行分类规则,其中一种具体如下表1所示,其中,职位类别分类表中记载的为职位类别细类,数据清洗单元按照预存职位类别分类表将职位类别名称统一,然后过滤重复信息形成一级筛选数据集,其中,若展示信息包括工作地点,重复信息为公司名称、工作地点、职位类别相同的招聘信息,若展示信息不包括工作地点,重复信息为公司名称、职位类别相同的招聘信息;

表1职位类别划分

求职者检索模块,其包括:

检索输入单元,其包括用于检索者输入检索信息的公司名称输入框、职位薪水输入框、公司性质输入框、工作地点输入框、职位类别输入框,其中,公司名称输入框用于输入公司名称,职位薪水输入框包括用于输入薪资上限的框体和用于输入薪资下限的框体,公司性质输入框包括选项为私企、国企、外企、事业单位的既定义关键词,工作地点输入框包括按照被包含关系由大至小设置的省、城市、详细地址的既定义关键词选项,职位类别输入框用于输入职位类别名称,每个输入框还包括不限的既定义关键词选项;

信息匹配单元,其与检索输入单元及数据清洗单元连接,用于获取检索者输入的检索信息,并筛选一级筛选数据集中满足检索信息要求的招聘信息,形成二级筛选数据集,获取的检索信息具体可如下表2所示:

表2检索信息

公司名称 公司性质 职位薪水 工作地点 职位类别
不限 国企 不限 南京 水处理工程师

依据表2,筛选一级筛选数据集中满足检索信息要求的招聘信息具体为:筛选获取满足公司性质为国企、工作地点为南京、职位类别为水处理工程师的招聘信息;

目的地识别单元,其与信息匹配单元连接,用于识别二级筛选数据集中招聘信息对应的地理位置,作为目的地信息;

居住地限定单元,其用于检索者输入居住地信息;

要求输入单元,其包括用于输入要求信息的交通工具限定框、显示要求限定框,其中,交通工具限定框包括公共交通(公交、地铁)、自驾、出租车(其包括现有意义上的顺风车、打的等,收费按照现有出租车收费标准统一计算)、不限的既定义关键词选项,显示要求限定框包括时间要求、路程要求、收费要求的既定义关键词选项,交通工具限定框的优先级优于显示要求限定框,即在满足交通工具限定框内限定交通工具的条件下计算是否满足显示要求限定框的限定要求,要求信息具体可如下表3所示:

表3要求信息

信息筛选单元,其与目的地识别单元、居住地限定单元及要求输入单元连接,用于依据目的地信息和居住地信息,并根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集;

可视化显示模块,其与信息筛选单元连接,用于依据目的地信息将三级筛选数据集中的招聘信息显示于电子地图上,具体为,依据目的地信息定位三级筛选数据集招聘信息在电子地图上的对应地点并显示,外显示形式具体可为图标,点击该图标可显示图标对应隐藏信息,例如该招聘信息具体内容。

在上述技术方案中,招聘信息可视化分析的基础是数据,而这类数据目前存在于各大人力资源网站,例如,智联招聘、猎聘网等,目标网页中含有的招聘信息是原始的非结构化网页,其中包含广告等无关信息,可采用行块分布函数方法剔除无关信息,后从非结构化的数据中准确的提取结构化的数据,形成招聘数据集,公司性质包括私企、国企、外企、事业单位、无,工作地点可以为具体地点(例如XX市XX街道XX号,即可具体定位的地点),也可以是宽范围限定(例如XX市),数据清洗单元按照预存职位类别分类表将职位类别名称统一具体为:确定职位类别名称与职位类别细类中各名称的相似度,确定相似度最高的职位类别细类名称为职位类别名称,其中,职位类别细类的获取具体为:每隔一定时间采用网络爬虫技术在人力资源网站上采集目标数据源,提取目标数据源中的职位类别名称,剔除与原始存在的职位类别细类相同的职位类别名称,得预筛选职位类别集,判断预筛选职位类别集中职位名称与职位类别细类中各名称的相似度,按照相似度由低到高,人工判断预筛选职位类别集中职位名称是否为新兴职位,若是,将其补充至职位类别分类表,若否,删除,判断至第一次出现“否”之后停止;根据要求信息筛选出符合要求信息的招聘信息,形成三级筛选数据集具体为:

当要求信息为要求信息1时,判断以出租车作为交通工具的条件下,单程由居住地到达目的地时间,并判断该时间是否短于1h,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,时间长短的判断依据正常交通进行判断;

当要求信息为要求信息2时,判断不限交通工具的条件下,单程由居住地到达目的地最低费用,并判断该费用是否少于10元,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,不限交通工具时最低费用的判断为使用上述三种交通条件下依次判断后比较的结果;

当要求信息为要求信息3时,判断是否存在以公共交通作为交通工具的条件,存在以公共交通作为交通工具的条件具体可设定为存在地铁或公交,且人行走距离小于预定距离(具体可为2km);使用过程中,利用数据处理模块获得一级筛选数据集,利用求职者检索模块获得三级筛选数据集,将三级筛选数据集对应的招聘信息通过可视化显示模块显示;采用这种技术方案,能够在满足搜索者(求职者)满足搜索要求的同时,按照到达目的地方便程度个性化、可视化推荐展示,具体为:通过数据清洗单元、信息匹配单元、信息筛选单元配合逐步实现三级筛选,第一步剔除无效重复数据,第二步,剔除不满足检索者要求信息数据,有效提高输出数据有效性,进一步,个性化判断目的地和居住地间关系,进行第三级筛选,有效满足居住地固定检索者的个性化需求。

在另一种技术方案中,展示信息还包括发布时间,数据清洗单元在过滤重复信息前还包括剔除发布时间长于一个月的招聘信息。采用这种方案,进一步剔除无效信息。

在另一种技术方案中,每条招聘信息还包括限定信息,限定信息包括年龄限定、身高限定、体重限定、政治面貌限定、工作经验限定、性别限定、学历限定、专业限定、外语水平限定、计算机水平限定中的至少一种;

检索输入单元还包括用于检索者输入基本信息的年龄输入框、身高输入框、体重输入框、政治面貌输入框、工作经验输入框、性别输入框、学历输入框、专业输入框、外语水平输入框、计算机水平输入框,其中,年龄输入框用于检索者输入年龄;身高输入框用于检索者输入身高;体重输入框用于检索者输入体重;政治面貌输入框用于检索者输入政治面貌,其具体包括党员、群众;工作经验输入框用于检索者输入工作经验,其具体可按照0、1年以下、1-3年、3-5年、5-7年、7-9年、10年以上进行划分;性别输入框用于检索者输入性别,其具体包括男、女;学历输入框用于检索者输入学历,其具体包括初中、高中、大专、本科、硕士、博士;专业输入框用于检索者输入专业;外语水平输入框用于检索者输入外语水平;计算机水平输入框用于检索者输入计算机水平,检索输入单元的全部输入框还包括不选的既定义关键词;

信息匹配单元在计算与一级筛选数据集中的招聘信息的相似度前,剔除一级筛选数据集中招聘信息中限定信息与检索者基本信息不匹配的招聘信息,即匹配检索者的基本信息是否满足招聘信息中限定信息的要求。采用这种方案,为检索者进一步筛选有效招聘信息。

在另一种技术方案中,目的地识别单元识别二级筛选数据集中招聘信息对应的地理位置作为目的地信息具体为:

判断工作地点是否为具体地址(具体地址为能够定位至具体地点,例如门牌号、楼栋名称等,能够定位至具体位置的地址),若是,以工作地点作为目的地信息;

若否,依据公司名称获取公司具体地址,判断公司地址是否归属于工作地点,若是,以公司地址作为目的地信息,当工作地点不为具体地点时,其应当为具体地址的上位地址,概括的为一较大范围,例如表2中呈现的南京,判断公司地址是否归属于工作地点具体为判断公司地址是否坐落于工作地点包含的范围内,若是,则确定公司地址归属于工作地点,若是,则确定公司地址不归属于工作地点;

若否,以工作地点代表范围内的最优地点作为目的地信息,并标注为模糊信息,对应筛选的招聘信息作为模糊招聘信息,其中,最优地点的确定依据显示要求限定框中既定义关键词选项确定,若选项为时间,则以在既定交通工具下,到达居住地时间最短的地点作为最优地点,若选项为路程,则以在既定交通工具下,到达居住地路程最短的地点作为最优地点,若选项为收费,则以在既定交通工具下,到达居住地收费最少的地点作为最优地点;

当目的地信息为模糊信息,要求信息为要求信息1时,判断以出租车作为交通工具的条件下,单程由居住地到达目的地范围内(最优地点)的最短时间,并判断该时间是否短于1h,若是,则该目的地对应的招聘信息构成三级筛选数据集中的一条,其中,时间长短的判断依据正常交通进行判断。采用这种方案,确定目的地信息时,以工作地点为主导,并综合考虑工作地点和公司地址间的关系,在提高确定目的地信息准确度的情况下,允许模糊信息存在,有效避免检索漏项。

在另一种技术方案中,三级筛选数据集中的模糊招聘信息显示区别于其他招聘信息的显示。采用这种方案,具体可采用不同图标、不同颜色、或者不同大小等方式区别显示模糊招聘信息,便于检索者更为直观的区分。

在另一种技术方案中,其他招聘信息(区别于三级筛选数据集中的模糊招聘信息)按照符合程度渐变显示。采用这种方案,符合程度具体指满足要求信息的程度,如果显示要求限定框内设定的为时间要求,则按照时间长短渐变显示;、如果显示要求限定框内设定的为路程要求,则按照路程长短渐变显示;如果显示要求限定框内设定的为收费要求,则按照收费高低渐变显示。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种数据获取方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!