基于人脸识别的词条数据扩充方法及装置

文档序号：1556711 发布日期：2020-01-21 浏览：1次 >En<

阅读说明：本技术 基于人脸识别的词条数据扩充方法及装置 (Entry data expansion method and device based on face recognition ) 是由王晨龙于 2019-09-16 设计创作，主要内容包括：本发明公开一种基于人脸识别的词条数据扩充方法及装置,涉及数据处理技术领域,能够有效解决词条数据匹配错乱的问题。该方法包括：基于内部数据库的第一词条数据,从外部网站中爬取与词条数据相关的第二词条数据,第一词条数据和第二词条数据均包括人脸图片及字段；识别第一词条数据和第二词条数据中的人脸图片,若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。该装置应用有上述方案所提的方法。(The invention discloses a method and a device for expanding entry data based on face recognition, relates to the technical field of data processing, and can effectively solve the problem of disorder matching of the entry data. The method comprises the following steps: based on first entry data of an internal database, crawling second entry data related to the entry data from an external website, wherein the first entry data and the second entry data both comprise a face picture and a field; and recognizing the face pictures in the first entry data and the second entry data, and if the recognition results are matched, adding and/or updating the fields in the second entry data into the first entry data. The device is applied with the method provided by the scheme.)

基于人脸识别的词条数据扩充方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于人脸识别的词条数据扩充方法及装置。

背景技术

近年来，“内容为王”成为行业中绝对的高频词，明星的百科词条数据内容的准确性以及完整性对于视频搜索、推荐等重要业务起着非常重要的作用，明星图片库的建立及运营需要依靠大量人力去完成，虽然行业内逐渐应用了爬虫抓取技术来完善及更新明星的词条数据，但由于其仅依靠文本匹配的方案容易造成重名明星的词条数据匹配错乱的问题。

发明内容

本发明的目的在于提供一种基于人脸识别的词条数据扩充方法及装置，能够有效解决词条数据匹配错乱的问题。

为了实现上述目的，本发明的一方面提供一种基于人脸识别的词条数据扩充方法，包括：

基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据，所述第一词条数据和所述第二词条数据至少包括人脸图片及字段；

识别所述第一词条数据和所述第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。

示例性地，所述字段包括中英文姓名、职业、性别、生日、地区、代表作和相关新闻信息。

示例性地，所述内部数据库为明星数据库，包括与多位明星一一对应的所述第一词条数据。

优选地，基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据的方法包括：

基于内部数据库中任一明星的第一词条数据，从外部网站中爬取同名明星的第二词条数据；

通过比较职业字段，对爬取的多条第二词条数据过滤筛选最终保留相关的第二词条数据。

优选地，识别所述第一词条数据和所述第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中的方法包括：

在每个相关的第二词条数据中分别提取至少一张人脸图片；

将每个相关的第二词条数据提取出的人脸图片，分别与从所述明星的第一词条数据提取的人脸图片比较识别人脸相似度；

当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；

当人脸相似度识别结果为无法判断时，继续通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，若可以关联则将相关第二词条数据中的字段补录和/或更新到第一词条数据中。

较佳地，当人脸相似度识别结果为非无法判断时还包括：

若相关的第二词条数据中提取有多张人脸图片，则重新调取另一张人脸图片与从所述明星的第一词条数据提取的人脸图片比较识别人脸相似度；

直至相关第二词条数据中全部的人脸相似度识别结果均为无法判断时，再通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人。

与现有技术相比，本发明提供的基于人脸识别的词条数据扩充方法具有以下有益效果：

本发明提供的基于人脸识别的词条数据扩充方法中，定期从外部网站自动爬取与内部数据库中第一词条数据相关的第二词条数据，接着通过识别第一词条数据和第二词条数据中的人脸图片，判断第一词条数据和第二词条数据是否为同一人的关联词条数据，并在判断结果为是时，将关联的第二词条数据中的字段补录和/或更新到第一词条数据中，以实现对内部数据库中第一词条数据的自动更新和完善。

可见，本发明将人脸识别技术和数据爬虫技术有机结合应用于内部数据库的词条数据扩充，能够有效保证爬虫数据匹配的准确性及内部数据库词条数据扩充的时效性。

本发明的另一方面提供一种基于人脸识别的词条数据扩充装置，应用有上述技术方案提到的基于人脸识别的词条数据扩充方法中，该装置包括:

数据爬取单元，用于基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据，所述第一词条数据和所述第二词条数据至少包括人脸图片及字段；

识别匹配单元，用于识别所述第一词条数据和所述第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。

优选地，所述数据爬取单元包括：

数据爬虫模块，用于基于内部数据库中任一明星的第一词条数据，从外部网站中爬取同名明星的第二词条数据；

数据清洗模块，用于通过比较职业字段，对爬取的多条第二词条数据过滤筛选最终保留相关的第二词条数据。

较佳地，所述识别匹配单元包括：

图片提取模块，用于在每个相关的第二词条数据中分别提取至少一张人脸图片；

人脸识别模块，用于将每个相关的第二词条数据提取出的人脸图片，分别与从所述明星的第一词条数据提取的人脸图片比较识别人脸相似度；

判断输出模块，用于当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；或者，当人脸相似度识别结果为无法判断时，继续通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，若可以关联则将相关第二词条数据中的字段补录和/或更新到第一词条数据中。

与现有技术相比，本发明提供的基于人脸识别的词条数据扩充装置的有益效果与上述技术方案提供的基于人脸识别的词条数据扩充方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于人脸识别的词条数据扩充方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于人脸识别的词条数据扩充方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中基于人脸识别的词条数据扩充方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种基于人脸识别的词条数据扩充方法，包括：

基于内部数据库的第一词条数据，从外部网站中爬取与词条数据相关的第二词条数据，第一词条数据和第二词条数据均包括人脸图片及字段；识别第一词条数据和第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。

示例性地，上述实施例中的字段包括中英文姓名、职业、性别、生日、地区、代表作和相关新闻信息。内部数据库为明星数据库，包括与多位明星一一对应的第一词条数据。外部网站包括百科网站、微博网站、搜索完整、新闻网站中的一种或多种。上述职业包括演员、导演、歌手、主持人、作家、模特、编剧、制片人、声优、运动员等，上述代表作是指该明星主演或参与的优秀作品，上述相关新闻信息是指与该明星相关的新闻报道。

具体地，上述实施例中基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据的方法包括：

基于内部数据库中任一明星的第一词条数据，从外部网站中爬取同名明星的第二词条数据；通过比较职业字段，对爬取的多条第二词条数据过滤筛选最终保留相关的第二词条数据。

具体实施时，当针对内部数据库中某位明星的第一词条数据进行数据扩充时，以该明星的姓名为关键词从外部网站中爬取同名明星的全部第二词条数据，考虑到有重名明星的存在，本实施例通过职业字段初步剔除职业不相符同名明星的第二词条数据，最终保留下相关的第二词条数据，进而减少无关词条数据的处理量，提高词条数据的扩充效率。

上述实施例中，识别第一词条数据和第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中的方法包括：

在每个相关的第二词条数据中分别提取至少一张人脸图片；将每个相关的第二词条数据提取出的人脸图片，分别与从该明星的第一词条数据提取的人脸图片比较识别人脸相似度；当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；当人脸相似度识别结果为无法判断时，继续通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，若可以关联则将相关第二词条数据中的字段补录和/或更新到第一词条数据中。

可选地，当人脸相似度识别结果为非无法判断时还包括：

若相关的第二词条数据中提取有多张人脸图片，则重新调取同一第二词条数据中另一张人脸图片与从该明星的第一词条数据提取的人脸图片比较识别人脸相似度；直至相关第二词条数据中全部的人脸相似度识别结果均为无法判断时，再通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人。

具体实施时，若其中一个或多个第二词条数据中包括有多张人脸图片，则在人脸比对识别时首先从该第二词条数据中提取一张人脸图片，然后将每个相关的第二词条数据提取出的人脸图片和第一词条数据提取的人脸图片转换成base64编码，接着调用人脸识别接口，依次将多个第二词条数据提取出的人脸图片与第一词条数据提取的人脸图片进行1：1的人脸匹配识别，获取其人脸相似度，当人脸相似度处于阈值内时判定两张人脸为同一人，此时将所属同一人的第二词条数据中的字段补录和/或更新到第一词条数据中，当人脸相似度不处于阈值内时判定两张人脸非同一人，此时不对第一词条数据进行数据扩充，当人脸相似度处于无法判断的情况时，则检测第二词条数据提取出的人脸图片是否合规，如是否出现侧脸、低头等不完全露脸的情况，若判断为不合规，此时需从包括多张人脸图片的第二词条数据中抽取另一张人脸图片重新执行上述人脸相似度识别过程，直至包含多张人脸图片的第二词条数据中全部人脸图片的识别结果均为无法判断时，再通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，例如，通过生日和地区进行验证，如果重名的第二词条数据中的生日和地区字段与第一词条数据的明星生日和地区字段一致，则判定其可关联为同一人，进而将相关第二词条数据中的字段补录和/或更新到第一词条数据中，如若重名的第二词条数据中的生日和地区字段与第一词条数据的明星生日和地区字段不一致，则继续判断代表作字段是否一致，若一致判定其可以关联为同一人，将相关第二词条数据中的字段补录和/或更新到第一词条数据中，否则结束关联匹配操作。

可见，通过上述具体实施过程，可以有效的减少明星数据库中明星词条的人工录入成本，实现词条数据自动扩充更新的同时保证了明星词条数据抓取匹配的准确率。

实施例二

本实施例提供一种基于人脸识别的词条数据扩充装置，包括：

数据爬取单元，用于基于内部数据库的第一词条数据，从外部网站中爬取与词条数据相关的第二词条数据，第一词条数据和第二词条数据至少包括人脸图片及字段；

识别匹配单元，用于识别第一词条数据和第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。

优选地，数据爬取单元包括：

数据爬虫模块，用于基于内部数据库中任一明星的第一词条数据，从外部网站中爬取同名明星的第二词条数据；

数据清洗模块，用于通过比较职业字段，对爬取的多条第二词条数据过滤筛选最终保留相关的第二词条数据。

较佳地，识别匹配单元包括：

图片提取模块，用于在每个相关的第二词条数据中分别提取至少一张人脸图片；

人脸识别模块，用于将每个相关的第二词条数据提取出的人脸图片，分别与从明星的第一词条数据提取的人脸图片比较识别人脸相似度；

判断输出模块，用于当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；或者，当人脸相似度识别结果为非无法判断时，继续通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，若可以关联则将相关第二词条数据中的字段补录和/或更新到第一词条数据中。

与现有技术相比，本实施例提供的基于人脸识别的词条数据扩充装置的有益效果与上述实施例提供的基于人脸识别的词条数据扩充方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于人脸识别的词条数据扩充方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于人脸识别的词条数据扩充方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，上述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

9页详细技术资料下载

基于人脸识别的词条数据扩充方法及装置

相关技术

网友询问留言