车辆数据清洗方法、装置及存储介质

文档序号:907640 发布日期:2021-02-26 浏览:1次 >En<

阅读说明:本技术 车辆数据清洗方法、装置及存储介质 (Vehicle data cleaning method and device and storage medium ) 是由 周凯 金振东 徐嘉赟 张明磊 于 2020-11-06 设计创作,主要内容包括:本发明公开了一种车辆数据清洗方法、装置及存储介质。该方法包括:获取标准车辆数据。获取原始车辆数据。原始车辆数据包括原始车型数据时,根据原始车型数据和车型原子库对标准车型进行筛选得到指定标准车型。原始车辆数据包括原始配件数据时,根据原始配件数据和配件原子库对标准配件进行筛选得到指定标准配件。原始车辆数据包括原始配件功能属性数据时,根据原始配件功能属性数据和配件功能属性原子库对标准配件功能属性进行筛选,得到指定标准配件功能属性。本发明依据原始车辆数据对标准车辆数据进行筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。(The invention discloses a vehicle data cleaning method, a vehicle data cleaning device and a storage medium. The method comprises the following steps: standard vehicle data is acquired. Raw vehicle data is acquired. And when the original vehicle data comprises original vehicle type data, screening the standard vehicle types according to the original vehicle type data and the vehicle type atom library to obtain the specified standard vehicle types. And when the original vehicle data comprises original accessory data, screening the standard accessories according to the original accessory data and the accessory atom library to obtain the specified standard accessories. And when the original vehicle data comprises original accessory function attribute data, screening the standard accessory function attributes according to the original accessory function attribute data and the accessory function attribute atom library to obtain the appointed standard accessory function attributes. According to the invention, the standard vehicle data are screened according to the original vehicle data, so that the standardization of the original vehicle data can be realized, and the intelligent level of data cleaning is improved. The invention improves the speed and the accuracy of subsequent screening by carrying out word segmentation processing on the original vehicle data.)

车辆数据清洗方法、装置及存储介质

技术领域

本发明涉及车辆数据匹配领域,具体涉及一种车辆数据清洗方法、装置及存储介质。

背景技术

汽车后市场中,配件制造商、配件经销商以及配件电商平台等机构的零配件数据通常涉及多品牌、多品类、原厂、高仿、套包等不同类型的配件数据。由于车型变化快、中间环节多,导致上述配件数据杂、乱、多、差,缺乏统一的数据管理标准。进而造成生产管理难、库存管理难、信息被封锁、售后服务难、销售管理难等问题。

图1为现有的厂方配件目录数据表格。如图1所示,现有的配件数据通常采用Excel或word作为载体来管理数据,通常将产品适配的车型填在一个单元格内。图2为现有的配件匹配表格。如图2所示,配件商一般通过人工匹配转换成标准结构化的数据,人力成本高,且匹配效率低。配件商在自行匹配时没有统一的标准数据做基础对标,由于对车型数据的理解偏差和数据的缺乏,匹配后的数据精确度极低,后期仍需多次调整和匹配,仅可短期使用。同时,目前配件商、制造厂商没有全面且标准的车型对应下的配件原厂编码以及功能属性数据,自行匹配数据的局限性很大,这也是导致数据越来越不好管理的主要原因。通常情况下,有能力进行数据化管理的制造厂方需要为每一个类目,例如火花塞,分别配备一名专业的数据产品经理,进行日常的数据管理工作,对使用者的要求极高。

因此,如何提高车辆数据清洗的效率、精确度和智能化水平,降低操作难度和维护成本成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

有鉴于此,本发明实施例提供了一种车辆数据清洗方法、装置及存储介质,以解决现有技术中车辆数据清洗方法效率低、精确度低、操作难度高、维护成本高的问题。

为此,本发明实施例提供了如下技术方案:

本发明第一方面,提供了一种车辆数据清洗方法,包括:

获取标准车辆数据;

其中,所述标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;

获取原始车辆数据;

其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;

所述原始车辆数据包括原始车型数据时,对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;

所述原始车辆数据包括原始配件数据时,对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;

所述原始车辆数据包括原始配件功能属性数据时,对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。

进一步地,每个所述标准车型与至少一个所述标准配件存在对应关系,每个所述标准配件与至少一个所述标准配件功能属性存在对应关系;

所述标准车辆数据还包括原厂配件编码,每个所述标准配件与一个所述原厂配件编码存在对应关系;

所述原始车辆数据包括原始车型数据时,还包括获取与所述指定标准车型存在对应关系的所述标准配件,获取与所述指定标准车型存在对应关系的所述标准配件功能属性,获取与所述指定标准车型存在对应关系的所述原厂配件编码;

所述原始车辆数据包括原始配件数据时,还包括获取与所述指定标准配件存在对应关系的所述标准车型,获取与所述指定标准配件存在对应关系的所述标准配件功能属性,获取与所述指定标准配件存在对应关系的所述原厂配件编码;

所述原始车辆数据包括原始配件功能属性数据时,还包括获取与所述指定配件功能属性存在对应关系的所述标准车型,获取与所述指定配件功能属性存在对应关系的所述标准配件,获取与所述指定配件功能属性存在对应关系的所述原厂配件编码。

进一步地,所述原始车辆数据包括原始车型数据时,还包括根据与所述指定标准车型对应的所述原厂配件编码获取指定原厂车型数据,依据所述指定原厂车型数据对所述指定标准车型进行校验;

所述原始车辆数据包括原始配件数据时,还包括根据与所述指定标准配件对应的所述原厂配件编码获取指定原厂配件数据,依据所述指定原厂配件数据对所述指定标准配件进行校验;

所述原始车辆数据包括原始配件功能属性数据时,还包括根据与所述指定标准配件功能属性对应的所述原厂配件编码获取指定原厂配件功能属性数据,依据所述指定原厂配件功能属性数据对所述指定标准配件功能属性进行校验。

进一步地,所述指定标准配件为多个时,还包括对多个所述指定标准配件进行排序;

对多个所述指定标准配件进行排序的步骤包括:

将每个所述指定标准配件的评分值设置为0;

获取与所述多个所述指定标准配件中的任一个所述指定标准配件存在对应关系的配件功能属性记为评分配件功能属性;

对每个所述评分配件功能属性执行如下步骤:

分别计算每个所述指定标准配件相对于当前的所述评分配件功能属性的属性评分,将相对于当前的所述评分配件功能属性的属性评分最高的所述指定标准配件的评分值加1;

将所述指定标准配件按照评分值由高到低进行排序。

进一步地,所述评分配件功能属性为有倾向性时,所述属性评分的计算公式为:

其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;

所述评分配件功能属性为无倾向性时,所述配件评分的计算公式为:

其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。

进一步地,存在至少两个所述指定标准配件的评分值相同时,从所述评分配件功能属性中获取核心评分配件功能属性,所述指定标准配件相对于所述核心评分配件功能属性的属性评分越高排序越靠前。

进一步地,所述标准车辆数据还包括车型配置评分,每个所述标准车型对应一个所述车型配置评分;

所述车型配置评分的计算方法包括:获取所述标准车型对应的原厂配件功能属性,根据所述标准车型对应的所述标准配件功能属性对所述原厂配件功能属性进行筛选得到匹配的原厂配件功能属性,计算所述匹配的原厂配件功能属性的总数与所述原厂配件功能属性总数的比值;

所述原始车辆数据包括原始车型数据时,还包括获取所述指定标准车型对应的所述车型配置评分。

进一步地,所述标准车型包括以下至少之一:车型名称、工信部公告号、经销渠道销售版型、车身形式、国别。

本发明第二方面,提供了一种车辆数据清洗装置,所述装置包括:

第一获取装置,用于获取标准车辆数据;

其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;

第二获取装置,用于获取原始车辆数据;

其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;

第一筛选装置,所述原始车辆数据包括原始车型数据时,所述第一筛选装置用于对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;

第二筛选装置,所述原始车辆数据包括原始配件数据时,所述第二筛选装置用于对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;

第三筛选装置,所述原始车辆数据包括原始配件功能属性数据时,所述第三筛选装置用于对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。

本发明第三方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明第一方面中任一所述方法的步骤。

本发明实施例技术方案,具有如下优点:

本发明实施例提供了一种车辆数据清洗方法、装置及存储介质。现有的车辆数据清洗方法通常为人工查找,效率低,操作难度高。本发明依据原始车辆数据对标准车辆数据进行筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。

附图说明

为了更清楚地说明本发明

具体实施方式

或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有的厂方配件目录数据表格。

图2为现有的配件匹配表格。

图3为本发明实施例的车辆数据清洗方法流程图。

图4为本发明实施例的车辆数据清洗装置结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本申请提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

图3为本发明实施例的车辆数据清洗方法流程图。如图3所示,车辆数据清洗方法包括如下步骤:

S1:获取标准车辆数据;

其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库。本实施例中,标准车型包括以下至少之一:车型名称、工信部公告号、经销渠道销售版型、车身形式、国别。车型原子库包括车型俗称,配件原子库包括配件俗称,配件功能属性原子库包括配件功能属性俗称。每个标准车型对应至少一个车型俗称,每个标准配件对应至少一个配件俗称,每个标准配件功能属性对应至少一个配件功能属性俗称。在汽车专业领域,同一配件名称既有书面称谓,如前保险杠皮、发动机罩、中网,这些书面名称为配件标准名,也有行业当中的俗称,如前保,头盖,鬼面罩。前保即为前保险杠皮,头盖即为发动机罩,鬼面罩即为中网。而且,一个物件往往还会存在很多个不同的俗称,前保险杠皮的俗称有:前杠,前保,前杆,前泵把、前杠蒙皮等。标准车型、配件和标准配件功能属性为书面称谓。

S2:获取原始车辆数据;

其中,原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据。本实施例中,原始车型数据包括车型的俗称,原始配件数据包括配件的俗称,原始配件功能属性数据包括配件功能属性的俗称。

S3:原始车辆数据包括原始车型数据时,对原始车型数据进行切词处理得到车型原子信息,根据车型原子信息和车型原子库对标准车型进行筛选得到指定标准车型。本实施例中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据进行筛选。

原始车辆数据包括原始配件数据时,对原始配件数据进行切词处理得到配件原子信息,根据配件原子信息和配件原子库对标准配件进行筛选得到指定标准配件。本实施例中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据进行筛选。

原始车辆数据包括原始配件功能属性数据时,对原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据配件功能属性原子信息和配件功能属性原子库对标准配件功能属性进行筛选,得到指定标准配件功能属性。本实施例中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据进行筛选。

本实施例中,切词处理包括将字段拆分为词。例如对“揽胜运动版”进行切词处理得到“揽胜”和“运动”,对“帕萨特领驭”进行切词处理得到“帕萨特”和“领驭”。标准关键词优选包括品牌、厂商、底盘、车系、车型、排量、年款、发动机、变速箱和销售版型。

现有的汽车配件数据清洗方法通常为人工查找,效率低,操作难度高。本发明通过对原始车辆数据进行匹配筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。本发明将不同语义,不同维度的原始车辆数据通过切词处理转换成最细维度车型数据,有利于识别和逻辑处理,极大地提高了标准化处理的效率。使用时,例如,“速腾2019舒适版1.4”通过本发明实施例的车辆数据清洗方法可转化为:品牌-厂牌为“大众-一汽大众”,车组为“速腾0J 2019”,车型为“速腾”,排量-发动机号为“1.4T-DJSA”,销售版型为“1.4TSI双离合280TSI舒适型”,年款为“2019”以及标准车型信息为“MJS9208637”。此处区别于现有的搜索反复在用户直接查询时提供的单车型查询,在目录匹配场景下为多车型查询。

在一个具体的实施方式中,每个标准车型与至少一个标准配件存在对应关系,每个标准配件与至少一个标准配件功能属性存在对应关系。标准车辆数据还包括原厂配件编码,每个标准配件与一个原厂配件编码存在对应关系。原始车辆数据包括原始车型数据时,还包括获取与指定标准车型存在对应关系的标准配件,获取与指定标准车型存在对应关系的标准配件功能属性,获取与指定标准车型存在对应关系的原厂配件编码。原始车辆数据包括原始配件数据时,还包括获取与指定标准配件存在对应关系的标准车型,获取与指定标准配件存在对应关系的标准配件功能属性,获取与指定标准配件存在对应关系的原厂配件编码。原始车辆数据包括原始配件功能属性数据时,还包括获取与指定配件功能属性存在对应关系的标准车型,获取与指定配件功能属性存在对应关系的标准配件,获取与指定配件功能属性存在对应关系的原厂配件编码。

与现有技术相比,本发明实施例提供的车辆数据清洗方法能够将原始车辆数据、标准车辆数据和原厂编码建立联系。本发明实施例对原始车型数据、原始配件数据和原始配件功能属性数据分别进行处理,在得到多个处理结果时能够相互验证,提高了数据的稳定性。

在一个具体的实施方式中,原始车辆数据包括原始车型数据时,还包括根据与指定标准车型对应的原厂配件编码获取指定原厂车型数据,依据指定原厂车型数据对指定标准车型进行校验。原始车辆数据包括原始配件数据时,还包括根据与指定标准配件对应的原厂配件编码获取指定原厂配件数据,依据指定原厂配件数据对指定标准配件进行校验。原始车辆数据包括原始配件功能属性数据时,还包括根据与指定标准配件功能属性对应的原厂配件编码获取指定原厂配件功能属性数据,依据指定原厂配件功能属性数据对指定标准配件功能属性进行校验。

与现有技术相比,本发明实施例依据原厂数据对指定标准车型、指定标准配件或指定标准配件功能属性进行验证,提高了数据的可靠性。

在一个具体的实施方式中,指定标准配件为多个时,还包括对多个指定标准配件进行排序。对多个指定标准配件进行排序的步骤包括:

将每个指定标准配件的评分值设置为0。获取与多个指定标准配件中的任一个指定标准配件存在对应关系的配件功能属性记为评分配件功能属性。

对每个评分配件功能属性执行如下步骤:

分别计算每个指定标准配件相对于当前的评分配件功能属性的属性评分,将相对于当前的评分配件功能属性的属性评分最高的指定标准配件的评分值加1;

将指定标准配件按照评分值由高到低进行排序。

本实施例中,评分配件功能属性为有倾向性时,属性评分的计算公式为:

其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;

评分配件功能属性为无倾向性时,配件评分的计算公式为:

其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。

与现有技术相比,本发明实施例提供的车辆数据清洗方法依据标准配件与原厂配件的近似度对标准配件进行评分,能够确定标准配件的配置高低。

在一个具体的实施方式中,存在至少两个指定标准配件的评分值相同时,从评分配件功能属性中获取核心评分配件功能属性,指定标准配件相对于核心评分配件功能属性的属性评分越高排序越靠前。

本实施例中,可选根据实际需求增加核心功能属性的权重。

在一个具体的实施方式中,标准车辆数据还包括车型配置评分,每个标准车型对应一个车型配置评分。车型配置评分的计算方法包括:获取标准车型对应的原厂配件功能属性,根据标准车型对应的标准配件功能属性对原厂配件功能属性进行筛选得到匹配的原厂配件功能属性,计算匹配的原厂配件功能属性的总数与原厂配件功能属性总数的比值。原始车辆数据包括原始车型数据时,还包括获取指定标准车型对应的车型配置评分。

与现有技术相比,本发明实施例提供的车辆数据清洗方法依据标准车型件与原厂车型的近似度对标准车型进行评分,能够确定标准车型的配置高低。

在本实施例中还提供了一种车辆数据清洗装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图4为本发明实施例的车辆数据清洗装置结构框图,如图4所示,该装置包括:第一获取装置11,用于获取标准车辆数据。其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库。第二获取装置12,用于获取原始车辆数据。其中,原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据。第一筛选装置13,原始车辆数据包括原始车型数据时,第一筛选装置13用于对原始车型数据进行切词处理得到车型原子信息,根据车型原子信息和车型原子库对标准车型进行筛选得到指定标准车型。第二筛选装置14,原始车辆数据包括原始配件数据时,第二筛选装置14用于对原始配件数据进行切词处理得到配件原子信息,根据配件原子信息和配件原子库对标准配件进行筛选得到指定标准配件。第三筛选装置15,原始车辆数据包括原始配件功能属性数据时,第三筛选装置15用于对原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据配件功能属性原子信息和配件功能属性原子库对标准配件功能属性进行筛选,得到指定标准配件功能属性。

本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的车辆数据清洗方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:知识点预测方法、系统和可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!