基于状态位的中文地址去重方法、系统及设备

文档序号：682763 发布日期：2021-04-30 浏览：1次 >En<

阅读说明：本技术 基于状态位的中文地址去重方法、系统及设备 (Chinese address duplication eliminating method, system and equipment based on state bit ) 是由虞开稳于 2021-01-12 设计创作，主要内容包括：本申请公开了一种基于状态位的中文地址去重方法、系统及设备,所述方法具体包括以下步骤：获取原始地址数据；结合全国行政区划数据获取所述原始地址数据中的前三级别地址以及后缀地址字符串；利用HashSet对所述原始地址数据进行遍历,设置对应所述原始地址数据的状态位；对所述状态位进行检查,纠正所述状态位；根据纠正后的所述状态位去除重复的所述前三级别地址及/或后缀地址。通过本申请,确保找到地址字符串自身的重复字符,对地址字符串进行去冗余化。(The application discloses a Chinese address duplication eliminating method, a system and equipment based on state bits, wherein the method specifically comprises the following steps: acquiring original address data; combining national administrative division data to obtain the first three-level address and the suffix address character string in the original address data; traversing the original address data by using HashSet, and setting a state bit corresponding to the original address data; checking the status bit and correcting the status bit; and removing the repeated addresses of the front three levels and/or the addresses of the suffixes according to the corrected status bits. By the method and the device, the repeated characters of the address character string are found, and the address character string is subjected to redundancy removal.)

技术领域

本发明涉及数据处理技术领域。更具体的说，本发明涉及一种基于状态位的中文地址去重方法、系统及设备。

背景技术

随着中文搜索引擎和数据挖掘技术的发展，高效中文地址判重技术也到了飞速发展，并且受到工业界和学术界的广泛关注。中文地址相比较英文地址，写法多变，语义复杂，对中文地址的判重更加具有挑战性。

一般来讲，中文地址需要处理的业务场景有快递地址填写、银行信贷人检查和公检法部门个人信息查询等。尤其是在快递行业，快件数量近些年以物流行业发展为基础呈指数增长态势，快件收寄的准确性对地址的准确度提出了挑战。现有的各种数据去重方法主要集中在处理文本数据相似度的判断，数据间依赖关系判断，数据缩写的判断等问题上，对于中文地址去重处理上仍存在以下问题：

1、在地址的填写上，对于地址仅限于省市区县等前三级地址的系统选择填写，甚至有可能全部的地址都是人工填写然后通过机器扫描得到最终地址，字符识别系统还不能够保证完全准确地识别汉字，因此不可避免地可能会发生地址丢失、部分地址重复导致信息冗余、扫描错误等情况；

2、针对多条地址进行重复性判断主要针对的是同一地址多种表达的情况，不能够对单条地址本身去除冗余信息或者规范化；

3、地址字符串除开省市区县等前三级地址外，其余地址表达相对灵活，无法统一进行去重。

发明内容

本申请实施例提供了一种基于状态位的中文地址去重方法，以至少解决相关技术中主观因素影响的问题。

本发明提供了一种基于状态位的中文地址去重方法，所述方法包括以下步骤：

数据获取步骤：获取原始地址数据；

地址获取步骤：结合全国行政区划数据获取所述原始地址数据中的前三级别地址以及后缀地址字符串；

遍历步骤：利用HashSet对所述原始地址数据进行遍历，设置对应所述原始地址数据的状态位；

检查步骤：对所述状态位进行检查，纠正所述状态位；

重复去除步骤：根据纠正后的所述状态位去除重复的所述前三级别地址及/或后缀地址。

作为本发明的进一步改进，所述地址获取步骤中的所述前三级别地址包括省市区县的隶属关系。

作为本发明的进一步改进，所述状态位分为重复状态位和非重复状态位。

作为本发明的进一步改进，所述检查步骤具体包括以下步骤：

状态位纠正步骤：对所述状态位进行纠正；

后缀检查步骤：对所述状态位进行重复字串后缀检查。

作为本发明的进一步改进，所述状态位纠正步骤具体包括以下步骤：

第一判断步骤：判断所述重复状态位是否连续大于等于两位；

第一纠正步骤：若是则所述重复状态位不变，若否则将所述重复状态位纠正为所述非重复状态位。

作为本发明的进一步改进，所述后缀检查步骤具体包括以下步骤：

设置步骤：设置后缀集合；

第二判断步骤：判断所述原始地址数据中标记所述重复状态位的重复地址是否与所述后缀集合匹配；

第二纠正步骤：若是则将所述重复地址的状态位纠正为所述非重复状态位，若否则所述重复地址的状态位不变。

基于相同发明思想，本发明还基于任一项发明创造所揭示的基于状态位的中文地址去重方法，揭示了一种基于状态位的中文地址去重系统，

所述基于状态位的中文地址去重系统包括：

数据获取模块，获取原始地址数据；

地址获取模块，结合全国行政区划数据获取所述原始地址数据中的前三级别地址以及后缀地址字符串；

遍历模块，利用HashSet对所述原始地址数据进行遍历，设置对应所述原始地址数据的状态位；

检查模块，对所述状态位进行检查，纠正所述状态位；

重复去除模块，根据纠正后的所述状态位去除重复的所述前三级别地址及/或后缀地址。

作为本发明的进一步改进，所述地址获取模块中的所述前三级别地址包括省市区县的隶属关系。

作为本发明的进一步改进，所述检查模块具体包括：

状态位纠正单元，对所述状态位进行纠正；

后缀检查单元，对所述状态位进行重复字串后缀检查。

此外，为实现上述目的，本发明还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现基于状态位的中文地址去重方法。

与现有技术相比，本发明的有益效果如下：

1、提出了一种基于状态位的中文地址去重方法，基于状态位来去除中文地址中的重复情况，利用HashSet这种Java内置的数据结构，定义并设置与地址字符串同长度的状态数组，对具体索引位置设置重复状态，从而得到地址字符串中的重复地址；

2、确保找到地址字符串自身的重复字符，对地址字符串进行规范化或者去冗余化，为地址服务的下游功能提供较为完整且准确的地址信息并能够应用于公安、银行、物流配送等业务中，提升业务效率以及降低成本；

3、能够以最小的代价表示有效的地址信息，降低了业务实践和交流的成本；

4、地址字符串去重降低了信息存储成本，提升了在具体业务场景(快递行业、银行保险公司等)中客户服务的精准度和唯一性，有利于相同前缀地址内的诸多信息进行聚类挖掘，为下游数据业务开展提供基础；

5、可通过状态位有效去除省市区县级别地址(Top3级别地址)的重复情况、除Top3级别地址外的剩余地址中存在Top3级别地址的重复情况以及剩余地址中自身存在部分重复的情况，从而获取地址更加准确。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明实施例提供的一种基于状态位的中文地址去重方法整体流程图；

图2是本实施例所揭示的主体流程示意图；

图3是图1所揭示的步骤S4整体流程图；

图4是图3所揭示的步骤S41整体流程图；

图5是图3所揭示的步骤S42整体流程图；

图6是本实施例提供的一种基于状态位的中文地址去重系统结构框架图；

图7是根据本发明实施例的计算机设备的框架图。

以上图中：

1、数据获取模块；2、地址获取模块；3、遍历模块；4、检查模块；5、重复去除模块；41、状态位纠正单元；411、第一判断单元；412、第一纠正单元；42、后缀检查单元；421、设置单元；422、第二判断单元；423、第二纠正单元；80、总线；81、处理器；82、存储器；83、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不待表针对对象的特定排序。

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替待，均属于本发明的保护范围之内。

在详细阐述本发明各个实施例之前，对本发明的核心发明思想予以概述，并通过下述若干实施例予以详细阐述。

本发明可基于状态位进行中文地址去重，有效去除重复地址数据，准确获取有效地址信息。

实施例一：

参照图1至图5所示，本实例揭示了一种基于状态位的中文地址去重方法(以下简称“方法”)的具体实施方式。

具体而言，首先介绍所述方法的整体思路。该方法基于HashSet这种Java内置的数据结构，利用HashSet的不可重复性，对地址字符串进行顺序扫描，然后对不在所创建的HashSet中的字符进行添加，并创建与地址字符串等长的状态位数组，若HashSet中已存在该地址字符串中的字符则相应索引下的状态位设置为重复状态位，否则设置为非重复状态位。

具体而言，扫描完得到该地址字符串的状态位数组以及重复情况，然后根据重复状态位的关系对状态位进行自我纠正，利用状态位自我纠正、基于地址别名的状态位后缀检查这两种方式确保找到地址字符串自身的重复字符，对地址字符串进行规范化或者去冗余化。

具体而言参照图1和图2所示，本实施例所揭示的方法主要包括以下步骤：

步骤S1、获取原始地址数据。

然后执行步骤S2、结合全国行政区划数据获取所述原始地址数据中的前三级别地址以及后缀地址字符串。

具体而言，在其中一些实施例中，结合全国行政区划数据得到前三级地址(Top3级别地址)，Top3级别地址包括省市区县的隶属关系，然后从地址数据中进行匹配得到Top3级别地址以及原始地址数据中除了Top3级别地址外的余下地址字符串(后缀地址字符串)。

具体而言，在其中一些实施例中，主要有四种地址重复方式，如下所示：

1、浙江省杭州市西湖区南山路138号浙江美术馆南二门；

2、省杭州市余杭区浙江杭州市余杭区天都城爵士花园2幢4单元402；

3、安徽宿州泗县安徽省宿州市泗县泗城镇泗州国际装饰城B8-1号；

4、浙江省杭州市西湖区三墩镇墩余路300号万科云谷公寓13-1301浙江三墩镇墩余路300云谷公寓。

其中，第一个地址除了省市区县级别地址外还存在Top3级别地址，但是不能进行去重；第二个地址除Top3级别地址外还存在Top3级别地址，需要去重；第三个地址同样存在Top3级别地址重复需要去重；第四个地址存在Top3级别地址重复以及后缀地址重复。四种有误地址均为在不同情况下的重复情况，其中有些重复信息需要去重而有些需要保留，有些是Top3级别地址重复有些则是后面地址存在重复。

然后执行步骤S3、利用HashSet对所述原始地址数据进行遍历，设置对应所述原始地址数据的状态位。

具体而言，在其中一些实施例中，状态位分为两种：重复状态位和非重复状态位。本实施例重复状态位标记为1，非重复状态位标记为0，但本发明并不以此为限。

具体而言，在其中一些实施例中，对原始地址字符串进行遍历，利用HashSet以及状态位数组设置对应位置索引下的状态位，初始状态位默认为0，遍历后有重复则是1。

然后执行步骤S4、对所述状态位进行检查，纠正所述状态位。

具体而言，参照图3所示，步骤S4具体包括以下步骤：

S41、对所述状态位进行纠正；

S42、对所述状态位进行重复字串后缀检查。

具体而言，在其中一些实施例中，利用HashSet遍历地址字符串，设置状态位数组以及对应字符串状态位后，并不是所有重复的字符都是需要进行去重的，因此会进行状态位的纠正，利用状态位纠正算法和重复字串后缀检查对状态位进行检查和纠正，来进一步确保状态位标识的准确性。

具体而言，如上述提到的四种地址重复方式中的第一种地址，如果仅根据初始状态位的标记进行去重，则结果如下：

其中，第一行表示原始地址字符串，第二行表示基于HashSet得到的无重复状态设置原始地址字符串的状态位，其中0表示不重复，1表示重复。最后一行表示无重复地址字符串，但是很显然“浙江”在字符串中是不能够删除的，它是一个完整名词表达的有效部分，这样地址去重就存在不准确性，因此需要对状态位进行检查和纠正。

具体而言，参照图4所示，步骤S41具体包括以下步骤：

S411、判断所述重复状态位是否连续大于等于两位；

S412、若是则所述重复状态位不变，若否则将所述重复状态位纠正为所述非重复状态位。

具体而言，在其中一些实施例中，当重复状态位连续超过以及包括2位时才能判断是有效状态位，否则将状态位从1改为0，进行状态位自我纠正，例如某个字符在状态数组中对应状态位为1，其左右两个相邻字符状态位是0，标记为1的状态位并没有连续超过或等于两位，则该状态位经过状态位纠正后自动设置为0，纠正过程如下所示：

具体而言，参照图5所示，步骤S42具体包括以下步骤：

S421、设置后缀集合；

S422、判断所述原始地址数据中标记所述重复状态位的重复地址是否与所述后缀集合匹配；

S423、若是则将所述重复地址的状态位纠正为所述非重复状态位，若否则所述重复地址的状态位不变。

具体而言，在其中一些实施例中，基于地址别名进行重复子串后缀检查，例如上述提到的四种地址重复方式中的第一种地址，“浙江”这个字段就是“浙江省”的别名需要进行检查，在“浙江”字符索引位置均标示为“1”这种重复状态时，“浙江”后面跟随的是“美术馆”,因此设置后缀集合，比如“美术馆，游泳馆，少年宫”等字段，一旦与其匹配完成，就将该重复状态设置为“0”进行纠正，因为该“浙江”字段虽然与Top3级别地址有重复，但是它具有实实在在的意义并不能够删除。

然后执行步骤S5、根据纠正后的所述状态位去除重复的所述前三级别地址及/或后缀地址。

具体而言，在其中一些实施例中，经过纠正和检查，按照状态位的设置情况，将状态位为0的对应索引位置字符进行输出，得到去重的地址数据。例如上述提到的四种地址重复方式中的第二种地址，“浙江杭州市余杭区”就是重复的无效信息，需要进行去重，先对原始地址字符串进行遍历并添加到HashSet中，一旦发现重复时就在状态位数组(初始值都为0)对应的索引位置设置为1，然后利用状态位得到去重后的地址字符串，过程如下：

通过本申请实施例所揭示的一种基于状态位的中文地址去重方法，基于状态位来去除中文地址中的重复情况，利用HashSet这种Java内置的数据结构，定义并设置与地址字符串同长度的状态数组，对具体索引位置设置重复状态，从而得到地址字符串中的重复地址；确保找到地址字符串自身的重复字符，对地址字符串进行规范化或者去冗余化，为地址服务的下游功能提供较为完整且准确的地址信息并能够应用于公安、银行、物流配送等业务中，提升业务效率以及降低成本；能够以最小的代价表示有效的地址信息，降低了业务实践和交流的成本；地址字符串去重降低了信息存储成本，提升了在具体业务场景(快递行业、银行保险公司等)中客户服务的精准度和唯一性，有利于相同前缀地址内的诸多信息进行聚类挖掘，为下游数据业务开展提供基础；可通过状态位有效去除省市区县级别地址(Top3级别地址)的重复情况、除Top3级别地址外的剩余地址中存在Top3级别地址的重复情况以及剩余地址中自身存在部分重复的情况，从而获取地址更加准确。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

实施例二：

结合实施例一所揭示的一种基于状态位的中文地址去重方法，本实施例揭示了一种基于状态位的中文地址去重系统(以下简称“系统”)的具体实施示例。

参照图6所示，所述系统包括：

数据获取模块1，获取原始地址数据；

地址获取模块2，结合全国行政区划数据获取所述原始地址数据中的前三级别地址以及后缀地址字符串；

遍历模块3，利用HashSet对所述原始地址数据进行遍历，设置对应所述原始地址数据的状态位；

检查模块4，对所述状态位进行检查，纠正所述状态位；

重复去除模块5，根据纠正后的所述状态位去除重复的所述前三级别地址及/或后缀地址。

具体而言，在其中一些实施例中，所述地址获取模块2中的前三级别地址包括省市区县的隶属关系。

具体而言，在其中一些实施例中，所述状态位分为重复状态位和非重复状态位。

具体而言，在其中一些实施例中，所述检查模块4具体包括：

状态位纠正单元41，对所述状态位进行纠正；

后缀检查单元42，对所述状态位进行重复字串后缀检查。

具体而言，在其中一些实施例中，所述状态位纠正单元41具体包括：

第一判断单元411，判断所述重复状态位是否连续大于等于两位；

第一纠正单元412，若是则所述重复状态位不变，若否则将所述重复状态位纠正为所述非重复状态位。

具体而言，在其中一些实施例中，所述后缀检查单元42具体包括：

设置单元421，设置后缀集合；

第二判断单元422，判断所述原始地址数据中标记所述重复状态位的重复地址是否与所述后缀集合匹配；

第二纠正单元423，若是则将所述重复地址的状态位纠正为所述非重复状态位，若否则所述重复地址的状态位不变。

本实施例所揭示的一种基于状态位的中文地址去重系统与实施例一所揭示的一种基于状态位的中文地址去重方法中其余相同部分的技术方案，请参考实施例一所述，在此不再赘述。

实施例三:

结合图7所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种基于状态位的中文地址去重方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图7所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可基于状态位实现中文地址去重，从而实现结合图1描述的方法。

另外，结合上述实施例中基于状态位的中文地址去重方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于状态位的中文地址去重方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

综上所述，基于本发明的有益效果在于提出了一种基于状态位的中文地址去重方法，基于状态位来去除中文地址中的重复情况，利用HashSet这种Java内置的数据结构，定义并设置与地址字符串同长度的状态数组，对具体索引位置设置重复状态，从而得到地址字符串中的重复地址；确保找到地址字符串自身的重复字符，对地址字符串进行规范化或者去冗余化，为地址服务的下游功能提供较为完整且准确的地址信息并能够应用于公安、银行、物流配送等业务中，提升业务效率以及降低成本；能够以最小的代价表示有效的地址信息，降低了业务实践和交流的成本；地址字符串去重降低了信息存储成本，提升了在具体业务场景(快递行业、银行保险公司等)中客户服务的精准度和唯一性，有利于相同前缀地址内的诸多信息进行聚类挖掘，为下游数据业务开展提供基础；可通过状态位有效去除省市区县级别地址(Top3级别地址)的重复情况、除Top3级别地址外的剩余地址中存在Top3级别地址的重复情况以及剩余地址中自身存在部分重复的情况，从而获取地址更加准确。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种航段登机信息处理方法和装置

基于状态位的中文地址去重方法、系统及设备

相关技术

网友询问留言