一种基于时间地理学的游记地名消歧方法

文档序号:1087405 发布日期:2020-10-20 浏览:7次 >En<

阅读说明:本技术 一种基于时间地理学的游记地名消歧方法 (Travel memory place name disambiguation method based on time geography ) 是由 尹章才 赵晓茹 曹莉婷 李三娟 于 2020-06-03 设计创作,主要内容包括:本发明公开了一种基于时间地理学的游记地名消歧方法,该方法包括以下步骤:1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;2)利用PPA进行消歧;3)利用确定时刻的可达域进行消歧;4)利用概率时间地理学进行排序;为每个余下的歧义地名计算概率,并按照计算结果降序排列。本发明提供了基于时间地理学的消歧方法,不同于之前基于规则等方法,适用于游记地名消歧,补充了在细粒度地名方面的消歧方法,让地名消歧更加准确。(The invention discloses a shorthand place name disambiguation method based on time geography, which comprises the following steps: 1) extracting place names and time labels thereof in the travel note text, dividing the extracted place names into ambiguous place names and unambiguous place names, allocating unique longitude and latitude positions to the unambiguous place names, and listing all possible longitude and latitude positions corresponding to the place names for the ambiguous place names; 2) disambiguation using PPA; 3) disambiguating by using the reachable domain at the determined time; 4) sorting by using probabilistic temporal geography; the probability is calculated for each remaining ambiguous location name and sorted in descending order according to the calculation. The invention provides a disambiguation method based on time geography, which is different from the prior methods based on rules and the like, is suitable for shorthand place name disambiguation, supplements the disambiguation method in the aspect of fine-grained place names, and ensures that the place name disambiguation is more accurate.)

一种基于时间地理学的游记地名消歧方法

技术领域

本发明涉及自然语言处理技术,尤其涉及一种基于时间地理学的游记地名消歧方法。

背景技术

网络的不断发展和日益普及使得网上的信息量飞速增长,网络已成为一个包含众多数字文本的大型资料库,成为人们获取地理信息的主要来源,据统计至少70%的文本文档包含以地名形式表达的地理位置参考信息。在现实生活中,这些信息往往存在着歧义,如中山公园,同名的地理现象会造成位置语义的不确定性,因此需要对有歧义的位置语义进行消歧,为其分配一个唯一的经纬度。

现有方法一般根据文本中歧义地名附近的证据和地理关联度的计算进行消歧,但随着证据数目的过度增多反而会对消歧效果产生负面影响。此外,由于地理尺度为省级、市级、县级三类,许多细粒度和行政地名无法区分地理关联度的差异,这也会导致消歧发生错误。

具有代表性的文本——游记是旅游者基于自身旅游体验主动发表的主要描述旅行过程和感受的文本,被较多地用来提取地理信息。虽然现在有非常多的地名消歧方法,但是不同的消歧方法对应不同类型的文本,而目前还没有专门针对游记的消歧方法。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于时间地理学的游记地名消歧方法。

本发明解决其技术问题所采用的技术方案是:一种基于时间地理学的游记地名消歧方法,包括以下步骤:

1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;

2)利用PPA进行消歧;

设游客在时刻t所在的地名L存在多个歧义的位置,其任一位置的经纬度记为L(x,y);选择在时间上前后两个无歧义地名位置Li(xi,yi)和Lj(xj,yj)及其时间信息ti和tj,ti<t<tj,作为一段游览的起止点信息;然后根据旅客的最大可能速度Vm,利用时间地理学原理计算旅客在起止点约束下的潜在路径区域(Potential Path Area,PPA),并作为消歧的依据,即歧义地名位置L(x,y)如果不位于PPA则不是地名的正确位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤3);

所述PPA为包含了游客在给定时间预算(tj-ti)和速度Vm限制下所有可访问位置的区域;

其中,根据歧义地名L的任一经纬度L(x,y),消减不位于PPA区域内的歧义位置点,判断采用以下公式:

其中,gij为PPA区域即游客在起点Li和终点Lj约束下所有可访问的位置集合,(xi,yi)和(xj,yj)分别为起点和终点的坐标,ti、tj分别为起点时间和终点时间,Vm为旅客的最大可能速度;

3)利用确定时刻的可达域进行消歧;

根据游记提取出个体出现在歧义地名的时刻t,建立时刻t的可达域,消减不位于可达域的歧义地名的经纬度位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤4);

4)对剩下的n个歧义地名的经纬度位置进行概率计算,为每个余下的歧义地名的经纬度位置计算概率,并按照计算结果降序排列。

按上述方案,所述步骤3)中时刻t的可达域为fi(t)∩pj(t),其中,fi(t)为旅客从起点Li位置出发在时刻t的可达域,pj(t)为旅客前往终点Lj位置前在时刻t的可达域;表示如下:

Figure BDA0002522641410000041

按上述方案,所述步骤4)中概率计算采用以下公式

式中,c0为起点Li和终点Lj之间对应于时刻t的位置点c0(x0,y0),且ck为歧义地名的索引号为k的位置点;k为区间[1,n]中的一个自然数;n为歧义地名的所有位置点的总数。

本发明产生的有益效果是:本发明提供了基于时间地理学的消歧方法,不同于之前基于规则等方法,适用于带时间标签的游记地名的消歧,补充了在细粒度地名方面的消歧方法,让地名消歧更加准确。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例的方法流程图;

图2是本发明实施例的游记中提取出的时间和地名示意图;

图3是本发明实施例的歧义和无歧义地名的显示示意图;

图4是本发明实施例的PPA消歧结果示意图;

图5是本发明实施例的可达域消歧结果示意图;

图6是本发明实施例的概率消歧结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,一种基于时间地理学的游记地名消歧方法,包括以下步骤:

1)提取游记文本中的地名及其时间标签,将提取的地名分为歧义地名和无歧义地名,对无歧义地名分配唯一的经纬度位置,对歧义地名列出该地名对应的全部可能的经纬度位置;

2)利用PPA进行消歧。

在游记中,游客会记录一些地名和出现在地名的时间信息。其中,有些地名对应多个不同的经纬度位置,从而产生歧义。设游客在时刻t所在的地名L存在多个歧义的位置,其任一位置的经纬度记为L(x,y);选择在时间上前后两个无歧义地名位置Li(xi,yi)和Lj(xj,yj)及其时间信息ti和tj,ti<t<tj,作为一段游览的起止点信息;然后根据旅客的最大可能速度Vm,利用时间地理学原理计算旅客在起止点约束下的潜在路径区域(Potential PathArea,PPA),并作为消歧的依据,即歧义地名位置L(x,y)如果不位于PPA则不是地名的正确位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤3);

最大可能速度Vm可根据无歧义地名及其时间信息估算这段游览中旅客的最大可能速度;

所述PPA为包含了游客在给定时间预算(tj-ti)和速度Vm限制下所有可访问位置的区域;

其中,根据歧义地名L的任一经纬度L(x,y),消减不位于PPA区域内的歧义位置点,判断采用以下公式:

其中,gij为PPA区域即游客在起点Li和终点Lj约束下所有可访问的位置集合,(xi,yi)和(xj,yj)分别为起点和终点的坐标,ti、tj分别为起点时间和终点时间,Vm为旅客的最大可能速度;

时间地理学:

时空棱镜是在已知起点、终点、出发时刻、结束时刻和最大行驶速度的情况下,展示出个体所能到达的所有时空区域。时空棱镜在时间t∈(ti,tj)的任意时刻定义为:

Zij(t)={(x,y;t)|fi(t)∩pj(t)} (2)

Figure BDA0002522641410000071

Figure BDA0002522641410000073

棱镜在t时刻处的空间范围由两个范围的交集决定:(1)从起点开始在t时刻可能到达的所有位置fi(t);(2)在t时刻可能到达终点的所有位置pj(t)。将棱镜投射到地理空间会生成一个潜在的路径区域(PPA),即图中的gij,PPA是二维地理空间中的一个椭圆,该区域包含了给定时间预算和速度限制的地理空间中的所有可访问位置,即在[ti,tj]期间内个体可能出现的范围。PPA表示的是时间段内的个体活动的所有范围,而可达域表示的是个体在该时刻的活动范围。

3)利用确定时刻的可达域进行消歧;提取出个体出现在歧义地名的时刻t,然后建立时刻t的可达域,消减不位于可达域的歧义地名的经纬度位置;消减后若歧义地名对应的剩余的经纬度位置唯一,则游记地名消歧结束,否则转入步骤4);

Figure BDA0002522641410000074

4)利用概率时间地理学进行排序;对剩下的n个歧义地名的经纬度位置进行概率计算,为每个余下的歧义地名的经纬度位置计算概率,并按照计算结果降序排列;

概率时间地理学是时间地理学基于位置概率的一种延伸,将位置概率分配给可达域,可达域上的概率计算采用以下公式

式中,c0为起点和终点之间对应于t时刻的位置点;ck为歧义地名的索引号为k的一个位置点。本实施例中取起点和终点直线最短路径。

一个具体示例:

设:进行消歧的游记是携程平台上的一篇在武汉一天内游玩而记录的游记,在这篇游记当中每个游玩的地点都说明了明确的时间,符合本方法的要求,进行示例说明的网址是:

https://you.ctrip.com/travels/wuhan145/3787772.html?tdsourcetag=s_pctim_aiomsg。

步骤1:读取用户输入的网址(URL),然后利用百度AI的自然语言处理功能从游记中提取出所有的地名和时间。在这篇游记中可以提取到早上、九点、春分、中午十二点、两个小时和两点这些时间点,以及武汉大学、樱花大道、海底捞、武汉和黄鹤楼这些地名,如图2。

步骤2:确定起始点。通过百度JavaScript API中的geocodeSearch方法将地名分为歧义地名海底捞和无歧义地名武汉大学、樱花大道和黄鹤楼两组,然后从无歧义地名中选出两个地名作为起止点,为了使方法更具普遍性,选择的是无歧义地名数组中第一个和最后一个地名,这里也就是武汉大学和黄鹤楼这两个地名作为起止点。并将起止点武汉大学和黄鹤楼这两个地名通过地址解析转换成经纬度。

步骤3:得到歧义地名数组。不同于定量地理参照系统,地名通常只在一定的地理范围内具有唯一性,因此通过百度的LocalSearch方法得到歧义地名数组,本次示例中得到歧义地名“海底捞”在武汉市的数量为19。为了更直观地看到消歧过程,将歧义地名组和无歧义地名在地图上进行显示,如图3。

步骤4:确定时间和最大速度。起止点武汉大学和黄鹤楼这两个地名对应的时间九点和下午两点记为起始时间和终点时间,之后根据起始时间和终点时间以及两地之间的距离来估计游记中旅客的最大速度的下界;并在此基础上结合旅客的交通方式确定最大可能的移动速度。

步骤5:消歧。整个消歧过程分为三部分,具体消歧过程如下:

第一步,利用PPA进行消歧。如公式(1)所示,代入歧义地名“海底捞”的每个经纬度进行计算。地理椭圆由栅格单元构成,每个单元到两个焦点的距离不超过椭圆的长轴。这里,两个焦点为被选择的两个确定地名(即起止点),长轴是起止点之间的时间间隔乘以最大速度。如图4所示,歧义地名位于PPA外的位置点可以消除,歧义地名位于PPA内的位置点还需要进一步确认。

第二步,利用确定时刻的可达域进行消歧。根据游记能够提取出个体出现在歧义地名的时刻t,然后计算时刻t的可达域。具体操作就是计算公式(6)和(7)得到两个圆,其交集就是可达域。结果如图5所示,歧义地名位于可达域外的位置点可以消除,歧义地名位于可达域内的三个位置点还需要进一步确认。其中,图5所示的可达域内有四个点,其中有一个点是确定的止点(即黄鹤楼),剩余的三个点是歧义点。

第三步,因为前两种方法还是无法确定歧义点的位置,所以最后要利用概率时间地理学进行消歧。利用公式(8)计算剩下的三个地点的概率,分别为0.157,0.683和0.160,概率大的则更可能为歧义点所代表的地点。

排序后将概率最大的点做为建议结果输出,并且结果点的覆盖物为红色图标,如图6。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:医疗文本数据的处理方法、装置、计算机设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!