一种基于自然语言处理的新闻坐标匹配方法

文档序号：190630 发布日期：2021-11-02 浏览：43次 >En<

阅读说明：本技术 一种基于自然语言处理的新闻坐标匹配方法 (News coordinate matching method based on natural language processing ) 是由许衍杨鹏范宏城吴欣羽刘磊于 2021-02-02 设计创作，主要内容包括：本发明公开了一种基于自然语言处理的新闻坐标匹配方法,先建立地址坐标数据库、新闻单位数据库和特征词数据库；获取新闻数据,对新闻文本进行分词,建立候选事件地点数组；根据附近的所有特征词在特征词数据库中的频率之和,对候选事件地点数组中的每一项进行特征词匹配,得到候选事件地点频率数组；根据数组中每一项在文章中的位置,进行加权匹配,得到候选事件地点加权频率数组,取值最高的一项作为事件的实际发生地点(即最终点)；从地址坐标数据库中对最终点进行地名匹配,筛选出所有可能是最终点的POI点组成候选地址数组；最后处理匹配到新闻坐标。本发明能够识别新闻发生的主要地点,并将新闻中的事件地点准确地展示在地图上。(The invention discloses a news coordinate matching method based on natural language processing, which comprises the steps of firstly establishing an address coordinate database, a news unit database and a feature word database; acquiring news data, segmenting a news text, and establishing a candidate event place array; performing feature word matching on each item in the candidate event place frequency array according to the sum of the frequencies of all nearby feature words in the feature word database to obtain a candidate event place frequency array; carrying out weighted matching according to the position of each item in the array in the article to obtain a candidate event site weighted frequency array, and taking the item with the highest value as the actual occurrence site (namely the final point) of the event; performing place name matching on the final point from an address coordinate database, and screening all POI points which are possible to be the final point to form a candidate address array; and finally processing and matching to the news coordinates. The method and the system can identify the main place where the news occurs and accurately display the event place in the news on the map.)

一种基于自然语言处理的新闻坐标匹配方法

技术领域

本发明涉及一种基于自然语言处理的新闻坐标匹配方法，属于数据挖掘和处理技术领域。

背景技术

新闻作为一种以叙事为主的文体，它的基本要素就是：人物、时间、地点、事件、原因、发生过程。一篇新闻报道，无论是消息，还是通讯、特写，一般都包含这些因素。也就是说，新闻一般都是有地点的，少数没有地点可言的新闻不属于本文讨论范围。

于2015年6月24日公开、公开号为CN104731768的中国专利提供了一种面向中文新闻文本的事件地点抽取方法，该方法从新闻文本中抽取上下文特征、位置特征和拓扑特征三个特征构成特征向量，利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点；能够在地名识别的基础上，进一步识别出新闻事件发生的地点，但是该方法只能识别文本中的事件地点，还不能让新闻在地图上展示。所以，需要把该方法识别出的事件地点转化为经纬度坐标才能展示在地图上。

目前，传统的方法是通过高德或百度地图的地理编码API来实现地址转化为经纬度坐标，可是现有这些API返回的都只有一个坐标，如果位置信息不完整的话，多个地区存在同名地点，就很可能会得到错误的坐标。专利名称《一种基于地理特征层次分词的新闻事件地名地址匹配方法》公开号CN105404686 提供了一种能实现网络在线环境新闻事件文本快速抓取、新闻文本中文分词及地名地址匹配的基于地理特征层次分词的新闻事件地名地址匹配方法，但是其同样无法处理多个地区存在同名地点的情况。

因此，急需一种能够将新闻中的事件地点准确地展示在地图上的坐标匹配方法。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于自然语言处理的新闻坐标匹配方法，能够识别新闻发生的主要地点，并将新闻中的事件地点展示在地图上；且当新闻中的事件地点存在多个同名地点时，也能够判断事件的正确地点。

为了实现上述目的，本发明采用如下技术方案：一种基于自然语言处理的新闻坐标匹配方法，包括如下步骤：

步骤一、通过软件工具从高德地图上爬取POI点的数据以及省市区街道的数据建立地址坐标数据库；通过软件工具从百度地图及百度百科分别获取各个新闻单位的名称以及其服务范围建立新闻单位数据库；通过人工训练的方式，从10000条新闻中人为的标注出事件发生的地点，同时记录下事件发生的地点附近的特征词，并以不同特征词出现的频率建立特征词数据库；

步骤二、使用软件工具从各大网站获取新闻数据，这些数据包括新闻文章内容，新闻标题，新闻单位；

步骤三、利用ICTCLAS中文分词工具对中文新闻文本进行分词，从中识别出能够表示地点的词汇组成候选事件地点数组；

步骤四、根据附近的所有特征词在特征词数据库中的频率之和，对候选事件地点数组中的每一项进行特征词匹配，得到候选事件地点频率数组；

步骤五、根据数组中每一项在文章中的位置，进行加权匹配，出现在标题的项*i，出现在文章中的项*j，依照位置先后顺序递减h，得到候选事件地点加权频率数组；其中，i的取值范围为[0.5，1)，j的取值范围为[0.3，i)，h的取值范围为[0.001，0.03]；

步骤六、取候选事件地点加权频率数组中值最高的一项作为事件的实际发生地点，将实际发生地点记作最终点；

步骤七、从地址坐标数据库中对最终点进行地名匹配，筛选出所有可能是最终点的POI点组成候选地址数组；

步骤八、依次从候选事件地点数组中选取与最终点所处位置最近的候选事件地点，记距离间隔符号数为m，记距离段落数为n，遍历POI点数组，计算每个POI点离选取的候选事件地点最近的距离k，将(n+1)*(m+1)*k的值计入每个POI点的权值，得每个POI点的权值之和数组，则该数组中数值最小的点的坐标即是匹配到的新闻坐标。

优选地，所述步骤一中的数据包括每个POI点的名称、坐标以及其所处的省市区街道名称。

优选地，所述步骤一中的新闻单位包括报社，通讯社，广播电台，电视台，新闻杂志社，新闻纪录电影制片厂，以及新闻图片社。

优选地，所述步骤一中的特征词包括动词、副词、形容词、标点符号中的一种或多种。

优选地，所述步骤三中能够表示地点的词汇组包括地名，音译地名，机构团体名，处所词。

优选地，所述步骤三中的i为0.9，j为0.5，h为0.01。

与现有的技术相比，本发明先建立地址坐标数据库、新闻单位数据库和特征词数据库；获取新闻数据，对新闻文本进行分词，建立候选事件地点数组；根据附近的所有特征词在特征词数据库中的频率之和，对候选事件地点数组中的每一项进行特征词匹配，得到候选事件地点频率数组；根据数组中每一项在文章中的位置，进行加权匹配，得到候选事件地点加权频率数组，取值最高的一项作为事件的实际发生地点(即最终点)；从地址坐标数据库中对最终点进行地名匹配，筛选出所有可能是最终点的POI点组成候选地址数组；最后，依次从候选事件地点数组中选取与最终点所处位置最近的候选事件地点，记距离间隔符号数为m，记距离段落数为n，遍历POI点数组，计算每个POI点离选取的候选事件地点最近的距离k，将(n+1)*(m+1)*k的值计入每个POI点的权值，得每个POI点的权值之和数组，则该数组中数值最小的点的坐标即是匹配到的新闻坐标。最终，能够识别新闻发生的主要地点，并将新闻中的事件地点展示在地图上；且当新闻中的事件地点存在多个同名地点时，也能够判断事件的正确地点。

具体实施方式

下面结合实施例对本发明实施中的技术方案进行清楚，完整的描述，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种基于自然语言处理的新闻坐标匹配方法，包括如下步骤：

步骤一、通过软件工具从高德地图上爬取POI点的数据以及省市区街道的数据建立地址坐标数据库，所述数据包括每个POI点的名称、坐标以及其所处的省市区街道名称；通过软件工具从百度地图及百度百科分别获取各个新闻单位的名称以及其服务范围建立新闻单位数据库，所述新闻单位包括报社，通讯社，广播电台，电视台，新闻杂志社，新闻纪录电影制片厂，以及新闻图片社等；通过人工训练的方式，从10000条新闻中人为的标注出事件发生的地点，同时记录下事件发生的地点附近的特征词，并以不同特征词出现的频率建立特征词数据库；所述特征词包括动词、副词、形容词、标点符号中的一种或多种；

步骤二、使用软件工具从各大网站获取新闻数据，这些数据包括新闻文章内容，新闻标题，新闻单位；

步骤三、利用ICTCLAS中文分词工具对中文新闻文本进行分词，从中识别出地名，音译地名，机构团体名，处所词，其他专名等可以表示地点的词汇组成候选事件地点数组；

步骤四、根据附近的所有特征词在特征词数据库中的频率之和，对候选事件地点数组中的每一项进行特征词匹配，得到候选事件地点频率数组；

步骤六、取候选事件地点加权频率数组中值最高的一项作为事件的实际发生地点，将实际发生地点记作最终点；

步骤七、从地址坐标数据库中对最终点进行地名匹配，筛选出所有可能是最终点的POI点组成候选地址数组；

实施例：

步骤一、省略；

步骤二、使用软件工具获取新闻，通过新闻链接获取数据，例如可获取数据如下：

新闻标题：A地打造高质量发展超越先行区

新闻单位：A网站

新闻内容：

A地在某会议室举行了一场会议开幕。

近五年内取得的成绩显著

第一年，A地一次次在省内领跑，并获得多项称誉……

5年来，A地的综合实力大跨越，A指标跃居全省第二位；B指标位居全省第一。

创新动能大迸发，重点领域综合改革全方位开展，累计推进10大领域150 项624小项改革工作，承接了12项一级项目、19项二级项目。市场主体突破 13万户。国家高新技术企业从156家增加至597家。

宜居环境大升级，累计实施A项改造55片152万平方米、B项改造265 个，改造提升7个C项目。

2021年至2025年规划令人振奋

开局之年，A地高起点、高站位谋划创新之举，着力打造全省领先的高质量发展超越先行区：A示范区、B样板区。计划5年后，率先实现多领域再迈上一个大台阶。

要聚焦首发，建成2个百亿品牌标杆。打造H核心中心，大力发展A区域、B区域、C区域。

要聚焦首创，培育多个领头企业。精准引进一批高层次、高技能人才。

要聚焦首位，巩固扩大原有优势，奋力打造A核心区、B核心区、C核心区等更多的核心区域。

步骤三、利用分词工具对以上数据进行分词，标题分词结果为{A地，先行区}，新闻文本分词结果为{A地在某会议室}，{A地，各项称誉}，{A地}， {A社区}，{A地，先行区，A示范区，B样板区}，{H核心中心，A区域， B区域，C区域}，{A核心区，B核心区，C核心区}；

从中识别出可以表示地点的词汇为[A地，A地在某会议室，A地，A地， A社区，A地，A示范区，H核心中心，A区域，B区域]，即为候选事件地点数组；

步骤四、根据附近的所有特征词在特征词数据库中的频率之和，对每一项进行特征词匹配；

第一项“A地”附近的特征词为“打造”，在特征词数据库中的频率为0.01；

第二项“A地在某会议室”附近的特征词为“在”、“开幕”，在特征词数据库中的频率为0.3、0.01；

第三项“A地”附近的特征词为“，”、“在”，在特征词数据库中的频率为0.2、0.3；

第四项“A地”附近的特征词为“，”、“的”，在特征词数据库中的频率为0.2、0.2；

第五项“A社区”附近的特征词为“，”、““”，在特征词数据库中的频率为0.2、0.03；

第六项“A地”附近的特征词为“，”、“谋划”，在特征词数据库中的频率为0.2、0.01；

第七项“A示范区”附近的特征词为“的”、“。”，在特征词数据库中的频率为0.2、0.05；

第八项““H核心中心”附近的特征词为“打造”、“，”，在特征词数据库中的频率为0.01、0.2；

第九项“A区域”附近的特征词为“发展”、“、”，在特征词数据库中的频率为0.01、0.05；

第十项“B区域”附近的特征词为“发展”、“、”，在特征词数据库中的频率为0.01、0.05；

步骤五、设i＝0.99，j＝0.5，h＝0.01，对每一项进行加权匹配；

第一项为0.01*0.99＝0.0099；

第二项为(0.3+0.01)*0.5＝0.155；

第三项为(0.2+0.3)*0.49＝0.245；

第四项为(0.2+0.2)*0.48＝0.192；

第五项为(0.2+0.03)*0.47＝0.1081；

第六项为(0.2+0.01)*0.46＝0.0966；

第七项为(0.2+0.05)*0.45＝0.1125；

第八项为(0.01+0.2)*0.44＝0.0924；

第九项为(0.01+0.05)*0.43＝0.0258；

第十项为(0.01+0.05)*0.42＝0.0252；

合并其中地点相同的项，即[{A地:0.5435}，{A地在某会议室:0.155}，{A 社区:0.1081}，{A示范区:0.1125}，{H核心中心:0.0924}，{A区域:0.0258}， {B区域:0.0252}]为加权频率数组；

步骤六、取该数组中数值最高的一项，即{A地:0.5435}中的“A地”为事件发生的实际地点，下面记为最终点；

步骤七、从地址坐标数据库中对最终点进行地名匹配，得候选地址数组[a 地的A地，b地的A地，c地的A地，d地的A地，e地的A地]；

步骤八、依次从候选事件地点数组中选取与最终点所处位置最近的候选事件地点，例取“A社区”，此时距离最终点最近的符号数m＝37，段落数n＝2，

计算候选地址数组中每一项离“A社区”最近的距离，得{a地的A 地:898.6}，{b地的A地:1324.4}，{c地的A地:1649.1}，{d地的A地:0.148}， {e地的A地:1185.8}；根据公式(n+1)*(m+1)*k可得候选地址数组中每一项的权值，即{a地的A地:102440.4}，{b地的A地:150981.6}，{c地的A 地:187997.4}，{d地的A地:16.872}，{e地的A地:135181.2}，依次取“A地在某会议室”、“A社区”、“A示范区”、“H核心中心”、“A区域”、“B区域”进行计算，

权值相加后(具体计算过程略)可得其中数值最小的是“d地的A地”，即为匹配到的新闻发生地点，该地点的坐标{lng:119.3,lat:26.08}即为匹配到的新闻坐标。

最终，通过各个步骤的配合，能够识别新闻发生的主要地点，并将新闻中的事件地点展示在地图上；且当新闻中的事件地点存在多个同名地点时，也能够判断事件的正确地点。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

7页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于图数据库的动态建模方法及系统

一种基于自然语言处理的新闻坐标匹配方法

相关技术

网友询问留言