基于空间分析的GIS文本生成模型构建 – NLPIR自然语言处理与信息检索共享平台

自然语言处理与信息检索共享平台 自然语言处理与信息检索共享平台

基于空间分析的GIS文本生成模型构建

成悦 张华平 于敏 商建云

北京理工大学计算机学院

1 研究概述

当今社会的生产劳动对气象预报产品的准确性和时效性需求迅速增长,气象站点每日观测到的降水、温度、风力、雾霾等数据,对于农林牧渔业、航空航天、灾害预防、环境治理等领域都有相当重要的参考意义。气象数据具有极强的地域特征,空间分析技术对于气象数据的分析以及预报文本的生成有指导性意义。

本研究将构造一个包含所有气象类型的模板数据库,通过对比实际气象预报文本需求选择合适的句子模板构成气象公报的前期框架,其中包含空间变量和气象变量。通过QGIS技术对原始气象数据进行空间计算生成储存中间结果的SHP文件,并制定一套规则将SHP文件中的气象信息转化成具体的天气情况、地理区域的文字描述,再将文字描述填入第四章生成的模板中,一份完整的气象文本就诞生了,本章主要介绍基于空间分析的气象数据模型构建。

QGIS技术结合地理空间认知、信息抽取、统计学等方法,可以对多元气象信息的空间分布进行计算[29-30]。如何对气象情况发生所在的地理区域进行合理划分,并在地理空间识别以及空间特征描述的基础上,建立气象信息的空间特征推理与分析使对于某一气象现象的地理区域描述不至于过大也不会有遗漏是空间分析技术在本文中需要解决的重要问题。例如,在气象云图上某一天气存在不同的量级的无规则分布,怎样通过空间推理技术获取该天气准确合理的地理区域描述。

本章将详细介绍具体的空间分析方法。

2 原始气象数据的空间计算

气象数据中包含了地理方位、气象代码、距离、方向、等级等多个特征,从这些特征中综合提取出气象空间特征[31]。空间特征的提取还需要充分考虑气象数据的不同气象要素(降水、温度、风力、湿度等)、不同表现形式(单站点数据如观测点数据、格点数据如降水数值),对于特定类型的气象数据在空间特征提取的方法上也存在差异(如观测站点需要先进行插值处理形成空间分布场然后再表达,或者直接提取单站点极值来表达)[32]

2.1 气象数据配置文件

中国气象局目前所有的原始气象数据主要为14类Micaps数据,包括降水、气温、台风、雾霾等各类天气要素的气象信息。主要通过气象代码区分各气象类型,不同的气象代码代表了不同的天气类型和天气等级,所以在原始数据解析之前首先需要依据气象局提供的数据说明来配置相关文件,本模型中配置文件为XML形式。

具体配置内容如图1所示:

图1 原始气象数据配置文件截图

如图,<SYMBOL code>表示天气代码,<WEATHER_TYPE>表示天气类型,<WEATHER_NAME>表示天气级别,即具体天气,<SYMBOL code=”250″>中的250即为雨雪天气类型,级别为特大暴雨。

2.2 基于QGIS的空间计算

配置文件完成以后,就可以对原始数据进行初步的读取处理。上述原始气象数据分为点、线、面、栅格四类,根据数据类型的不同调用不同的GDAL库接口从而创建不同格式的文件;点、线、面数据对应生成SHP格式文件,栅格数据生成TIF格式文件[33]。以Micaps7数据为例,它区别于其余13种数据,既不与其他数据一起说明同一种天气,也不通过改变天气代码来参与几种天气的说明,它单独决定台风情况。图2为Micaps7数据的数据说明,图3为处理后得到的SHP文件,图4为添加数据之后生成的SHP文件属性表,可以看到属性表中含有台风的时间、位置、速度等属性。

图2 Micaps7数据说明

图3 Micaps7数据的SHP文件

图4 Micaps7数据属性表

由于无论何种数据最后都需要输出叠加之后的面SHP文件,这之前需要对点、线、面数据生成的SHP文件,栅格数据形成的TIF文件进行不同的处理[34]。具体的每种数据处理流程如图3.5所示。可以看到在进行空间叠加之前,点数据会生成点SHP文件,经过插值处理生成TIF栅格数据,再进一步生成面SHP文件;线数据也会生成点SHP文件;面数据直接生成面SHP文件;栅格数据会转换成TIF栅格文件再进一步生成面SHP文件。

图5 各类型数据处理流程图

 原始气象数据经过上述步骤的可视化处理,最终生成的SHP文件中包含气象类型的分布图以及对应的属性,为下一步的同中国地图叠加获取相应天气要素的地理区域分布做准备。

接下来将气象类型的SHP文件与中国行政区划的SHP文件进行叠加分析,将两个图层不重合的部分裁减,留下重叠部分,并计算重叠部分的图形面积[35-37]。最终我们将获得地理名称-气象类型-气象等级-区域范围的对应关系表。

3 原始气象数据的空间推理

位置特征是空间特征提取的重要组成部分,为了提取有效的位置特征,在进行气象数据空间特征提取时需要建立面向气象预报文本的地理区划,主要面对的问题是如何建立精确且合理的地理区划(如某一灾害天气地理位置,是通过如东北地区即区域级还是通过几个省份一起来描述),地理区域的划分将直接影响生成的气象预报文本的流畅性与可阅读性[38]。另外,空间区域的预报顺序等规则也需要建立[39]

3.1 地理区域的划分

本课题对2013-2015年间两千多份各类气象预报文本做了信息提取,同时也抽取了其中的常用地理描述词组。综合数据分析发现,气象预报文本中出现的地理名词描述形式固定,数量非常有限。本课题对近两年出现的地理名词进行统计,针对不同范围的天气情况描述,生成了四级地理区划名词,如表1所示。

表1  气象地理名词归总表

如上表所示,一级气象地理区划共将中国地理版图划分成为了11个大的地区,二级气象地理区划是在一级地理区划上进行的方位划分,三级气象地理区划是我国的省级行政区划,四级气象地理区划是三级气象地理区划在方位上的再划分,一二级地理区划的关系同三四级地理区划的关系是一样的。可以发现四级气象地理区划之间存在包含关系,具体如下。 就是说,二级区划与三级区划都直接包含于一级区划,又相互独立分别构成了一级区划,三级区划直接包含四级区划。四级区划具体如图6、图7、图8、图9所示:

图6 一级地理区划
图7 二级地理区划
图8 三级地理区划
图9 四级地理区划

虽然四级气象地理区划可以准确地表述出天气要素的地理区域,但是并不完全符合气象预报员多年来形成的预报习惯,对气象预报文本中出现的地理名词统计发现,除了四级地理区划名词之外,还出现了使用地名、河流、高原、山脉等地理变量名词来描述天气的情况,如青藏高原。因此,要建立合理的气象地理区划,还需要通过气象要素的空间推理技术结合对气象预报文本中地名的命名实体识别来对四级标准区划进行合理的调整,使其更符合气象预报员的预报习惯[40-41]。除此之外,还有中国海域部分,主要包括渤海海域、黄海海域、东海海域、台湾海峡、南海海域、北部湾海域。海域部分不再分二级区域。

3.2 地理区划预报顺序规则

传统的气象预报文本生成都是依靠气象预报员去解读大量的气象观测数据然后依据过去的气象资料来生成,很大程度上要依靠气象预报员的经验,这样也造成了不同的气象预报员撰写的气象预报也会有所差别。通过对之前的气象服务文本进行分析并对中国气象局专家进行调研发现预报文本的顺序存在一定的规则[42]

(1)例如天气要素为降水时,描述其所在的全国范围内地理区域时的大体顺序为先从西向东进行预报,再由北向南预报,此规则同样适用于别的天气要素,但是不一定会严格遵守。

根据之前表中列出的一级地理区划名称和上述规则,可以得到一级气象地理区划的预报顺序如图10所示。

西北地区常年气候干燥,很少会有降水的情况出现,因此在气象预报中针对此区域的降水天气预报都是从二级地理区划甚至是省份开始的。三级气象地理区划的预报顺序也遵守以上规则,如图11所示。

图10 一级地理区划预报顺序

4 航空飞行数据的空间推理

4.1 模拟数据生成

具体格式参照:

图11 生成数据

按照生成要求,国家设为中国,日本,韩国三个国家。每个国家的城市分别设置,中国为北京,上海,天津。日本为东京,大阪。韩国为首尔,仁川。航班名称设有空客和波音等,每日捕捉的数据记录当时的信息,如时间,经纬度和飞行方向等,生成数据片段如图12 所示。

4.2 文书的空间推理分析

目前,许多学者提出了不同的空间分析推理方法,但这些地理空间推理的方法大多基于代数以及逻辑。如何为地理空间信息推理添加语义支持,如何确定地理空间信息的规范表达和推理规则的正确推导方法,是研究迫切需要解决的问题。

观测的实时数据与地理空间信息密不可分,这种数据包括与地理空间分布有关的所有要素,具有很大的灵活性、伸缩性。地理空间信息根据规划属性可以简单的划分为行政区、商业区、居住地、耕地、工业的平面结构,也可以依照生态环境广义地划分成人群、资源、生态等信息,更能详细的、分类别的讨论河流、公路、山脉等的具体情况。因而在进行空间分析推理时,需要确定范围,明确目标,以及领域涵盖的内容,甚至要涉及层次内容等级、领域范围等。

本文需要从多方面指标(方向、位置、距离、尺度)等多方面指标来提取气象空间信息的特征。GIS的空间分析方法有:空间缓冲、空间插值、分类分析、聚类分析等,例如可以直接把观测站的数据进行插值形成地理位置的空间分布场,或者取出单站峰值来表达不同地理要素。而在提取更有效、准确的空间位置特征时,需要建立更完善的地理区划方法。结合不同类型的文本特征,在建立区划时,要考虑以下问题:(1)如何保证落区的范围描述的合理、精确性,即使用类似东北地区级还是黑龙江省级的问题;(2)行政区域、地质区域、经济区域、交通区域的结合问题。本文将进一步分析,在实际的实验中,解决上述问题。

QGIS(原称Quantum GIS)是一个自由软件的桌面GIS软件。它提供数据的显示、编辑和分析功能。QGIS是一个用户界面友好的桌面地理信息系统,可运行在Linux、Unix、MacOSX和Windows等平台之上。QGIS是基于Qt,使用C++开发的一个用户界面友好、跨平台的开源版桌面地理信息系统。QGIS项目开始于2002年5月,是基于跨平台的图形工具Qt软件包,采用C++语言开发的一个GIS软件。QGIS源码采用GNU (General Public License)协议对外发布。

QGIS软件的主要特点有:1.支持多种GIS数据文件格式。通过GDAL/OGR扩展可以支持多达几十种数据格式.2.支持Post GIS数据库。3.支持从WMS,WFS服务器中获取数据4.集成了Grass的部分功能。5.支持对GIS数据的基本操作,如属性的编辑修改等。6.支持创建地图。7.通过插件的形式支持功能的扩展。

得到每日的数据之后,通过每架飞机的经纬度来推理出起飞于何地降落于何地等信息,并绘出如图12所示的航线图。

图12 航线图

QGIS(原称Quantum GIS)是一个自由软件的桌面GIS软件。它提供数据的显示、编辑和分析功能。QGIS是一个用户界面友好的桌面地理信息系统,可运行在Linux、Unix、MacOSX和Windows等平台之上。QGIS是基于Qt,使用C++开发的一个用户界面友好、跨平台的开源版桌面地理信息系统。QGIS项目开始于2002年5月,是基于跨平台的图形工具Qt软件包,采用C++语言开发的一个GIS软件。QGIS源码采用GNU (General Public License)协议对外发布。

QGIS软件的主要特点有:1.支持多种GIS数据文件格式。通过GDAL/OGR扩展可以支持多达几十种数据格式.2.支持Post GIS数据库。3.支持从WMS,WFS服务器中获取数据4.集成了Grass的部分功能。5.支持对GIS数据的基本操作,如属性的编辑修改等。6.支持创建地图。7.通过插件的形式支持功能的扩展。

得到每日的数据之后,通过每架飞机的经纬度来推理出起飞于何地降落于何地等信息,并绘出如图12所示的航线图。

(3)生成部分

短语结构模板中包含了要素变量以及固定的搭配语句。例如模板句“{地理要素}”。

本文统计总结了文本中的短语模版以及各类变量的信息,每一个{}之中包含一个信息变量。下图中所示的信息变量有{方向}、{地点}、{飞机名称}等。

每日报告格式如下:

2020-1-1  有来自{美国}的航班{两}架次,分别为{波音747,波音737},其中{波音747}从{洛杉矶}起飞,降落于{北京},{波音737}从{华盛顿}起飞,降落于{上海}。有来自{中国}的航班{三}架次,分别为{波音747,C919,空客A320},其中{波音747}从{上海}起飞,降落于{北京},{C919}从{北京}起飞,降落于{洛杉矶},{空客A320}从{深圳}起飞,降落于{北京}。

You May Also Like

About the Author: nlpir

发表评论