新一代GIS基础软件的四大关键技术

2019-02-22 08:48:28    来源:《测绘地理信息》2019年第1期

摘要:本文从我国地理信息技术的发展历程出发,总结了当今GIS技术的发展情况。

  2.4 跨平台GIS技术

  互联网、移动互联网、物联网的发展,使全球数据出现爆发式增长。这些数据种类多、体量大、变化速度快、价值密度低[18],传统技术难以管理和分析。由于数据中绝大多数都带有或隐含空间位置信息,成为GIS新的数据来源,分析其空间模式和空间特征,挖掘其中的自然与人文社会变化规律,可使数据发挥更大的价值[36]。

  Apache Hadoop、Apache Spark为代表的IT技术在大数据的分布式存储、分布式计算、流处理方面取得了较大的研究进展,但缺乏针对位置特征的空间索引和空间分析能力[19]。而传统GIS不支持针对大数据的分布式的存储与计算。对大数据进行空间检索和空间分析,需要利用大数据IT 技术进行GIS并行计算框架的研发,也需要重新编写传统GIS算法使其适合分布式处理[37]。目前大多数研究都处于大数据GIS技术的探索阶段,也有部分研究利用大数据IT技术实现了结构化查询和单一的空间分析框架[38-40],但还没有任何研究实现结合IT大数据处理能力和GIS空间管理与分析能力的大数据GIS基础软件。构建大数据GIS基础软件,使其原生支持IT大数据计算体系和运行环境,降低大数据空间分析挖掘的技术门槛,是GIS与大数据IT技术深度结合的意义所在。

  大数据GIS技术是以云GIS技术、跨平台GIS技术和三维GIS技术为支撑(后者为大数据处理提供弹性的计算资源、跨平台的访问与应用能力和三维空间建模与分析能力),在GIS内核上与大数据IT技术融合,具备分布式存储与管理、流数据处理、分布式空间分析与可视化等基础核心能力[41]。其技术特点可分为以下几个部分。

  1)分布式存储与管理。传统关系数据库的集中存储方式对大数据逐渐失效。大规模分布式存储系统如集群式关系数据库Postgres-XL,分布式文件系统HDFS,非关系型数据库(Not Only SQL,No-SQL)MongoDB 和Elasticsearch等。这些存储技术被大数据GIS综合用于PB级矢量数据、文件型数据和百亿级瓦片等异构数据的存储,并在内核上扩展了大数据引擎,提供统一的管理接口。

  2)分布式计算与空间分析。在Spark弹性分布式数据集(resilient distributed datasets,RDD)模型上,扩展了适用于空间数据表达的分布式要素数据集(FeatureRDD),支持各种分布式系统中多源数据的接入。利用RDD基础接口从空间、时间、属性多个维度扩展或建立分布式的空间计算与空间分析模型,如属性汇总、要素连接、轨迹重建、热点分析、聚合分析、密度分析等,支持面向大数据的分析与挖掘。分析结果可以通过热力图、格网图、散点图、密度图、OD图等表达大数据空间分析对象的聚合程度、变化趋势和关联关系等,直观呈现数据隐藏的价值。

  3)流数据处理。在环境监测、车辆位置监控、流动人口行为分析等应用场景下,数据一般持续到达、规模庞大,且状态变化不可预测,要求处理技术具备增量计算、时间窗口、横向扩展且高容错性的处理能力。在Apache Storm,Apache Flink,Apache Spark Streaming等流数据处理框架上扩展对空间对象和空间算法的支持,是空间流数据处理的有效手段。如采用模型化的方式,在Spark Streaming上封装了空间流数据分析模型,如地理围栏、路况计算等,并提供可视化的建模工具进行模型实现。

  完整的空间大数据产品框架应该覆盖云和端上的所有产品,包括云上的GIS服务器,终端上的组件GIS、桌面GIS等,构成无处不在的大数据GIS应用(图4)。在空间大数据存储方面,综合关系数据库集群、文件系统、NoSQL数据库优势,实现多源异构数据的存储和管理。在组件GIS层,实现针对空间大数据处理的各种功能组件,诸如数据管理、空间分析和流数据处理等。在服务器GIS层,封装成相应的服务,不同的终端通过调用服务,实现大数据处理、分析与可视化。此外,大数据的处理与分析大都是多任务同时分布进行,需要管理调度软件保证容错性和处理的一致性。

新一代GIS基础软件的四大关键技术_地理信息系统_勘测联合网

图4 大数据GIS基础软件架构

  大数据GIS技术着重解决两类问题:一是解决新兴的空间大数据的管理和分析问题;二是解决经典空间数据的计算性能问题。前者是利用HDFS、MongoDB、Elasticsearch 等分布式存储技术和Spark等分布式计算框架,构建针对空间大数据的存储、索引、管理和分析能力,支持较少编程或不用编程就能够管理和分析空间大数据,降低大数据空间分析的难度。后者是利用大数据分布式存储和分布式计算框架,重构传统GIS的空间数据处理和空间分析算法,实现过去很难实现的传统空间数据处理与分析性能的数量级提升,解决了传统GIS长期面对的经典空间数据不断增长带来的性能瓶颈问题[41]。

  3 结束语

  新一代GIS技术的4个方向是在应用需求和IT技术这两大推动力的作用下产生的。其中,跨平台GIS技术为应用系统提供统一的数据结构、统一的分析算法、统一的可视化能力、统一的访问和开发接口和统一的用户操作方式,能在多种终端包括移动终端甚至专业设备上一致地运行大数据的处理和分析,还可以友好的接入上下游的大数据和大数据环境,支持面向虚拟现实/增强现实、人工智能等新IT技术的扩展。云GIS技术是在云计算技术的推动下,为解决数据密集和计算密集问题而不断发展。

  它改变了传统GIS的应用模式,使得过去以桌面GIS为主的应用,逐渐走向了以网络和移动为主的应用形式。三维GIS技术为充分融合倾斜摄影、BIM、激光点云等多源数据,发展了三维实体数据模型,实现了三维全空间的建模与表达,提供了基于WebGL技术的三维模型数据的互联网化,推动了Web三维应用的发展。大数据GIS技术是以分布式存储为基础,以数据驱动的分布式空间分析和流数据分析为关键内容,以多种终端上丰富的可视化表达手段,来揭示人类社会的发展规律与趋势。其典型特征是以流的方式提供持续的数据,进行持续地处理动态的应用。

  当下和未来一段时间,这4大技术方向将继续深度影响GIS软件升级与地理信息应用的发展。当然,GIS软件技术的发展,除了依靠地理信息产业体系内部的革新,更需要融入IT主流技术体系,不断产生新的技术方向。随着人工智能(artificial intelligence,AI)技术的发展,如卷积神经网络、自编码器、细胞自动向量机等的AI算法发展和精度的提高,TensorFlow等深度学习框架的开源,将推动GIS在智能化地理信息技术方面的研究进展[42-44],从而创新应用模式,智能化的服务于日益增长的空间信息需求。

  参考文献:

  声明:勘测联合网转载本文仅限行业学习交流之用,版权、著作权归原载平台及作者所有。


声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。