宋关福:大数据时代的GIS软件技术发展

2018-03-06 08:51:57    来源:《测绘地理信息》2018年2月

摘要:本文提出了大数据GIS技术体系,包括空间大数据技术、传统GIS 的分布式重构以及大数据GIS支撑技术。

  2.3.4 大数据空间可视化

  大数据空间分析与大数据空间可视化密不可分。大数据空间分析算法和大数据空间可视化技术的对应关系如图11所示,即对于每种空间分析结果,采用哪种或哪几种可视化技术能实现更有效的表达。

  同一种可视化效果可以有不同的表达方式。以连线图为例,它可以表达为二维的(图5),也可以表达为动态的或三维的,还可以采用不同的颜色表达。图12(a)是用于表达车流的三维动态图;图12(b)是换颜色放大后的显示,能看到车流在楼宇之间流动。

  全球航运实时流数据分析

  图10 全球航运实时流数据分析

  大数据空间分析与可视化效果对应关系的效果

  图11 大数据空间分析与可视化效果对应关系的效果

  车流的动态三维图

  图12 车流的动态三维图

  此外,大数据时代还需要实现高性能的动态目标可视化。例如,要监控中国空中的飞机,用户需要支持同屏展示数千架飞机的实时位置和状态。二维动态目标可视化已经可以实现几十万数量级动态目标,如50万架飞机的实时展示;三维动态目标可视化也可以实现对诸如全球5万艘货轮等目标的动态位置的可视化(见图13)。

  动态目标实时监控(航运)

  图13 动态目标实时监控(航运)

  3 大数据GIS基础软件

  大数据GIS基础软件的架构见图14。以SuperMapGIS9D(2018)为例,最基层是空间大数据的分布式存储技术;第二层是基于Spark分布式计算框架封装的大数据GIS组件,在SuperMapiOb-jects组件中扩展了针对空间大数据的数据管理、空间分析和流数据处理等组件;第三层是服务器GIS软件中基于组件层封装的大数据目录服务、分布式空间分析服务和流数据服务;云和大数据的管理器用于调用和管理这些计算与服务。最顶层是各种GIS端,包括桌面端、浏览器端和移动端等,封装了大数据目录、空间分析、空间可视化和大数据图表等功能,调用服务器GIS实现相应的功能。

  大数据GIS软件结构

  图14 大数据GIS软件结构

  在大数据GIS体系中,各软件之间的关系如图15所示。在云计算资源基础上,运行Spark大数据间分析和流数据处理等组件;第三层是服务器GIS软件中基于组件层封装的大数据目录服务、分布式空间分析服务和流数据服务;云和大数据的管理器用于调用和管理这些计算与服务。最顶层是各种GIS端,包括桌面端、浏览器端和移动端等,封装了大数据目录、空间分析、空间可视化和大数据图表等功能,调用服务器GIS实现相应的功能。

  在大数据GIS体系中,各软件之间的关系如图15所示。在云计算资源基础上,运行Spark大数据处理框架,SuperMapiObjects组件式GIS则嵌入该框架内部运行,实现对数据的索引、查询、处理和分析。作为云GIS 应用服务器的SuperMapiServer则调用组件实现大数据相关功能,并封装成WebService供各种端调用。SuperMapiManager则实现对云的调度和对大数据组件运行的管理。

  大数据GIS系列软件之间的关系

  图15 大数据GIS系列软件之间的关系

  GIS组件嵌入到Spark 中运行有两方面的意义[14]。一是便于经典GIS功能的分布式重构,因为这些被重构的空间分析和空间数据处理需要在Spark 框架下运行。如果GIS 组件无法支持Linux,也就无法直接高性能运行于Spark框架。二是便于二次开发扩展大数据分析模型,虽然GIS基础软件已经提供了一些通用的分析模型,但大数据种类繁多,应用目的不同,需要针对不同的数据类型和应用目的进行扩展开发。

  4 大数据GIS技术应用分析

  大数据GIS 技术的战略意义不在于拥有多少大数据,而在于拥有大数据挖掘和加工的能力。若拥有大数据GIS技术,那么即便没有大数据,也可以将别人的大数据拿来创造价值。以通信运营商为例,因为其服务器记录了每个手机的实时位置,严重涉及到用户隐私,所以这类大数据一般是无法对外共享的。但是如果将分析挖掘这些数据的软件系统部署到运营商的内网运行,分析挖掘的结果(通常是分布图)就不再包含用户隐私信息,就可以通过网络发布出来使用。这就解决了GIS领域经常遇到本单位没有大数据,外单位的大数据又不能直接使用的问题。

  当前,在建设智慧城市时空信息云与大数据平台时,不仅要将城市基础地理信息发布给各个部门使用,还应该聚合和发布一些单位的大数据挖掘分析结果数据给大家使用。对于有些单位,包括自来水公司、燃气公司、公交公司、出租车公司等,一般可以与之协调,通过将城市基础地理信息发布给它们使用,来交换其大数据传到平台的服务器上进行挖掘分析,最终将结果数据叠加到平台上使用。对于另外一些单位,包括通讯运营商、电网企业和一些大型互联网企业在内,由于其大数据涉及隐私等问题,一般很难从它们的内网拿出来直接使用。这时可以把挖掘这些大数据的系统部署到这些单位的内网运行,只将结果传输出来,集成到时空信息云平台使用即可。

  在城市总体规划编修中,也对大数据提出了新的需求[15]。其中,城市公共空间识别需要导航地图、POI(pointofinterest)、大众点评数据、浮动车位置数据来实现,城市空间边界划定与利用要用到手机信令数据,城市体系关联度分析需要微博和手机信令数据,城市人口动态模拟依靠出租车位置数据、公交IC 卡数据、手机信令数据,城市交通运行监控检测依靠浮动车、电子车牌、车联网数据等。这些研究都需要大数据GIS的支撑。

  当然,在进行大数据挖掘分析之前,还需要有一个数据清洗的环节,即将原始数据中可能存在的冗余数据、范围错误数据、坐标位置错误和缺失数据清洗后才能存储,再用于进一步的精加工或挖掘分析。不同数据源的清洗方法和算法不同,这里不再赘述。

  5 结束语

  本文提出了大数据GIS技术体系,包括空间大数据技术、传统GIS 的分布式重构以及大数据GIS支撑技术。研究大数据GIS 技术、研发大数据GIS基础软件至少具有两个方面的意义。一是降低挖掘大数据的技术门槛。能够挖掘空间大数据的单位目前多局限于少数企业和研究机构,如百度、高德、腾讯和其他一些研发实力很强的科研机构,更多单位还无法参与,因此需要研究这样的工具软件,将与空间大数据相关的通用算法和功能都封装出来,让更多单位可以参与大数据的价值挖掘。二是降低空间大数据挖掘的成本。在数据体量和价值密度乘积不变的情况下,成本越低,价值越大。大数据GIS基础软件可以让人们不用从IT大数据的基础层开始做大量二次开发,避免底层重复劳动,降低挖掘成本。

  随着人工智能的升温,业界对空间大数据的热情正在消减,这反而是介入空间大数据和大数据GIS技术发展与应用的最佳时机。大数据GIS技术还会进一步发展与完善,相关应用也会越来越多,推动地理智慧更大的提升。

    参考文献:略

声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。