基于Web的地理可视化分析系统的研究与设计

2015-03-26 13:46:18    来源:中国地理信息产业协会

摘要:本文对基于Web的地理可视化分析系统的研究与设计做一些探讨,阐述该系统具有以下功能:互联网上海量数据集管理;时空数据的2D 3D可视化;气候研究中各种时空统计分析;交互式数据分析和知识发现。

1 引言

  近年来,科学家们为更好地了解大气-海洋-冰川环境、长期气候变化以及气候变化和人类社会的相互影响,共同协作开发了大量的气候模式,这些模式运行产生了大量的时空数据[1]。利用气候资料的各种分析已被纳入政府间气候变化专门委员会(IPCC)评估报告[2]。此外,气候变化问题日益显著,随着越来越多的开源气候研究的出现,公众开始以不同的方式参与气候研究。例如,通过climateprediction.net倡议,一些人捐助个人计算资源以运行气候模式[3,4]。

  气候模式产生的数据是在时间和空间上对气候环境的模拟值。一般来说,这些数据具有如下特征:

  (1)时空数据包括数百的气候变量以描述大气、海洋、低温层和地面的复杂组成[5]。

  (2)变量具有不同的空间维度,从一维到多维。

  (3)数据信息包括不同的尺度,从全球到区域。

  (4)气候模式产生的数据具有不同的时间分辨率,从逐日到逐年。气候分析通常基于基本时间单位的数据平均值[6]。

  (5)气候模式通常以不同的输入参数组合多次运行。

  由于气候资料的这些复杂特征,气候模式运行将产生海量(PB级)时空数据。图1所示,为NASA Goddard空间研究中心ModelE模式数据量。如此大量的数据通常保存在分布式存储媒体中。用户可以在互联网上访问数据,在网页环境中执行数据可视化和分析更加方便。因此,网页环境中可视化和分析大时空数据将成为气候研究者的一大挑战。


1.jpg

图 1 ModelE模式数据量

Figure 1 ModelE data volume


  传统的数值和统计方法常用来分析气候资料,分析结果作为数值资料。但是,面对大量的文本和数值资料的时空信息,传统的方法难以满足这些信息的可视化和分析[7]。在这种情况下,信息可视化产品如图形图像等可帮助研究人员更好地理解信息内容。在地理空间科学中,地理可视化(如地图)已被证明是迅速理解复杂地理空间资料的有效途径。地理可视化分析学集成空间分析方法和地理可视化能够更加有力的揭示地理空间资料的潜在特征[7,8]。鉴于此,可以使用地理可视化分析学分析气候资料。

  但是,在实际气候研究中使用地理可视化分析工具面临一些问题:(1)大量时空数据集的有效存储、管理及大量计算资源;(2)现有气候研究的统计方法和有效的地理可视化解决方案间的差距;(3)气候资料多元统计分析的交互操作;(4)互联网上交互式的地理可视化分析等。解决这些问题是科学与技术的双重挑战。本文中,阐述了基于Web的地理可视化分析系统在气候资料分析中的研究与设计的相关情况。利用基于Web的系统,用户可以通过网络交互式的可视化和分析气候资料。


2 相关工作

  现如今,已经发展了一些地理可视化分析工具处理气候资料。过去,气候资料的处理和分析都在独立的计算资源上使用科学计算包,如NumPy和PyClimate。除了这些开发已久的计算包,科学家们也开发了特定的统计分析脚本,例如使用R异常趋势分析来达到特定研究目的[9]。尽管分析计算包具有大量的专业分析函数,它们也有一些局限性:(1)计算包以各种语言如R、Python、FORTRAN和C等写成,研究人员需要花费大量的时间来转换计算包;(2)除了一些开发已久的计算包(如NumPy),由特定科学家设计的分析工具通常不共享,这种情形下导致类似分析功能函数的重复开发,是一种时间浪费。而且由没有经过专业科学训练的开发者开发的分析函数的精度不能保证;(3)缺少数据管理和数据处理的通用功能如网格调整、数据格式转换及元数据编辑等,利用这些计算包进行分析前需要进行数据预处理。此外,当软件包安装在独立的计算机上时,处理大量分布式资料需要花费时间转移资料到本地机器。这个过程需要大量的数据存储、网络带宽及足够的计算资源。

  为了克服独立应用的不足,分析计算包对数据处理、可视化和分析进行功能集成。例如,气候资料分析工具[10](Climate Data Analysis Tool,CDAT)是一套为气候研究而设计的处理大量资料的工具。CDAT具有以下功能:(1)管理和远程访问数据集;(2)数据处理如网格调整和格式转换;(3)高级统计和数值分析功能;(4)2D/3D数据可视化。作为地理可视化分析工具的组成部分,为用户提供图形接口以调用CDAT功能函数。如果没有接口,用户需要手动键入Python命令来控制分析过程。但是,尽管具有强大的数据处理和分析能力,CDAT并不能很好的解决上述关于在独立计算机上加载计算包的局限性,同时CDAT需要用户安装多个计算包。此外,这些专业工具还需要用户具有相关气候学知识及编程技能。Ultra Volume CDAT(UV CDAT)也面临同样的问题。

  随着Web 2.0的普及,在线系统可以对气候资料进行地理可视化分析。Sun开发的基于Web的可视化平台提供分布式气候资料的管理及三维绘图[11]。通过网页浏览器提供简单的绘制地图操作和统计绘图如时间序列线图。Open Statistics eXplorer-platform[12]是另一个基于Web的地理可视化分析系统,提供很好的数据绘图交互功能。系统能够在不同的地图和统计图表中动态的查询图表和链接。通过接口用户也可以自定义绘图符号。基于Web的系统可以部分的解决应用本地计算机集成所有数据处理的这种处理气候资料的不足。数据分析者不再需要转换数据并且开发地理可视化分析功能函数。但是,这两个系统对气候研究而言不具有数据处理和高级分析功能,其管理大量数据集和表现复杂的时空数据的能力也相对不足。

  总之,现有气候研究的地理可视化分析工具还有较大的改进空间。一方面,独立的系统需要本地计算机具有足够的计算资源应付大量数据集,专业训练的科学家们来引导控制复杂分析,大量的时间用于数据预处理和功能函数的二次开发。另一方面,基于Web的系统对于气候资料的时空分析不具有足够的分析能力。本文研究的基于Web的地理可视化分析系统可以克服现有系统的一些局限性[13]。


3 系统设计

  通常,基于Web的地理可视化分析系统包括前端客户端,应用服务和后端数据储存库。为了实现每一组成部分,第一步是明确地理可视化分析气候资料的功能需求。典型的统计分析包括气候资料的平均值、变量的相关性、时间序列的平稳性、预报质量、时空模式等,大部分分析只需要模式的模拟数据。除了平均计算,所有其他的分析都是基于某一时间段的平均值。因此,使用频率高的平均值需要提前计算并作为初始统计存储。数据分析可以分为简单分析和高级分析。简单分析可以通过直接比较数据进行,高级分析如相关性、距平等需要发送至服务器端以进行复杂计算。绘制图形可以作为最终结果的表现形式。

  因此,系统设计包括三个功能组成部分,如图2所示:(1)数据储存库存储模拟、观测和初始统计的数据或元数据;(2)应用服务进行数据处理和高级分析;(3)基于Web的客户端进行简单分析和利用交互工具显示结果。


2.jpg

图 2 系统体系结构

Figure 2 System architecture


3.1 数据储存库

  数据储存库包括数据源、数据源元数据和初始数据处理生成的初始统计数据。


3.1.1 模拟和观测数据

  数据源包括模式模拟数据和观测数据元数据。气候模式模拟数据通常以HDF、HDF-EOS、NetCDF等格式存储。本文以NetCDF为例。当在分布式计算节点的模拟结束时,输出上传至数据储存库服务器以便集中管理。输出的元数据输入记录基本信息如时空覆盖范围、变量、计算节点等被插入到数据库中。数据储存库只管理数据库中的观测数据元数据而不直接存储观测数据,数据分析者需要从原始观测数据提供方请求需要分析的观测数据,系统自动协助进行数据预处理。


3.1.2 数据准备和初始统计

  气候分析通常使用长时间周期的年平均、季平均、月平均等数据,有些应用可能需要输出数据的高阶统计。高级分析和可视化也通常需要对模式模拟数据进行数据预处理。

  数据预处理如何减少数据分析时间需要具体研究基于数据分析的数据结构和特殊应用需求。如图3所示,通常气候模式包括多个模式运行,每个模式运行输出多个每月或每日数据,并且每个数据单元包括多个变量。根据先前的研究,年平均数据是进一步分析最常用到的数据,因此它需要预先计算。其他的一些计算如多年年平均、区域平均、全球平均、集合平均和标准差等可以通过基本的年平均数据根据需要实时计算。相同的策略也可以用于其他一些平均值计算,如每日、每月、每季等。

  此外,图像在互联网上方便传输,可以生成和存储在数据存储库中以进行可视化。每个NetCDF文件和图像文件相关联。用户通过客户端请求数据可视化只需检索图像。

  MySQL应用广泛、免费获取且满足存储和检索大量数据集,可以用在系统中管理元数据。


3.jpg

图 3 模式模拟数据结构和数据准备

Figure 3 Model simulation data structure and data preparation


3.2 应用服务

  应用服务提供多种数据处理和分析功能以支持气候资料的高级分析和可视化的客户端实时请求。这些功能可以归为两个模块:数据分析模块和数据绘制模块。


3.2.1 数据分析模块

  根据先前的研究,已开发了一些统计分析科学计算包用于气候研究。在数据分析模块中,系统旨在集成最常用的分析功能函数。

  执行分析请求的工作流程如图4所示。用户明确分析需求如变量、时空覆盖范围、分析类型、表现形式等。请求然后通过HTTP发送到应用服务。HTTP中输入参数经过解释并在服务端调用相应的分析功能函数。当执行分析时,选择的输入数据从原始数据库检索并经过处理以满足分析功能函数对数据的输入要求。分析过程可能产生一些临时数据,这些临时数据在分析完成后删除。客户端不能直接绘制的NetCDF数据转换成图形图像。最终输出可能是新的NetCDF数据或者图形图像。这些输出包括分析输出信息如路径、标题、图例等作为XML流返回到客户端。

  整个工作流通过HTTP、Java servlets和XML实现。NCO(NetCDF Operator)软件用于数据预处理(如数据置换、元数据编辑)和计算统计分析(如平均值和标准差)。R语言用于高级统计分析和绘制统计图表(如计算相关性和绘制散点图)。NCO和R脚本由Java servlets调用。


4.jpg


图 4 应用服务器工作流程

Figure 4 Workflow of the application server


3.2.2数据绘制模块

  数据绘制模块包括数据绘制和构建数据子集。NetCDF在网页浏览器中不便绘制,由本模块转化为图像文件。一些可以可视化的数据,如原始模拟数据和预先计算的统计数据,长期存储于数据储存库中。其他的如数据分析结果则临时存储。数据绘制模块也提供构建数据子集功能以处理客户端对子区域数据可视化的请求。


3.3 客户端

  在客户端,系统提供地理可视化分析工具的用户绘图接口以定制分析和查看结果。地理可视化分析工具通常包括多种交互工具,动态绘图和在线查看数据。客户端的所有功能可以通过HTML5和Javascript实现。

  图5所示为客户端地理可视化分析的原理图。用户通过网页浏览器连接到交互接口,客户端自动连接到数据库。数据和功能函数信息基于存储于数据库的元数据进行初始化并显示到接口。用户可根据有效信息提出可视化或分析请求。根据请求类型,不同的可视化结果以地图或统计图表的形式返回并显示。用户通过动态控制可视化结果可揭示气候资料的潜在特征。


5.jpg


图 5 客户端地理可视化分析原理

Figure 5 Mechanism of geo-visual analysis on the clients


3.3.1地图

  系统有两种数据可视化表现形式:地图和统计图表。平面地图常用于气候研究,而全球三维显示对于全球地区气候研究更加直观[14]。基于在线动态显示多维地理数据的优越性能,利用Google Map和Google Earth在客户端显示数据地图。和其他气候分析工具如VISUS单一地图窗口显示不同,系统最多可六个窗口同时显示,用户可并列比较时空模式的各变量。而且,六个窗口的所有地图操作将链接在一起,六个窗口的地图事件同步发生。展示在用户面前的地图通常聚焦于同一区域。比较显示过程中的变化,用户可以发现某一变量在赤道地区具有极大值而在极地地区具有极小值,而其他变量恰恰相反。

  除了静态查看地图,网页客户端也提供时间动画显示。用户选择多窗口动画显示,可查看同一时间周期内不同变量的变化情况。例如,从1960-1990年,地表温度不断增加且最大的变化出现在极地地区,与此同时,植被相应不断减少但最大的变化却出现在赤道地区。

  此外,系统提供一些小工具以更好的制作地图。例如在地图中设置图层的透明色,这样代表不同信息的许多图层可以叠加显示。


3.3.2 统计图表

  除了气候变量的地图显示外,系统也可以在客户端返回统计图表结果。这些统计结果来源于初始统计或用户交互操作的统计。初始统计中,通常生成静态图表以描述数据。如果用户在分析过程中想要操作图表中的要素则使用动态统计图表。在气候模式中,模式配置(如模式输入)也作为统计分析的一部分。


4 结论

  气候模式生成的数据量大且复杂。分布式数据用户需要基于Web的环境以处理生成和存储在分布式计算资源中的气候资料。本文阐述了基于Web的地理可视化分析系统以可视化和分析气候资料。系统包括三个组成部分:客户端、应用服务和数据库,提供气候资料获取、处理、分析和可视化等功能。

  系统还处于初始发展阶段,下一步改进方向:(1)更加高效的超尺度数据集管理策略;(2)更多预先计算的初始统计以减少处理时间和增加访问速度;(3)更多不同观测数据源的数据处理功能;(4)进一步升级数据分析模块以满足气候研究的不同需求;(5)更多的客户端可视化功能如统计结果的动态绘制及地图变量的动态标识控制等。


参考文献

  [1] IPCC (Intergovernmental Panel on Climate Change). Organization[EB/OL]. [2014-1-2]. http://www.ipcc.ch/organization/organization.shtml

  [2] IPCC. Data Distribution Center[EB/OL]. [2014-1-2]. http://www.ipcc-data.org/index.html

  [3] Mote, P.W.; Salathé, E.P., Jr. Future climate in the Pacific Northwest[J]. Clim. Chang.,2010,102:29–50.

  [4] Climate@Home[EB/OL]. [2014-1-3]. http://www.nasa.gov/offices/ocio/ittalk/08-2010_climate.html

  [5] GISS GCM ModelE[EB/OL]. [2014-1-3]. http://www.giss.nasa.gov/tools/modelE/

  [6] IPCC. Constructing Change Fields[EB/OL]. []. http://www.ipcc-data.org/ddc_change_field.html

  [7] Stenliden, L.; Jern, M. How can we study learning with geovisual analytics applied to statistics? [J]Future Internet,2012,4:22–41.

  [8] 刘耀林. 新地理信息时代空间分析技术展望[J]. 地理信息世界,2011,9(2):21-24

  [9] Global & USA Climate[EB/OL]. [2014-1-3]. http://www.climate-charts.com/index.html

  [10] CDAT (Climate Data Analysis Tools) [EB/OL]. [2014-1-3]. http://www2-pcmdi.llnl.gov/cdat/

  [11] Sun, X.; Shen, S.; Leptoukh, G.G.; Wang, P.; Di, L.; Lu, M. Development of a Web based visualization platform for climate research using GoogleEarth[J]. Comput. Geosci.,2011,47:160–168.

  [12] Open Statistics eXplorer-platform[EB/OL]. [2014-1-3]. http://ncva.itn.liu.se/explorer?l=en

  [13] 蔡畅,崔铁军,葛文. 地理信息网络服务的发展研究[J]. 地理信息世界,2011,9(1):35-39

  [14] 龚健雅. 3维虚拟地球技术发展与应用[J]. 地理信息世界,2011,9(2):15-17



声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。