一种大文件多版本遥感影像数据组织管理方法

2015-02-13 05:12:00    来源:中国地理信息产业协会

摘要:针对传统遥感影像数据组织存储的不足,本文提出了一种大文件金字塔数据存储结构,用来高效存储管理影像数据;同时针对多时相遥感影像数据,提出了基于版本机制的影像数据管理模式。

1 引言

  近年来,遥感技术[1]的飞速发展为我们提供了丰富的高质量、高清晰影像数据,使“海量”成为遥感影像数据的重要特征,遥感影像在网络上的传输与服务已经成为遥感应用的重要手段,而这也对遥感数据的存储与管理提出了很高的要求。

  目前遥感影像数据的管理主要采用数据库管理和文件管理两种方式。使用数据库技术[1] [2]可以保证数据的完整性和较高的共享性,一般多采用Oracle 数据库,但在关系型数据库高并发读写情况下,硬盘I/O无法应付,性能较差。当遥感数据量特别大时,数据的检索速度以及I/O效率就成为了瓶颈,而且受网络带宽的限制,数据量大时传输效率太低。为了提高遥感影像的网络传输效率,许多学者提出了基于文件管理方式的金字塔技术,将一个大数据文件切成许多不同分辨率的瓦片,每个瓦片以一个文件的形式存放在特定的目录下,该目录名包含空间或分辨率信息,以便于检索,NASA World Wind、GeoGlobe等多采用这种方式[3] [4]。但此方法的缺点在于文件的个数太多,不便于组织管理,文件调用时I/O频繁操作,读写速度慢,而且数据文件的安全性差。

  另一方面,随着遥感技术的发展,遥感影像数据的更新越来越快,如何存储以及更新这些多时相遥感影像数据,显得越来越重要。在此背景下,本文提出基于金字塔结构的大文件存储方法,用来存储管理海量影像数据,针对于多时相影像数据提出了基于版本机制的影像数据管理模式。


2 基于大文件的遥感影像数据组织

2.1遥感影像数据的大文件存储管理

2.1.1大文件数据结构

  遥感影像数据量非常庞大[5],难以满足实时处理和网络传输的要求。但用户每次在浏览时,也只是浏览一个小的矩形区域,并不需要传送整个影像。所以在对影像数据进行组织存储之前需要对其建立影像金字塔,即对影像分块组织。但传统的文件都是以一块影像一个小文件的形式存在的,造成文件的数据量很大,I/O 操作频繁,读写速度慢,不便于组织管理[6] [7]。

  针对传统遥感影像存储管理方式存在的问题,本文提出一种混合模式对海量遥感影像进行组织管理。与传统金字塔分块方法一样,对一个全球或者区域的遥感影像按照一定的规则进行分块,切成许多小瓦片,并按照Morton码等编码方法对分块后的影像数据进行重新组织,并将这些小瓦片影像数据有机地组织整合为一个“大文件”,有效的减少I/O操作,提高检索效率。

  考虑到影像数据的海量特征和实际影像数据库规模的差异性,将所有的瓦片影像都存储到一个大文件中显然也是不合适的。因此,在基于大文件存储结构的数据库中,将包含若干个大文件,而其具体文件个数和单个文件的大小可以在实际部署时,根据数据量的大小、服务器性能、网络状况等进行配置。大文件存储结构如图2.1所示:



图2.1 大文件存储结构

Fig.2.1 The storage structure of big file


  在大文件数据结构中,瓦片是按行存储的,按分辨率由低到高依次进行存储。大文件名后缀为dle的文件用来存储瓦片数据,包括文件头和数据体两部分。文件头存储瓦片的大小,偏移位置,数据体存储具体的瓦片数据。其数据结构如图2.2所示:



图2.2 dle文件数据结构

Fig.2.2 Data structure of DLE files


  为了加快影像数据的检索速度,快速定位影像服务请求到具体的文件,我们利用dlx文件记录各个文件的元信息,包含原始影像分辨率、经纬度范围、金字塔层数等。其主要数据结构如图2.3所示:



图2.3 dlx文件数据结构

Fig.2.3 Data structure of DLX files


2.1.2遥感影像数据检索

  遥感影像数据经过标准化处理,经过分块、命名,并基于大文件存储结构存储在硬盘上,需要根据用户的检索条件快速的获得相应的遥感影像数据。

  遥感影像数据具体的检索流程如图2.4所示:



图2.4 遥感影像数据检索流程图

Fig.2.4 The flowchart of searching for remote sense images


  根据请求经纬度范围快速检索大文件中对应的瓦片影像数据,首先需要遥感影像数据的地理坐标(经纬度)转换为对应的瓦片坐标。

  假设利用MimLatitude、MaxLatitude、MinLongitude和MaxLongitude表示原始影像数据的最低纬度、最高纬度、最小经度以及最大经度,利用tileSize表示单个瓦片影像的尺寸大小。遥感影像数据的经纬度坐标转换对应瓦片坐标的算法如图2.5所示:



图2.5 遥感影像数据经纬度坐标转瓦片坐标算法

Fig.2.5 The algorithm of transferring latitude and longitude coordinates for tile coordinates of remote sensing image data


  其次根据dlx文件中原始影像分块后的总行数MaxRow、总列数MaxColumn以及金字塔最大层级MaxLevel可计算每层金字塔中的影像行数RowCount和列数ColumnCount。



  再根据当前请求瓦片的等级level、瓦片坐标中所在行row、所在列column以及单个大文件中的瓦片个数N,计算出的Num值可定位出瓦片所属的dle文件,并通过R值获取dle文件头中的偏移位置。快速定位到dle文件的偏移位置处,读取瓦片的大小,并快速读取文件中的瓦片影像数据。




3 基于版本机制的多时相遥感影像数据管理

3.1基于版本机制的影像管理

  为了存储管理多时相遥感影像数据,需要考虑遥感影像的多版本存储机制问题。利用新获取的影像数据去构建新的金字塔模型,可以实现金字塔中影像数据的替换。这种方法实现简单,但全部更新意味着大量遥感影像数据将会被重复处理,浪费时间。一般来说,新获取的影像数据只是极少的区域,更新的只是发生变化的局部区域。因此,本文针对待更新的影像数据提出了一种基于版本机制的多时相影像数据管理模式。


3.2基于版本机制的影像数据管理实现

  所谓版本,即同一类事物在不同载体上所表现出来的样式。基于版本机制的影像数据管理模式针对不同时间获取的影像数据赋予不同的标识,即给同一时间获取到的影像区域都赋予唯一标识的版本号,不同时间获取的影像赋予不同的版本号。每一个版本有一个标识符予以标识,版本号从0开始,针对于下次获取到的影像,版本号依次递增。版本号越高表示是最新获取的遥感影像数据。基于版本机制的影像数据管理逻辑结构图如图3.1所示:



图3.1 基于版本机制的影像数据管理逻辑结构图

Fig.3.1 The logical structure of image data management based on version mechanism


  基于版本机制的影像数据管理中主要涉及以下内容:

  Ø 版本:版本与版本之间是相互独立的,分别对应不同时相获取的遥感影像数据,具有唯一标识。

  Ø 数据集:同一地理区域的遥感影像数据形成一个数据集,不同数据集的地理区域可能会存在相交的部分。

  Ø 金字塔:一个金字塔模型对应一个数据集,金字塔模型包括多个影像瓦片集。

  Ø 版本与数据集是一对多的关系,即一个版本可同时对应多个数据集。

  Ø 数据集与金字塔是一对一的关系,与影像数据属于一对多的关系。


  基于版本机制的遥感影像数据管理的具体实现如下:


1)影像数据标准化处理

  首先需要对数据进行预处理。按照影像金字塔建立的思想,对仅需要更新区域的影像数据建立金字塔,并进行影像数据的标准化处理,即进行分块处理和影像编码。这样仅需处理更新部分的影像。


2)影像数据组织存储

  如果将获取到的新的影像文件立即写入大文件存储结构中,对大文件同时进行读写可能会造成冲突,而且每次影像数据发生变化都需要重写大文件系统,效率太低。可以考虑将每次获取的新的影像文件暂存起来,需要更新的影像在影像服务器停机维护的时候重新写入大数据文件中。

  遥感影像数据更新的区域每次都是变化的,多次更新的区域可能有相交,为了保证客户端总是先得到最新的影像数据,本文提出利用分布式键/值对缓存系统来存储新的瓦片影像数据。瓦片影像的键以“X_Y_L”命名的(其中X对应瓦片所在列坐标,Y对应瓦片所在行坐标,L对应影像金字塔的等级)。分布式缓存系统不提供冗余,瓦片影像唯一的key值可唯一标识一个瓦片文件。数据集对应的金字塔模型的影像数据写入中,即使存在相交的区域,最新写入的影像数据将会覆盖旧的影像数据,永远存储该相交区域最新的瓦片影像数据。

  影像数据写入分布式缓存系统中,同时将对应的更新区域以及赋予的唯一的版本号写入服务器端的信息文件中。上一次的更新区域可能与下一次的更新区域有相交的地方,并不需要每次都进行影像的更新,只需在更新遥感影像时获取所有需要更新区域的交集。

  基于版本机制的影像数据管理主要用于服务器端针对于不同时间获取的遥感影像数据的存储管理,解决在线提供最新时态的影像数据的问题。将不同时相获取的遥感影像数据按照版本划分,利用版本机制可实现对其高效管理。利用版本机制实现了影像数据在线更新后,在不停服务的情况下,向用户提供最新的影像数据。


4 遥感影像服务原型系统与实验

  按照前面所述的方法研究开发了一个遥感影像网络服务原型系统。遥感影像服务原型系统的开发环境是使用Windows XP和Visual Studio 2008,开发语言采用C#并基于.NET框架,并在此开发环境下安装分布式缓存系统Memcached,Web服务器采用IIS。原型系统中的测试数据来源于Google Earth,如图4.1所示。



图4.1基于大文件的遥感影像数据服务原型系统

Fig4.1 The prototype system of remote sensing data services based on big file


  首先按照256*256影像块大小对遥感影像数据进行分块,并进行金字塔组织,然后将数千个甚至几万个数据块合并为一个数据文件,并考虑多时相的版本问题。将组织的“大文件”进行存储管理。影像浏览时,若涉及某个数据块,系统将直接将该文件映射到内存,然后通过索引调度该块数据。当系统漫游时,同一文件中的周边数据,将直接从内存调度到屏幕显示。由于减少了I/O操作,大大提高了显示速度。一个数据块的调度速度提高到毫秒以内,数据调度的时间可以忽略不计。

  原型系统同时考虑了多时相遥感数据管理问题。通过在每个数据块中嵌入版本信息,实现多版本遥感影像的管理与调度显示。图4.2所示为同一地区两个不同时相的遥感影像。



图4.2 同一地区两个不同时相的遥感影像

Fig.4.2 Remote sensing images of the same area at two different time


5 结束语

  本文针对目前遥感影像服务系统分块数据文件太多,影响调度效率的问题,提出了一种改进的存储管理方式,即利用“大文件”对分块的遥感影像数据进行组织管理。由于减少了I/O操作,大大提高了影像的调度与漫游速度。特别是最近计算机的内存发展很快,有些计算机有了几十G的内存,一个“大文件”直接映射到内存,在内存中调度数据,其速度将有几何量级的提高。本文针对多时相遥感影像数据提出了基于版本机制的影像数据管理模式,解决了在线提供最新时态影像数据与追溯查询历史影像数据问题,对多时相海量影像数据管理具有参考意义。


参考文献:

  [1]周显平.遥感技术的特性及应用领域[J].中国科技纵横,2010(10):23-23.

  [2]谢毅.海量遥感影像数据存储组织结构研究[D].河南大学,2011.

  [3] 王密,龚健雅,李德仁.大型遥感影像数据库的空间无缝数据组织[J].武汉大学学报(信息科学版),2001,26(05):419-424

  [4] Liu,Jin;Sun,Jing;Xu,Zheng Q;Gao,Lu.Security web release and  visualization of remote sen- sing images[J].International Journal of Digital  Content Technology and its Application,2010, 4(03):1-8.

  [5] Ping,Du;Shun,He Yue.Research of remote sensing image data mining  technique based on web[ .Proceedings-2009 Asia-Pacific Conference on Information  Processing, 2009,1:298-300.

  [6] Tian,Y.F.;Zhang,J.F.;Feng,W.P.;Zhao,F.J.A soulation to web-based remote  sensing data access and analysis.International [C].Geoscience and Remote Sensing  Symposium,2005,2:788_790.

  [7] Staab,S.,et al.2003.Web Services:Been there,done that? [J] IEEE  Intelligent Systems,Jan-Feb issue.72-85.

  [8]张毅,喻占武,李锐.基于对象存储的遥感影像数据管理系统的研究[J].计算机应用研究,2004,24(1):120-123.

  [9]吕雪峰,程承旗,龚健雅,关丽.海量遥感数据存储管理技术综述[J].中国科学:技术科学,2011,41(4):1561-1573.

  [10]刘超.基于Google Earth和Google Map的多用户飞行模拟系统的研究[D].长安大学,2011.

  [11]李武.面向现代服务业的大规模分布式文件存储系统设计和实现[D].杭州:浙江大学,2008.

  [12]龚健雅,陈静,向隆刚,熊汉江,吴华意,王艳东,2010,开放式虚拟地球集成共享平台--GeoGlobe ,测绘学报 ,Vol. 39 (6):  551-553

  [13]赵学胜,范德芹,王娇娇,王磊,2012,退化四叉树格网的全球多分辨率DEM无缝表达,测绘学报, Vol. 41 (6): 918-925

  [14]符浩军 朱长青 赵毅 任娜,2013,面向网络环境的地理空间数据数字水印模型,测绘学报,Vol. 42 (6)


作者简介:杨建思 博士 副教授 研究方向为计算机图形学 虚拟现实与数字城市


声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。