地学大数据技术研究实验平台GeoBDA

2015-04-28 11:33:55    来源:中国地理信息产业协会

摘要:信息化时代不可避免的来临,随着地质数据的数据量的飞速增长,地质数据也正式归类到了大数据中。应势,国土资源部地质信息技术重点实验室建设了地学大数据技术研究实验平台GeoBDA,用以解决地质大数据的存储和管理等问题

  大数据时代势不可挡,成为当下的热门话题。随着我国地质信息化的不断深入,地质数据的数据量飞速增长,数据种类除了传统的地质报告、图件、表格外,也出现了大量图片和视频等格式的数据。地质数据具有以下特点:历史资料积累丰富,数据时间跨度长;以细小文件(如某一档地质报告)为主,也有体量巨大文件(如遥感影像);数据格式多样,数据展现形式多样;数据采用的标准和规范不同。这些特点给地质大数据的集成、管理和挖掘带来诸多问题。

  为了推动地质行业大数据技术的研发和应用,国土资源部地质信息技术重点实验室建设了地学大数据技术研究实验平台GeoBDA,包括基于Hadoop架构和基于Oracle架构平台,前者为自主搭建,后者为引进Oracle公司一起搭建。现将平台的基本情况,以及我们的有关体会介绍如下。


一、GeoBDA的建设思路

  大数据技术是需求和技术的不断相互作用,相互促进一段时间后产生的。在GeoBDA搭建初期(2012年下半年),在进行调研后,我们判断地质行业大数据技术应用需求短时间内可能还难以明确,在需求因素尚不完全明朗的情况采用技术推动模式进行平台建设,同时跟进需求和应用情况。

  大数据技术是一整套方法和技术的体系,经过调研和总结,认为目前可用的地质大数据平台的技术堆栈如图1所示。通过技术堆栈的处理,针对不同类型的数据,使用不同的组件,可以实现多元地质大数据的兼顾。

  GeoBDA建设是一个不断建设和完善的过程,一期建设定位为:地质大数据技术创新平台;重点解决地质大数据存储和组织技术问题,为数据应用层提供大数据应用实例;开放式混合架构的大数据平台,可裁剪和扩展,不受供应商牵制。


1.jpg

图1 地学大数据环境技术堆栈


二、GeoBDA的组成

(一)基于Oracle架构的大数据研究实验平台

  在基于Oracle架构的平台构建中,充分考虑了地质数据特点,既满足非结构化数据的管理需求,也满足半结构化或者结构化的管理需求,同时需要开发空间数据挖掘的简单实例。这就需要解决:大量的非结构化数据管理、展现问题;大量空间数据管理、展现问题;大量的图像数据管理、展现问题;空间数据挖掘模型的构建等问题。


1. 物理环境


2.jpg


2.技术方案

  基于Oracle架构的大数据实验平台搭建在私有云环境之上,既可保证地质大数据有效管理的高可用性,亦可在数据库IO、网络吞吐量等方面进行性能优化做到高性能。

  基于Oracle架构的私有云环境架构可分为三个层面(图2),在设施层构建硬件虚拟化环境,分布式文件系统,结构化数据库高可用平台(Oracle RAC),空间信息管理实验平台(Oracle Spatial);在服务层布设大数据网络应用服务平台(WebLogic),非结构化内容Web访问系统及基于 NoSQL/SQL 地图切片存储和访问应用。


3.jpg

图2 基于Oracle架构的大数据研究实验平台总体架构


  根据实际硬件情况结合上述三方面架构,可将课题大数据实验环境分为如下几个部分(图3):

  (1)虚拟化管理:基于实验室现有硬件环境,用2台机器构建共享存储,3

  台机器作为虚拟化硬件池,另外1台机器则作为虚拟化管理节点对虚拟化资源进行管理。

  (2)内容管理:通过搭建结构化数据高可用环境辅以非结构化数据库多借点群集以及空间数据引擎来完成对地质大数据中的结构化、半结构化、非结构化数据的全覆盖。

  (3)数据挖掘环境:立足于当前业务,挖掘数据之间的关联,并提供数据挖掘环境。现有环境采用建立在虚拟机基础之上的7个节点的Hadoop MapReduce框架来实现分布式计算挖掘。

  (4)非结构化数据的Web直接访问环境:非结构化数据的增长速度已远远快于结构化数据增长的速度,且地质成果中的很多内容均以非结构化数据的形式存在,在妥善解决非结构化数据管理的基础上,还需要在环境中能实现对非结构化数据的快速访问。

  按上述总体方案设计,在硬件基础上,共需部署如下软件:(1)操作系统:RedHat Linux 5.5 X64 11套、Windows Server 2008 1 套;(2)大数据组件:eYaImage(部署1套)、智能网关内容管理系统(部署1套)、Oracle VM Server(部署3套)、Oracle VM Manager(部署1套)、Hadoop (部署7节点)、Oracle NoSQL(部署6套)、Oracle Spatial(部署2套)、Oracle RAC/ASM(部署2套)、Oracle Map Builder(部署1套)、Oracle Map Viewer(部署1套)、NFS(部署1套)、Oracle 11g(部署1套)。


4.jpg

图3 基于Oracle架构的大数据研究实验平台部署图


(二)基于Hadoop架构的大数据研究实验平台

  Hadoop是Apache开源组织的一个分布式计算开源框架。Hadoop大数据平台组成如下:


1. 物理环境

5.jpg



2. 虚拟化管理

  用虚拟化工具VMWare虚拟出4台装有CentOS的虚拟机以及一台千兆交换机,组成了Hadoop的实验平台(图4),分配如下:

6.jpg


  我们利用实验室的硬件资源搭建了基于Hadoop的大数据实验环境,掌握了搭建的方法,基本解决了基础开源系统间的衔接问题,并开展了基于Oracle和基于Hadoop两套架构平台的对比研究。


7.jpg

图4 基于Hadoop架构的大数据研究实验平台部署图


三、GeoBDA实验效果与有关体会

(一)实验效果

  1.大数据访问效率方面。使用约160G的南极遥感影像数据作为实验数据(图5A)。160G的整幅图像在没有做切片的情况下,在测试环境中客户端的载入速度平均为320毫秒。

  2.开发了空间数据挖掘的实例。对全球8万余次地震发生的分布图进行了简单的数据挖掘,可以发现地震活跃带和板块构造中各板块的边缘比较吻合(图5B),从图中可以看到通过空间数据挖掘的计算结果和经验判断基本相符。

  3.对非结构化数据进行了有效的管理。使用矿业权实地核查数据对平台的非结构化数据管理进行了测试(图5C)。在无需人工干预的情况下通过简单的文档分类模型,能够进行简单的文档分类及浏览。


8.jpg

(A)


9.jpg

(B)


10.jpg

(C)

图5 大数据研究实验平台实验效果


(二)有关体会

1.大数据平台对比

  Hadoop架构中没有提供完善的检索解决方案,如果要在数据挖掘方面满足特定的需求,需要投入较大的开发力量,这与Hadoop作为Apache项目的发展历程有关。

  Oracle架构中interMedia支持直接搜索。Oracle各种组件功能强大,产品化、成熟度高,不过价格比较高。


2.开放式混合架构平台

  大数据技术是一整套技术体系,没有一种体系架构能完美解决所有大数据问题,需要根据实际的应用进行合体裁剪和扩展。商业系统的特点是服务提供商技术先进,产品性能优异,但是技术粘性大,一旦完全使用某一厂商的架构,信息系统建设成本会很高,并且替换成本也相当高。开源产品物美价廉但是往往难以成体系稳定服务,对项目成员技术要求高,实施风险较大。

  鉴于目前的技术发展和需求情况,不能期望通过一次性的建设来解决数据快速增长而带来的数据存储及管理问题,这就需要在构建大数据应用环境时采用扩容性及兼容性好的方案,一个开放式体系结构的混合平台应该是一个较优的选择。


3.数据分析模式

  现阶段基于大数据的数据分析模式,主要还是基于统计方法的关联性分析,缺乏逻辑推导过程。对于理论逻辑层次清晰的地质行业,大数据的统计学方法不足以支撑地质行业的知识发现。需要在数据分析的过程中插入中间环节,完善推导过程,协助新理论新方法的研究。


(三)下一步工作建议

1.筹划制定大数据实施战略

  数据为王是信息化发展到一定阶段的必然现象,大数据作为数据管理与分析挖掘的基础技术是今后数据管理、应用的发展趋势,实施大数据具有重要的战略意义。但大数据的实施不是一蹴而就的,而是一个循环改进,不断完善的过程,这就需要进行周密的战略制定。首先可以组建大数据实施小组,明确每个角色的职责和范围,对数据现状进行评估,制定大数据的实施目标,共同筹划地质大数据的实施战略。


2.以技术为突破口,继续推动大数据技术在地质行业的应用研究

  通过地质大数据平台的研究,虽然大数据技术在地质数据应用模型和服务层的需求不是很明朗,但是对于基础的存储层和组织层的要求基本明确。可以进行大数据技术在地质数据存储和组织方面的应用研究,例如地质资料自动分类管理和检索研究,通过大数据技术将地质数据有效管理起来,形成地质资料数据池,为数据挖掘的实施提供基础。


作 者 :缪谨励、屈红刚、许哲

单 位:中国地质调查局发展研究中心、国土资源部地质信息技术重点实验室


注:地学大数据技术研究实验平台GeoBDA作为国土资源部地质信息技术重点实验室的一个公共平台,免费为业内研究人员提供相关研究实验服务。

声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。