摄影测量与深度学习

2018-06-25 08:45:23    来源:《测绘学报》2018年6月

摘要:深度学习正逐渐占领与“学习”相关的诸多研究领域,也对摄影测量这门学科造成冲击和促进.

  来源:《测绘学报》2018年6月

  作者:龚健雅,季顺平

       其他平台转载请务必注明原始出处及作者

  摘 要:深度学习正逐渐占领与“学习”相关的诸多研究领域,也对摄影测量这门学科造成冲击和促进.根据摄影测量学的定义:“利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系”,其研究对象包括几何与语义.本文从这两个方面回顾和探讨深度学习目前的应用现状,并对其影响下的摄影测量的发展进行展望.在几何上,基于卷积神经元网络的学习架构已经广泛用于图像匹配、SLAM 及三维重建,取得了较好的效果,但仍需进一步改进.在语义上,由于传统的手工设计方法未能将语义信息以工程化的形式确定并生成类似4D 产品的各类语义“专题图”,语义部分长期受到忽视.深度学习强大的泛化能力、对任意函数的拟合能力及极高的稳定性,正使得专题图的自动制作成为可能.笔者通过道路网、建筑物、作物分类等应用实例,回顾已经取得的研究成果,并预计:利用光学像片生成高精度的语义专题图,在不远的未来即将实现;并可能成为摄影测量的一类标准产品.最后,针对几何和语义,分别介绍了笔者的两个相关研究:基于深度学习的航空图像匹配以及基于3D 卷积神经元网络的精细农作物分类专题图自动提取.

  关键词:深度学习;卷积神经元网络;摄影测量;立体匹配;专题图

  1 简 介

  1.1 摄影测量学回顾

  摄影测量学是一门“利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系”的学科.摄影测量诞生于19世纪早期.1838年,物理学家惠斯顿发明了实体镜,第一次发现和定义了立体视觉.1839年,法国画家达盖尔发明了银版摄影法,并制作了世界上第一台真正的照相机.在此基础上,法国测量学家Fourcade首先发现了用立体照片可重建立体视觉,从而促成了摄影测量学的诞生[1].摄影测量的第一个也是最重要的分支是航空摄影测量.1783年,西方的Montgolfier兄弟发明热气球,并第一次载人航行.1858年,法国摄影师纳达尔乘坐气球拍摄了世界上第一张航空影像.1903,莱特兄弟发明世界上第一架螺旋桨飞机.这些飞行技术的发展促成了能够大范围测图的航空摄影测量.而此前,人们只能利用大地测量技术进行测图.例如著名的数学家高斯绘制汉诺威公国的地图就花了30年.

  20世纪开始后,物理和电子技术的进步持续推动着摄影测量的发展.1957年,第一颗卫星被发射到外太空,开启了卫星摄影测量与遥感研究领域.1960年开始,迅猛发展的计算机以及专业的解析测图仪使摄影测量进入解析摄影测量时代.光线的重现和交会不再依赖于此前的光学模拟仪器(60年代之前也因此称为模拟摄影测量时代),而是以虚拟形式在计算机中实现.根据爱因斯坦的光量子假说和光电效应,1973年贝尔实验室的博伊尔和史密斯发明了电荷耦合器件(charge coupled device,CCD)[2],促成数码相机和数字摄影测量时代的诞生.90年代末,无人机航摄逐渐兴起,其便捷、廉价的特性,是传统航摄的有益补充.2000年前后,各国陆续开始深空探测项目,比如中国的嫦娥登月和美国的火星探测.此外,地面测量、地下测量、水下测量、弹道测量、工业测量等也是摄影测量常见的应用研究领域.

  在研究内容上,摄影测量以二维像片和被摄三维物体的几何关系为主流方向.在理论方法上,沿用笛卡儿开辟的解析几何,用代数方程表达二维或三维笛卡儿坐标系中所描绘的几何图形.如像点、物点、投影中心三点共线由共线条件方程表达;摄影基线、同名光线共面由核线方程表达.在模型解算上,由于测量中观测值固有的误差特性,以误差处理理论为指导.代表性理论是1795年高斯发明的最小二乘法和1959年德国的Schmid提出光束法区域网平差.此外,由于重建几何关系需要提取像片上的同名点,一些图像处理的内容也因此成为摄影测量的研究领域.20世纪后期,摄影测量学者提出了相关系数匹配、最小二乘匹配等经典立体匹配方法,21世纪开始,同样关注3D几何重建的计算机视觉也更加丰富了匹配方法.

  虽然基于光学像片的2D/3D 几何关系是摄影测量的主流,但根据摄影测量的定义,“物体的特性及其相互关系”,即语义部分也属于摄影测量学的研究内容.语义被忽略既有历史的原因也有技术上的困难.首先,从20世纪70年代开始,随着卫星成像技术的发展,摄影测量被扩展为摄影测量与遥感,图像解译任务因之成为遥感的课题.其次,摄影测量作为应用工程学科,需要为测绘等领域提供相当精度的各类地形图和专题图.然而,传统计算机分类和模式识别的方法难以达到所谓的“摄影测量精度(photogrammetric accuracy)”,而通常采用半自动或全人工判读法,所以研究进展缓慢.幸运的是,以深度学习为主流的人工智能方法开辟了关于“学习”的新航道,并把精度提高到前所未及的高度.例如,将恰当的深度神经元网络架构应用于航空图像的道路、建筑、水体等地物的自动提取,并实现高精度语义专题图,将为摄影测量学在语义方向的拓展提供新的契机,这也是本文的一个中心议题.

  1.2 深度学习的历史

  深度学习起源于20世纪中叶的人工智能.人工智能的两个主要流派分别是符号主义(symbolism)和联结主义(connectionism).其中,符号主义者在1956年首次提出“人工智能”的概念,并统治了该领域近半个世纪;基于统计学习的思想被广泛应用于机器学习、计算机视觉,以及摄影测量与遥感.与此对应,联结主义起伏不定,经历了低谷,也经历了3次发展浪潮:20世纪40年代到60年代的控制论[3]、80年代到90年代的联结主义[4]及2006年之后的“深度学习”[5].

  在控制论时期,联结主义的代表性名词是“人工神经元网络”.事实上,当时这只是一个单层的线性模型:根据输入变量x、输出函数f(x,w )与已知标签y 的一一对应关系,学习未知参量w .这种模型(又称为单层感知机)由于无法学习诸如XOR(异或)等非线性函数,而受到以明斯基为首的符号主义流派的批评;并造成第一次人工神经元网络的衰退.

  在20世纪80年代,联结主义的概念被正式提出.当时符号主义流派依然是主流,但他们也有自己的麻烦:符号推理模型难以解释大脑神经元的工作原理.而联结主义者认为,将大量的简单计算单元连接在一起,就可以实现智能行为.并提出了“分布式表示”、“后向传播算法(back propagation)”、“长短期记忆(long short-term memory,LSTM)”等对今天的深度学习异常重要的思想和概念.然而,到了20世纪90年代中期,基于神经元网络的人工智能研究无法满足商业界的业务化需求,加上诸如SVM[6]等核方法,以及概率图模型(probabilistic graphic model,PGM)的盛行[7],神经元网络再次衰退了.

  2006年,Hinton的研究表明,采用一种逐层的贪心算法可实现深度神经元网络的训练[8].而此前,训练一个多层神经网络被认为是不现实的.深度学习的概念由此浮出水面,新旗帜是:现在已经有能力训练一个深度网络,并且这个深度将赢得人工智能方法和实践上的突破.2012 年,在ImageNet挑战赛中,深度学习的方法夺得第一,并一举超过传统机器学习方法10个百分点[9];而第二至第四名相差不超过1%,显示了传统方法的天花板.随后的大量试验表明,无论在图像分类、物体识别、语音识别、遥感应用等关于学习和语义的研究领域,深度学习都占据上风.

  符号主义流派的空间在缩小,但基于概率图模型[7]的方法也得到了广泛应用.此外,深度学习也有自身的缺陷.虽然理论上多层网络确实可能学习出最优的函数模型,但它无法解释该模型如何构建以及模型背后的含义,就像暗箱操作一样.目前,有些学者试图发现其背后的原理.如物理学者发现了量子力学中的重整化技术与深度学习能够精确对应[10],神经科学和计算机科学家发现深度学习符合一种瓶颈理论[11],即把大量次要信息挤出去,而留下真正有效的信息.当然,这些发现距离完整回答深度神经元网络如何学习仍处在初步阶段.

  1.3 摄影测量与深度学习及计算机视觉的联系

  除了自然语言处理(natural language processing,NLP)[12],深度学习的最重要应用是在视觉图像上,如手写字体识别[13]、自然图像分类[9]和检索等.而摄影测量的研究对象就是视觉图像,因此深度学习的成功和蓬勃发展,使得摄影测量也成为最受益的学科之一.

  在几何上,摄影测量中的研究内容包括:传感器的定位定姿、从2D像片重建3D几何.将深度学习应用于几何定位目前还未进入摄影测量研究领域,但已经出现在密切相关的计算机视觉的分支中:运动恢复结构(structure from motion,SfM),以及机器人学的分支;同时定位与地图构建(simultaneous localization and mapping,SLAM).根据文献[14],深度学习方法的定位精度目前尚不能同传统的方法相比,相差约一个数量级.对于3D 重建中的关键技术密集匹配,深度学习已经取得很好的应用效果.如在KITTI等标准数据集上[15],前10名的方法都是深度学习方法.不过,虽然SGM 等经典方法已经落在30名开外,但是经典方法是通用的,既可以用在自然图像中,也可以用于航空、航天图像.而深度学习方法则依赖于高精度、可靠的相似数据集.目前,完整的3D 重建解决方案依然是经典方法一统天下.

  在语义上,摄影测量中的研究内容就是采用智能方法为各行业提供专题图.摄影测量的应用特性使得它并不关心诸如特征描述、上下文关系等中间结果.这种端到端的模式(end-to-end)特别适用深度学习方法.目前,深度学习已经被广泛用于遥感图像的分类、识别、检索和提取.与在几何方面的欠佳表现不同,在语义上基本全面碾压了传统的方法.

  最后简要讨论摄影测量、深度学习及计算机视觉的关系.1982年,Marr发表.视觉:从计算的视角研究人的视觉信息表达与处理.,是计算机视觉的开山之作.计算机视觉的最初研究:用计算机代替人眼,从图片中重建3D 世界.与摄影测量在几何方面具有很高的重叠度.20 世纪90年代,在语义方面计算机视觉开始蓬勃开展.其中运用了大量的机器学习知识.有学者分析指出机器学习与计算机视觉重叠度约在60% ~70%,因此是非常紧密的两门学科.随着深度学习成为机器学习的主流,深度学习在计算机视觉中得到广泛应用.将深度学习引入到摄影测量中,特别是提高摄影测量后期语义处理的智能水平,是科学研究发展的必然途径.

声明:中国勘测联合网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。