基于光谱特征的决策树分类方法研究——以昆明市东北部地区为例
2020-10-24
来源:哗拓教育
西北林学院学报2010,25(6):222 ̄226 Journal of Northwest Forestry University 基于光谱特征的决策树分类方法研究 以昆明市东北部地区为例 单捷,岳彩荣 (西南林学院云南省高校林业3S技术工程研究中心,云南昆明650224) 摘要:以昆明市东北部地区的TM影像为材料,通过分析主要地物的光谱特征,进行波段间的相 互运算,建立相应的决策树模型,对地物进行分类,并对分类结果进行精度评价。结果表明:决策树 分类法的总体精度为77.O ,比传统的分类方法如最大似然法提高了6.3 ,能有效地提高影像的 分类精度。 关键词:遥感;决策树;光谱特征;土地利用/覆盖;分类 中图分类号:TP 79 文献标志码:A 文章编号:1001-7461(2010)06-0222-05 Spectral Feature Based Classification of Decision Tree ——A Case Study in the Northeast of Kunming SHAN Jie,YUE Cai—rong (Technology Engineering Forestry Research Center of 3S Forestry in Yunnan Higher Education Institutions, Southwest Forestry University,Kunming,Yunnan 650224,China) Abstract:Decision tree classification is simple,flexible,clear and effective.It has tremendous advantages in the filed of remote sensing classification.Taking the northeast of Kunming as a study area,the decision tree model for classifying land use/land covers based on TM was established by analyzing the spectral fea— ture of the major landover types and exploring spectra1 unique character with constructing several indices from original TM bands.The results of classification were checked by statistical confusion matrix accuracy assessment.The study showed that overall accuracy of decision tree classification was 77.0 ,about 6.3 higher than that by maximum likelihood classification.Decision tree classification can effectively improve accuracy of land cover classification. Key words:remote sensing;decision tree;spectrum feature;land use/cover;classification 在遥感技术的研究中,通过遥感影像识别各种 据本身来学习,以类似于流程图的树状结构表示数 目标是遥感技术发展的重要环节[1],随着计算机技 据挖掘结果,揭示了各类别之间的非线性关系和等 术的发展,计算机识别自动分类已经成为遥感应用 级关系,结构明确且容易解释[4]。决策树分类法还 的重要组成部分,也是当前遥感发展的前沿[2]。 可以处理噪声数据,尤其能自动选取特征,故用于遥 2O世纪80年代,数据挖掘与知识发现(Data 感分类具有很大的优势[5],是目前分类精度相对较 mining and knowledge discovery)技术的出现为分 高的一种遥感影像分类算法[6]。 类提供了一种新的手段。空间数据挖掘的方法较 近年来,国内外的研究人员利用决策树分类法 多,其中决策树分类法是数据挖掘中获取分类规则 对遥感影像分类进行了大量的研究。Hanson等[7] 的主要方法之一[3]。 利用NOAA/AVHRR全球数据进行了决策树法 决策树分类法具有非参数的特点,采用以实例 与最大似然法的土地覆盖分类,结果表明决策树法 为基础的归纳算法,在确定训练集之后,完全依赖数 的分类精度高于最大似然法;Muchoney等[8]分别 收稿日期:2009-12-22修回日期:2010—03—02 基金项目:西南林学院重点基金项目(200503Z);西南林学院森林经理学国家林业局重点学科(XKZ200901) 作者简介:单捷,女。硕士研究生.主要从事资源环境遥感研究。 *通讯作者:岳彩荣,男。博士,教授,主要从事遥感与地理信息系统的教学与应用研究。 第6期 单捷等基于光谱特征的决策树分类方法研究 223 利用决策树、神经网络、最大似然法对美国中部地区 进行了土地覆盖分类研究,结果显示决策树法的分 类精度最高;Franklin等[9 利用遥感数据、DEM和 GIS数据,采用决策树法对Alberta地区的灰熊栖 息地进行分类制图,得到了80 的分类精度。 在国内,研究人员对决策树分类法也进行了大量 研究。如通过对居民地及其背景地物的光谱特征分 析,建立了基于光谱特征和形状特征的简单决策树模 型来自动提取居民地,分类精度高于最大似然法 叩; 以TM的7个波段影像为数据源,采用决策树分类法 对北京市土地覆盖现状进行研究,分类精度达 93.3%[1妇;利用CART算法与CA.5算法对MODIS 影像进行了土地覆盖决策树分类试验与分析,并引人 了boosting和bagging 2种分类新技术,使分类精度 明显提高[1。 ;利用CART算法集成光谱特征、纹理特 征和地学辅助数据建立提取湿地信息的决策树模型, 分类精度较最大似然法明显提高[3]。 1 数据来源与预处理 采用2005年12月的TM影像为数据源,空间 分辨率为30 m,在经过几何校正与辐射校正之后, 从中切取大小为719(列)x 711(行)的图像为研究 区域,将TM影像的5、4、3波段分别赋予红、绿、蓝 色,以获得近似自然彩色的合成图像,便于提高图像 的直观目视效果,以提高解译精度。 2 决策树算法原理 决策树分类法是多元统计分类中的一种方法, 是一个类似于流程图的树状结构。利用树结构原 则,按一定的分割原则把数据分为特征更为均质的 子集,这些子集在数据结构中称为节点(图1)。其 基本思想是利用一组自变量来预测每个样本最可能 对应的类型即因变量[】 。比较成熟的决策树构建 方法是Quinlan提出的ID3、C4.5、C5.0系列, CART、SLIQ、SPRINT和CHAID等。 图1决策树示意图 Fig.1 Sketch map of decision tree 通过分析研究区内主要地物的光谱特征及进行 波段间的相互运算,建立决策树模型,从而对地物进 行分类。 3 决策树分类试验 根据中华人民共和国质量监督检验检疫总局和 中国国家标准化管理委员会于2007年8月联合发 布《土地利用现状分类》以及昆明市东北部地区特有 的情况,将该地区的土地类型划分为水体、植被、裸 地、城镇用地、工矿用地和阴影等,共6类。 3.1光谱特征分析 TM图像中不同波段反映了不同地物在该波段 内的反射辐射特性,由于TM6是热红外波段且空间 分辨率与另外6个波段不同,所以采用TM1、TM2、 TM3、TM4、TM5和TM7波段作为分析数据。 在对土地利用先验知识的基础上,确定6种地物 的目视判读标志,先根据目视判读标志和样本选取原 则对各类地物选择样本,然后对每一类地物样本在各 个波段上的光谱亮度值进行统计,最后用地物样本的 各波段光谱均值做出光谱响应曲线(图2)。 l l 1 波段 图2典型地物光谱响应曲线 Fig.2 Spectrum response curves of typical objects 由图2看出,典型地物间亮度值关系如下: 在TM1上,工矿用地>城镇用地>裸地>水 体>植被>阴影,裸地、植被和水体三者容易混淆。 在TM2上,工矿用地>城镇用地>裸地>植 被>水体>阴影,裸地、植被和水体三者,容易混淆。 在TM3,工矿用地>城镇用地>裸地>植被> 水体>阴影,植被、水体和阴影三者容易混淆。 在TM4上,工矿用地>植被>裸地>城镇用地> 水体>阴影,裸地与城镇用地、水体与阴影容易混淆。 在TM5上,工矿用地>裸地>城镇用地>植被> 阴影>水体,城镇用地与植被、水体与阴影容易混淆。 在TM7上,工矿用地>裸地>城镇用地>植被> 阴影>水体,裸地与城镇用地、水体与阴影容易混淆。 因此,仅仅依靠地物在各波段的光谱值无法区 分每类地物,还要对地物的光谱值进行波段问的运 224 西北林学院学报 25卷 算,才能准确地进行分类。 3.2植被的提取 NDVI指数是用来反映绿色植物生长状况和分 试验,将(TM3一TM4)>5像元归属为水体,通过对 比原始影像可以看出区分出的阴影是正确的。 3.5丢失阴影的提取 布的特征指数,它利用植被在近红外波段的光谱亮 查勇等口 根据NDVI的特点,提出归一化建筑指 数法,提取城镇建筑覆盖区专题信息,公式如下: NDBI=(MIR—NIR)/(MIR+NIR) (4) 度值大于红光波段的特点,从而较为容易地把植被 提取出来,公式如下: NDVI一(NIR—R)/(NIR+R) (1) 式中:MIR、NIR分别指TM的第五和第四波段, NDBI取值为一1~1。 其中:NIR为近红外波段,即TM的第四波段;R为 红光波段,即TM的第三波段。应用公式(1)在 在TM4与TM5波段之间,除了城镇光谱值较 ENV14.7中进行归一化植被指数计算,运用最大类 间方差法确定阈值提取植被。由图2看出,裸地在 近红外波段的光谱亮度值也大于红光波段,所以经 过反复试验,最后确定阈值为0.1,即NDVI>0.1 的像元被归属为植被,经过与原始影像对比可以看 出,植被基本上都被提取,同时排除了裸地的干扰。 3.3水体和阴影的提取 Mcfeeters[1妇提出了归一化差异水体指数 (NDWD,其公式如下: NDWI=(G 一NjR)/(Green+NIR) (2) 式中:Green为绿光波段,NIR为近红外波段, 影像中,分别为第二波段和第四波段。 然而,Mcfeeter在构建NDWI指数时,只考虑 了植被因素,却忽略了建筑物的影响。由图2可以 看出,如果用NDWI来提取水体时,城镇用地也会 被提取出来。通过对图2分析发现,水体在中红外 波段的光谱亮度值继续走低,而城镇用地则相反,所 以用改进归一化差异水体指数——MND ,即 Modified NDWI指数[1胡来提取水体,公式如下: MNDWI一(Green—M豫)/(Green十MIR) (3) 式中:MIR为中红外波段,即TM的第五波段。运 用MNDWI指数可以使水体和建筑物的反差明显 增强,降低二者的混淆度,有利于水体的准确提取。 由于研究区域大部分都是山体,存在阴影现象, 而阴影在影像上呈现出和水体相似的暗色调,造成 提取的水体中含有大量的阴影。所以,在提取植被 的基础上,采用MNDWI先将水体和阴影一同提取 出,之后再对二者分别进行提取。经过试验,阈值设 为0.05,即MNDW >0.05的像元为水体和阴影。 通过与原始影像的比较,水体基本上都被提取,阴影 还有一部分没有被提取。 3.4区分提取水体和阴影 水体在TM3和TM4的光谱差值明显大于阴 影在这2个波段上的差值,根据这一特点可以将水 体与阴影区分开。通过对比样本中水体和阴影在 TM3和TM4上各自光谱的最大值和最小值,经过 高外,其他变小,因此NDBI>O的像元为城镇。 由图2可知,除了城镇用地像元的亮度值符合 TM5>TM4,工矿用地、裸地也符合该特征,即城 镇、工矿用地和裸地三者颜色都较浅,无法区分,所 以在本研究中NDBI不能用来提取城镇用地。 在用MNDWI同时提取水体和阴影时,有部分 阴影没有被提取出,于是这部分阴影便与工矿用地、 裸地混在一起,而阴影的光谱值并不符合TM5> TM4,所以可以利用这一区别提取剩余的阴影,即 NDBIdO的像元归属为阴影。 3.6工矿用地的提取 工矿用地的光谱值在各个波段上较其他地物都 高出很多,尤其是TM5和TM7,所以可以利用这一 特点区分该地类。通过反复试验,确定的阈值为 TM2>30,TM5>90,TM7>5O。 3.7裸地和城镇用地的提取 通过对归一化植被指数图的分析发现,NDⅥ 不仅可以很好的提取植被,也可以提取裸地和城镇。 在归一化植被指数图上,裸地的颜色为灰色或 暗灰色,而城镇用地的颜色更深。经反复试验,将阈 值定为一0.035 ̄NDVI≤0.1来提取裸地,剩下的 像元即为城镇用地。 图3和图4为最终形成的决策树模型和分类结果。 4分类精度评价 混淆矩阵方法是目前普遍采用的遥感影像分类 精度的定量评价方法。为了对决策树分类法的分类 结果进行精度评价,分别从分类结果中的各类地物 中等量随机选取了5O个样本,共300个样本。通过 野外实地调查对样本进行验证,在无法到达的地区 则采用同时期的高分辨影像进行检验,建立混淆矩 阵,计算总体精度、Kappa系数、制图精度、用户精 度、漏分误差和错分误差,并与最大似然法的分类结 果(图5)进行比较(表1、表2)。决策树分类法的总 体精度为77.O0 ,Kappa系数为0.742;最大似然 法的总体精度为7O.67 ,Kappa系数为0.648,决 第6期 单捷等基于光谱特征的决策树分类方法研究 225 策树分类法比最大似然法的总体精度提高了 102 44t59 E 102 49l58 E 102 54’59”E 6.33 ,Kappa系数提高了0.086。 Z 0 ¨N H tn A 2 n 警蓁 ■嬲影 工矿用地 { 执 ■城镇用地 102。44’59“E 1 02 49I 58 E 、02 54 59”E 图4基于决策树法的土地利用/土地覆盖分类图 Fig.4 Classification map of landuse/land covers based on decision tree classification 102。45 E 102。50 E 102。55 E N 2 薹A Z ●n I^ N 用地 用地 102。45 E 102 50|E 。 102 55f、 E 耩一■ 爨■ 图3决策树模型 图5基于最大似然法的土地利用/土地覆盖分类图 檀水阴工褫城 被体影矿地镇 Fig.5 Classification map of landuse/land covers based Fig.3 Decision tree model on maximum likelihood classification 表1 决策树法分类精度评价结果 Table 1 Accuracy assessment of decision tree classification 5 结论与讨论 分类特征,所以导致决策树分类法在部分地物上的 提取精度低于最大似然法,如阴影。阴坡在近红外 决策树分类法可以较好地提取目标信息,其总 和中红外波段的反射能量特别低,使它们在影像上 体精度和Kappa系数皆高于最大似然法。 呈现出和水体相似的明显的暗色调,导致用决策树 由于所采用的决策树分类法仅是基于影像的光 分类法提取阴影时的错分误差明显高于最大似 谱特征及其波段间的相互运算,并没有加入其他的 然法。 226 西北林学院学报 25卷 若在以后的决策树分类模型中加入如纹理特 征、形状指数、高程、坡度等更多的分类特征,则决策 树分类法的优势将会更加明显,分类精度会更高。 表2最大似然法分类精度评价结果 Table 2 Accuracy assessment of maximum likelihood classification cover using satellite remote sensing in support of grizzly bear 参考文献: [13汤国安,张顺友,刘咏梅,等.遥感数字图像处理[M].北京:科 学出版社,2004. habitat analysis in the Alberta yellow head ecosystem[J].Ca— nadian Journal of Remote Sensing,2001。27l579—592. [10]赵萍,冯学智,林广发.SPOT卫星影像居民地信息自动提取 [23张仁华.实验遥感模型及地面基础[M].北京:科学}H版社, 1996. 的决策树方法研究[J].遥感学报。2003,7(4):309—315. ZHAO P。FENG X Z,LIN G F.The decision tree algorithm [3]那晓东,张树清,孔博,等.基于决策树方法的淡水沼泽湿地信 息提取——以三江平原东北部为例[J].遥感技术与应用, 2008,23(4)l366—372. of automatically extracting residential information from SPOT images[J].Journal of Remote Sensing,2003,7(4)l 309’ 315. NA X D,ZHANG S Q,K0NG B,et a1.The extraction of freshwater marsh wetland information based on decision tree [11]李彤,吴骅.采用决策树分类技术对北京市土地覆盖现状进 行研究[J].遥感技术与应用。2004,19(6):486—487. LI T.WU H.Application of decision tree classification to algorithm——A case study in the northeast of the Sanjiang Plain[J].Remote Sensing Technology and Application,2008, 23(4)l 366-372. Peking land cover[J].Journal of Remote Sensing,2004,19 (6):488-487. [4] YOAV F,ROBERT E S.A decision—theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119—139. [12]刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法 研究与应用[J].遥感学报,2005,9(7):405—412. LIU Y H,NIU Z,WANG C Y.Research and application of [5] CLARK L A,PREGIBON D.Tree—based models[A]// the decision tree classification using modis data[J].Journal of Remote Sensing,2005,9(7):405—412. HASTIE T J.Statistical models[M].Wadsworth,Pacific Grove,California,USA.1992. [13] MCFEETERS S K.The use of normalized difference water [6]霍艾迪,王国梁,李倩,等.基于MODIS影像数据的陕北黄土 高原植被区划研究[J].西北林学院学报,2009,24(4):32—36. HUo A D,WANG G L,LI Q。et a1.Vegetation division of index(NDWI)in the delineation of open water features口]. International Journal of Remote Sensing。1996,17(7)t1425- 1432. Loess Plateau in northern Shaanxi[J].Journal of Northwest Forestry University。2009,24(4):32—36. [14]徐涵秋.利用改进的归一化差异水体指数(MNDwD提取水 体信息的研究[J].遥感学报,2005,9(5):590—595. XU H Q.A study on information extraction of water body with the modified normalized difference water index(MND— [7J HANSON M C。DUBAYAH R。DEFRIES R s Classiifcation treest an alternative to traditional land cover classifiers[J]. INT.J.Remote Sensing,1996,17:1075—1081. WI)[刀.Journal of Remote Sensing,2005,9(5)l 590-595. [15]查勇,倪绍祥,杨山.一种利用TM图像自动提取城镇用地 信息的有效方法[J].遥感学报,2003,7(1):37—40. ZHA Y。NI S X。YANG S.An effective approach to auto— [8]MUCHONEYD,BORAK J,BORAK H C,eta1.Application of the modis global supervised classification to vegetation and land cover mapping of central America[J].IN T.J.Remote Sensing,2000.21l 1115-11381. matically extract urban land—use from TM imagery[J].Jour— nal of Remote Sensing,2003,7(1):37-40. [9]FRANKLIN S E,STENHOUSE G B,HANSEN M J,et a1. An integrated decision tree approach(IDTA)to mapping land-