您好,欢迎来到六九路网。
搜索
您的当前位置:首页改进随机森林算法的图像分类应用

改进随机森林算法的图像分类应用

来源:六九路网
计算机系统应用ISSN 1003—3254,CODEN CSAOBN Computer Systems&Applications,2018,27(9):193—198(doi:10.15888 ̄.cnki.csa.006537】 ◎中国科学院软件研究所版权所有. E—mail:csa@iscas.ac.cn http://www.c—s-a.org.cn Tel:+86-10—62661041 改进随机森林算法的图像分类应用① 张志禹,吉元元,满蔚仕 (西安理工大学自动化与信息工程学院,西安710048) 摘要:针对随机森林算法中节点方式单一且相似的问题,提出一种改进节点方式的优化算法,将算法中 的节点方式ID3与CART进行重新组合,通过自适应参数选择得到新的规则,用于最优属性的选择 划分并应用于图像分类问题.首先以词袋模型为基础,加入空间金字塔结构来提取图像特征,并将其量化成视觉词 汇,最后结合Spark平台用改进节点方式的随机森林算法实现图像分类.实验结果表明,通过选择组合算法的 最优系数,该算法有效提高图像分类准确率,并保证算法运行效率. 关键词:图像分类;随机森林;节点;空间金字塔 引用格式:张志禹,吉元元,满蔚仕.改进随机森林算法的图像分类应用.计算机系统应用,2018,27(9):193—198.http://www.C—S.a.org.cn/1003. 3254/6537.html Image Classification Application Based on Improved Random Forest Algorithm ZHANG Zhi-Yu,JI Yuan—Yuan,MAN Wei—Shi (Faculty ofAutomation and Information Engineering,Xi’an University ofTechnology,Xi’all 710048,China) Abstract:An improved random forest node splitting algorithm is proposed in this study for improving the accuracy of image classification.The independent splitting method ID3 and CART are re-combined,and new splitting rules are obtained by adaptive parameter selection.On the basis of the bag—o ̄words model,the spatial pyramid model is introduced to extract image features.After dividing the image into different grids,k—means algorithm is then used to character clustering.Finally,it uses the algorithm for verification on a large number of images on Spark.The results show that the algorithm can be applied to distributed systems,and can greatly improve the classification accuracy while ensuring the eficiency of fthe algorithm at the same time. Key words:image classification;random forest;node splicing;spatial pyramid model 1引言 随着互联网技术、多媒体应用和计算机视觉的不 断发展,对于海量场景图像的分类处理成为不容小觑 图像分类是通过提取图像的底层特征,如颜色、纹理 等特征.但是,这些算法对应的是全局信息从而确定目 标的整体结构不能变,且会因为图像缺失或者光线或 遮挡问题而受到影响,这样在处理复杂图像时效果并 不理想.Avilal1]在图像分类中用到了词袋模型,并且引 入了基于密度函数的池策略.这种方法能够更好地代 表词典的码字并描述图像.将该方法用在视频和图像 分类上,都有不错的分类效果.Li等人【21将视觉词汇与 的问题.近年来,主要以词袋模型(Bag ofWord,BoW)、 卷积神经网络等图像分类算法的有效分类性能吸引了 更多的关注.图像分类己成为管理应用图像数据的关 键技术,由于图像的多样性和复杂性以及类内的差异 性,如何更加准确全面地表示图像是一个问题.早期的 ①基金项目:国家自然科学基金(41390454) Foundation item:National Natural Science Foundation ofChina f41390454) 收稿时间:2018一O1—23;修改时间:2018—02—27;采用时间:2018—03—06;csa在线出版时间:2018.08—16 Software Technique·Algorithm软件技术·算法1 93 计算机系统应用 http:llwww.C-S—a.org.cn 2018年第27卷第9期 空间金字塔匹配模型结合,提出了一种仿射传播聚类 算法用于高分辨率遥感图像分类,实验结果表明该算 法分类性能优于传统聚类算法. 在本文中实现图像分类的步骤如下: Step1.利用SURF特征进行图像特征采样 ,再利 用局部特征描述子形成对这些向量的表达; s 2.对图像的特征向量进行聚类得到视觉单词LJ , 计算每幅图片到这些视觉单词的距离,并将其映射到 随机森林算法在处理非平衡数据集、连续变量与 决策树节点算法【3]问题等方面提出和发展了许多 新方法.对场景图像进行特征提取后的后续分类,本文 拟采用随机森林(Random Forest,RF)算法做进一步的 研究.文献『4]中提出一种新的特征加权方法和决策树 选择方法(Improved Random Forest,IMRF),结合协同 距离最近的视觉单词,完成每幅图像的词频表达[121; Step3.利用改进的自适应节点随机森林算法 fSelf-Adaptive Node Split Random Forest,SANS—RF)进 服务,使随机森林算法适用于多类大量图像数据的分 类.利用该方法,在不增加误差界的前提下,有效地减 少子空间的大小,提高分类性能.Archana Chaudhary等 人【5】由随机森林机器学习算法、属性评估方法和实例 过滤方法组成一种新的随机森林分类器方法,并用于 多类别花生病害分类问题,并极大提高分类精度.但是, 这些方法在海量数据的分类效率与分布式计算问题上 还存在一定的制约,同时分类精度也有待进一步提高, 难以适应信息量的爆炸式增长,因此相关问题上还有 待进一步学习研究. Apache Spark集群计算平台【6 r如图l1是一个基 于内存计算的开源运算系统,在运算速度上可以满足 人们的需要;Spark启用了内存分布数据集[8],除了能 够提供交互式查询外,它还可以优化迭代工作负载,具 有很好的容错机制【9】,该机制可以维护“血统”,可以记 录特定数据转换操作行为的过程.同时Spark可以很 好的兼容Hadoop生态系统,这使得其应用发展都有了 很好的基础.因此本文中,有关于场景图像分类的若干 步骤将在该平台下进行,有利于对大数据量问题的研 究与分布式计算的实现. ④④⑧④ HDFS,Amazon S3,Hbase,Hypertable,etc 图1 Spark生态系统 1 94软件技术·算法Software Technique·Algorithm 行图像分类并利用包外图像进行验证,改进算法及涉 及到的理论会在后续段落重点介绍. 2空间金字塔模型 2.1词袋模型 在场景图像分类的众多算法中,BoW模型的最大 优点是将图像表示为视觉词汇,更容易识别并表示出 图像中感兴趣的部分【I引,即将图像看作一个“文档”,关 键词就是提取图像的SURF特征,称为“视觉词典”【】 . 为了在特征点检测与匹配实现尺度不变性,SURF 算法首先用Hessian矩阵确定候选点,然后进行非极大 抑制,会使计算复杂度降低许多.Hessian矩阵是SURF 算法的核心,即根据图像中每一个像素点的Hessian矩 阵,如式(1),得到Hessian判别式,如式(2),其值即是 Hessian矩阵的特征值,可以用该式的结果对像素点进 行分类: } } OqX2 H(f(x,),))= v a -厂 a0_厂 0xOy 0y2 ( 02f O2f一( ) (2) 在SURF算法中,通常利用图像像素 ( ,),)代替原 始的f(x,y),通过特定核间的卷积计算二阶偏导数,可 以得到Hessian矩阵的三个元素 , , ,因此Hessian 矩阵如下所示: =l Lxx(X五,0Or')Lx y(x ,Or;l (3) 同时选用二阶标准高斯函数作为滤波器,即在 Hessina矩阵构造前,需对其进行高斯滤波: L(x, )=G(f)·J(五f) (4) 20l8年第27卷第9期 http://www.C—S—a.org.cn 计算机系统应用 其中L(x,t)代表一幅图像在不同解析度下的表示, C(t)代表高斯核,公式如下: G(f): 02g(t) ( )=F =((Fro1)T,. --,(F M』J)T)TfW~Ⅳ∈R~Wd ,(9) 以上公式可以将需要分类的图像更好表示 (5) o 。 以上计算可以判别特征点,为此Herbert BaytH 提 出用近似值代替L(x,f),为减小准确值与近似值之间的 误差引入权值,权值随尺度变化,则Hessian矩阵的判 别式表示为: det(HapDr0x)=D D v一(0.9D ) (6) 3随机森林算法 3.1算法简介 随机森林是一种组合分类器,它利用Boostrap重 抽样方法从原始样本中抽取多个样本[161构造子数据集. 利用子数据集形成基决策树并对其进行训练,RF在决 策树的训练中引入了随机属性选择,即对基决策树的 每个节点,先从该节点的属性集合中随机选择一个包 含k个属性的子集,然后再从这些子集中选择一个最 具体公式推导可详见文献[14]. 通过以上方法可以生成尺度空间,再通过精确定 位特征点,选取特征点主方向确定的步骤,就可以构造 SURF特征点描述算子,进行图像特征提取. 2.2空间金字塔结构 利用上一小节提到的词袋模型表示图像可以得到 一优属性用于节点,这样可以使每棵决策树彼此不 同,提升系统的多样性,然后将这些决策树组合在一起, 利用Boostrap中未抽取到的样本作为包外数据集进行 验证,并通过投票法得到分类结果,从而提升分类性能, 算法流程图如图3所示. 个不错的分类效果,但是该模型没有考虑图像的空间 位置信息,得到的是图像的一个无序集合.因此在这一 步骤中引入了空间金字塔模型,以达到充分利用图像 空间信息的要求. 该模型首先对局部特征量化,然后在每个金字塔 水平把图像划分为细网格序列 1,从每个金字塔水平 的网格中提取特征,同时给每层网格分配一个权重,按 权重把每层网格特征加权串联在一起,如图2所示. 图2空间金字塔模型示意图 图3随机森林算法 F=( , ,…, 1)’…,斤一,…, L( -I)) (7) 节点是RF算法的核心步骤,通过节点才 能产生一颗完整的决策树【l .每棵树分支的生成,都是 按照某种规则选择属性,这些规则主要包括信息 ={ 。 ㈣ 增益最大、信息增益率最大和Gini指数最小等原则. 然后选择某个属性作为属性,并按照其划分实现 决策树分支生长.随着划分过程的进行,节点的纯度越 来越高,即该节点所包含的样本尽可能的属于同~ Software Technique·Algorithm软件技术·算法1 95 计算机系统应用 http:llwww.C·S—a.org.cn 2018年第27卷第9期 类别. 值为最小,即ID3与CART均最优作为节点划分准 3.2改进随机森林算法 大量研究都证明了随机森林算法具有较高的分类 准确率,对异常值和噪声有很好的容忍度,而且不易出 现过拟合.本文提出的SANS.RF算法,通过参数的自 适应选择过程,来优化算法中决策树的节点算法, 达到提高算法分类精度的目的. 对同一个数据集,选择不同的节点算法,也会 因选择的属性不相同而得到不同的决策树,得出随机 森林的分类精度会有差异.因此提出在生成决策树时, 选择最优的属性进行节点,即将节点算法进 行线性组合,形成新的规则,应用于节点属性的选 择划分.由于Spark mllib的随机森林算法中集成的节 点算法只有ID3和CART。因此节点优化的 考虑暂定这两种算法上,其节点公式表示用属性 口对样本集D进行划分所获得的信息增益与基尼指数分 别如下: v 则可提升分类效果. 由于不同图像集中图像的特征是不同的,所以 SANS.RF算法中的参数选择也难以固定,因此采用自 适应参数选择过程,得出最优的组合参数,对于参数 口, 应满足上式中的约束条件. 实验中采用分类错误率与准确率进行性能度量, 对于样本D,分类错误率定义为: E(,;JD)=一1 II(. )≠Yi) (15) m吾 准确率则定义为: (f;D)-1 m II(f(xi)=Yi)=l—E(,;D) (16) 具体实验效果在下节进行对比验证. 4实验过程及结果 ( )(10) )一 4.1空间金字塔模型 本节通过对比实验来验证词袋模型与空间金字塔 模型的分类效果,实验设置为对Caltechl0l,256 0biectCategories,SUN20l2三种数据集中如图4 所示,对这些图像提取特征并聚类,最后利用包外数据 进行测试得到分类错误率testErr,每组实验进行多次 取平均值作为最终实验数据,实验结果如图5所示. G ,口)=∑v ID"IG f(D ) l’=l 一 (1 1) 其中D 表示第v个分支节点包含的D中所有在属性a上 取值为av的样本: Ent(D)=一>.pklog2Pk lYl bt (12) Gi,zf(D):∑∑p p =1一∑p; (13) =I k ≠ =I spear earphone cup gerenuk 式(12)和式(13)分别表示数据集D的信息熵与 基尼值. 表1 节点算法对比 算法节点准则 准则指标 划分的数据集中样本的纯度 ID3 信息增益最大 (a)Caltech 101数据集 鳓篓 ■逸 bear breadmakereyeglasses mailbox pyramid treadmi  Categories数据集 (b)256ObjectCART Gini指数最小 从数据集中随机抽两个样本不同的概率 结合表l内容,节点准则应以划分后数据集 纯度更高为目标,因此组合节点公式为: H=m in F{D,a}=ofGini(D,a)-flGain(D,口) n ∈尺 abbey doorway jetty towel river (C)SUN 2012数据集 sauna f 口+ =1 S.t.{1  0 ,(14) 图4数据集样本 卢 1 从图5中数据可以看出对这三种数据集,在词袋 模型的基础上引入空问金字塔模型可以有效的提高分 其中,参数口, 代表两种算法在H(x)rO的系数,式中取 1 96软件技术·算法Software Technique·Algorithm 2018年第27卷第9期 http:Nwww.c-s-a.org.cn 计算机系统应用 类准确度,降低错误率,因此在后续算法改进中会以此 果如图7至图9所示,其中,SVM(Support Vector 模型为基础继续进行. 48 4。 32 量24 l6 8 。 词袋模型 空间金字塔 图5空间金字塔与词袋模型对比结果 4.2分布式vs单机版 图像分类算法的计算时间会随着图片数量增加而 急剧增加,但是在大数据平台下,可以利用分布式处理 来缩短程序的运行时间,该平台有三个节点分别为 master,slavel,slave2,其内存为8 GB,4线程运行,同 时将图片的视觉特征文件存放在Hadoop HDFS分布 式系统中,Spark单机版与分布式系统运行对比结果见 表2,运行时间以分钟为单位. 表2 单机与分布式运行时间对比 加速比是指同一个任务在单机系统和分布式系统 中运行所用时间的比率,用来衡量分布式算法的效率, 其计算公式为Sp=T1/T2,T1是单节点下运行时间, 是分布式运行时间,结果如图6所示. 4.3改进随机森林算法的结果 根据上一节中SANS.RF算法的改进公式可知,线 性组合算法的系数值对分类结果会有重要的影响,因 此本节中首先用不同图像集中的1000幅图片进行测 试,人为给定参数值,并以包外数据的分类错误率 testErr作为指标进行验证,实验结果如表3所示. 由表3可知对不同图像集参数的最优组合是不能 固定的,因此引入参数的自适应选择来得到最优的分 类结果是合理的. SANS.RF算法的在三种不同图像集上的分类结 Machine)是通常情况下图像分类会选择的算法,原始 RF指Spark平台上未改进的随机森林方法。IMRF为 文献[4】中提出的利用权重与决策树选择的随机森林改 进算法. 2·9 2.8 2·7 2.6 型2.5 2·4 2.3 2·2 2.1 200 300 400 500 600 700 800 900 1000 l10O 图片(幅) 图6 Spark平台加速比结果图 表3 SANS.RF算法参数验证表 0.95 0.90 分 耋 8 0.85 0.80 O.75 图7图像集1(Caltech一101)中算法分类准确率对比 通过这几种算法的对比,实验结果表明,本文中提 出的SANS—RF算法有着很好的分类准确率,远远高于 基础RF算法与支持向量机分类效果,并且比IMRF 算法更加稳定,更适用于海量图像的分布式应用.因此, 本文提出的基于Spark mllib随机森林的组合节点 算法是令人满意的. Softw ̄e Technique·Algorithm软件技术·算法197 计算机系统应用 O O http:llwww.c—s—a.org.cn 时 0 2018年第27卷第9期 《 0 0 5结束语 如 舯 20l7.2671364] 本文在Spark平台下实现了不同场景图像的准确 分类,首先在简单的词袋模型的基础上验证了空间金 字塔模型的有效性;其次针对随机森林的节点算 法进行改进并实验,通过对比,验证该算法的有效性与 准确性.Spark平台可以有效提高算法运行效率的同 3李慧,李正,余垫.一种基于综合不放回抽样的随机森林算 法改进.计算机工程与科学,2015,(7):1233—1239.[doi: 10.3969/{.issn.1007.130X.2015.07.002] 4 XuB.YeY NieL.Animproved randomforest classiierfor fimageclassification.Intemational Conference on Information and Automation.IEEE.2012.795-800.『doi:10.1109/ 时,又保证了分类准确率,适合海量图像的分类研究. 20O 400 600 800 图片(幅) 图8 图像集2(256一ObjectCategories)中算法分类准确率对比 0·95 O_9O 0-85 s。 喜"s O.70 。65 0.60 400 600 800 图片(幅) 图9 图像集3(SUN2012)中算法分类准确率对比 同时可以在增加分类图片数量和融合更成熟有效 的节点算法上进一步研究,以体现Spark平台在 处理速度上的优势,并提高分类准确率. 参考文献 1 Avila S.Thome N.Cord M.et a1.B0SSA:Extended bow formalism for image classiitcation.201 1 18th IEEE International Conference on Image Processing.Brnssels. 201 1.2909—2912.fdoi:10.1109/ICIP.2Ol1.61 162681 2 Li X,Zhang L,Wang L,et a1.Effects ofBOW model with afifnity propagation and spatial pyramid matching on polarimetric SAR image classiifcation.IEEE Journa1 of Selected Topics in Applied Earth Observations and Remote Sensing.2017,l0(7):3314-3322.[doi:10.1 109/JSTARS. 1 98软件技术·算法Software Technique·Algorithm ICInfA.2012.6246927] 5 Chaudhary A.Kolhe S.Kamal R.An improved Random Forest Classifier for multi.class c1assificatiOn.Information Processing in Agriculture,2016,3(4):215-222.[doi: 10.1016/j.inpa.2016.08.0021 6 Reyes—Ortiz JL,Oneto L,Anguita D.Big data analytics in the cloud:Spark on Hadoop vs MPI/OpenMP on Beowulf. Procedia Computer Science,2016,53:121-130. 7 Singh S,Liu Y.A cloud service architecture for analyzing big monitoring data.Tsinghua Science and Technology, 2016,21(1):55-70.『doi:10.1 109/TST.2016.7399283] 8 Islam NS,Wasi Ur—Rahman M,Lu X,el a1.Performance Characterization and acceleration of in—memory file systems ofr hadooD and spark applications on HPC clusters.IEEE International Conference on Big Data,201 5,243-253.[doi: 10.1109/BigData.2015.73637611 9 Yigitbasi N,Willke TL,Liao GD,et a1.Towards machine learning.based auto.tuning of MapReduce. IEEE 2 1 st International Symposium on Modelling.2013.11_20.rdoi: 1O.1109/MASC0TS.2013.91 10朱杰,超木日力格,谢博望,等.利用颜色进行层次模式挖 掘的图像分类方法.计算机科学与探索,2017,(3):396-406. 11 Kausar N,Majid A,Javed SG.Developing multi—focus image fusion system with random forest learning algorithm for rea1. blurred images.2016 13th International Bhurban Conference on Applied Sciences and Technology.20 1 6.2 1 9—224.[doi: 10.1 109/IBCAST.2016.74298801 12 Kurir ̄jivendhan N,Thangadurai K.Modiifed k.means algorithm and genetic approach for cluster optimization. 20 l 6 International Conference on Data Mining and Advanced Computing rSAPIENCE).20 1 6.53-56. 13 Gait ̄a D,lsaza C,G6mez W,et a1.Categorization of ecosystems based on soundscape analysis:A perspective from image classitication.International Conference on Computational Science and Computational Intelligence. IEEE.2017.762-766. 1 4 Tbe ofileal home of the image processing libary.http://www. chrisevansdev.corn/computer-vision—opensur ̄htm1. 1 5 Abdelouahed S.Ennouni A.Aarab A.Automatic estimation of clusters number ofr K—means.2016 4th IEEE International Colloquium on Information Science and Technology(CiSt). 2016.45O-454.fdoi:10.1109/CIST.2016.78050891 16郭佳.场景图像分类的相关技术研究[硕士学位论文].西 安:西安电子科技大学,2013. 17曹正凤.随机森林算法优化研究[博士学位论文].北京:首 都经济贸易大学,2014. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务