基于PSO-SVM的居民出行方式预测模型
来源:六九路网
第11卷第5期 交通运输系统工程与信息 Journal of Transportation Systems Engineering and Information Technology Vo1.11 No.5 October 201 l 2011年10月 文章编号:1009-6744(201 1)05-0155-07 基于PSO.SVM的居民出行方式预测模型 许铁 ,高林杰。,景 鹏 ,陈东清 (1.福建交通职业技术学院,福州350007;2.上海交通大学交通运输工程研究所,上海200052; 3.福州大学管理学院,福州350001) 摘要: 居民出行方式选择是一个较为复杂的非线性问题,受到的影响因素众多。提出 采用支持向量机方法构建了居民出行方式选择模型,并以交叉验证意义下的分类准确 率作为适应度函数,利用粒子群算法对支持向量机参数优化选择,避免参数设定的随机 性,减少参数选择的工作量.通过实证研究表明,利用粒子群算法优化支持向量机的参 数是可行的,支持向量机方法相对于BP神经网络,对居民出行方式预测有更高的精 度.预测精度比BP神经网络提高了将近5个百分点,建模样本和测试样本的分类精度 分别达到86.2O%和82.31%.所构建的模型可用于居民出行方式预测,这对城市交通 规划,出行需求预测具有现实指导意义. 关键词: 城市交通;出行方式预测;支持向量机;粒子群算法;参数选择 中图分类号: U491.1 文献标识码:A Prediction Model of Residents’Trip Mode Based on PSO-SVM XU Tie ,GAO Lin-jie ,JING Peng2,CHEN Dong—qing (1.Fujian Communications Technology College,Fuzhou 350007,China; 2.Institute of Transportation Studies,Shanghai Jiaotong University,Shanghai 200052,China; 3.School of Management,Fuzhou University,Fuzhou 350001,China) Abstract: Resident trip mode choice is a complex nonlinear problem which is affected by many factors. This paper models the resident tirp mode with the support vector machine(SVM)method.It uses the classification accuracy as fitness function in the sense of cross validation and then adopts the particle swarnl optimization(PSG・)algorithm to select parameters.The choice rnadomness of specifying the parameters are avoided and the W—arkload of the parameter selection are reduced.The empirical studies indicate that the PSO based parameters optimization in SVM is feasible.Compared with the BP neural network model,the SVM model achieves a better prediction performance for resident tirp mode choice.The prediction accuracy of the SVM model is imp roved by 5%to BP neural network mode1.The SVM model obtains the forecasting accuracy rate of 86.20%t0 the model setting and 82.31%to the test samples.The empiircal results show that the model can be used for resident trip mode forecasting and provides a practical guidance to urban traffic 收稿日期:2011-07—18 修回日期:2011-08-14 录用日期:2011-09-01 基金项目:国家自然科学基金项目(50808123). 作者简介:许铁(1962-),男,广东广州人,副教授,硕士. ’通讯作者:xutie—cn@21cn.corn 156 planning and trave1demand forecasting. .交通运输系统工程与信息 2011年lO月 Key words: urban trafifc;trip mode prediction;suppo ̄vector machine(SVM);particle swan/l optimization(PSO);parameter selection CLC number: U491.1“Document code: A 1 引 言 居民出行是指城市居民为完成某一目的,使用 某一种交通方式,耗用一定的时间,从出发地经某 一路径到达目的地的位移过程.居民的出行构成了 城市的交通需求,随着城市交通拥挤状况日益严 重,居民出行方式选择成为研究的热点,为了研究 此问题,交通部门需对居民出行方式进行调查.居 民出行调查是指对交通规划区域居民在一定时间 内的个人与家庭属性、社会经济属性以及出行方式 进行调查,其目的是掌握居民出行的流向、流量和 出行方式等.居民出行调查可收集交通规划中需要 的基础资料,是进行交通需求预测和制定交通规划 方案的重要依据,也可为优化现有的城市交通网络 及科学制定交通网络提供决策信息。 居民出行调查的抽样率一般在3%至5%,然 而由于调查中不可控制的因素较多,各分区的抽样 率总存在差异,并且抽样调查数据也具有特殊性, 如何用少量的抽样数据分析出代表普遍规律的出 行特征,为城市交通优化提供决策支持,成为许多 学者研究的重点.杨扬等(2010年)从出行链的角 度对居民出行活动类型进行识别研究,指出不同的 核函数对活动类型的识别存在差异¨J.鲜于建川 等(2010年)利用递归联立离散选择模型对居民出 行方式进行了研究,研究结果对于出行需求预测有 指导意义 j.冯树民等(2010年)利用BP神经网 络对居民出行产生量进行预测 J.冯忠详等(2010 年)利用非集计模型研究了农村人口的出行方式 选择 . 但是由于居民出行方式选择受到的影响因素 众多,是一个典型的非线性系统,建模相对复杂.支 持向量机(Support Vector Machine,SVM)产生于2O 世纪90年代,是非线性建模的数据挖掘方法,避免 了人工神经网络可能陷入局部极小点、网络结构难 于确定的缺点,具有更强的泛化能力,这种方法适 合分析居民出行方式选择这种复杂的行为.传统关 于SVM的参数选择更多采用反复凑试的方法,来 取得较好的模型效果,存在较大随机性,且工作量 较大.本文提出以交叉验证意义下的支持向量机分 类正确率作为适应度函数,利用粒子群算法 (Particle Swarm Optimization,PSO)优化支持向量 机的参数,构建基于粒子群优化支持向量机的居民 出行方式选择预测模型,并通过福州市居民出行专 项调查数据进行实证研究,可为预测居民出行方式 提供新的思路. 2 基于粒子群优化的支持向量机分类模型 2.1基于支持向量机的居民出行方式选择模型 支持向量机是Vapnik教授等人在20世纪90 年代提出的一种新的统计机器学习理论,它是在小 样本情况下发展起来的,核心思想为寻求结构风险 最小化.该方法通过非线性变换,在高维特征空间 中把研究问题线性化,而得到的却是原样本空间中 问题的非线性解,是一种非线性系统建模的新方 法,克服一些传统机器学习方法研究的不足.目前 支持向量机理论发展迅速,已经成为机器学习和数 据挖掘领域的一个新方法.支持向量机模型主要用 于回归和分类,本文重点探讨用于分类的支持向量 机模型. 居民出行常见的出行方式不多,通过分析居民 出行方式的影响因素,设计一定的调查问卷,就能 获取居民出行的相关信息,收集的数据格式如表1 所示.通过研究个体的出行方式,构建居民出行方 式选择模型,如果构建的模型能够准确对居民出行 方式进行划分,则可用于预测居民出行方式,这对 于研究居民出行方式选择具有适用性. 基于支持向量机的居民出行方式选择模型的 任务就是要寻找一个分类机,根据已有的m个数 据,模拟居民出行方式选择的规律,并能够对新的 样本进行较准确的分类.依照支持向量机的理论, 第11卷第5期 基于PSO—SVM的居民出行方式预测模型 157 可把m个样本看成是n维空间的点,如何在这个n 维空间中,寻找超平面尽可能准确地把这些点分 2.1.2二分类线性不可分的情况 对于线性不可分的问题,Vapnik等人成功地 引人了核空间理论,将低维输入空间的数据通过非 开,同时对于一个新的样本也能准确划分,成为研 究的重点.以下重点介绍支持向量机是如何寻找最 优超平面的. 表1居民出行调查数据 Table 1 The residents’travel survey data 线性映射函数映射到高维属性空间,从而把分类问 题转化到高维属性空间,大多数输入空间线性不可 分问题在属性空间可以转化为线性可分问题.为了 避免高维空间中的复杂计算,支持向量机采用了一 2.1.1 二分类线性可分的标准最优分类面 支持向量机理论是从线性可分情况下的最优 分类平面发展起来的,也是统计学习理论中最实用 的部分 .对于给定的训练样本集( ,Y ),( :, Y ),…,( ,Y ),其中. ∈R 为Ⅳ维向量,Y ∈{一1,1}在线性可分的情况下,在特征空间中构 造多个分割平面,这个超平面被定义为 (W・ )+b=0 (1) 同时,这个分类面能将两类(1,一1)无误差地 完全分开,即满足: f(W‘ )+b≥1,xi∈1 / 、 I( . )+b≤1, ∈一1 在满足上述条件所有的分类面中,查找最优超 平面,这个最优超平面满足两类的分类空隙dist最 大,即每类距离超平面最:匠的样本到超平面的距离 之和最大.这个距离可表; 为 挑 : (3) 所以,求解最优超平面问题等价于在式(2)约 束条件下,求式(3)的最:赶值,这样建立线性支持 向量机的问题转化为求解式(4)二次凸规划问题: (4) 【S.t. ), ((W・ )+b)≥1 该约束优化问题可以用Lagrange方法求解,得 到最优超平面决策函数为 ( )=sgn(∑ai Y ( ・Xi)+b )≥1(5) 个核函数K(x,Y)代替高维空间中的内积运算 ( )・ (y),引人松弛变量 ,优化问题为 m in t I +c∑,i=1 . (xi))+b+ ≥1 (6) 【 ≥0,i=1,…,1 引入拉格朗日函数将式(6)转换为对偶形式: ‘m in寺∑∑。 ( , )一∑0 iY =。 . 【0≤a ≤C,i=1,…,l 计算,( )=sgn(∑ai yiK(x ,xj)+6 )判别 未知样本 的类别.通过核函数的变化处理,为处 理支持向量机提供了很大方便.常见的核函数类型 有:多项式核函数、径向基核函数-RBF,样条核函 数.本文采用的是径向基核函数RBF. 2.1.3居民出行方式的分类 居民出行方式选择属于多分类的问题,可转换 成多个二类划分问题解决.对应的每个二分类的决 策函数为 ( )=sgn(∑aiy K(x , )+bi) (8) 如果 ( )=1,则 属于第 类,如果 ( )=一1, 则 不属于第i类.故可得到多分类问题的总判别 函数为 ( )=arg(max(∑aiy K(x , )+bi))(9) 式(9)中,arg为选取指标函数,含义为:选取 样本点 对于决策函数f/(x)中值最大函数的指标 i对应的类,作为样本点所应该归属的类. 在居民出行方式选择中,可分别把居民常见的 l58 交通运输系统工程与信息 2011年lO月 几种出行方式分别赋予类别标志,如把步行标识为 有较高的分类准确率. 由于支持向量机分类模型中,存在参数选择的 问题,模型效果主要受到惩罚系数C,以及核函数 参数 的影响.如果通过凑试法对参数进行选择, 存在人为选择的随机性,且工作量大.本文提出采 用粒子群优化算法,把交叉验证意义下的支持向量 机分类正确率作为粒子群优化的适应度函数,借助 1,电动车标识为2,公交车标识为3,私家车标识为 4,构造4个二分类器,通过总判别函数就可以识别 居民出行方式,例如:若 ( )=一1表示不属于这 种出行方式;若 ( )=1,M( )=3,则代表属于公 交车出行方式. 2.2粒子群优化算法 粒子群算法是由Kennedy J和Eberha ̄R C等 在1995年提出的一种启发式算法 j.PSO算法体 现了生物群体间的合作与竞争等复杂行为而产生 的群体智能,已经应用到函数优化、神经网络优化、 电力系统、组合优化等领域. 假设在D维搜索空间中,有m个微粒组成一 个微粒群,其中第 个微粒的空间位置为置=[ ,…, ],(i=1,2,… )把它代人优化目标函 数,并计算相应的适应值,根据适应值来衡量 的 优劣;第i个微粒所经历的最好位置称作个体历史 最好位置,记为P =[P P …,P ];同时,每个 微粒还具有各自的飞行速度Vi=[ V ,…, ], 所有粒子所经历位置中的最好位置称为全局历史 最好位置,记为P =[P P ,…,P ],相应的适应 值为全局历史最好适应值 .对每一代微粒,其第 d维(1≤d≤D)根据如下方程迭代 J: f13id= 试+C1r1(Pz一 )+C2r2(p ̄一 ) L ‘d Kid+ (1O) 式(10)中, 为惯性权值;c ,c:为正常数,称 为加速系数;r ,, 为两个在Eo,1]范围内变化的随 机数. 2.3基于粒子群算法优化的支持向量机分类模型 构建思路 交叉验证(Cross.Validation,CV)是用来检验 分类器性能的一种统计分析方法 ,该法把原始 数据均等分为K组,将每个子集数据分别做一次 交叉验证,同时其余的K一1组子集作为训练集,从 而得到 个模型,用这 个模型最终验证集的分 类准确率的平均值作为分类器性能的评价指标.通 过交叉验证得到的模型对建模数据和测试数据都 计算机的强大的运算功能自动选择参数,得到最佳 适应度函数下的惩罚系数值、核函数参数值.利用 得到的参数重新训练和测试模型,如果都能得到较 好的预测精度,则能得到满意的模型,否则重新分 析问题的影响因素,再次建模,直至得到满意的模 型.建模思路如图1所示. 分析问题, 数据预处理 初始化粒子 二二[ 位置和速度 选定训练集 和测试集 二二[ 确定最佳的参数(CV 计算适应度函数 意义下的准确率) 二二[ 利用最佳参数 训练SVM模型 速度更新 二二工二二 位置更新 测试模型 确定最优解 准确率低 输出参数 图1 PSO—SVM模型构建流程 Fig.1 Construction process of pso—svm model 3 实证研究 3.1数据来源 为更加合理规划城市交通系统,2008年福州 市进行了居民出行专项调查.本文通过数据预处 理,选取了647个有效调查样本进行实证分析,此 次居民出行调查部分数据如表2所示,相应变量说 明如表3所示. 第11卷第5期 基于PSO—SVM的居民出行方式预测模型 159 l 2 3 4 5 6 7 8 9 m 2 2 1 2 2 l 2 l l 2 5 3 4 3 3 4 5 3 3 3 8 2 9 9 2 7 8 4 7 1 6 4 6 n U 6 7 ¨ 5 2 O 2 l l O 2 l 2 1 O O 1 0 1 O O 1 1 0 O O O 1 1 1 O 0 O 0 4 2 3 2 7 1 4 l 4 2 1:2 000以下000—5 000 5:5 000—6 000 6:6 000—7 000 2:2 000—3 000 3:3 000—4 000 4:4 1O:10 000—11 000 11:11 000—12 000 家庭月总收人 8 4 7:7 000—8 000 8:8 000-9 000 9:9 000-10 000 l2:12 000以上 7 6 l 6 8 6 7 5 1 3 2 4 3 4 l 2 2 1 3.2数据预处理及参数设置 关于粒子群初始值的设置,加速因子c ,c 均 设置为2(这两个参数通常取值为2 ),考虑到优 化算法的时间问题,设置最大迭代次数为100,种 群的数量设置为2O,交叉验证的系数设置为5,即 把647个样本分成两部分,其中的500个样本 作为建模样本,147个样本作为测试样本.以性别、 年龄、职业、家庭月总收入、自行车拥有量、电动车 拥有量、私人小汽车拥有量、出行目的以及到达地 进行5折验证.为了节约计算时间,不宜把SVM惩 罚系数和核函数参数的最大值设置得太大,同时应 点用地性质作为输人,以出行方式作为输出训练模 型.考虑到变量之间存在量纲的差别,以及个体之 间存在较大差异,对数据进行了标准化处理.本文 把数据规整到[一2,2]之间,公式如下: Y: : 4 X 一—— ! 一 一2 一 兼顾模型分类的准确率,为此本文SVM中惩罚系 数C的最大值为50,最小值为0.1,核函数参数 的最大值为50,最小值为0.1,通过计算机模拟表 明,这两个参数的设置是合理的. 3.3模型结果分析 (11f1)) mBxmin 通过上式把变量规范转化到[一2,2]之间,其中 为变量 的最小值,Xmax为变量 的最大值. 利用Mad ̄b 2009b编程实现模型计算,最优粒 子的适应度值变化如图2所示,在起初阶段,随着 16O 交通运输系统工程与信息 2011年10月 进化代数的增加,最优粒子的适应度值(交叉验证 意义下的支持向量机分类准确率)不断提高,当种 群进化代数在4O以后,基本保持在一个稳定的值, 根据图2可确定最优粒子的最佳适应度值约为 79.6%.在此最佳适应度值下,得到在交叉验证意 义下的支持向量机最优的惩罚系数C为1.810 2, 最优的核参数 为0.100 0,并用该参数重新训练 模型,得到建模样本和测试样本的分类精度如表4 所示. 遁应度曲线 (终止代数:100,最大种群数量pop=20) 79 79 79 79 79 蜊 79 79 78 …。I- —._. 佳适 应度} 78 0 l0 20 3O 4O 5O 60 7O 8O 9O l0O 进化代数 图2最优粒子的适应度曲线变化图 Fig.2 Variation of best particle fitness curve 表4 SVM模型分类结果 Table 4 Classification results of SVM mode1 分类精度是衡量本文构建的居民出行方式预 测模型的重要指标,含义为模型分类结果中被正确 划分到某个类别占所有分类样本的比重.计算公式 如下: 分类精度= × o0%( 2) 由表4可以看出,建模样本的分类精度为 86.20%,也就是本文所构建的居民出行方式预测模 型,在500个建模样本中,能把步行、电动车、公交 车、私家车这4种出行方式正确划分的样本有431 个,错分的样本数量为69个;再用该模型预测居民 出行方式,选取147个样本,能正确预测居民出行方 式的样本数为121个,准确率达到82.31%. 人工神经网络在交通行业也得到了广泛应用, 为了比较支持向量机和BP神经网络两种方法在 居民出行方式选择预测中的分类效果,本文利用 BP神经对居民出行方式进行分类,采用三层的BP 网络结构,隐含层采用双极型tansig函数作为传递 函数,输出层采用线性purelin函数作为传递函数, 经过计算机模拟,得到的结果如表5所示。 表5 BP模型分类结果 Table 5 Chassification resulst of BP model 由表4和表5的分类结果可以看出,支持向量 机方法对居民出行方式选择具有较好的拟合效果, 建模样本和测试样本的分类精度均达到80%以 上,均比BP神经网络分类精度提高了将近5个百 分点.支持向量机方法在居民出行方式选择预测 中,更具有优势.在实际应用中,居民的属性特征、 拥有交通工具情况和出行目的等信息,通过调查相 对容易得到,并且信息相对稳定.通过输入这些信 息,利用本文构建的居民出行方式选择模型,能够 较准确预测居民的出行方式,这对于规划居民小区 交通,合理配置交通系统具有实际指导意义. 4研究结论 居民出行方式的选择受到的影响因素众多,是 一个复杂的非线性问题,传统的线性模型很难对其 准确预测.支持向量机方法源于统计学习理论,经 过非线性映射,把样本空间映射到高维的特征空 间,在高维的特征空间利用一个线性超平面实现线 性划分.借助Mercer核展开定理,通过升维,在高 维空间实现非线性问题向线性问题转化,为预测居 民出行方式提供了新的思路,通过本研究得出以下 结论. (1)本文利用支持向量机方法构建了居民出 行方式的选择模型,测试样本的分类精度达到 80%以上,相对于经典的BP神经网络,分类的效 果更好,预测精度提高了将近5个百分点.所构建 的模型,能应用到居民出行方式选择的预测中,这 对城市规划交通系统有现实指导意义.从另一方面 也说明了居民出行交通工具的选择不仅受到个人 属性特征的影响(性别,职业等),还受到家庭属性 (拥有的交通工具、家庭收入)以及出行目的等因 第11卷第5期 基于PSO—SVM的居民出行方式预测模型 161 素的影响,这是一个复杂非线性的系统,支持向量 机理论适合这类问题的研究. (2)从实证中发现,以交叉验证意义下的分类 准确率作为适应度函数,利用PSO算法优化支持 1627.[FENG S M,CI Y S.A forecast method for trip production based OH BP neural network[.『].Journal of Harbin Institute of Techno ̄gy,2010,42(10): 1624—1627.] 冯忠详,刘浩学,等.农村人口出行方式选择模型 [J].交通运输工程学报,2010,10(31):77—83. 1FENG Z X,LIU H X,et a1.Selection model of tirp 向量机的参数,通过计算机强大的计算功能实现模 型计算,这种方法是可行的,可避免了人为试凑参 数的随机性,减少人工干预,对于此类问题的建模, modes for rural population[J].Journal of Trafifc and 具有借鉴意义. 参考文献: l]杨扬,姚恩建,等,基于支持向量机的出行链活动类 型识别研究[J].交通运输系统工程与信息,2010,10 (6):70-75.[YANG Y,YAO E J,et a1.Trip chain’S activity type recognition based on support vector machine [J].Journal of Transp”artation Systems Engineering and Information Technology,2010,10(6):70-75.] [2] 鲜于建川,隽志才.出 行链与出行方式相互影响模式 [J].上海交通大学学报,2010,44(6):792—796. I XIAN YU J C,JUAN Z C.Research on the interdependencies between trip chaining behavior and travel mode[J].J0・umal of Shanghai Jiaotong University,2010,44(6):792 ̄96.] [3] 冯树民,慈玉生.居民出行产生量BP神经网络预测 方法[J].哈尔滨工业:大学学报,2010,42(10):1624一 Transportation Engineering,2010,10(31):77—83.] [5] 王定成.支持向量机建模预测与控制[M].北京:气 象出版社,2009,12:16—18.[WANG D C.Prediction and control based on support vector machine f M]. China Meteorological Press,2009,12:16—1 8.] [6] Kennedy J.Eberhan R C.Particle swarm optimization [G].Proe of IEEE Int Conf on Neurla Networks. NewYork:IEEE,1995:1942—1948. [7] 王凯,侯著荣,王聪丽.基于交叉验证SVM的网络入 侵检测[J].测试 术学报,2010,24(5):349.356. [WANG K,HOU Z R,WANG C L.Intrusion detection based on cross validation SVM『J].Journal of Test and Measurement Technology,2010,24(5):349—356.] [8] 李丽,牛奔.粒子群优化算法[M].北京:冶金工业出 版社,2009:27.[LI L,NIU B.Particle swarm optimization[M].Beijing Metallurgical Industry Press, 2009:27.]