搜索
您的当前位置:首页正文

基于机器学习的文本分类方法综述

来源:六九路网
第31卷第2蝴 渤海大学学报(自然科学版) VO1.3l N0.2 2 0 1 0年6月 Journal of Bohai University(Natural Science Edition) Jun.20l0 基于机器学习的文本分类方法综述 陈秫获,秦玉平 (渤海大学信息科学与工程学院.辽宁锦州l2l013) 摘 要:文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热 占’。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺 点,并阐述了文本分类方法未来的发展趋势。 关键词:文本分类;分类方法;机器学习 中图分类号:TP311 文献标识码:A 文章编号:1673—0569(2010)02—0201—05 1 引言 自动文本分类就是在给定的分类体系下,由计算机系统根据待分类文本的内容自动确定文本类别 的过程。目前基于机器学习的文本分类的研究成果主要有朴素贝叶斯法El-3]、KNNⅢ、决策树法嘲、中心 向量法 和支持向量机 “ 等。近几年文本分类方法进展迅速,又出现了各种分类方法的相结合,大大 加快了分类的速度和准确性。本文主要介绍了基于机器学习的文本分类方法,并提出了未来的发展趋 势。 2 基于机器学习的文本分类方法 2.1 朴素贝叶斯方法 朴素贝叶斯方法是最早用于文本分类的分类器算法,概率分类器基于贝叶斯理论来计算待定文 , 与已知各类的条件概率,用P(c,Id )来表示: P(ci 一 ㈩ 其中,)( ,)对计算结果无影响,因此可以不计算。贝11-r斯方法的基本假设是词项之间的独立性,于 是: P(d )一IIp(w ) (2) 尸(0)和P(训 ,lf,)可用以下公式来估算: 尸((一 )一 (3) P ㈤一 r十∑ 1 其中。,l,为类‘。中的文档数目 ,为词项t 在类 中出现的词频总数。 收稿II期:201【)一()11 n9. f1 抒筋介:陈祚被(1985一).女.硕~f:研究生.从事研究领域为机器学习 202 渤海大学学报(自然科学版) 第3l卷 基于上述假设的概率分类器一般称为贝叶斯分类器。贝叶斯分类器容易理解,计算简单,分类效果 基本能满足要求,但其关于词项独立性的假设受到了质疑。 2.2 决策树方法 决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时,决策树算法基于一种信息增益 标准来选择具有信息的词,然后根据文本中出现的词的组合判断类别归属。在分类的过程中需要注意一 些问题。首先是需要根据数据的特点对数据作预处理,比如做数据清理,进行特征选择等。其次就是对分 类方法的评估,需要选择合适的方法来评价方法的好坏,评价方法的选择对最终的结果有很大影响。 2.3 中心向量法 中心向量法的基本思想是通过对训练集进行训练得到每一个已知类别的中心,称之为类中心向量, 分类过程中将待分文档与已知的类中心向量进行相似度比较,判定规则为相似度最大的类中心向量所 代表的类别为待分文档的类别。中心向量法最初用于信息检索.现已广泛应用于文本分类。令C一 {C } 代表训练集所包含的 个类。其过程描述如下: 步骤l:对每一个类 计算该类中所有文档向量的算术平均作为该类的类中心向量V(c ); 步骤2:给定一个待分类文档d,计算d与所有类中心向量V(c )的相似度Sim( ,V( )),返回c(c,) =arg max Sire( ,V(f。))。 设整个训练集的文档数为Ⅳ,类别数为 ,则训练阶段 的时间复杂度为0(N)。分类阶段对每一个待分文档计算 个相似度值,时间复杂度为O(m)。中心向量法的特性是当训 练集中各类别间大小相对均衡,且同类别文档分布稠密时.分 类效果较好;而训练集中各类别问大小不均衡,且同类别文档 分布稀疏时,分类效果较差。如图1,当fI、c 两类大小不均衡 时, >d ,f 类边缘文本易被误分至f 类中。 2.4 KNN算法 KNN分类算法是传统的基于统计的模式识别方法,在 文本分类领域使用较多。其算法思想是对于一篇待分类文档, 在训练集中找到K个最相近的邻居,取这K个邻居的类别为 图1 中心向量法分类 该文档的候选类别,该文档与K个邻居之间的相似度为候选类别的权重,然后使用设定的相似度阈值, 就可以得到该文档的最终分类。 KNN算法是向量空间模型(VSM)下最好的分类算法之一,有较好的分类准确性和稳定性,优于贝 叶斯、决策树等其他方法。KNN可以较好地避免样本的不平衡问题;对于类域的交叉或重叠较多的待 分样本集和样本容量较大的类域的分类较为适合。 2 5 支持向量机 支持向量机(SVM)理论由Vapnik在1995年提出,用于解决二分类模式识别问题。它基于结构风险 最小化原则,在向量空间中找到一个决策面,这个面能最好地分割两个分类中的数据点。该算法的原理 是通过一个事先选择的非线性映射将一个线性不可分的空问映射到一个高维的线性可分的空间,在这 个空间利用结构风险最小化原则构造最优分类超平面,使两类模式之间的空白最大。在传统支持向量机 的基础上又有人提出了多类支持向量机和模糊支持向量机。 2.5.1 多类支持向量机 支持向量机多类分类方法主要有一对多方法(OAA)、一对一方法(OAO)、决策树SVM和 DAGSVM。一对多方法在训练时依次把某个类别的样本归为一类.其他剩余的所有样本归为另一类, 这样k个类别的样本就构造出了k个SVM。在分类过程中,取分类器函数输出值最大的类别作为预测类 别。这一分类算法泛化能力比较差,并且训练时间与训练样本类别数k成正比,当训练样本数目增大时, 花费时间较多导致训练困难。一对多方法会造成训练集不均匀,对小样本的类别识别准确度比较低。 第2期 一陈讳荻,秦玉平:基于机器学习的文本分类方法综述 203 对一方法将每一类与其他各类别分别构成一个两类问题,k个类别共构造k(k一1)/2个两类 SVM。与一对多方法类似,训练样本也需要相应地改变类别标签。分类时,样本经过所有的两类SVM, 得到k(k一1)/2个识别结果,采用投票法来决定测试样本的类别。该方法的缺点是分类函数随着类别 数的增加而增加,从而使分类速度变慢。但该算法往往具有较高的分类精度。 决策树SVM按某个相似度先把k一1个类别结合起来,暂时看做一类,剩下的一类作为单独的一 类,使用SVM二值分类器分类。下一步对合并的k一1类再根据相似度把其中(k一1)一1类暂看作一 类,剩下的一类作为单独的一类,再用一个SVM二值分类器分类。依此类推,直到最后两类被分开。显 然,决策树SVM方法可避免传统方法中的拒绝分类问题,并且对于k类问题只需要构造k一1个分类 器。随着训练的进行,训练样本数逐渐减少,训练所需时间也逐渐减少。在测试分类时,每个SVM二值 分类器只根据决策树结构所需要的分类决策值计算,而无需计算所有分类决策值,从而节省测试时间。 然而这种方法的缺点是存在“误差累积”,即如果在某个结点上发生分类错误,则会把分类错误延续到后 续一级结点上。如果分类错误在越靠近树根的地方发生,整体分类性能就越差。因此要构造优良的决策 树,就必须让最易分割的类最早分割出来。 DAGSVM方法在训练阶段与OAO方法相同,对k类问题,DAGSVM含有k(k一1)/2个两类分类 器;然而在决策阶段,使用从根结点开始的导向非循环图(DAG),具有k(k一1)/2个内部结点以及k个 叶子结点,每个内部结点都是一个两类分类器,叶子结点为最终的类值,给定一个测试样本,从根结点开 始根据分类器的输出值决定其走左侧还是右侧,如此一直到叶子结点为止,得到样本所属的类值。优点 是推广误差只取决于类数n和结点上的类间间隙,而与输入空间的维数无关。 DAGSVM和OAO训练得到的两类分类器完全一致,只是DAGSVM在对任何一个未知样本分类 时只需运用k一1个分类器,而OAO却需要所有的k(k一1)/2个分类器。显然DAGSVM的分类速度要 快于OAO。由于DAGSVM中每个分类器都只定义两个类别间的分类面,OAA中每个分类器需要定义 某个类别与其他所有类别间的分类面,因此大体上说前者的分类面较后者简单,当采用相同的核函数且 其它训练条件相同的情况下,前者的分类函数中的支持向量将少于后者,同时由于OAA分类时需要运 用k个分类器较DAGSVM多,因此一般而言DAGSVM的分类速度快于OAA。 2.5.2 模糊支持向量机 模糊支持向量机(FSVM)就是给每个样本都赋一个模糊隶属度值,这样不同的样本对决策函数的 学习有不同的贡献,以减小外部的影响。其本质上是一种针对C—sVM的加权SVM(WSVM)。在采用 模糊支持向量机进行分类时,相对于常规支持向量机的训练样本,它训练的每个样本除了样本的特征 与类属标识外,还增加了隶属度一项。下面讨论两分类的情况。设训练样本集表示为: {( 1,Y1.S】),( 2, 2,S2),…,( 1,.),l,S1)} (5) 每个样本的特征表示为 ,∈R ,类标识为 一{一1,1},隶属度为0<S,≤1。 假设。一 (.r)为训练样本从原始模式空间尺”映射到高维特征空间Z之间的映射关系 。由于隶属 度 表示该样本属于某类的可靠程度, ,是支持向量机目标函数中的分类误差项,则 ,为带权的误差 项,由此得到最优分类面为下面目标函数的最优解。 ( )一丢l砌l z+ (妻 ) (6) 约束条件为: . [ t£ ‘2, + ]一 _{一 ≥0’ 一 ・2,…・ (7) ≥0, 一1。2,…,, 其中,惩罚因子c为常数.训表示线性分类函数 的权系数。从上式可以看出,当 (.r_,)很小时,减少 了 在式中的影响,以致于将相应的 看作不重要的样本。而相应的最优分类面的判别函数式为 ( r)一sgn(∑ , (. 一)+ ) (8) 2O4 渤海大学学报(自然科学版) 第31卷 其中,K( , )称为核函数,K( , )将高维特征空间中内积运算转化为低维模式空间上的一个简 单的函数计算。 .口。的条件式变为下式: 0≤q≤SiC, =l,2,…, (9) a >0相应的样本 为支持向量,这里有两种类型的支持向量,一种满足0<q<siC的支持向量 五位于分类面附近;另一种满足 =siC的支持向量 为错误分类样本。模糊支持向量机方法和支持向 量机方法的差别在于,由于在模糊支持向量机中含有隶属度 同样 值的样本五在两种方法可能属于 不同类型的支持向量。 在支持向量机方法中参数c是一个自定义的惩罚因子,它控制对错分样本惩罚的程度,用来控制 样本偏差与机器推广能力之间的平衡。c越大,惩罚就越大,对错分样本的约束程度就越大,得到的分类 间隔越小;随着c的降低,支持向量机忽略更多的样本,得到较大边缘间隔的分类面。在模糊支持向量 机中,设置C为一个较大的值,如果取所有的隶属度S,=1,则与支持向量的方法一样,容许更小的误分 率,得到较窄边缘的分类面。在模糊支持向量机方法中,通过对不同的样本赋予不同的隶属度,达到对不 同样本采用不同程度的惩罚作用。 3 文本分类方法研究的新进展 3.1 多种分类器融合的方法 实际应用的复杂性和数据的多样性通常使单一的分类方法不够有效。因此学者们在多种分类方法 的融合方面进行了广泛的研究,同时也取得了一系列的研究成果。纵观文献中的研究,可以将多分类器 的融合技术大致分为以下几类:投票机制、行为知识空间方法、证据理论、贝叶斯方法和遗传编程。采用 投票机制的方法主要有装袋(bagging)和推进(boosting)。近两年来,boosting的一个新变种I 2Boost被 人们提出,此方法计算较简单,而且性能也可与此类基于boosting的方法相媲美。 、 3.2 潜在语义分类模型 潜在语义索引方法,已被证明是对传统的向量空间技术的一种改良,可以消除词之间的相关性,从 而化简文档向量,但是I sI在降低维数的同时也会丢失一些关键信息。I SI基于文档的词信息来构建语 义空间,得到的特征空间会把原始文档矩阵中最主要的全局信息给保留下来。但在某些情况下,尤其是 该情况对稀有类别时更明显,因为一些对特定类别的正确分类非常重要的特征是放在全局下考虑的,显 得不是很重要,从而在维数约减得过程中就被滤掉。事实也是如此,稀有类中出现的词很可能就是整个 文档集中的稀有词,所以很有可能被滤掉。这样,就可以得到比【 SI模型的语义空间更适合文本分类的 语义空问。 4 发展趋势 通过上述分析可以看出,文本分类方法面临以下几种发展趋势:一是新的分类方法的不断涌现,比 如基于群的分类方法和基于粒度计算的分类方法;二是传统分类方法的进一步发展,比如支持向量机的 不断改进和KNN方法的发展;三是根据实际问题的需要,有针对性地综合众多领域的技术,从而提高 分类的性能。 5 结束语 随着全球信息化和网络化的迅速发展,文本分类已成为多个领域研究者的热门研究课题,它吸引着 越来越多的研究者的关注。即使文本分类方法目前还存在着不少问题,但文本分类技术有着广泛的应 用。随着人工智能、机器学习、数据挖掘等领域的发展,分类方法将向着更高级、更综合化和更多样化的 方向发展。 第2期 陈秭获,泰玉平:基于机器学习的文本分类方法综述 205 参考文献: [i]Larkey L S.Croft W B.Combining classifiers in text categorization.In Proceedings of 1 9th ACM International Conference on Research and Development in Information Retrieval,Zurich,Switzerland,l996:289—297. [2]I i Y,Jain A.Classification of text documents.The Computer Journa1.1998,41(8):537—546. [3]Robertson S E,Harding P.Probabilistic automatic indexing by learning from human indexers.Journal of Documentation,1984.4O (4):264—270. [4]Yang Y.An evaluation of statistical approaches tO text categorization.Journal of Information Retrieval,1999,1:69--90. [53 Apte C。Damerau F.Weiss S.Text mining with decision rules and decision trees.In Proceedings of the Conference on Automated Learning and Discovery,Pittsburgh,USA.1 9 98:62—68. [6]黄旭.朱艳琴.实时文本分类系统的研究与实现[J].计算机工程.2008,18(1):44—46. [73 Joachims T.Text categorization with support vector machines:learning with many relevant features.In Proceedings of the 1 0th European Conference on Machine Learning,Berlin,Germany,1998:137——142. [8]李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62—68. [9]Shi Y F.Zhao Y P.Comparison of text categorization algorithm.Wuhan University Journal of Natural Sciences.2004,9(5):798— 804. [1O]孙晋文.肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927--930. [i13 Kim H,Howland P,Park H.Dimension reduction in text tlassification with support vector machines.Journal of Machine Learning Research。2005,6:37—53. Review on text categorization methods based on machine learning CHEN Yi-di,QING Yu-ping (College of Information Science and Engineering,Bohai University,Jinzhou l21013.China) Abstract:Text categorization is a key technique in the information retrieval and data mining field,and it has attracted more and more attention and became a hot issue in the fi.eld of machine learning.The main text categorization methods based On machine learning are introduced,the merits and demerits of every method are analysised,and the development trend of text categorization methods in the future is given. Key words:text categorization;categorizing method;machine learning 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top