嚣 电债科掌 咚 3类。云计算以数据为中心,在并行数据处理、编程模式和 虚拟化等方面具有独特的技术。 2.2 Hadoop 数据存储。 Hadoop具有可扩展、高容错、经济、可靠、高效的优点, 被广泛应用在云计算领域,在Yahoo、Facebook、支付宝、人 人网等大型网站上都已经得到了应用.是目前应用最为广 Hadoop是由Apache基金会组织开发的分布式计算开 源框架,利用低廉设备搭建大计算池,以提高分析海量数据 的速度和效率,是低成本的云计算解决方案。其模仿和实现 泛、成熟的开源云计算平台。 3基于Hadoop的海量电信数据云计算 了Google云计算的主要技术。包括HDFS(Hadoop distributed ifle system,Hadoop分布式文件系统)、MapReduce、HBase、 ZooKeeper等,分别对应于Google成熟商用云计算平台的 GFS(Googlefilesystem,G00de文件系统) 叩Reduce、BigTable、 Chubby,支持通过Google的MapReduce编程范例创建并 执行应用程序。 Hadoop是相关子项目的集合,核心是Hadoop Common、HDFS和MapReduce,其他子项目提供补充性服 务。Hadoop技术栈如图1所示,具体介绍如下。 Pig Chukwa Hive Hbase MapReduce HDFS ZooKeeper Hadoop Common Avro 图1 Hadoop技术栈 Hadoop Common:支撑Hadoop的公共部分.是最底层 的模块,为其他子项目提供各种工具。 HDFS:是一个主从(master/slave)结构.由一个 NameNode(名称节点)和若干个DataNode(数据节点)构 成,NameNode管理文件系统的元数据,DataNode存储实际 数据。 MapReduce:处理海量数据的并行编程模型和计算框 架,采用“分而治之”思想,包括分解任务的map函数和汇 总结果的reduce函数,MapReduce任务由一个JobTracker 和若干个TaskTracker控制完成.JobTracker负责调度和管 理TaskTracker,TaskTracker负责执行任务。 Pig:SQL—like语言,是在MapReduce上构建的一种高 级查询语言,以简化MapReduce任务的开发。 Hive:数据仓库工具,提供SQL查询功能。 Hbase:基于列存储模型的分布式数据库。 ZooKeeper:针对分布式系统的协调服务。 Chukwa:分布式数据收集和分析系统。 Avro:提供高效、跨语言RPC的数据序列系统,持久化 平台设计 目前。电信运营商对海量电信数据的分析都是基于传 统的关系型数据库,这种分析方法依赖于高性能机器,分 析时间长、效率不高。直接影响了业务决策时机。 针对这些问题,结合海量电信数据的特点,本文提出 利用Hadoop云计算技术对海量电信数据进行分析的方 法.该方法通过构建基于Hadoop的海量电信数据云计算 平台.采用MapReduce编程模型加强对数据的管理,提高 数据分析的速度和效率。解决了电信运营商对海量电信数 据管理和分析难的问题。 3.1 平台设计的目标与原则 海量电信数据云计算平台的设计目标是利用Hadoop 基于低廉设备的海量数据处理优势.利用一批下线的低端 PC服务器搭建Hadoop云计算平台。支撑海量电信数据的 分析需求.提高数据分析的速度和效率,达到为业务决策 提供即时、准确信息的目的,同时为公司节约投资成本。 平台的设计原则包括:经济原则.充分利用现有资源 搭建平台基础设施,根据Hadoop对硬件要求不高的特点, 采用一批下线低端PC服务器搭建Hadoop集群:高效原 则.充分利用云计算平台的特性,提高海量电信数据的处 理效率:安全原则,在平台设计过程中,必须充分考虑平台 的自身安全和信息安全,采取必要措施,规避安全风险。 3.2平台框架结构 结合海量电信数据自身的特点.海量电信数据云计算 平台在设计上采用分布式、分层结构.可以划分为数据层、 模型层、应用层3层结构,如图2所示。 (1)数据层 海量电信数据包括网络域数据和业务支撑域数据。其 中,网络域数据包括Gb 13数据、A 13数据、WLAN数据等; 业务支持域数据包括客户信息、客户业务订购数据、客户 消费数据等客户基本数据。数据层通过Hadoop的HDFS 存储这些数据,然后利用Hbase、Hive、Pig、ZooKeeper等数 据处理和管理工具,用类SQL语言定义统计指标,动态生 一 一一堂 ¥hado0p jar wang如n2.j /wfinput/wfoutput 2012—03—16 07—09-17-24 Execute without argument for help. 12/4/12 06:054:12 WARN mapred.JobClient:Use GenericOptionsParser for parsin g the arguments.Applications should implement Tool for the same. 12/04/12 06:54:13 INFO input.FilelnputFormat:Total input paths to process:3 12/04/12 06:54:13 INFO mapred.JobClient:Running job:job一201203261910__0005 12/04/12 06:54:14 INFO mapred.JobClient:map 0%reduce O% 12/04/12 06:54:40 INF0 mapred.JobClient:map 1%reduce 0% 12/04/12 07:31:13 INFO mapred.JobClient:map 100%reduce 100% 12/04/12 07:31:21 INFO mapred.JobClient:Job complete:job_201203261910_0005 12/4/12 07:031:21 INFO mapred.JobClient:Counters:19 12/4/12 07:031:21 INFO mapred.JobClient:Job Counters 12/4/12 07:031:21 INFO mapred.JobClient:12/4/12 07:031:21 INFO mapred.JobClient: 12/4/12 07:031:21 INFO mapred.JobClient: Launched reduce tasks=2‘ ’ ‘‘ Map output records=36955090 Reduce input records=36955090 图6实验三的MapReduce计算过程 可以看出,与传统的数据分析方法相比,本文提出的 以进一步提高海量数据的运算效率。 针对海量电信数据的分布式云计算方法,即基于Hadoop 的海量电信数据云计算平台,有效地提高了海量数据分析 的速度和效率。 参考文献 1 Wbite Hadoop:the Definitive Guide O’Reillly Media,Inc.,2009 2 张建勋.古志民,郑超.云计算研究进展综述.计算机应用研 5 结束语 本文针对传统数据分析方法面对海量电信数据存在 分析效率不高的问题.提出了基于Hadoop的分布式云计 算方法。设计了基于Hadoop的海量电信数据云计算平台, 并对平台的部分功能进行了实现。实验表明。本文提出的 究.2010.27(2):429~433 3施岩.云计算研究及Hadoop应用程序的开发与测试.北京邮 电大学硕士学位论文,201 1 4 Hadoop官方网站.http://hadoop.apache.org,2012 5刘鹏,黄宜华,陈卫卫.实战Had0op——开启通向云计算的捷 径.北京:电子工业出版社,2011 [作者简介】黎宏剑,硕士,主要研究方向为管理信息系统; 刘恒,硕士,主要研究方向为决策支持系统与数据挖掘;黄广文, 硕士,主要研究方向为系统架构、信息系统; 立,硕士,主要研究 方向为决策支持系统与数据挖掘。 方法是有效和可行的.为进一步研究Hadoop在海量电信 数据分析方面的应用做出了指引,在下一步的研究中.重 点讨论MapReduce编程模型改进和数据节点的扩展问题。 Study on Massive Telecom Data Cloud Computing Platform Based on Hadoop Li Hongjian,Liu Heng,Huang Guangwen,Bu Li (Zhongshan Branch of China Mobile Group Guangdong Co.,Ltd.,Zhongshan 528403,China) Abstract The traditional data analysis methods have difficulty in the face of the massive data management and analysis. Hadoop is a large-scale distibutred computing framework,has the advantages of high efifcient,reliable and scalable,is widely used in cloud computing.In this paper,based on the analysis and research of cloud computing and Hadoop,a distributed cloud computing method is proposed in the light of massive telecom data and a massive telecom data cloud computing platform based on Hadoop is built.The experimental results show the platform can effectively solve the problem of data management and analysis tasks and improve the speed and efficiency of massive data analysis. Key words cloud computing platform,Hadoop,MapReduce,massive data,telecom operator (收稿日期:2012—05—22)