一、舆情监测分析平台国内外相关研究状况
1.舆情监测相关研究及概念 1.1论文统计
舆情的表现方式很多,随着时代的发展,媒体的种类越来越多,相应地舆情的载体也越来越广泛。中国互联网络信息中心(CNNIC)发布的《第36次中国互联网络发展状况统计报告》[1]显示:“截至2015年6月,中国网民规模达6.68亿,其中,手机网民规模5.94亿,互联网普及率达到48.8%。网民上网设备中,手机使用率达88.9%,随着手机终端的大屏化和手机应用体验的不断提升,手机作为网民主要上网终端的趋势进一步明显。
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上,通过这种网络来表达观点、传播思想,进而产生巨大的压力,达到任何部门、机构都无法忽视的地步[2]。可以说,互联网已成为思想文化信息的集散地和社会的放大器[3]。通过对网络舆情的搜集与分析来判定民众的意愿[4],可以更好地进行决策,也可以更好地应对一些社会突发危机事件。以“舆情”为关键词在CNKI 中进行检索,检索时间为2005年1月1日-2016年2月20日,共检索到关于舆情研究的论文25396 篇(含博硕士论文)。以“舆情监测”为主题检索,检索到论文11145篇,其中2005年只有1篇,2008年以后有关舆情监测研究受到重视,论文发表呈逐年上升趋势。
1.2 相关概念
互联网技术带来了信息爆炸,消息源越来越多,传播更加快速,传播者的门槛越来越低,而内容创作门槛的降低直接导致了内容的贬值[5]。传统报业只有在内容生产上体现高专业技能,才能在浩瀚的传播海洋中占据高位。
舆情监测,就是针对互联网上公众的言论和观点进行监视和预测的行为。其概念强调两点[6]:一是新闻事件、社会现象和社会问题主要通过互联网首发或传播,二是表达信念、态度、意见和情绪的公众主要是网民。从上世纪九十年始,互联网的飞速发展已经深刻的改变了社会的信息传播渠道;如今普及的移动互联网更是彻底了传统的媒体和观念,成就了一个“人人都是信息采集者、人人都是信息传播者”的新时代[7]。这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性
的言论和观点。具体上讲,舆情监测是指整合互联息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦[8],实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握民众思想动态,做出正确引导,提供分析依据[9]。
刘毅所著的《网络舆情研究概述》[10]是国内首部全面研究网络舆情的专著, 对以后的学者研究网络舆情有很大的帮助。由于传播媒介的特殊性,网络舆情有其特性[11],主要表现为:它来源于互联网,来源比较广泛,而且是可以匿名的。但正是可以匿名给一些人散布虚假信息以可乘之机,再加上网络舆情传播速度快,影响范围广,会对社会和民众心理产生干扰,影响人们的理性思维和正确判断,从而给社会稳定带来隐患[12]。舆情监控系统是指通过对各种媒体信息汇集、分类、整合、筛选等技术处理,再形成对舆情热点、动态、网见等实时统计报表的软件工具。人力、资金以及计算机软件系统等是构成网络舆情的监测体系的重要物质保障和技术保障[13]。
1.3 2015 年度中国舆情监测行业市场份额总体状况分析
随着网络舆情的重要性越来越显,和企业对舆情监测的需求不断上升,这推动了舆情监测市场进入高速成长期。看到这块不断做大的蛋糕,大批投机者纷纷进入舆情监测市场。截止 2014 年底,全国共涌现出 1000 多家舆情软件企业,这个数量还在不断增长。由于互联网应用形式日新月异,对信息采集和分析的要求越来越高,很多舆情软件产品无法给用户带来有效的监测效果。目前,市面上95%以上的产品把精力花在界面展示上以迷惑客户,而对于具有难度的核心采集和分析技术缺乏热情去研究,导致行业还处在技术严重滞后、市场竞争激烈、质量良莠不齐的状况。
而中国网络舆情服务产业,却在此时刻又正经历着从无到有、从小到大、从粗放到规范的过程。对于整个舆情监测市场规模,从舆情软件市场10 亿元,到舆情信息服务业 100 亿元。通过检索发现,舆情产业已经形成了、媒体、教育科研、软件和商业等五大背景的行业格局[14]。 党政机关依托党政宣传思想工作系统,下设职能部门或企事业舆情服务机构,开展舆情信息汇集和分析,汲取社情,为决策提供参考[15],具有很强的性和现实意义。同时,媒体对业界政务舆情研究的成果大量涌现,为党政部门、企业和社会团体组建舆情监测队伍提供实用指南。
2.舆情监测技术综述
网络舆情监测的方式主要有人工方式和自动方式[16]。人工方式主要是利用搜索引擎对网站进行人工监测,有信息量大、不能实时监测的局限性[17],因此研究网络舆情自动监测是非常必要的。从技术角度来看,网络舆情监测系统是众多技术结合的成果,基于内容挖掘的网络舆情信息分析[18], 涉及较多与自然语言处理相关的研究子领域。刘毅提出了内容分析法在网络舆情分析中的应用[19],开拓了内容分析在网络舆情监测中的先河。在网络舆情监测处理过程中,一般包含网络舆情信息提取[20]、舆情自动分类、话题识别与跟踪、文本情感分析等步骤。下面将分别介绍网络舆情监测中各关键技术的研究现状。
2.1舆情信息提取
理论上讲, 网络舆情采集信息源主要来自动态网页,所以在信息采集中,主要采用网络爬虫(WebCrawler)和网页清洗(WebPage Cleaning)等技术。龚海军提出采用正则表达式匹配和MD5 加密技术来解决舆情采集问题[21],但他提出的这种方法只适合主题网络爬虫。郭岩等学者通过运用SrcRank 算法来对网络舆情信息源进行重要性排名, 在此基础上构建了包含信息源自身的表现力以及网民对事件反馈的舆情信息源影响力评估体系[22]。目前网络舆情信息采集一般支持自定义URL 的数据抓取,但是不能很好实现对网络上所存在的各种类型文件的采集和分析,乃至整个网络的信息采集和分析。黄晓斌等采用了TextAnalyst V2.3 文本挖掘软件对热门舆情信息进行搜集[23],但是缺陷是只能针对英文文本进行挖掘。
2.2文本挖掘处理
在进入正式的文本挖掘处理阶段前,要对文本进行规范化预处理,把HTML 文档及XML 文档进行格式统一化[24]。此外还要判断采集到的网页是否有冗余,这样能够提高网络舆情处理的效率与准确度。鉴于网络舆情数据多为非结构化以及半结构化, 给预处理增加了一定的难度。陈京民等人提出了一种基于
XQuery 的网络舆情关联挖掘方法,在一定程度上提高了挖掘速度[25]。判断页面内容与主题的相关性主要是采用基于关键词的模型匹配方法;信息主题过滤和聚合主要采用布尔模型和向量空间模型来建立用户索引,然后对语义信息匹配度进行计算。
2.3舆情分类
舆情分类是将收集的舆情进行自动分类,主要是运用自然语言处理中的文本分类和文本聚类等技术。Web 文本自动分类方法大致可以分为基于规则的方法和基于统计的方法[26]。基于规则的方法是先由专家为每个类别定义一些规则, 然后自动把符合规则的文档划分到相应的类别中;基于统计的方法是在训练、学习的基础上形成分类模型。夏华林等提出了基于规则和统计的突发事件多层次分类,即先形成规则库,利用朴素贝叶斯等分类方法将类别细分[27]。Liu H 等提出了基于K-means 聚类算法的网络舆情监测[28],将文本挖掘的信息分成不同的簇,每个中心是按时间序列发掘的热点。
2.4文本表示与主题发现
主题检测与追踪发现是舆情分析的重要技术手段, 同时也是自然语言处理和信息检索领域的热点研究课题[29]。随着信息的快速增长,通过搜索引擎查找特定信息成为获取主题信息的主要方法之一。目前舆情主题识别技术,正在从传统的线性文本聚类分析, 向更注重内容特征的话题标引统计识别技术发展。蒋凡等通过计算词语在回帖传播链上的影响力,提出综合TF-IDF 和词语影响力因子选取特征项以聚类以发现具有影响力的主题。吴晓元提出面向BBS 的层次化关键词抽取方案,提出父关键词和子关键词的概念, 结合机器学习的方法进行关键词抽取[30]。黄伟等人将本体论和语义计算的技术应用于网络舆情群体事件, 并验证具有很好的效果。赵琦等人对于主题发现进行综述,包括主题发现的核心技术以及典型应用系统, 并认为一般的主题发现包括主题聚类、主题描述构建以及主题可视化工作。
2.5舆情意见挖掘和观点分析
舆情数据挖掘和观点分析的研究大多数是借鉴电子商务领域中用户对商品意见的挖掘方法[31]。意见挖掘方法主要是:通过所挖掘领域本体的构建对所要挖掘的文本进行主题及观点提取;词语的情感倾向通过构建极性词典来进行分析,最终通过多种途径挖掘出文本的情感倾向性[32]。对文本内容进行分析和自动计算,能识别出文本所包含的情感趋向(开心或痛苦)、观点趋向(赞同或反对),甚至情感随时间的演化规律,这就是所谓的文本情感分析技术[33]。国内对意见挖掘研究大多集中在通过文本进行意见倾向分析,现有文本倾向性分析有简单统计方法、机器学习方法和细粒度情感相关性方法3 种。
段建勇提出了基于句法语义的网络情感倾向性评价技术[34],引入了
基于句法语义的情感倾向测评算法, 基本思路是以文本中的句子为粒度进行情感分析,在分词的基础上先抽取句子的主干,从中取得句子模型,并实现动态扩展句法树,通过语句分析从而得到整个文本的情感。
3.舆情监测系统的应用 3.1数据挖掘技术的应用
数据挖掘技术的现实应用比较广泛,尤其是在商业中,刘辉等人[35]总结了数据挖掘技术的应用,尤其是在证券行业中的应用。数据挖掘技术在网络监测中的应用。这两个单位已初步形成了一套较完整的网络舆情监测理论体系、工作方法、作业流程和应用技术,可以对网络舆情主要载体进行24 小时监测,并进行专业的统计和分析,形成监测分析研究报告等成果。
3.2实践上的意义
正确分析公众在大数据的海量信息,对于党和及时掌握民情,进行科学决策,实施正确的导向具有重要意义,对于构建和谐社会是十分必要的。但是如何才能从众多信息中及时发现虚假信息、不利于社会稳定的危害信息呢? 数据挖掘技术的应用将给我们提供有效手段。
(1)能够迅速发现敏感话题
网络舆情分析系统主要着眼于网络中的负面信息,应用数据挖掘技术能有效地监测并及时发现负面信息,为有关单位在最短时间内加以控制提供支持。
(2)积极传播正面信息
虽然在网络中信息的发布者是可以匿名的,但是公众的群体效应依然存在,比如群体的羊群效应、沉默的螺旋效应等,网民之间能够互相影响。一般认为羊群行为是指在信息不对称的环境下,某一行为主体因受他人行为的影响而忽视自己的私人信息,进而采取模仿他人行动的决策行为。由于羊群行为具有传染性, 当这种决策行为存在于多个行为主体之间时就产生羊群效应[36]。
4. 目前舆情监测系统需要完善改进的地方
4.1 主要依靠人工来完成,监测导致信息收集反馈不及时
目前大部分部门和企业的舆情监测和管理工作主要靠人工来完成。这样负责网络舆情监测任务的部门和人员承受着巨大的工作压力。人工进行舆情监测还会遇到很多问题:
√舆情收集不全面
√舆情发现不及时 √舆情分析不准确 √信息利用不便利
因此,经常出现涉及“与我相关”的舆情信息已经在网上快速传播,一些非理性和不切实际的信息传播开来,造成了很坏的社会影响,或者通过其他部门得到反馈[37],甚至领导都知道了,但是我们负责舆情监测的人员却毫不知情,失去了第一时间获取和掌握舆情,进而进行及时处理的时机。 在新的互联网形势下,面对这样的困扰,需要借助互联网舆情监测工具,及时监测、汇集、研判网上舆情,引导方向,化解危机。跟踪事态发展,及时向有关部门通报,快速应对处理,变被动为主动,使网络舆情成为领导和相关部门决策的重要依据[38],利用舆情监测系统平台,配合相应的舆情工作的开展。
4.2国内外所有的舆情监测分析平台都是基于网络
但是,通过调查发现,国内外所有的舆情监测分析平台都是基于网络,不管是基于新闻监测(新闻发布综合门户网站、官方网站或行业门户网站),平面监测(报纸的网络电子版),还是BBS论坛、博客、新闻跟贴、转贴的社区监测,还是微博监测,或则是针对视频网站视频监测等等,信息源都来源网络,虽然网络信息多,但是针对部分来着传统媒体的信息,纸媒或电视或广播或户外等,它相对还是转载和发布还是比较滞后的,特别对于没有电子版的报纸和电视媒体来说,有些网络媒体发布的信息并不是全面的,甚至是滞后的信息,只有关注的信息才会被人在网络上及时发布,但是不是热门话题却也是不会在网络上发布,但是等发酵到一定程度才有能变成热点被网络关注,所以基于网络舆情监测平台相对有一定的局限性,并不能反映大数据的全面性、及时性和准确性。
全媒体舆情监测
综上的局限性给全媒体舆情监测分析平台带来了发展的机遇,全媒体舆情监测可以对网络、电视、广播、平面(报纸&杂志—纸介)、手机、户外、国外媒体进行全方位、立体智能监测,在信息全面性、及时性和权威性方面充分弥补了传统的网络舆情分析平台发展的不足,为正确建立全面、及时、准确的大数据舆情分析平台奠定了基础。
4.3 当前缺少有效的舆情分析手段
舆情事件发生以后,我们也缺乏有效的舆情分析手段,无法提供定性定量的数据用于舆情分析研判;目前完全靠人工进行舆情信息的收集和上报,
费时费力效果不好,也无法提供更加有用的舆情统计分析数据[39],为领导提供辅助决策服务。
5 业内人士新观点
在舆情监测核心技术的自主创新发展理论研究方面,近年来得到了国内一些学者的关注,全媒体舆情监测专家王剑波认为大数据舆情分析平台竞争力应该体现在核心技术,舆情分析应充分实现全面、快速、准确、及时,在舆情分析核心技术特点、构造以及与创新能力之间的互动机制基础上,为及企业提供全面的舆情分析平台。 二、重点难点和创新之处
(一)重点难点
1 全媒体/跨媒体数据信息的系统自动采集及舆情的智能识别 舆情信息分析的数据来源决定了思维的高度及决策是否全面、准确,因此对信息来源渠道的是否全面,成为分析一个舆情监测分析平台是否好坏的评分依据,监测渠道单一,那只能反映该渠道信息的一个传播情况及信息影响力度,但不能反映整个社会各界对舆情关注情况及舆情在各种渠道的反馈情况。
网络舆情信息软件漏检是顽疾
其中,网络舆情信息是采用自动信息采集功能。现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。然而随着网络安全技术的提升,信息源服务商为防止自己服务器DOS拒绝服务式攻击导致他们服务器相应慢及死机,对防止网络蜘蛛或网络爬虫不间断采集作为信息保护及服务性能提升作为核心目标,他们也使出浑身解数:采购防火墙、定期更换链接地址、内外链接不规律切换、页面源码加密、编码技术升级及无规律进行站内互换、网站动态验证等等,这种技术的不确定性及动态更新性往往导致传统的舆情软件需要不断的维护与升级来应对这种动态幻化的互联网海量信息,一旦没有更新不及时,往往会导致配置好的数据源无法采集与识别,这也是舆情软件信息漏检及全面的顽疾所在,也是那种只购买软件而不购买服务的最终用户在使用过程中使用的越久,对这种舆情软件越丧失信心,互联网舆情已经火热朝天,而自己的舆情软件却像沉睡的死猪,直到被上级主管及领导严厉批评舆情工作的失职而最终导致舆情软件生命周期的终结,从此又恢复到了原始社会的工作模式:组建人工舆情团队,开始新的人工信息的读取、采集与分析,效率的提升异常的缓慢会导致加班就像家常便饭,对
舆情工作厌恶与反感,会带回到工作中。
而解决舆情软件在这方面的缺陷及提升用户的依赖性,应当是解决问题的重点目标,在应对防火墙、定期更换链接地址、内外链接不规律切换、页面源码加密、编码技术升级及无规律进行站内互换、网站动态验证等技术屏障中,再结合国内外各种先进技术外,采取人工+智能的模式定期改变舆情软件采集信息的规则、改变采集时间间隔和频率、人工定期识别编码、人工定期识别信息源内外链接的模式、人工复查信息源验证码的技术与技术更新,做到系统数据自动采集和信息安全攻防一对一识破及成功采集正确的信息,从而人工一对一的攻防与识别过程中再度终结规律、发现规律,从而再度完善舆情软件系统,为打造全智能舆情软件机器人奠定基础,也是通过这种人工智能对舆情软件机器人的不断完善[40],来更加完善未来舆情软件的技术规范,为同行在舆情信息的抓取提供技术性突破,节约同行在抓取方面的投入,通过技术专利输出,大大提升国内舆情软件行业舆情的监测及信息识别能力。
电视和广播信息监测存难点
再者,电视和广播信息监测也是行业的难点和重点,传统的舆情监测系统电视信息基本都是来自视频网站对电视的转载,覆盖面有限,客户需求千种万变,而此类的视频网站大部分都是个人爱好者或具有商业性质公司的人群上传至视频网站,他们都是目的性和范围都比较单一,所以以视频网站的电视、广播监测来以偏盖全、混淆视听,往往会给不了解舆情行业的人士带来片面的理解,以为天下太平,却打开电视已经是家喻户晓,网络舆情代替不了传统媒体,也撼动不了传统媒体在社会中传播的影响力及传播力,越是高层社会,越注重传统媒体的形象,越注重传统媒体在其发展中所占的分量。
平面媒体也类似,它有它赖以生存的土壤和依赖的客户群体,任何放弃传统纸媒监测的舆情监测系统都是不全面、不权威、不准确的。
全媒体舆情监测的优势
因此,全媒体舆情监测了传统网络舆情的概念及监测渠道,弥补了网络舆情监测的片面性及信息延迟性。
全媒体舆情监测对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作。 东方剪报研究团队通过对国内外媒体数据监测的分析与研究,发现国内现有的媒体监测数据都源于网络,对于全媒体数据而言这里只占25-30%,而70-75%的信息,例如平面媒体出于对发行量的考虑,大量信息不会出现在网络版上面;再如大量的广播电视和报刊广告,因为大量占有空间不会长期存在网络上面。因此,常常出现很多想要的信息在网络上面查询不到,影响到信息的全面性、完整性,从而影响决策的正确性。这是因特息长期以来没有解决,也不可能解决的问题。
因此,需要有一个于因特网之外的非网络的人工信息采集渠道和数据编辑统筹与分析系统。比如:与在全国各地有人工采集系统,各地图书馆合作系统、集报剪报俱乐部系统,通过采集、剪辑、拍摄、录制等手段大量获取源媒体信息,原始信息,解决因特网难以解决的个性化信息查询问题,率先实现了网络、电视、广播、户外、手机、户外,全方位、多渠道的立体舆情监测系统。
2 全媒体/跨媒体多渠道信息融合与分析
目前国内大多数网络舆情信息监测系统,都是基于客户所需要的需求,定制相关关键词,通过各种技术抓取和人工生产各种监测新闻数据,都是基于信息本身的。而没有一个是基于媒体分析的,多层次、多角度对媒体数据的内容、语义、描述进行分析,建立媒体分析模型,研究媒体数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,建立超规模媒体内容深度分析的概念模型,为媒体大数据的内容理解奠定基础。
多个渠道采集的信息由于行业及传播渠道的局限性,传播的信息方式各不相同,他们记录和表现的形式更不一样,如此多的渠道、如此多的信息表现形式,因此格式化、标准化各渠道信息显得尤为重要,同时也为全媒体数据分析奠定了基础。对现实中出现的各种网络,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。因此研发一套自动化的网络舆情分析系统显得尤为重要。这样的系统核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间.
建立基于媒体的数据分析模型、媒体大数据结构和内容分析的多层次描述方法,实现了超大规模媒体数据内概念分析模型,建立大数据为基础全媒体舆情监测分析系统。
3 建立跨媒体的内容深度分析的概念模型
目前国内大多数网络舆情信息监测系统,都是基于客户所需要的需求,定制相关关键词,通过各种技术抓取和人工生产各种监测新闻数据,都是基于信息本身的。而没有一个是基于媒体分析的,多层次、多角度对媒体数据的内容、语义、描述进行分析,建立媒体分析模型,研究媒体数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,建立超规模媒体内容深度分析的概念模型,为媒体大数据的内容理解奠定基础。
4 大数据环境下全媒体/跨媒体数据信息的危机预警与自动预测 危机预警系统,是指实现危机预警功能的系统,即实现预测和报警等功能的系统。
危机预警系统大体上可以分为两大类:电子预警系统和指标性危机预警系统.
(一)电子预警系统
电子预警系统主要是由电子装置进行信息采集、信息分析、决策和发出警报的,电子预警系统的运作过程基本上依赖于电子装置,是一种自动的预警系统。
(二)指标性危机预警系统
指标性危机预警系统是指对组织中那些不容易根据获得的信息直接判断危机发生与否的危机,将信息转化为一系列较好识别的指标,然后根据指标的异常进行危机预警的系统-这种危机一般无法根据直接获得的信息判断危机发生与否,需要对信息进行加工,使原始信息转化为一系列的指标,然后综合各种指标以判断危机发生与否:而且,判断也不是直接的,需要有一定的知识和经验,还要结合组织的内外环境,才能做出较为准确的判断,并决定是否发出警报。
舆情等数据分析机构从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益已有实际应用。在美国情报局,情报人员通过抓取海量数据来追踪和监控社会情绪,首席技术官格斯·汉特称,在“阿拉伯之春”中,大数据分析可以了解多少人和哪些人正在从温和立场变得更为激进,并“算出”谁可能会采取对某些人有害的行动
因此,危机预警系统的要求:
(1)危机预警系统要能采集到危机预警所需要的信息。
(2)危机预警系统能准确地预警危机,既不会对不是危机发生的信号发出错误的预警,也不会忽视危机发生的征兆。
(3)危机警报能被应该接受警报的人接收到,并能被警报的接受者正确地理解。
(4)各种危机警报之间不会相互干扰而影响危机警报的接收。 (5)危机预警系统的建立和使用要经济、合理。 (二)全媒体舆情监测的创新之处
在舆情监测分析系统核心技术自主创新发展研究方面, 东方剪报研究团队突破传统思维,摆脱行业束缚,开创了跨媒体的舆情监测分析平台,实现了网络、平面、电视、广播、手机、户外全媒体数据监测服务,多渠道、多方法的智能监测分析与一身的专业服务监测分析平台。
电视信息的信息采样与自动识别、纸介(报纸和杂志)信息的识别、
转化与上传、户外信息的传播内容与整合,无疑为全媒体数据分析奠定了基础。
通过该系统,最终实现对全媒体采集到的数据进行多层次、多角度的分析,分析不同数据的表现形式(是以什么形式发布的:网络(新闻、微博、博客、社区还是其他)、平媒(报刊还是杂志)、电视、广播、户外,还是手机等新媒体)、不同数据的组织结构(数据的表现形式:纯文本、图文并茂、视频、视频+文字、语音、语音+文字)、数据概念的分类与概念定义、数据的提取(发布来源)、传播渠道、媒体传播的关注度、新闻事件被关注程度、变化规律、发展趋势等,对采集的300多家媒体平面,300多家广播电视媒体,和国内外所有网络媒体的数据内容进行综合分析和建立概念模型,转换成一种最直观的表现形式,让和企业决策者通过该系统,对于某一类信息采取什么样的渠道发布效果会最佳、以什么形式表达效果最棒、什么样的媒体适合该信息的发布做出正确、准确的判断,同时为全媒体监测舆情分析系统到各种数据内容的理解奠定基础。
舆情分析系统自动预警功能:预见功能,通过对社会生活领域中特定指标的研究,找出某些敏感性指标的异常变化并预先指出其发展征兆。这种预见性功能是危机预警的首要功能,该系统中的其他功能基本上是危机管理由此衍生出来的;警示功能,通过对政治社会生活领域中的特定指标的监测,可以将有关信息和结果向相关部门或社会公众发出警示,发挥导向功能;减缓、延缓功能,对于这一点,往往容易被人忽视。实际上许多危机的损害程度和规模之所以最终导致到难以收场的地步,很大程度上是由于没有认识到一些危机可能是难以完全避免的,比如一些非人力所能及的自然灾害,对此就只能尽可能地利用已存在和潜在的条件来尽力减缓、延缓其发展的速度,减少其所带来的损失,避免危机的扩大和升级;阻止、化解功能,对于许多现实问题,可以通过一定的措施给予相应的阻止和化解,实际上也在某种程度上防范了未来危机事件的爆发。这是预警系统中的最重要也是最现实的目标。
三、全媒体舆情监测需要解决的问题
1.1需要解决的主要问题
东方剪报认识到目前传统的网络舆情监测平台相对有一定的局限性,并不能反映大数据的全面性、及时性和准确性。因此,这给大数据的全媒体舆情监测系统带来了发展的机遇,通过对网络、电视、广播、平面(报纸&杂志—纸介)、手机、户外、国外媒体进行全方位、立体智能监测,在信息全面性、及时性和权威性方面充分弥补传统的网络舆情分析平台发展的不足,为正确建立全面、及时、准确的大数据舆情分析平台奠定基础。
通过对采集到的媒体监测大数据进行多层次、多角度的语义描述进行
分析,建立媒体分析模型,研究媒体数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,建立超规模媒体内容深度分析的概念模型,利用现代信息技术建立一套全方位立体智能的全媒体舆情分析系统,从而进行控制和引导。
危机预警也是需要研究的重点,利用计算机技术对信息进行不同级别的负面舆情定制自动分类,分绿色预警、蓝色预警、黄色预警、橙色预警和红色预警5种预警级别,根据系统定义,全媒体舆情系统自动启动预警机制,把相关信息分别通过不同形式(电话、短信、邮件、传真、即时通讯工具)通知不同级别的管理人员,便于为危机公关做出正确决策及时应对。
因此,立足创建以全媒体舆情监测分析平台为核心技术平台,研究在新的全媒体环境下进行信息监测,对信息采集的方法及能力不断优化,促进用新技术实现全媒体数据的监测、分析、预警。
1.2解决问题的四个方向
1.2.1 全媒体舆情信息的高效采集及智能识别技术研究
(1)对网络媒体的监测:为深入了解网络媒体的传播载体及技术特性,对互联网海量舆情信息通过爬虫技术和基于网页智能采集技术自动获取、 抽取、 分类、聚类、溯源等,最终形成舆情预警、舆情简报、舆情专报、分析报告、传播路径、舆情溯源等舆情产品,采集的范围包括网络新闻、报纸电子版、微博、论坛、博客、社区等网络信息载体。
(2)对电视、广播的监测:由于电视和广播是以音频及视频技术存储的,因此我们通过数字监控硬盘录像系统对监测到的信息进行录制、存储,通过专业采样识别系统对其频率进行采样,自动识别相关的电视及广播信息,并截取存储,提交给监测人员视频(电视)及音频(广播)进行信息识别和摘要提取工作,按照指定格式制作广播电视数据监测报告,上传至系统进行存储。
(3)平面媒体监测:对于报纸及杂志,采用人工阅读、系统扫描识别,并上传系统,按照平面信息要求进行平台上传登记:报纸扫描件、信息标题、正文、作者、发布日期等,按照信息融合的标准上传系统并进行存储。 (4)手机媒体监测:通过网络对手机客户端及微信、微博,实现对手机信息的监测。
(5)国外媒体监测:通过我们驻外人员国外相关媒体信息进行识别及监测,上传系统并存储。
(6)智能识别技术:通过计算机技术实现网络数据识别、音视频文字智能解析、音视频声音识别文字、文字转换语音识别,为高效采集全媒体数据
提供技术保障;
1.2.2 全媒体多渠道信息融合与分析技术研究
全媒体舆情信息采集渠道包括:网络、电视、广播、平面媒体、手机、户外、国外媒体,媒体类型横跨现代媒体和传统媒体,因此信息结构也都发送了质的变化,信息的组成要素、标题的长短及构成要求、发布日期(传统媒体精确到日,现代媒体却精确到秒)、传播的方式、阅读的习惯、信息的载体等等,这势必给全媒体舆情分析系统的信息融合带来了巨大挑战,因此首要解决的任务之一就是跨/全媒体多渠道信息融合技术的研究,制定标准与信息规范,使其既能适合传统媒体信息分析,又能兼容和高效的现代媒体相结合,为打造全新的全媒体舆情监测分析平台奠定数据基础。
1.2.3 大数据环境下舆情危机预警与自动预测技术研究
舆情预警:根据定义的预警级别与舆情信息关联,实现舆情预警联动机制,自动发现与主动报警,分级别通知不同层次的决策人士,第一时间进行危机公关预案处理。
根据系统定义的关键词及自然语言识别系统,联合危机预警策略,根据大数据自动识别并自动预测,实现全智能舆情监测的危机预警零容忍服务。
1.2.4 大数据环境下舆情监测分析平台的设计与开发
分析功能主要指传播路径、话题演化及观点倾向等分析,可细化为话题发现及追踪、传播走势分析、倾向性分析、信息过滤、度关联等子功能[13]。通过对采集的全媒体舆情信息进行媒体异构,格式化不同媒体的信息,抽取、 分类、聚类、溯源等,最终形成按地域、媒体属性、媒体类型、类别、栏目、事件、热点、日期、关键词、行业、主题、正负面、文章性质(转载及原创)、传播路径、舆情溯源等多纬度、多层次的立体分析平台。
1.3解决问题的思路:
(1) 信息采集的渠道的研究:对不同载体进行技术分析,针对不同技术要求采取不同的技术进行信息采集,通过不同技术的技术集成实现全媒体数据的采集。[3]
(2) 多渠道信息融合:为实现多媒体数据信息兼容,实现全媒体数据分析,需要对各种媒体信息进行统一存储及分析。
(3) 自然语言处理技术与数据挖掘技术:它是以东方剪报多年积累的中文信息处理技术和中文自然语言处理技术为基础, 融合了最新的人工智能、 信息检索、文本挖掘的研究成果。 它提供对海量文本内容进行智能检索、智能分析及智能化自动处理的功能,融合了中文信息处理、人工智能、
信息检索的最新研究成果。
(4) 多技术的融合与完美结合运用:网络数据智能抓取及分析技术、音视频文字智能解析技术、音视频声音识别文字技术、文字转换语音识别技术、音视频根据文字内容快速定位/检索技术、媒体大数据特征分析技术; (5) 舆情分析平台:利用计算机技术及自然语言识别系统,通过异构媒体大数据进行切片、分段,通过数据库技术及flash技术对分析数据进行动态话全方位统计及展现。
(6) 舆情预警:加强监测力度,密切关注事态发展,保持对事态第一时间的知情权监测预警能力,主要体现在能否从每天海量的网络言论中敏锐地发现潜在的危机苗头,以及准确判断这种发现与危机可能爆发之间的时间差。这个时间差越大,相关职能部门越有充裕的时间准备,为下一阶段危机的有效应对赢得宝贵的时间。
1.4. 解决问题的技术实现方法:
(1)系统架构:采用B/S软件架构,利用爬虫技术及互联息采集技术进行信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确引导,提供分析依据。
(2)数据库架构:选取微软数据库管理平台SQL server2008R2, 是一个功能强大且可靠的数据管理系统,它功能丰富,能保护数据,并且可改善嵌入式应用程序和本地数据存储区的性能。
相比其他的数据库,SQL Server 2008的优势体现在:
性能和可伸缩性 更加安全(漏洞更少) 开发效率 商业智能(BI) 与Office 的集成 (3)开发语言:C#。
C#是微软公司发布的一种面向对象的、运行于.NET Framework之上的高级程序设计语言。并定于在微软职业开发者论坛(PDC)上登台亮相。C#是微软公司研究员Anders Hejlsberg的最新成果。C#看起来与Java有着惊人的相似;它包括了诸如单一继承、接口、与Java几乎同样的语
法和编译成中间代码再运行的过程。但是C#与Java有着明显的不同,它借鉴了Delphi的一个特点,与COM(组件对象模型)是直接集成的,而且它是微软公司 .NET windows网络框架的主角。
C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对象的编程语言。它在继承C和C++强大功能的同时去掉了一些它们的复杂特性(例如没有宏以及不允许多重继承)。C#综合了VB简单的可视化操作和C++的高运行效率,以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程的支持成为.NET开发的首选语言。
四、参考文献和研究资料
[1] 龚海军.网络热点话题自动发现技术研究[D].武汉:华中师范大学,2008.
[2]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2006. [3] 杨涛.智能信息处理技术在互联网舆情分析中的应用[D].上海:同济大学,2008.
[4]毕宏音.网络舆情形成与变动中的群体影响分析[J].天津大学学报:社会科学版,2007(3).
[5] 夏华林,张仰森. 基于规则与统计的web 突发事件新闻多层次分类[J]. 计算机应用,2012,32(2).
[6] 王来华.舆情研究概论:理论、方法与现实热点[M].天津:天津社会科学院出版社,2003.
[7]刘毅.内容分析法在网络舆情信息分析中的应用[J].天津大学学报:社会科学版,2006(4).
[8] 第34次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2014.
[9]郭岩,刘春阳,余智华,等. 网络舆情信息源影响力的评估研究[J].中文信息学报,2011(3).
[10]黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1).
[11] 梅中玲.基于Web 信息挖掘的网络舆情分析技术[J].中国人民大学学报:自然科学版,2007(4).
[12] 刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):.
[13]吴晓云.层次化关键词抽取与文本自动分类在BBS 中的应用[D].上海:上海交通大学,2007.
[14] 王宏伟.舆情信息工作策略与方法[M].北京:中国人事出版社,2011.
[15]赵琦,张智雄,孙坦,等.主题发现技术方法研究[J].情报理论与实践,2009,32(4).
[16]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11).
[17]段建勇,谢宇超,张梅.基于句法语义的网络情感倾向性评价技术研究[J].情报杂志,2012,31(1).
[18]刘辉,胡大治.数据挖掘技术发展及其应用[J].甘肃科技,2006(4). [19]陈福集,杜锦锦.网络舆情监测技术研究及应用综述[J].情报探索,2014(5).
[20]连玉明.中国舆情报告[M].北京:中国时代经济出版社,2010 [21]杜骏飞.沸腾的冰点---2009中国网络舆情报告[M].杭州:浙江大学出版社,2009.
[22]晋胜国.《城市公共安全与应急管理研究[M].北京:上海社会科学院出版社,2009.
[23]雷跃捷.网络传播概论[M].北京:中国传媒大学出版社,2010. [24]左学金.群体性突发性事件与舆情[M].天津:天津社会科学院舆情研究, 2005.
[25] 龚建疆,杨沙,张杰文. 基于自主搜索引擎的质监局网络舆情监测系统的设计[J].企业家天地,2011(8).
[26] 黄炜,程宝生,杨青.基于本体的网络件主题发现研究[J].图书情报工作,2012,56(20).
[27]孙培梁,林枫,昌志泷.大数据时代的网络舆情监测系统研究[J].数字技术与应用,2014(3).
[28]尹培培.大数据时代的网络舆情分析系统[J].广播与电视技术,2013(7).
[29]尹亚辉.大数据时代网络舆情传播形态与引导战略[J].新闻知识,2013(12).
[30]顾穗珊.大数据时代智慧主导的中小企业竞争情报服务供给研究[J].国书情报工作,2014(5).
[31]李彪.社交媒体时代的网络舆情——生态变化及舆情研究现状趋势[J].新闻记者,2014(1).
[32]陈婷.工商网络舆情实证分析与应对机制研究[J].中国工商管理研究,2014(6).
[33]陈福集.基于SEIRS传播模型的网络舆情衍生效应研究[J].情报杂志,2014(2).
[34]唐涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014(3). [35]汪星州.浅析大数据时代下的网络舆情[J].商,2014(16). [36]邓焕根.网络爬虫在舆情监测中的应用研究[J].广东科技,2014(6). [37]白雅琴,张银川.网络舆情监测系统在社会舆情分析中的作用[J].电子测试,2014(8).
[38]冯江平,张月,赵舒贞,陈虹.网络舆情评价指标体系的构建与应用[J]. 云南师范大学学报:哲学社会科学版,2014.
[39]贺恩锋,庄林远,徐文根.网络舆情潜在影响力指标体系构建及应用[J].情报杂志,2014(1).
[40]赵红培.我国网络舆情研究文献发展趋势探析[J].贵州警官职业学院学报,2014(2).
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务