您好,欢迎来到六九路网。
搜索
您的当前位置:首页面向机构的智能文本分析系统的研究

面向机构的智能文本分析系统的研究

来源:六九路网
维普资讯 http://www.cqvip.com 信号与信息处理 面向机构的智能文本分析系统的研究 陈 勇,张佳骥,戎纪光 (中国电子科技集团公司第54研究所,河北石家庄050081) 摘要随着电子文本信息在机构内部的快速增加,人们无法应对堆积如山的文档,许多文档无法实现其信息价值,如 何充分利用这些文本信息资源已成为一个迫切需要解决的问题。介绍一种可用于机构内部的智能文本分析系统以及相关的 关键技术,其功能包括文档检索、文档自动摘要和话题自动识别与跟踪。利用智能文本分析系统能够充分实现文本文档的信 息价值。 关键词 智能文本处理;文档检索;文档摘要 中图分类号TP311 文献标识码 A 文章编号 1003—3106(2007)02—0031—03 A Study on Organization・oriented Intelligent Text Analysis Systems CHEN Yong,ZHANG Jia—ji,RONG Ji—guang (The 54th Research Institute ofCETC,Sh ̄iazhuang Hebei,050081,China) Abstract As the number of electronic text documents rapidly increases in organizations and enterprises,there are growing needs for text processing techniques to help organizations and enterprises leverage their large volume of electronic text resources.People are incapable to deal witl1 hundreds thousands of documents without an auxiliary system. Many valuable documents have no chance to be found and used.An intelligent text analyzing system is depicted in this paper by introducing its architecture and concerned key technologies.The system can help eoplpe to make full use of heitr textual dataset. Key words intelligent text processing;document retrieval;document summariatizon 0 引言 . 别和处理能力; ③分布式存在。对于大型机构来讲,其分支机 构可能遍布全球各地,对信息的需求在全球各地都 会发生。高效地处理分散在各地的信息,快速响应发 生在各处的信息需求是文本分析系统必备的能力。 针对以上特点智能文本分析系统应具有相应的 随着计算机技术以及计算机网络技术的不断推 广使用,在企业或机构内部越来越多的信息以电子 文本信息的形式被保存下来。这些重要的文本信息 分散在机构的各个部门且未经处理,这就给信息查 找和信息利用造成了困难;另外,分散孤立的文档不 利于信息的整合和综合开发利用。1条孤立的消息 处理模块,智能文本分析系统的功能框图如图1 所示。 可能利用价值有限,但综合多条消息产生的信息往 往会有出人意料的价值。智能文本分析系统能够对 机构内部各种文本信息进行分析和理解,并在此基 础上对机构内部信息进行整合和开发利用。 检索l文档J l自动} I 摘要 …一l识别与跟踪 各 种 自 然 语 I话题自动 智能文本分析引擎 文档内容提取,将文档表示为统一格式 文档获取 1 智能文本信息系统介绍 机构内部的信息系统具有以下特点: ①存储格式多样性。机构内部电子信息的存 言 支 持 模 型 储格式多种多样。文本分析系统要具有从不同格式 的文件中抽取文本并将其表示为一种统一格式(比 如XML格式)的能力; 机构内部文档 ②语言的多样性。机构内往往存在各种自然 语言的文档,文本分析系统可能需要具有多语种识 图1智能文本分析系统 收稿日期:2006-09-04 2007年无线电工程第37卷第2期 31 维普资讯 http://www.cqvip.com 信号与信息处理 图1中各功能模块的作用如下: ①文档获取负责将散布于机构各个角落的文 档汇总到公共处理平台。这些文档可能存在于局域 网,也可能存在于广域网; ②文档内容提取负责提取各种文档中的内容, 并将其表示为统一格式 以便进行信息整合; ③智能文本分析引擎是系统的核心。负责对 文档内容进行分析,包括概念识别、实体识别、实体 关系识别和聚类等; 先将每一个文档按照给定的分类标准进行归类,用 户在查询时,按照分类目录逐层定位到相关的文档。 目录式搜索也存在一些不足之处。文档归类工作需 要相关领域专家的参与,这样就需要大量的人力和 时间。在检索时,要求用户对分类标准有一定的了 解。否则,有可能出现文档存在但却检索不到的 情况。 ③示例文本检索。随着计算语言学,数据挖掘 技术和神经网络技术的发展,出现了示例文本检索 ④文本检索,自动摘要和话题自动识别与跟踪 等是一些典型的基于智能文本分析引擎的应用 形式。 2智能文本信息系统组成 :. 2.1 智能文本分析引擎 首先,智能文本分析引擎利用各种数学模型、自 然语言分析理论对文档进行分析。通常采用矢量空 间模型(Vector Space Model,VSM)对文档进行分析并 将文档表示为矢量空间中的一个向量,利用自然语 言分析理论识别出甸子的组成成分,然后,基于这些 分析实现一些核心功能。可以基于文档向量计算文 档问的距离,并进而实现聚类。利用句法分析识别 出文本中出现的实体,以及实体之间的关系。 智能文本分析引擎是整个系统的核心,它的主 要功能是对文本内容进行分析和理解,为生成各种 应用服务提供支持。 2.2 文档检索 文档检索的目的是从文档集合中找出满足用户 查询条件的文档。常见的方法有: ①关键词检索。用户提供若干关键词,利用布 尔表达式表示出用户的检索要求。根据检索要求从 文档集合中找出符合查询条件的文档。在关键词匹 配全文检索技术中,只要一个文档中出现了查询关 键词,则认为此文档是相关的。但是,有检索词出现 的文档并不一定就真的符合用户的检索要求。因 此,全文匹配检索技术往往会产生大量的非相关文 档。关键词检索可以表示如下: 文档集合:D={d1,d2,…d };df∈D;d = {W¨,Wm,…Wf.n},Wf,l,Wj,2,…Wf'n代表文档df包 含的词。 查询关键词集合:Q:{q1,q2,…,q },q1,q2, …,口 代表查询关键词。 V d ∈D,若j Q,且Q d ,那么d 将是检索 结果之一。 ②目录式检索。在分类目录式检索方式中,事 32 2007 Radio Engineering Vo1.37 No.2 技术_1,3 3,即基于用户提供的样本文档进行检索。 示例文本检索指的是用户提供一篇样本文档,样本 文档代表了用户的检索需求,在对样本文档进行分 析的基础上,进行检索操作。相对于关键词检索,样 本文档能够提供更详细的有关用户检索需求的信 息,因此,检索结果更准确全面。 2.3 自动摘要 文档检索只能将用户需要的文档提供给用户。 为了获取信息,用户需要逐个阅读每一个文档。自 动摘要能够抽取文档的主要内容形成文档摘要,从 而大大降低用户浏览文档的时间。 自动摘要分为2种:一种是为一篇文档或一个 文档集合生成一段短文,短文浓缩了文档或文档集 合的主要内容和观点。比如,有一个文档集合包含 了体育新闻、财经新闻和教育新闻。先对这一文档 集合按照主题进行聚类,然后再做多个层次的摘要 处理。多个层次的摘要处理对主题做不同程度的概 括。最高程度的概括,又可称作主题,用高度包容性 的一句话作为类的主题。次要程度的概括是由若干 句子组成的一段短文。读者可先阅读有高度概括性 的主题,若对其感兴趣则进一步查看短文摘要甚至 原文;另外一种自动摘要指的是抽取文本中的关键 信息点,只把用户最关心的若干要点从文本中提取 出来。第2种方式取得的信息有进一步利用的价 值,提取出的要点可以填写到传统的数据库中,这样 就可以使用传统的数据挖掘技术对这些抽取出来的 信息进行2次处理以发现更有价值的信息_2』。 限于目前自然语言理解技术的发展水平,还不 能在真正理解原文的基础上生成文摘,所以现阶段 第1种自动摘要技术大多采用摘录的方法,即抽取 文中关键旬组合生成文摘,目前的自动文摘技术可 做如下逻辑解释。 文档D={ s2,…, }用Weight(sf)表示计算甸 子Si的权值 ,S表示选定的文摘句子集合, 表示阈 值。 V si∈D,女日果W=Weight( )> ,习 么s ∈ S。 维普资讯 http://www.cqvip.com 信号与信息处理 自动摘要的支持技术是信息抽取技术,而信息 抽取技术又以计算语言学、自然语言处理以及语法 规则研究等理论为基础。 信息检索技术是从文档集合中查找相关文档, 信息抽取技术是从文档中抽取具体信息,两者之间 存在很好的互补性。在由美国资助的TIPSTER ={ , …dpn},aT(1 i P)∈D; d U d U…U d?=D。 话题识别与跟踪可以分为以下5个子任务: ①对新闻报道的切分(Story Segmentation):对新 闻报道的切分工作是其他任务的基础。从某一信息 研发项目中,就将信息抽取和信息检索技术很好地 结合在一起。在TIPSTER项目中,系统由“探测” (Detection)和“抽取”(Extraction)2个阶段组成。在 “探测”阶段,根据用户的检索要求从一个海量文档 集合中检索出相关文档。在“抽取”阶段,从检索出 来的文档中抽取有用的信息。 信息抽取和信息检索所使用的技术是不相同 的。信息检索技术主要涉及信息论、概率论和统计 学等方面的知识。而信息抽取主要涉及计算语言 学、自然语言处理以及语法规则研究等技术。为了 取得更好的效果,信息抽取技术更关注文本的语法 特征。因为准确掌握文本的语法特征是理解文本真 实含义的基础。一个信息抽取系统通常由4部分组 成: ①文本预处理,这一步主要是针对一些东方语 言,如中文。在这些语言中词与词之间没有明显的 间隔符号。因此,需要对句子进行分词处理,将句子 中的词明确下来。而在西方语言中,词与词之间有 空相隔,词语本身非常明确。因此,此步骤可以 省略; ②语义、词性处理,在词语本身已经明确的基 础上,对词在句子中呈现的词性加以确定。另外,一 个词一般会有多种意思。因此,还要对词的意义加 以明确; ③在词义和词性明确的基础上,对句子进行语 法分析。明确句中词与词之间的语法关系; ④指代关系识别,在一段文本中,可能使用不 同的词或短语指代同一个对象。对这种多对一的映 射关系需要准确把握。 2.4话题自动识别与跟踪 话题自动识别与跟踪(TDT)指的是从一个新闻 信息流中识别出其中包含的话题,以及对感兴趣的 话题进行自动跟踪 』。比如,自动监控广播、电视等 节目,并从中识别出各种突发事件、新事件以及关于 已知事件的新消息。 话题自动识别可以表示如下,对于给定信息流 D,D包含了一系列的新闻报导,d1..…・d 。话题自 动识别系统生成以下话题类 , ,… 。 T1={d:, …d2},d:(1 i≤k)∈D; ={d ,d;…d }, (1 i≤h)∈D; 源获得的信息流通常是一串前后相连、话题各异的 新闻信息流。因此,需要对信息流进行切分,即找出 相邻2个新闻之间的边界; 。 ②新事件的识别(New Event Detection,First Story Detection):即在新闻报道信息流中识别出关于 一个新话题的首次报道。TDT系统的输入是一个新 闻信息流,新事件的识别是指从事件流中探测以前 未观察到的新事件,本质上是对每一个报道进行即 时归类。如果当前报道是关于以前从未出现过的一 个新话题时,将此话题归到一个新创建的类; ③报道关系识别(Story Link Detection):判断2 个随机选择的新闻报道是否是关于同一个话题; ④话题识别(Detection):将新闻流中的文档聚 为若干类。新闻流当中包含有不同话题的报道,话 题识别的作用就是将杂乱无序的报道按话题聚为若 干类,使得文档集合具有一定的组织结构; ⑤话题跟踪(Topic Tracking):监控新闻报道信 息流以发现与某一已知话题(由若干个样本新闻报 道定义)有关的新报道。给定一个话题,给定的话题 可以由若干已知文档来定义,目的是把后续文档中 与此话题相关的报道全部挑选出来。 话题跟踪可以与自动摘要相结合以产生更强的 功能。比如,首先利用话题跟踪功能收集关于某一 话题的相关报道,然后利用自动摘要功能从多个报 道中抽取相关内容要点,去除冗余信息,生成一个摘 要以达到围绕这一话题对文档集合进行压缩的 目的。 3 结束语 本文介绍了智能文本分析系统的主要功能及其 关键技术。随着文本信息在机构内部的不断累积, 文本信息处理技术会显得越来越重要。本文介绍的 内容提供了一个完整的解决方案。 参考文献 [1]WEISS M S,WHITE F B,APTE V C,et a1.Lightweight Document Matching for Help-desk Applications[J].IEEE Intelligent Systems,2000,3(4):57—61. [2]李彦平,张佳骥.文档聚类中的降维技术研究[J].无线 电工程,2005,35(6):51—56. 作者简介 陈勇男,(1968一),中国电子科技集团公司第54研究所工 程师。主要研究方向:信息处理。 2007年无线电工程第37卷第2期 33 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 69lv.com 版权所有 湘ICP备2023021910号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务