维普资讯 http://www.cqvip.com 个性化信息检索系统的用户模型研究 A Study on User Profile of Personal Information Retrieval System 李爱明 (华中师范大学 武汉430079) 刘 冰 (孝感学院 教感432000) 摘 要 分析了传统信息检索系统实现个性化信息检索的必然性,对个性化信息检索系统的信息代理Agent、用户模 型等相关问题进行了探讨,提出了一个基于向量空间的个性化信息检索用户模型。 关键词 用户模型 个性化信息检索系统 因此,为了更好地满足用户的查询需求,我们必须在检索 过程中考虑用户的个人兴趣偏好,建立一个个性化信息需求模 型,该模型能实现下列目标:a.在表达查询请求时,用户不需要 因特网上丰富的信息资源为人们获取信息提供了极大的 便利,但由于用户个体之间的差异,必然对信息服务提出不同 的要求。为了解决信息资源的有效利用与个体信息需求差异 之间的矛盾,“个性化信息服务”越来越引起人们的重视,日益 认知其信息需求的所有内容。在进行信息检索时,用户是否了 解搜索引擎的机制及数据库的组织结构,对系统的检索效率没 有影响。b、系统会根据用户模型将最有价值的信息自动推荐 给用户,同时用户不必进行查询修改便可得到满意的查询结 果。C.系统为用户提供的信息更有针对性,检索结果的文档排 序与用户需求一致,这样,用户就不必浪费时间下载、阅读大量 的不相关文档。 成为情报界研究的热点问题。个性化信息服务包括个性化内 容定制服务、个性化信息检索服务、个性化界面定制服务、个性 化信息推荐服务。本文主要探讨个性化信息检索服务和基于 向量空间的用户模型。 1 传统信息检索向个性化信息检索发展的必然性 传统信息检索系统在发展初期大多基于布尔检索模型,该 模型用关键词或布尔查询表达式表示文档。对于给定的用户 查询,系统通常将数据库中的文档集合分为两部分:一部分包 为了实现以上目标,一个个性化智能信息存取系统将会满 足终端用户的需求,这意味着系统能有选择性地将真正相关的 信息传递给用户,而不是用户不时地主动寻找信息。卣于不同 含符合查询条件的文档;另一部分包含不符合查询条件的文 档。从用户的角度来说,这些文档集合中分别包含有与用户需 求相关的文档及一些与用户需求不相关的文档。对于用户的 用户的兴趣偏好大多是不同的,信息系统必须高度个性化以服 务于每个用户。 2个性化信息检索系统 2.1 个性化信息检索系统一般原理【l 其原理可表述为: 查询请求,检索结果中常常不可避免地包含许多不相关文档, 使人们难以从中辨别和选择。虽然用“AND”操作符连接关键 词作为布尔查询式输入可减少输出文档的数量,但往往会丢失 用户提出查询请求,选择主题;用户个性Agent确定用户兴趣; 许多相关文档,这通常不符合用户真实的信息需求。 随着网络的发展,Internet上存在大量不同类型的信息资 信息搜索程序根据用户兴趣进行信息搜索;搜集结果经过信息 过滤,按统一的相关度评级排序,组织起来返回给用户;查询到 的信息由用户挑选,组织到信息数据库中,此数据库记录用户 就某一专题所查询的网上资源,同时追踪这些资源的新变化, 加以有效管理,方便用户在本地调用信息资源,系统通过与用 源,搜索引擎作为网络信息检索工具而被人们广泛使用,但是 随着网络信息量的增加,面对用户个性化的信息需求,传统搜 索引擎日益显现其不足,具体表现在以下几个方面:a.大部分搜 索引擎是基于关键词匹配的,这种匹配完全是一种机械式的匹 配,它既不能区分关键词的同形异义,也不能联想到相关同义 户的交互,不断修正知识库和兴趣库,同时,系统对用户所确认 的信息进行内容挖掘,对用户兴趣加以预测和补充。 2.2 用户模型 用户模型常被理解为对用户在某个时间内 词,更不可能考虑到关键词所处的特殊语言环境。因此,它不 能有效地理解人们的查询请求。b.用户在选择关键词或构造 相对稳定的信息需求的描述l2 J。用户模型在个性化信息服务 中发挥着基础和核心作用。它根据用户提供的学习样本或主 动跟踪用户的查询行为建立用户兴趣的初始模板,再根据用户 反馈不断更新模板。 查询表达式表达其信息需求时往往面临一些困难,对于许多无 关信息,往往需要用户花大量时间浏览与选择。c.传统搜索引 擎基本上都是“一个搜索适用所有用户”,对所有用户其检索结 果都是一样,不能根据不同的用户给出相应的建议,无法满足 用户的个性化需求。 在传统的信息检索系统中,仅根据用户查询语言来表达其 暂时的信息需求,这对于建立某一数据库中文档的相关度往往 作者简介:李爱明,女,1975年生,硕士研究生,研究方向为信息组织与信息检索。 回 维普资讯 http://www.cqvip.com 是不够的。实验表明,不同用户对同一查询可能希望有不唰的 广泛应用于个性化信息系统。 结果;同一用户在不同时期对同~查询也可能期望有不同的结 2.4 用户模型在检索过程中的运用 随着用户兴趣的表 果。这意味着在检索过程中必须考虑用户偏好模型,并且,用 示,用户模型被建立起来。在个性化信息检索系统中,用户模 户模型是动态变化的且需要不断更新L3』。信息代理在用户模 型常常通过以下方式被利用:a.利用用户模型来进行信息过滤: 型的构建及维护中发挥着重要的作用。 用户不需要给系统提交查询,只需系统推荐定期地将信息传递 2.3信息代理Agent 运用传统信息检索方法很难满足上 给他(她)们。这种方法常用于个性化新闻服务或信息过滤系 述信息检索需求。为此,软件代理作为智能信息检索技术之一 统,该系统中的信息资源定期更新。b.利_旰j用户模型修改用户 可用来确定个人用户偏好并应用于检索过程。在个性化信息 提问:针对用户提问不够精确或完整的问题。系统可通过模型 检索系统中,信息代理是一个计算机程序,它能够以用户模型 表示来调整提问式。C.利用用户模型重新调整输出结果:用户 的形式保存有关用户兴趣的信息,并根据用户提交的查询式和 模型被看作是对系统用户查询结果后的过滤。 用户偏好来排序文档。 Widyantoro在文献[9]中采用一个个性化新闻代理开发信 信息代理最主要的任务是构建用户模型和适直用户兴趣 息过滤系统模型,该系统中用户模型由不同的兴趣类目组成, 变化的学习算法。构建用户模型时,通常从隐性反馈和显性反 每一类包括一个正描述符,负描述符和长期描述符。正描述符 馈中收集有关用户兴趣的信息。显性反馈通常要求有用户的 和负描述符均采用一个特征向量,这个特征向量分别从文档的 参与以描述其感兴趣领域或其他相关参数,该方法简单,但增 正负反馈(正反馈表示用户对文档内容感兴趣,负反馈则相反) 加了用户的负担。另外还可通过用户对所提供信息的评价来 中获得,但长期描述符取得的特征向量则是从两种反馈类型中 获取用户兴趣。隐性反馈是基于用户行为的,它通过观察用户 获得的。每个描述符也有一个权重来代表相应描述符兴趣类 在使用系统时的行为来确定,常常不需要用户的介入。例如: 目的兴趣水平。其信息过滤过程如下:对于给定的一个文档特 如果某用户选择了某篇文章,在一定程度上便可明确推断他 征向量,系统在用户模型中找出最相关的类目,文档分值由正 (她)对该篇文章的内容感兴趣L4j。如果用户迅速返回,即既未 相似性(正描述符与文档向量的相似性)和负相似性(负描述符 保存目标文档,又未进一步链接,就认为用户对此不感兴趣。 与文档向量的相似性)的差异来决定,文档分值越大,文档就越 Liebeman建立了一个帮助用户浏览Web信息的信息代理 接近用户需求。系统将具有最大分值的前 个文档推荐给用 LetiziaL5』,Letizia可准确地监控用户浏览行为以形成一个用户 户。该方法的缺点是用户不能提问表达他(她)不同于用户兴 模型,并搜索潜在的推荐兴趣页。Letizia系统可在用户浏览时 趣的fI缶时信息需求。 向用户建议其可能感兴趣的链接,这些链接往往与用户当前访 文献[3]提出在向量空间模型中利用用户模型来修改提问 问的页面内容相关。 的方法。在他们的方法中,不再考虑提问和模型两个最初的实 隐性反馈的优点是可使信息代理更具友好性,然而,对于 体,仅仅是被修改的提问影响检索过程,提问和模板的不同线 用户兴趣解释的模糊性可能造成检索结果不精确,例如:标引 性依附性以其简明和直观而被学习。文献[10]中介绍了一种 人员在处理某一不太熟悉领域的文档时,可能认为某一相关文 基于布尔信息检索模式的模型,该模型以其简单和直观的提问 档与用户模型无关。另外,阅读时间因素也起很大作用。如果 形式而著称。对于用户的提问查询,系统检索结果中包含有一 某用户在读一篇文章时从没有中断过,那么有可能认为该文章 系列的文档,用户根据查询提问或用户标记的相关性文档创建 与用户模型无关。因而,通过隐性反馈观察用户行为和解释用 用户模型,然后利用用户模型根据从文档到模型的距离升序排 户兴趣是一个非常艰难的任务。 列文档。 相反地,虽然显性反馈方法需要用户的合作,但在实践中 笔者认为,根据用户模型所标明的用户偏好传递用户信息 比较容易实现,其与隐性反馈相比具有的优点是从用户那儿获 是上述各类方法的共同点。但是,在所有模型中,均未考虑提 得的信息比较明确可信。使用该方法时,用户在分析系统推荐 问与用户模型的非线性依赖性,即用户稳定的兴趣和他们fI缶时 后,表明自己感兴趣的文档,然后对这些文档进行综合或通过 信息需求的动态关系。这也是我们以后的研究方向之一。 统一的方法来建构用户模型。文献[6]中的WebMate是一个帮 助用户有效浏览和搜索web的代理,WebMate通过多维加权变 3信息检索系统中用户模型的构建 量记录用户在不同领域的兴趣。当用户给予积极反馈时,领域 在本节中,我们基于传统向量空间模型提出一个信息检索 成为一个信息代理自动学习的主胚。在该系统中,如果领域数 系统模型,并说明怎样在系统中引入用户模型,此模型根据其 还在它的上限之下,用户反馈后,一个新的领域分类被建立起 检索函数影响检索过程。同时也提出一个建构和修改用户模 来,如果领域数达到最大限,将被学习的文档会以最大的相似 型的算法。 性来修改向量。在文献[7]中作者主张用户以一个专门的主题 首先让我们为该模型做一些假设。假设1:对于用户查询, 对页面进行排序,系统基于网页内容和页面级别学习用户模 系统结果提供的是~系列文档,其中第一个文档与用户查询提 型,通过模型预测用户是否对页面感兴趣。他们凋研了大量的 问和用户偏好最相关,用户在分析了系统结果后,可能接受它, 主题,针对每个主题学习不同的用户模型。同样地,文献[8]中 也可能做出一些调整,然后将它作为用户反馈传给系统。假设 提出的Fab要求让用户来排序页面,基于页面等级和内容来发 2:每个用户反绩可能(但不必)影响该用户以后的检索过程。 现用户模型。目前,显性反馈作为建构用户模型的信息资源被 3.I 基于向量空间挂型的信息捡索 向量空间模型的基本 回 维普资讯 http://www.cqvip.com l 元素是”维空间向量V 在信息检索系统中,文献和查询都用 列o“。换句话说,对于任意两个文档 :, r ,如果.r:> ( : 向量来表示,向量中第i个元素表示描述文档或查询的第 个索 在Lf 之前),其中i< ,那么(f(P , r: )≤ (P , r:)。通常, 引词的权重。向量常由表达式“=(w ,w …,t )或“= 模型P 用以下公式计算: (( ,w ),(“2,w )…,(“ ,w ))来描述。设 ∈V 可 定义一个距离函数(f(11, )或一个相似函数S(z , )。另外,在 ∑w : P =— 一 (2) 基于向量空间模型的信息检索系统中,假设有查询提问q和文 ∑w 档-r,便可建立检索函数,‘(q,T)。 j 1 向量空间模型的检索函数根据向量的相似函数或距离函 其中,w 一,w 表示模型向量中特定文档的各个文档参 数定义 1 3]。一般地,相似函数和距离函数的相互关系可表示为: 数,由系统根据条件 < d(P , )≤(f(P’ )设置,由于 S(“, )=M 一d(“, ), 篇幅的原因,我们不展开说明计算w 一,w 的算法。 其中M,.=MAX d(d,b) 。,b∈V,a≠b (1) 第5步 在第二次提问查询时,用户将查询q 递交给系 如果空间向量V 是标准的,那么M .=1,这样S( )= 统,此时,系统以查询q 和阶段模型P 为基础,根据下面的函 1一d(“, )。此外,f(q,d)=d(q,d)。那么传统向量空间模型 数来排序文档。 可用<x,Q,(f>三元变量表示,此时,x代表文档,Q代表查 (q ,P’, )=口l・ (P ,Xi)+J9・ (q , ) (3) 询提问,(f表示距离函数。 其中,a ,J9(a.<J9)参数表示提问和用户模型在检索函数 经典向量空间模型的一个重要局限性是以向量形式表示 中的影响因子。在结果中,用户将得到系统结果输出序列O = 的用户查询,由赋予权重的关键词组成,对于系统的终端用户 ( , ;,・一, )。 来说,构建这样的提问式比直观的布尔查询要困难得多。在布 第6步 第3步、第4步创建阶段模型P 的过程与建构模 尔查询中,索引词(关键词)用逻辑操作符AND,OR,NOT来连 型P‘相同。 接,而且给索引词分配权值是由专家们来完成的。对于此问题, 第7步 以此类推,t时刻的检索过程描述如下:用户已经 可通过广义向量空间模型予以解决 ,该模型主张将每个布尔 得到t个阶段模型,P ,P ,…,P ,并将q…查询递交给系统,系 查询统一转换为向量空间的向量,这样,用户可向基于向量空 统根据检索函数排序文档 间模型的信息检索系统递交一个布尔查询。本文将不涉及有关 ,(q ,P‘,P ,…,P ,z )= 转换的问题,但我们仅假设查询、相似文档和用户模型在向量 ∑ ・d(P ,Xi)+J9・d(q…,Xi) (4) 空间中是以向量来表示的。 ^=l 为了将用户模型集成到检索过程中,有必要介绍广义向量 其中,口l,口2,…,口 ,J9(口l<口2<…<口 ;∑口 <J9)参数 ^=l 空间模型,该模型引入了用户模型P和检索函数_厂。检索函数, 代表某个用户模型与提问在检索函数中的影响因子。最终系统 的功能是为每个文档分配一个检索值,它依赖于文档的相对位 显示结果序列o ‘=(z ,z ,…,z )并输出,用户对结果 置、查询提问和用户模型。我们可以用<x,Q,P,d,f>五元 评价判断并反馈为结果O“,此时,第t+1个阶段模型便建立 变量表示信息检索的扩展向量空间模型,其中x代表文档,Q 起来。 代表查询提问,d表示距离函数,P表示一系列的用户模型,,表 3.3 实例 若有三个文档分别用向量表示为z。={0.7;O. 示检索函数。 5;O.9};z2={0.9;O.5;O.7};z3={0.7;O.9;O.5};假设递交 3.2信息检索系统中用户模型的构建 文献[11]提出的信 第一次查询q‘后,用户对结果进行排序为(z。,z ,z3),这表明 息检索模型及文献[12]提出的对模型的修改,都是利用用户模 用户对第一个关键词和第三个关键词感兴趣,但相比而言,认 型表示用户兴趣,在用户的最初反馈之后开始构建用户模型, 为第三个关键词更为重要一些。因此,z。排在z 的前面,系统 并在其后的反馈中不断修改。在此模型中,我们假设经过每次 设定参数值wl=1;w2=0.9;w3=0;因此我们就能计算出模 的用户反馈后均可构建一个阶段用户模型,用户兴趣由所有一 型P‘={0.795;0.500;O.805}(运用公式2计算)。 系列的阶段模型来表示。 信息检索和用户模型构建过程如下: 假定经过一段时间,在第t次检索过程中,用户排序文档为 第1步 用户将查询提问q‘递交给信息检索系统。 { ,z , 。},这表明用户的偏好发生了改变,表现为对第一个 第2步 最初,t=1(用户没有自己的模型),系统根据距 和第二个关键词感兴趣(但第一个关键词更为重要些),则被修 离函数, (q‘, )=d(q , )按升序排序文档,结果序列o = 改后的模型为P ={0.805;0.689;0.605},它代表用户当前的 ( :, ,…, ! )作为查询提问q‘的结果被输出。 兴趣。 任一类检索函数,(q ,P‘,P ,…,P ,oCi)可以是扩展向 第3步 在系统提交的结果序列O 基础上,用户根据自己 量空间模型进一步检索的某个兴趣主题,因为该类的每个函数 的评价判断,重新排序文档,形成新的序列O“=( ・ ,.r:,…, 具有一些从直观的检索函数中得来的特征属性,如:函数,考 r ),并把它作为用户反馈递交给系统。 虑用户在前面做出的所有反馈,这意味着系统提供的文档排序 第4步 阶段模型P 通过以下方法从序列O“中创建:如 不仅考虑用户查询而且考虑用户在过去表明的所有偏好。 果我们根据文档到模型P 的距离来排序文档,就会得到结果序 因为。l<。2…<口 ,越到后面,用户反馈对(下转第126页) 固 维普资讯 http://www.cqvip.com 量评价是一种比较重要和可行的方法。 中国电子杂志社的万锦垫于2003年12月在北京召开的 中国科学文献计量与评价研究学术研讨会上提出了根据电子 期刊下载统计数据建立期刊评价模型的观点,并指出可以利 用电子期刊的下载影响因子来评价期刊质量.具体步骤如下: a.建立期刊下载量模型。统计出近两年所有待评价期刊 道路,为OA期刊的最终用户提供直观、客观、系统的评价结 果供选择OA资源做参考.同时促进OA期刊向高质高量的 方向发展。 参考文献 1 李 武开放获取出版的两种主要实现途径大学图书馆学报,2005;(4) 2 Thom ̄n ISI公司公布关于开放获取期刊影响力的报告现代图书情报技 文章的被下载数量,并按期刊名称排序;统计出每种期刊被下 载的总次数;对被下载过的期刊增加级别属性;对每一类期刊 按照被下载的总次数倒排序;确定期刊下载量梯度模型。 术,2005;(3) 3 Steve Lawrence Free Online Availability Substantially Increams a Paper’s lmr pact.http://www nature com/nature/journal/v411/n6837/full/41152la0 html b.建立期刊下载影响因子模型。对a中初步确定的期刊 下载量梯度中的每类中的期刊,用期刊近两年的文章被下载 的总次数除以该刊近两年发表的文章总数,得出该刊最新的 下载影响因子,再利用下载影响因子评价期刊。 5 总 结 4 Peter Suber Open Access News http://www.earlham.edu/peters/fc ̄/los・ blg htoml 5蒋颖因特同学术资源评价:标准与方法.图书情报工作,1998;(11) 6王崇德.文献计量学引论桂林:广西师范大学出版社。1997 7 Analytical ̄iences http://www jstage jst go jp/browse/analsci 8袁毅.核心网站评选的理论与方法北京:北京图书馆出版杜,2005 OA期刊的综合评价是个系统工程,应该在推广之初就 9 Michael J Kurtz Worldwide Use and Impact of the NASA Astrophysics Data System Digital Library.Journal of the American Society for Information Science 启动这项工作。当前研究人员只能从理论上进行相关的评价 .指标探讨,部分国外的科研人员在学科范围内的小部分期刊 and Technology,2005;56(1) 10 Michael J.Kurtz The Bibliometric Properties of Article Readership Informa— 中进行相关的质量比较与评价,当将指标体系推广到整个 OA期刊集合时进行具体的评价实施时就会遇到很多难以解 决的问题,譬如核心的各类使用统计数据的获取困难等。因 此当前最重要的就是要成立与确定相关机构的职能、操守,同 时督促各OA期刊发行单位配合该评价机构定期提供相关元 数据及使用统计数据,让OA期刊的评价直接走向规范化的 l上接第123页)检索过程的影响越大。 每次的用户查询总是优先于所有的阶段模型( a < )。 tion Journal of the American Society for Information Science and Technology, 2005;56(2) 1 1 Bollen J.Van de Sompe1.Toward Altenatrive Metrics of Journal Impact:A Comparison of Download and Citation data(pdf 34pp).Arxiv.org。cs.DL/ 0503007,03 March 2005,in Information Processing and Management。2005; 41(6) 责编:梅阳) 一— ・・— -— 一— 一+ meats in Informarion Retrieva1.Information Processing&Management.1990 26(7) 4 Stadnyk 1.Kas*R.Modeling Users’Interests in Information Filters.Commu. 根据上述用户模型创建方法,在反馈过程中,用户必须对 所有文档重新排序,这在现实中似乎是不可能的。然而,在这 种情况下,可使用一种可接受的排序策略:假设一位用户对某 两个文档无偏好,他(她)就不会对这些文档的排序情况产生兴 nications of the ACM,1992;(35) 5 Lieberman H.Letizia:An Agent that Assists Web Browsing.Proceedings of International Joint Conference on Artificial Intelligence,Montreal,1995 6 Chen L。Syearn K Webmate—Personal Agent for Browsing and Searchig In:o Proceedings of the Second International Conference on Autonomous Agents,St. Paul,MN,May,ACM Press,New York,1998 趣,用户则可对少量的文档进行排序并把其作为反馈的一部 分,同时系统也认为用户对这些文档非常感兴趣。因此,这些 文档将会被移到重新排序序列的顶端(根据步骤3)。作为系统 推荐,所有其它文档可保持原来的同样序列。 4结论 7 Pazzani M.Billsus D Learning and Revising User Profile:The Identification of Interesting Web Sites.Machine Learning.1997 8 Balabanovic N An Adaptive Web Page Recommendation Service.Prceoedings of 1st International Conference on Autonomous Agents,1997 9 Widyantoro D H Dynamic Modeling and Learning User Profile in Per ̄nal News 在本文中,我们集中探讨了个性化信息检索系统中用户模 型的相关问题,以及基于向量空间模型构建个性化信息检索用 Agent Master Thesis,Dept of Computer Science。Texas A&M University。 1999 户模型的原理与方法。笔者认为,系统检索效率的提高来自用 户模型的引入和检索函数的利用。后续研究工作将着重于检 10 Danilowicz C Modeling o User Preferences and Needs in Boolean Retrieval Systems Information Processing&Management.1994 11 Danilowicz C。Nguyen H C User Profile in Information retrieval Systems Pro・ ceedings of the 23rd International ciSentific School lSAT.2001 12 Danilowicz C,Nguyen H C Using User Profiles in Intelligent Information re. trieval Proceedings of the ISMIS 2002 Conference,LNAI 2366,Springer, 2002 索函数的确定以及模型的修改方法以实现检索效率的最大化。 参考文献 1杨刚华基于Agent的个性化信息检索系统硕士论文 2 Danilowicz C Models of Information Retrieval Systems With Special Re ̄rd to Users’Preferences Scientific Papers of the Main Library and Scientific Infor. 13 Wong S K M,Ziarko W.On Modeling of Information Retrieval Concepts in mation Center of the Wroclaw University of Technology No.6,Monographs No Vector Spaces.ACM Transa.ctions O11 Database Systems,1987 3,Wroclaw(1992) 3 Myaeng S H,Korfhage R R Integration of User Profiles:Models attd Experi一 (责编:梅王京) 囡